JP2017535809A

JP2017535809A - サウンド検出モデルを生成するためのサウンドサンプル検証

Info

Publication number: JP2017535809A
Application number: JP2017521507A
Authority: JP
Inventors: ムン、ソンクク; ジン、ミンホ; シャ、ハイイン; ファン、ヘス; デール、ウォーレン・フレデリック
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2014-10-22
Filing date: 2015-10-02
Publication date: 2017-11-30
Also published as: EP3210205B1; US9837068B2; CN106796785A; EP3210205A1; US20160118039A1; CN106796785B; WO2016064556A1

Abstract

電子デバイスにおいてサウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための方法は、第１のサウンドサンプルを受け取ることと、第１のサウンドサンプルから第１の音響特徴を抽出することと、第２のサウンドサンプルを受け取ることと、第２のサウンドサンプルから第２の音響特徴を抽出することと、第２の音響特徴が第１の音響特徴に類似するかどうかを決定することと、を含む。
【選択図】図３

Description

関連出願の相互参照

[0001] 本願は、２０１４年１０月２２日に提出された「SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL」と題された米国仮特許出願第６２／０６７，３２２号、および２０１５年４月８日に提出された「SOUND SAMPLE VERIFICATION FOR GENERATING SOUND DETECTION MODEL」と題された米国特許出願第１４／６８２，００９号からの優先権の利益を主張するものであり、その全体の内容が参照により本明細書に組み込まれている。

[0002] 本願は、一般に、電子デバイスにおいてサウンドサンプルを検証することに関し、より具体的には、電子デバイスにおいてサウンド検出モデルを生成するためにサウンドサンプルを検証することに関する。

[0003] 近年、スマートフォン、タブレットコンピュータ、ウェアラブル電子デバイスなどのような電子デバイスが、消費者の間で急速に普及してきている。これらのデバイスは通常、ワイヤレスまたは有線ネットワークを介してボイスおよび／またはデータ通信機能を提供している。加えて、このような電子デバイスは、ユーザからのボイスコマンドを受け取りかつ認識するための音声認識機能（speech recognition function）を含むことが多い。このような機能は、ユーザからのボイスコマンドが受け取られ、認識されるときに、ボイスコマンド（例えば、キーワード）に関連付けられた機能を電子デバイスが実行することを可能にする。例えば、電子デバイスは、ユーザからのボイスコマンドに応答して、ボイスアシスタントアプリケーションをアクティブ化し、オーディオファイルを再生し、あるいは写真撮影を行い得る。

[0004] 音声認識特徴を有する電子デバイスにおいて、製造業者またはキャリアは、予め定められたキーワードおよび関連付けられたサウンドモデルをデバイスに備えることが多く、それらは、入力サウンド中のキーワードを検出する際に使用され得る。これらのサウンドモデルは通常、様々なサウンド環境における異なる話者からのキーワードの、非常に多くのサウンドレコーディング（例えば、数千以上の音声サンプル）に基づいて生成される。製造業者またはキャリアによって提供されるこのようなサウンドモデルは、電子デバイスのユーザによって洗練され（refined）得る。例えば、電子デバイスは、予め定められたキーワードのうちの数個の発話（utterances）をユーザから受け取り、その発話を使用して、予め定められたキーワードに関連付けられる予め記憶された（pre-stored）サウンドモデルを訓練（train）し得る。いくつかの電子デバイスはまた、あるキーワードをユーザがボイスコマンドに指定することも可能にし得る。この場合、電子デバイスは、指定されたキーワードのうちの数個の発話をユーザから受け取り、指定されたキーワードについてのサウンドモデルをその発話から生成し得る。

[0005] 一般に、サウンドモデルの検出性能は、サウンドモデルが生成または訓練される発話の数と品質に関連する。サウンドモデルの検出性能は、発話の数が増えるにつれて改善され得る。しかしながら、キーワードについての所定数の発話に対し、発話の品質は話者間または発話間で異なり得る。例えば、意図されないユーザからの発話が受け取られた場合、その発話から生成されたキーワードモデルの検出性能は、意図されたユーザからの入力サウンド中のキーワードを検出する際に低くなり得る。一方、ユーザがキーワードを２つの発話で異なって発音する場合、その発話から生成されたサウンドモデルからのキーワードは、正しく検出されない可能性がある。さらに、いくつかの発話は、騒音のある環境で受け取られる可能性があり、そのため、サウンドモデルを生成するのに十分な品質を提供しない可能性がある。よって、このような発話から生成または訓練されたサウンドモデルは、適切な検出性能を実現しない可能性がある。

[0006] 本開示は、電子デバイスにおいてサウンド検出モデルを生成するためのサウンドサンプルを検証することに関する。

[0007] 本開示の１つの態様によると、サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための方法が開示される。方法は、電子デバイスにおいて実行され得る。この方法では、第１のサウンドサンプルが受け取られ得る。第１の音響特徴は、第１のサウンドサンプルから抽出され得る。さらに、第２のサウンドサンプルが受け取られ得る。第２の音響特徴は、第２のサウンドサンプルから抽出され得る。第２の音響特徴が第１の音響特徴に類似するかどうかが、決定される。本開示はまた、この方法に関連する装置、デバイス、システム、手段の組み合わせ、およびコンピュータ可読媒体を説明する。

[0008] 本開示の別の態様によると、サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスが開示される。電子デバイスは、サウンドセンサとサウンドサンプル検証ユニットとを含み得る。サウンドセンサは、第１のサウンドサンプルおよび第２のサウンドサンプルを受け取るように構成され得る。サウンドサンプル検証ユニットは、第１のサウンドサンプルから第１の音響特徴を抽出し、第２のサウンドサンプルから第２の音響特徴を抽出し、第２の音響特徴が第１の音響特徴に類似するかどうかを決定するように構成され得る。

[0009] 本開示の発明の態様の実施形態は、添付の図面とともに読むとき、下記の詳細な説明に関連して理解されるだろう。

[0010] 図１は、本開示の１つの実施形態に従った、サウンド検出モデルを生成するために１つ以上のサウンドサンプルを検証するように構成された電子デバイスを図示する。 [0011] 図２は、本開示の別の実施形態に従った、サウンド検出モデルを生成するために１つ以上のサウンドサンプルを検証するように構成された電子デバイスを図示する。 [0012] 図３は、本開示の１つの実施形態に従った、サウンド検出モデルを生成するために１つ以上のサウンドサンプルを検証するように構成された電子デバイスのブロック図を図示する。 [0013] 図４は、本開示の１つの実施形態に従った、１つ以上のサウンドサンプルが、サウンド検出モデルを生成する際に使用され得るかどうかを決定するように構成された、電子デバイス中のサウンドサンプル検証ユニットのブロック図を図示する。 [0014] 図５は、本開示の１つの実施形態に従った、サウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0015] 図６は、本開示の１つの実施形態に従った、組み合わせられた音響特徴を決定するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0016] 図７は、本開示の別の実施形態に従った、サウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0017] 図８は、本開示の１つの実施形態に従った、一括モード（batch mode）でサウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0018] 図９は、本開示の１つの実施形態に従った、１つ以上のサウンドサンプルの音響特徴が類似するかどうかを決定するために、電子デバイスにおいて実行される例示的な方法のフローチャートである。 [0019] 図１０は、本開示のいくつかの実施形態に従った、サウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するための方法および装置が実装され得る電子デバイスのブロック図を図示する。 [0020] 図１１は、いくつかの実施形態に従って実装された、先に説明されたサーバのいずれか１つであり得るサーバシステムを図示するブロック図を図示する。

詳細な説明

[0021] 様々な実施形態に対して詳細に参照がなされ、その例が添付の図面で図示される。下記の詳細な説明では、本願の主題の完全な理解を提供するために、多くの特定の詳細が記載される。しかしながら、これらの特定の詳細がなくとも本願の主題が実現され得ることは、当業者にとって明らかだろう。他の事例では、様々な実施形態の態様を余計に曖昧にしないように、周知の方法、プロシージャ、システム、および構成要素は、詳細には説明されていない。

[0022] 図１は、本開示の１つの実施形態に従った、サウンド検出モデルを生成するために複数のサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５を検証するように構成された電子デバイス１００を図示する。電子デバイス１００は、スマートフォン、セルラフォン、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートテレビジョン、ゲームデバイス、マルチメディアプレーヤなどのような、サウンドキャプチャ能力および処理能力を備えた任意の適切なデバイスであり得る。電子デバイス１００は、サウンド検出モデルを生成する際の使用のためのサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５をユーザ１２０から受け取り得る。

[0023] 電子デバイス１００は、５つのサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５を受け取るように図示されているが、任意の適切な数のサウンドサンプルがサウンド検出モデルを生成するために受け取られおよび処理され、また、サウンドサンプルの数は、ユーザの便宜、好み、性能要求のような多数の要素に基づいて、予め定められ得る。１つの実施形態では、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５が次々に受け取られ、次に、一括モードで処理され得る。別の実施形態では、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５は、下記の図２を参照してさらに詳細に説明されるように、１つずつ受け取られ、処理され得る。

[0024] 本明細書で使用される際に、「サウンド検出モデル」という用語は、電子デバイス１００によって受け取られた入力サウンドのサウンド信号またはデータにおいて、キーワードおよび／または特定のユーザを検出する際に使用されるモデルまたはデータベースを指し得、キーワードおよび／またはユーザを示す１つ以上の音響特徴（acoustic features）または特性を含み得る。例えば、サウンド検出モデルは、キーワードに関連付けられるまたはキーワードを示すキーワード検出モデルであり得、ユーザから受け取った入力音声中のキーワードを検出するように適合され得る。「キーワード」という用語は、電子デバイス１００中の機能またはアプリケーションをアクティブ化、動作、または制御するために使用され得る、１つ以上のワードの任意のデジタルまたはアナログサウンド表現を指し得る。追加的にまたは代替的に、サウンド検出モデルは、入力サウンドからユーザを認識するように適合されたスピーカ検証モデルであり得る。

[0025] １つの実施形態では、音響特徴は、スペクトル特徴、時間領域特徴などを含み得、それらは、キーワードまたは特定のユーザを示し得る。スペクトル特徴は、メル周波数ケプストラム係数（ＭＦＣＣ：mel frequency cepstral coefficients）、ケプストラム差分係数（デルタＭＦＣＣ）、線スペクトルペア（ＬＳＰ：line spectral pair）係数などを含み得る。時間領域特徴は、ゼロ交差率（zero crossing rate）、フレームエネルギなどを含み得る。音響特徴はまた、平均値、中央値、モード、変数、標準偏差、共分散、最大値、最小値、尖度、高次運動量（high order momentum）などのような、スペクトル特徴または時間領域特徴の統計的尺度も含み得、それらは、キーワードまたは特定のユーザを示し得る。別の実施形態では、音響特徴は、キーワードまたは特定のユーザを示し得るサブワード（subwords）のシーケンスを含み得る。本明細書で説明されるような「サブワード」または「サブワードユニット」という用語は、音（phone）、音素（phoneme）、トライフォン（triphone）、音節などのような、基本サウンドユニットを指し得る。追加的にまたは代替的に、音響特徴は、サウンド強度レベル（sound intensity level）、信号対雑音比（ＳＮＲ）、または残響時間（ＲＴ）を含み得、それらは、サウンド品質を示し得る。

[0026] 電子デバイス１００は、１つ以上の関連付けられた機能またはアプリケーションをアクティブ化または実行するための１つ以上のキーワードを電子デバイス１００中に記憶するように構成され得る。キーワードは、１つ以上の予め定められたキーワード（例えば、製造業者によって割り当てられたキーワード）および／または１つ以上のユーザによって定義された（user-defined）キーワードであり得る。予め定められたキーワードについてのキーワード検出モデルは、電子デバイス１００によって受け取られた入力サウンド中の予め定められたキーワードを検出する際に使用され得る。１つの実施形態によると、複数の予め定められたキーワードについての複数のキーワード検出モデルは、電子デバイス１００のサードパーティプロバイダまたは製造業者によって生成され、電子デバイス１００中に予め記憶される、および／または、外部サーバまたはデバイス（図示されない）からダウンロードされ得る。

[0027] 図示される実施形態では、電子デバイス１００は、予め定められたキーワード「やあ、スナップドラゴン（Hey Snapdragon）」１３０を示すサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５をユーザ１２０から受け取り得る。予め定められたキーワードに関連付けられる予め記憶されたキーワード検出モデルは、ユーザ１２０からのサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５に基づいてキーワード検出モデルを訓練することによって、ユーザ１２０に適合され得る。電子デバイス１００は次に、入力サウンド中の予め定められたキーワードを検出するために、ユーザ１２０に適合された、訓練されたキーワード検出モデルを使用し得る。

[0028] 追加的なまたは代替的な実施形態では、ユーザ１２０はまた、電子デバイス１００においてアクティブ化または実行される１つ以上の機能またはアプリケーションに関連付けられる、１つ以上のユーザによって定義されたキーワードを定義し得る。例えば、電子デバイス１００は、ユーザによって定義されたキーワードを示すサウンドサンプルとして、ユーザ１２０からサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５を受け取り得る。本明細書で説明されるような「ユーザによって定義されたキーワード」という用語は、電子デバイス１００の機能またはアプリケーションをアクティブ化または実行するために、ユーザ１２０によって定義または指定され得るキーワードを指し得る。受け取ったサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５に基づいて、電子デバイス１００は、ユーザ１２０に適合された、ユーザによって定義されたキーワードについてのキーワード検出モデルを生成し得る。電子デバイス１００は次に、入力サウンド中のユーザによって定義されたキーワードを検出するために、ユーザ１２０に適合された、生成されたキーワード検出モデルを使用し得る。

[0029] 追加的にまたは代替的に、サウンド検出モデルは、入力サウンドからユーザ１２０を認識するように適合されたスピーカ検証モデルを含み得る。ユーザ１２０を認識するためのスピーカ検証モデルを生成するために、電子デバイス１００は、予め定められたキーワードまたはユーザによって定義されたキーワードのようなキーワードを、予め定められ得る特定の回数話すようユーザ１２０に要求し得る。ユーザ１２０が、要求された数のサウンドサンプル（例えば、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５）を提供するとき、電子デバイス１００は、提供されたサウンドサンプルに基づいて、ユーザ１２０についてのスピーカ検証モデルを生成し得る。電子デバイス１００は次に、ユーザ１２０に関連付けられているような入力サウンドを認識するために、ユーザ１２０に適合された、生成されたスピーカ検証モデルを使用し得る。

[0030] サウンド検出モデルを生成するためのサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５が一旦受け取られると、電子デバイス１００は、受け取ったサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。この処理では、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々から１つ以上の音響特徴が抽出され得る。１つの実施形態では、電子デバイス１００は、関連付けられる抽出された音響特徴を比較することによって、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各ペアの音響特徴が類似するかどうかを決定し得る。少なくとも２つのサウンドサンプルの音響特徴が互いに類似すると決定される場合、電子デバイス１００は、その少なくとも２つのサウンドサンプルが類似することを決定し、それらは、サウンド検出モデルを生成する際に使用され得る。一方、あるサウンドサンプルの音響特徴が、少なくとも２つの他のサウンドサンプルの音響特徴に類似しないと決定される場合、そのサウンドサンプルは、サウンド検出モデルを生成する際に使用されない可能性がある。

[0031] いくつかの実施形態では、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５からサウンドサンプルのペアが選択され得、選択されたサウンドサンプルの各々から音響特徴が抽出され得る。電子デバイス１００は次に、選択されたサウンドサンプルの音響特徴が互いに類似するかどうかを決定し得る。例えば、電子デバイス１００は、サウンドサンプルＳ１およびＳ２を選択し、サウンドサンプルＳ１およびＳ２の音響特徴が互いに類似するかどうかを決定し得る。サウンドサンプルＳ１とＳ２との音響特徴が類似すると決定される場合、電子デバイス１００は、サウンドサンプルＳ１とＳ２とが類似することを決定し、それらは、サウンド検出モデルを生成する際に使用され得る。

[0032] １つの実施形態では、電子デバイス１００は、サウンドサンプルＳ１およびＳ２の音響特徴に基づいて、残りのサウンドサンプルＳ３、Ｓ４、およびＳ５の各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。例えば、サウンドサンプルＳ１およびＳ２の音響特徴は、サウンドサンプルＳ１およびＳ２についての組み合わせられた音響特徴を生成するために組み合わせられ得る。電子デバイス１００は、サウンドサンプルＳ３を選択し得、サウンドサンプルＳ３から音響特徴を抽出し得る。サウンドサンプルＳ１およびＳ２の組み合わせられた音響特徴は次に、サウンドサンプルＳ３から抽出された音響特徴と比較され得る。組み合わせられた音響特徴とサウンドサンプルＳ３の音響特徴とが類似すると決定される場合、電子デバイス１００は、サウンドサンプルＳ３がサウンド検出モデルを生成する際に使用され得ることを決定し得る。電子デバイス１００は、２つ以上のサウンドサンプルの組み合わせられた音響特徴に基づいて、サウンドサンプルＳ４およびＳ５がサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。例えば、サウンドサンプルＳ４は、サウンドサンプルＳ１およびＳ２の組み合わせられた音響特徴、またはサウンドサンプルＳ１、Ｓ２、およびＳ３の組み合わせられた音響特徴に基づいて処理され得る。

[0033] 本明細書で使用されるような「類似する音響特徴」という用語、またはそれのバリエーションに相当する語句は、スペクトル特徴、時間領域特徴、統計的尺度、サブワードなどのようなパラメータまたは特徴値中の指定された許容値または閾値あるいは割合内で、音響特徴が同じかまたは実質的に同じであることを意味し得る。例えば、音響特徴中のサブワードの２つのシーケンスのケースについて、電子デバイス１００は、シーケンス中の同一サブワードの割合が閾値を超える場合に、２つのシーケンスが類似することを決定し得る。１つの実施形態では、２つの音響特徴は、それらが３０％未満だけ異なるときに、類似すると決定され得る。

[0034] １つの実施形態では、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々のサウンド強度レベル（例えば、平均のサウンド強度値）を音響特徴として決定し得る。サウンドサンプルのサウンド強度レベルが閾値サウンドレベルよりも低いと決定される場合、それは、そのサウンドサンプルが優れた（good）サウンドサンプルではないことを示し得る。従って、電子デバイス１００は、サウンド検出モデルを生成する際にそのサウンドサンプルが使用されない可能性があることを決定し得る。

[0035] 追加的にまたは代替的に、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々のＳＮＲを音響特徴として決定し得る。サウンドサンプルのＳＮＲが閾値ＳＮＲよりも低いと決定される場合、それは、そのサウンドサンプルが非常に多くのノイズを有することを示し得る。よって、電子デバイス１００は、サウンド検出モデルを生成する際にそのサウンドサンプルが使用されない可能性があることを決定し得る。

[0036] サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５がサウンド検出モデルを生成する際に使用され得るかどうかを決定すると、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５がサウンド検出モデルを生成するために使用され得るかどうかの指示を出力し得る。図示される実施形態では、予め定められたキーワード「やあ、スナップドラゴン」１３０に関して、電子デバイス１００は、キーワードについての５つのサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５をユーザ１２０から受け取り得る。サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々について、電子デバイス１００は、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。例えば、電子デバイス１００は、図１で示されるように、サウンドサンプルＳ１、Ｓ２、Ｓ４、およびＳ５がサウンド検出モデルを生成する際に使用され得ることを決定し得る。

[0037] 一方、電子デバイス１００は、サウンドサンプルＳ３がサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。例えば、サウンドサンプルＳ３の複数のスペクトル特徴がサウンドサンプルＳ１、Ｓ２、Ｓ４、およびＳ５の各々の対応するスペクトル特徴に類似しないことを決定すると、電子デバイス１００は、サウンドサンプルＳ３に関連付けられたユーザと、サウンドサンプルＳ１、Ｓ２、Ｓ４、およびＳ５に関連付けられたユーザとが異なることを決定し得、そのため、サウンドサンプルＳ３がサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。

[0038] １つの実施形態では、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々がサウンド検出モデルを生成する際に使用され得るかどうかを示す、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５のリスト１３６をディスプレイスクリーン１１０上に表示し得る。例えば、リスト１３６は、サンプルＳ１、Ｓ２、Ｓ４、およびＳ５の各々をチェックマークとともにボックス内に表示することによって、サウンドサンプルＳ１、Ｓ２、Ｓ４、およびＳ５が、サウンド検出モデルを生成するために使用され得る優れたサウンドサンプルであることを示し得る。一方、優れたサウンドサンプルではない可能性があるサウンドサンプルＳ３は、リスト１３６に丸印で表示され得る。さらに、サウンドサンプルＳ３が異なるユーザに関連付けられることを示すメッセージ１３８が、ディスプレイスクリーン１１０上に表示され得る。追加的にまたは代替的に、サウンドサンプルＳ３が優れたサウンドサンプルではないためサウンド検出モデルを生成する際に使用されない可能性があることを示す不機嫌な顔（frowning face）１３２が、サウンドサンプルＳ３に関する追加のサウンドサンプルを入力するようユーザ１２０に要求するメッセージ１３４とともに、ディスプレイスクリーン１００上に表示され得る。

[0039] いくつかの実施形態では、メッセージ１３８は、サウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性がある１つ以上の理由の簡単な説明を含み得る。例えば、メッセージ１３８は、サウンドサンプルの話者特性（speaker characteristics）が他のサウンドサンプルの話者特性とは異なること、サウンドサンプルの認識されたキーワードが他のサウンドサンプルの認識されたキーワードとは異なること、サウンドサンプルのサウンド強度レベルが閾値サウンド強度レベルよりも低いこと、サウンドサンプルのＳＮＲが閾値ＳＮＲよりも低いことなどを示す、１つ以上の理由を含み得る。

[0040] 電子デバイス１００はまた、関連付けられた音響特徴に基づいて、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の間で最も高い品質のサウンドサンプルを決定するように構成され得る。最も高い品質のサウンドサンプルは、サウンド検出モデルのためサブワードのシーケンスを生成するために使用され得る。この実施形態では、アイコン１４０（例えば、クリック可能なバー（clickable bar））は、最も高い品質のサウンドサンプルを最も優れたサウンドサンプルとして再生するためのコマンドに関連付けられ、ディスプレイスクリーン１１０上に表示され得る。ユーザ１２０がアイコン１４０を押下するとき、電子デバイス１００は、最も優れたサウンドサンプル再生し、それは、ユーザ１２０によって１つ以上の追加のサウンドサンプルを入力するために参照され得る。追加的にまたは代替的に、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５のうちの１つを最も優れたサウンドサンプルであると識別するユーザ１２０からの入力を受け取り、識別されたサウンドサンプルに基づいてサウンド検出モデルのためのサブワードのシーケンスを生成し得る。電子デバイス１００は、最も優れたサウンドサンプルを再生するためのアイコン１４０を表示するように構成されるが、それはまた、ユーザ１２０がリスト１３６中のサウンドサンプルＳ１〜Ｓ５の間の任意のサウンドサンプルを選択し、選択されたサウンドサンプルを再生することを可能にするようにも構成され得る。

[0041] １つの実施形態では、電子デバイス１００は、１つ以上の代替のまたは追加のサウンドサンプルを入力するために、複数のアイコン１４２および１４４を表示し得る。アイコン「前のやり直し（Redo Previous）」１４２は、前に受け取ったサウンドサンプルを再度入れることをユーザ１２０に示し得る。ユーザ１２０がアイコン１４２を押下するとき、電子デバイス１００は、前に受け取ったサウンドサンプルを廃棄し、その廃棄されたサウンドサンプルに対する代替サンプル（replacement sample）として、新規のサウンドサンプルをユーザ１２０から受け取り得る。一方、アイコン「始めからやり直す（Start Over）」１４４は、廃棄され得るサウンドサンプルＳ１〜Ｓ５に対して新規のサウンドサンプルを入れることを示し得る。例えば、サウンド検出モデルを生成する際に使用されると決定されるサウンドサンプルＳ１〜Ｓ５がない場合、またはユーザ１２０がサウンドサンプルＳ１〜Ｓ５に対して新規のサウンドサンプルを入れることを希望する場合、ユーザ１２０は、アイコン１４４を押下することによって新規のサウンドサンプルを入力し得る。新規のサウンドサンプルを受け取ると、電子デバイス１００は、新規のサウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定し、新規のサウンドサンプルについての結果をディスプレイスクリーン１１０上に表示し得る。

[0042] いくつかの実施形態によると、電子デバイス１００はまた、サウンド検出モデルを生成する際に使用され得る１つ以上のサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５を選択する、ユーザ１２０からの入力を受け取るように構成され得る。例えば、ユーザ１２０は、サウンド検出モデルを生成する際の使用のために、サウンドサンプルＳ１、Ｓ２、およびＳ４を選択し得る。追加的にまたは代替的に、電子デバイス１００は、新規のサウンドサンプルと置き換えられる１つ以上のサウンドサンプルを選択する、ユーザ１２０からの入力を受け取り得る。例えば、ユーザ１２０は、新規のサウンドサンプルと置き換えられる、電子デバイス１００によってサウンド検出モデルを生成する際に使用されると決定されている可能性があるサウンドサンプルＳ４を選択し得る。このように、電子デバイス１００は、ユーザ１２０による選択に基づいて、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５に対する１つ以上の新規のサウンドサンプルを受け取り、処理し得る。

[0043] サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５がサウンド検出モデルを生成する際に使用されると決定されるとき、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、またはＳ５のうちの少なくとも１つに基づいて、サウンド検出モデルを生成し得る。例えば、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の音響特徴に基づいて、サウンド検出モデルを生成し得る。この場合、音響特徴は、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定するために使用されている音響特徴と同じ音響特徴であり得る。追加的にまたは代替的に、電子デバイス１００は、サウンド検出モデルを生成するように適合され、または生成するのに適切なサウンドサンプルから音響特徴を抽出し得る。

[0044] １つの実施形態では、電子デバイス１００は、除外または廃棄されているか、あるいは低いＳＮＲのために新規のサウンドサンプルと置換られている可能性がある少なくとも１つのサウンドサンプルを、生成されたサウンド検出モデルを調整または修正する際に、ノイズが含まれたサウンドサンプル（noise-embedded sound sample）として使用し得る。例えば、人工的に生成されたノイズサンプルを使用することに加えてまたはその代わりに、除外または廃棄されている可能性があるサウンドサンプルは、生成されたサウンド検出モデルを調整する際に、ノイズが含まれたサウンドサンプルとして使用され得る。１つ以上のこのようなサウンドサンプルを使用することは、実質的に騒音のない環境および騒音のある環境を含む様々なサウンド環境において、サウンド検出モデルの検出性能を改善し得る。

[0045] 追加的にまたは代替的に、電子デバイス１００は、低いＳＮＲ、低いサウンド強度レベルなどのために廃棄されている可能性がある少なくとも１つのサウンドサンプルを、サウンド検出モデルについての閾値（例えば、検出または類似性閾値）を調整するために使用し得る。例えば、キーワードを示す入力サウンドが受け取られるとき、キーワードに関連付けられたサウンド検出モデルを閾値に基づいて識別するために、電子デバイス１００中に記憶された複数のサウンド検出モデルがアクセスされ得る。サウンド検出モデルを識別するために、複数のサウンド検出モデル中の入力サウンドとキーワードの各々との間の類似性の度合いが決定され得る。電子デバイス１００は次に、非常に高い類似性を有し、その類似性の度合いが閾値以上であるサウンド検出モデルを、キーワードについてのサウンド検出モデルとして識別し得る。１つの実施形態では、サウンド検出モデルについての閾値は、サウンド検出モデルを生成する際に使用されると決定されているサウンドサンプルのうちの少なくとも１つに基づいて決定され得る。サウンド検出モデルについての検出精度を強化するために、サウンド検出モデルについての閾値は、低いＳＮＲ、低いサウンド強度レベルなどのために廃棄されている可能性がある、少なくとも１つのサウンドサンプルに基づいて調整され得る。例えば、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の話者特性とは異なる話者特性、予め定められた閾値ＳＮＲより低いＳＮＲなどを有し得る１つ以上のサウンドサンプルを使用して、サウンド検出モデルについての閾値を調整し得る。

[0046] 図２は、本開示の別の実施形態に従った、サウンド検出モデルを生成するための１つ以上のサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５を検証するように構成され得る電子デバイス１００を図示する。この実施形態では、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５は、１つずつ順に受け取られ、処理され得る。１つの実施形態では、電子デバイス１００は、サウンドサンプルが受け取られるときに各サウンドサンプルから音響特徴を抽出し、サウンドサンプルのサウンド品質が、サウンド検出モデルを生成する際の使用のための閾値品質以上であるかどうかを、サウンド品質を示す音響特徴に基づいて検証し得る。サウンドサンプルのサウンド品質が閾値品質よりも低いことが決定される場合、電子デバイス１００は、サウンドサンプルのサウンド品質が閾値品質以上であると決定されるまで、代替のサウンドサンプルとしてユーザ１２０から新規のサウンドサンプルを受け取り得る。電子デバイス１００は次に、サウンドサンプルの音響特徴と１つ以上の他のサウンドサンプルとが類似するかどうかに基づいて、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定することを進め得る。

[0047] 電子デバイス１００は始めに、ユーザ１２０からサウンドサンプルＳ１を受け取り、サウンドサンプルＳ１から音響特徴を抽出し得る。電子デバイス１００は、ＳＮＲ、サウンド強度レベルなどのようなサウンド品質を示す音響特徴に基づいて、サウンドサンプルＳ１のサウンド品質が、サウンド検出モデルを生成する際の使用のための閾値品質以上であるかどうかを決定し得る。サウンドサンプルＳ１のサウンド品質が閾値品質よりも低いことを電子デバイス１００が決定する場合、サウンドサンプルＳ１のサウンド品質がサウンド検出モデルを生成する際の使用のための閾値品質以上であると決定されるまで、サウンドサンプルＳ１を再度入れるようユーザ１２０に促すメッセージ１３４を表示し得る。

[0048] 電子デバイス１００は、サウンドサンプルＳ１のサウンド品質がサウンド検出モデルを生成する際の使用のための閾値品質以上であることを決定するとき、ユーザ１２０から次のサウンドサンプルＳ２を受け取り、サウンドサンプルＳ２から音響特徴を抽出し得る。電子デバイス１００は、サウンド検出モデルを生成する際の使用のために、サウンドサンプルＳ１とＳ２との音響特徴が類似するかどうかを決定し、ディスプレイスクリーン１１０上にその結果を出力し得る。サウンドサンプルＳ１とＳ２との音響特徴が類似すると決定される場合、電子デバイス１００は、サウンドサンプルＳ１およびＳ２の音響特徴に基づいて、組み合わせられた音響特徴を生成し得る。サウンドサンプルＳ１とＳ２との音響特徴が類似しないと決定される場合、電子デバイス１００は、サウンドサンプルＳ１とＳ２との音響特徴が類似すると決定されるまで、サウンドサンプルＳ１および／またはＳ２に対する代替のサウンドサンプルとして、新規のサウンドサンプルを入力するようユーザ１２０に要求し得る。

[0049] サウンドサンプルＳ１およびＳ２の音響特徴が類似することを決定すると、電子デバイス１００は、ユーザ１２０から次のサウンドサンプルＳ３を受け取り、サウンドサンプルＳ３から音響特徴を抽出し得る。電子デバイス１００は次に、サウンドサンプルＳ３の音響特徴がサウンドサンプルＳ１およびＳ２の組み合わせられた音響特徴に類似するかどうかを決定し得る。追加的にまたは代替的に、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、およびＳ３の各ペアの音響特徴が類似するかどうかを決定し得る。例えば、電子デバイス１００は、サウンドサンプルＳ１とＳ３との音響特徴が類似するかどうかを決定する、および／またはサウンドサンプルＳ２とＳ３との音響特徴が類似するかどうかを決定し得る。サウンドサンプルＳ１、Ｓ２、およびＳ３についての結果は、図２で示されるように、ディスプレイスクリーン１１０上に表示され得る。このように、電子デバイス１００はまた、サウンドサンプルＳ４およびＳ５を順に受け取ることを進め、サウンドサンプルＳ４およびＳ５の各々が、複数の音響特徴または前に受け取ったサウンドサンプルに関連付けられた音響特徴の組み合わせに基づいて、サウンド検出モデルを生成する際に使用され得るかどうかを決定し得る。

[0050] 図示される実施形態で示されるように、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、およびＳ３の各々がサウンド検出モデルを生成する際に使用され得るかどうかをディスプレイスクリーン１１０上に示す、サウンドサンプルＳ１、Ｓ２、およびＳ３のリスト２００を表示し得る。例えば、リスト２００は、サンプルＳ１およびＳ２の各々をチェックマークとともにボックス内に表示することによって、サウンドサンプルＳ１およびＳ２が、サウンド検出モデルを生成する際に使用され得る優れたサウンドサンプルであることを示し得る。一方、優れたサウンドサンプルではない可能性があるサウンドサンプルＳ３は、リスト２００に丸印で表示され得る。さらに、サウンドサンプルＳ３が異なるユーザに関連付けられることを示すメッセージ１３８もまた、ディスプレイスクリーン１１０上に表示され得る。追加的にまたは代替的に、サウンドサンプルＳ３が優れたサウンドサンプルではなく、そのためサウンド検出モデルを生成する際に使用されない可能性があることを示す不機嫌な顔１３２は、サウンドサンプルＳ３に関する別のサウンドサンプルを入力するようユーザ１２０に促すメッセージ１３４とともに、ディスプレイスクリーン１１０上に表示され得る。さらに、ディスプレイスクリーン１１０上のアイコン２０２は、サウンドサンプルＳ１、Ｓ２、およびＳ３から選択され得るサウンドサンプルを再生するためのコマンドに関連付けられ得る。サウンドサンプルＳ３が選択されるときにユーザ１２０がアイコン２０２を押下するとき、電子デバイス１００は、サウンドサンプルＳ３を再生し得る。

[0051] 電子デバイス１００はまた、１つ以上の代替のまたは追加のサウンドサンプルを入力するために、複数のアイコン１４２および１４４も表示し得る。アイコン「前のやり直し」１４２は、前に受け取ったサウンドサンプル（例えば、サウンドサンプルＳ３）を再度入れることを示し得る。ユーザ１２０がアイコン１４２を押下するとき、電子デバイス１００は、廃棄されたサウンドサンプルに対する代替サンプルとして、新規のサウンドサンプルを受け取り得る。一方、アイコン「始めからやり直す」１４４は、受け取ったサウンドサンプルＳ１、Ｓ２、およびＳ３に対して、新規のサウンドサンプルを入れることを示し得る。例えば、サウンド検出モデルを生成する際に使用されるサウンドサンプルＳ１、Ｓ２、およびＳ３がないと決定される場合、またはユーザ１２０がサウンドサンプルＳ１、Ｓ２、およびＳ３に対して新規のサウンドサンプルを入れることを希望する場合、ユーザ１２０は、アイコン１４４を押下することによって、新規のサウンドサンプルを入力し得る。新規のサウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々を順に受け取ると、電子デバイスは、各新規のサウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定し、新規のサウンドサンプルについての決定結果をディスプレイスクリーン１１０上に表示し得る。

[0052] 図示される実施形態では、サウンドサンプルＳ４およびＳ５は、これらがまだ受け取られていないことを示すように、点線の円で図示され得る。電子デバイス１００は、サウンドサンプルＳ３に関して説明されているが、図１を参照して上述される方法でサウンド検出モデルを生成するために、サウンドサンプルＳ１、Ｓ２、Ｓ４、およびＳ５の各々もまた処理し、サウンドサンプルおよび前に受け取ったサウンドサンプルについての情報を累積的に表示し得る。

[0053] 電子デバイス１００は、次に続くサウンドサンプルＳ４およびＳ５を受け取り、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の各々がサウンド検出モデルを生成する際に使用され得ることを決定し得る。サウンドサンプルＳ１〜Ｓ５についての結果は、ディスプレイスクリーン１１０上に累積的に表示され得る。サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５がサウンド検出モデルを生成する際に使用され得ると決定されるとき、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、またはＳ５のうちの少なくとも１つに基づいて、サウンド検出モデルを生成し得る。例えば、電子デバイス１００は、サウンドサンプルＳ１、Ｓ２、Ｓ３、Ｓ４、およびＳ５の音響特徴に基づいてサウンド検出モデルを生成し得る。この場合、音響特徴は、サウンドサンプルがサウンド検出モデルを生成する際に使用され得るかどうかを決定するために使用されている音響特徴と同じ音響特徴であり得る。追加的にまたは代替的に、電子デバイス１００は、サウンド検出モデルを生成するように適合されたまたは生成するのに適切なサウンドサンプルから、音響特徴を抽出し得る。いくつかの実施形態によると、電子デバイス１００はまた、サウンドサンプルの各々がサウンド検出モデルを生成する際に使用され得るかどうかを示す、ユーザ１２０からの入力を受け取るように構成され得る。この場合、サウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があると電子デバイス１００が決定したとしても、ユーザ１２０によって選択された１つ以上のサウンドサンプルは、サウンド検出モデルを生成する際に使用され得る。

[0054] 図３は、本開示の１つの実施形態に従った、サウンド検出モデルを生成するために１つ以上のサウンドサンプルを検証するように構成された電子デバイス１００のブロック図を図示する。電子デバイス１００は、サウンドセンサ３００、入力／出力（Ｉ／Ｏ）ユニット３１０、通信ユニット３２０、記憶ユニット３３０、およびプロセッサ３４０を含み得る。Ｉ／Ｏユニット３１０は、ディスプレイスクリーン１１０およびスピーカ（図示されない）を含み得る。ディスプレイスクリーン１１０は、ユーザからのタッチ入力を受け取るように構成されたタッチディスプレイスクリーンであり得る。プロセッサ３４０は、サウンドサンプル検証ユニット３４２、サウンド検出モデル生成ユニット３４４、サウンド検出ユニット３４６、およびボイスアシスタントユニット３４８を含み得る。プロセッサ３４０は、電子デバイスについての命令を実行するまたは動作を行い得る、中央処理ユニット（ＣＰＵ）、アプリケーションプロセッサ、マイクロプロセッサなどのような任意の適切な処理ユニットを使用して実装され得る。

[0055] サウンドセンサ３００は、ユーザからの入力サウンドストリームを受け取るように構成され得る。本明細書で使用される場合、「サウンドストリーム」という用語は、１つ以上のサウンド信号またはサウンドデータのシーケンスを指し得る。サウンドセンサ３００は、電子デバイス１００へのサウンド入力を受け取り、キャプチャし、感知し、および／または検出するために使用され得る、１つ以上のマイクロフォンまたは任意の他のタイプのサウンドセンサを含み得る。加えて、サウンドセンサ３００は、このような機能を実行するための任意の適切なソフトウェアおよび／またはハードウェアを用い得る。ユーザの受け取られた入力サウンドストリームは、記憶ユニット３３０中に記憶され得る。サウンドセンサ３００は、処理のために、プロセッサ３４０にユーザの受け取ったサウンドストリームを提供し得る。

[0056] １つの実施形態では、サウンドセンサ３００は、１つ以上のサウンドサンプルを含む入力サウンドストリームをユーザから受け取り得る。入力サウンドストリームを受け取ると、サウンドセンサ３００は、任意の適切な終点検出アルゴリズムを使用して入力サウンドストリーム中の独立した発話またはサウンドサンプルの各々の始点と終点とを検出することによって、入力サウンドストリームからサウンドサンプルの各々を検出し得る。検出されたサウンドサンプルが抽出され、記憶ユニット３３０中に記憶され得る。抽出されたサウンドサンプルは、処理のために、プロセッサ３４０に提供され得る。

[0057] 記憶ユニット３３０は、サウンドセンサ３００、Ｉ／Ｏユニット３４０、通信ユニット３２０、およびプロセッサ３４０を動作するためのデータおよび命令を記憶するように構成され得る。記憶ユニット３３０はまた、サウンドセンサ３００によって受け取られた入力サウンドストリーム、または入力サウンドストリームから抽出された１つ以上のサウンドサンプルを記憶し得る。記憶ユニット３３０は、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、電気的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ（登録商標））、フラッシュメモリ、またはソリッドステートドライブ（ＳＳＤ）のような、任意の適切な記憶装置またはメモリデバイスを使用して実装され得る。

[0058] 記憶ユニット３３０はまた、記憶ユニット３３０中に予め記憶され得る、および／または通信ユニット３２０を介して外部サーバまたはデバイス（図示されない）からダウンロードされ得る少なくとも１つのサブワードモデルを記憶し得る。いくつかの実施形態では、サブワードモデルは、サブワードモデルによって表わされるサブワードのタイプに従った、限定はされないが、音ベースモデル、音素ベースモデル、トライフォンベースモデル、音節ベースモデルなどであり得、サブワードユニットのリストおよび各サブワードユニットについての１つ以上の音響特徴を含み得る。

[0059] 記憶ユニット３３０はまた、入力サウンド中のサウンド信号またはデータにおいて、キーワードおよび／または特定のユーザを検出する際に使用される１つ以上のサウンド検出モデルを記憶し得る。例えば、サウンド検出モデルは、入力サウンドからユーザを認識するように適合されたスピーカ検証モデルを含み得る。追加的にまたは代替的に、サウンド検出モデルは、予め定められたキーワードを検出するための１つ以上のキーワード検出モデル、および／またはユーザによって定義されたキーワードを検出するための１つ以上のキーワード検出モデルを含み得る。予め定められたキーワードを検出するためのキーワード検出モデルは、記憶ユニット３３０中に予め記憶され得るか、または通信ユニット３２０を介して外部サーバまたはデバイス（図示されない）からダウンロードされ得る。１つの実施形態では、キーワード検出モデルは、複数の部分を含むサブワードのシーケンス（すなわち、複数のサブワードまたはサブワードユニット）を含み得、それらは、キーワードを示す１つ以上のサウンドサンプルから決定され得る。キーワード検出モデルはまた、サブワードのシーケンス中の複数のサブワードの各々に関連付けられたモデルパラメータ、およびキーワードを検出するための閾値を含み得る。

[0060] 別の実施形態では、キーワード検出モデルは、サブワードネットワークを含み得る。サブワードネットワークは、複数のノードのうちの少なくとも２つのノードを接続し得る複数のノードおよび複数の線を含み得る。キーワード検出モデルはまた、隠れマルコフモデル（ＨＭＭ：hidden Markov model）、セミマルコフモデル（ＳＭＭ：semi-Markov model）などのような少なくとも１つのグラフィカルモデルを含み得、それは、サブワードネットワークのノードに対応する。グラフィカルモデルは、推移確率、状態出力確率などのような、多数の状態およびパラメータを含み得る。

[0061] プロセッサ３４０中のサウンドサンプル検証ユニット３４２は、サウンドセンサ３００または記憶ユニット３３０から１つ以上のサウンドサンプルを受け取るように構成され得、受け取ったサウンドサンプルの各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定する。追加的にまたは代替的に、サウンドサンプル検証ユニット３４２は、サウンドセンサ３００または記憶ユニット３３０から１つ以上のサウンドサンプルを含む入力サウンドストリームを受け取り、任意の適切な終点検出アルゴリズムを使用して、入力サウンドストリームからサウンドサンプルの各々を抽出し得る。この場合、サウンドサンプル検証ユニット３４２は、抽出されたサウンドサンプルを記憶ユニット３３０中に記憶し得る。

[0062] 一旦サウンドサンプルが受け取られるかまたは抽出されると、サウンドサンプル検証ユニット３４２は、サウンドサンプルの各々がサウンド検出モデルを生成する際に使用され得るかどうかを決定するために、サウンドサンプルの各々から１つ以上の音響特徴を抽出し得る。１つの実施形態では、サウンドサンプル検証ユニット３４２は、サウンド検出モデルを生成する際の使用のために、サウンドサンプルの音響特徴が類似するかどうかを決定し得る。別の実施形態では、サウンドサンプル検証ユニット３４２は、サウンドサンプルの各々のサウンド品質がサウンド検出モデルを生成する際の使用のための閾値品質以上であるかどうかを、サウンド品質（例えば、ＳＮＲ、サウンド強度レベルなど）を示す音響特徴に基づいて決定し得る。いくつかの実施形態では、サウンドサンプル検証ユニット３４２は、関連付けられた音響特徴に基づいて、サウンドサンプル間で最も高い品質のサウンドサンプルを決定するように構成され得る。決定された最も高い品質のサウンドサンプルは、サウンド検出モデルについてのサブワードのシーケンスを生成するために、サウンド検出モデル生成ユニット３４４に提供され得る。

[0063] 追加的にまたは代替的に、サウンドサンプル検証ユニット３４２は、Ｉ／Ｏユニット３１０を介して、サウンドサンプルのうちの１つを最も優れたサウンドサンプルとして識別する、ユーザからの入力を受け取り得る。この場合、識別されたサウンドサンプルは、サウンド検出モデルについてのサブワードのシーケンスを生成するために、サウンド検出モデル生成ユニット３４４に提供され得る。いくつかの実施形態では、サウンドサンプル検証ユニット３４２は、Ｉ／Ｏユニット３１０のスピーカを通して、最も優れたサウンドサンプルを再生するようＩ／Ｏユニット３１０に指示し得る。追加的にまたは代替的に、サウンドサンプル検証ユニット３４２は、Ｉ／Ｏユニット３１０を介して再生される１つ以上のサウンドサンプルを識別する、ユーザからの入力を受け取り、Ｉ／Ｏユニット３１０のスピーカを通して、識別されたサウンドサンプルを再生するようＩ／Ｏユニット３１０に指示し得る。

[0064] いくつかの実施形態では、サウンドサンプル検証ユニット３４２は、サウンドセンサ３００または記憶ユニット３３０から１つ以上の代替のまたは追加のサウンドサンプルを受け取り得る。例えば、１つ以上の前に受け取ったサウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があることをサウンドサンプル検証ユニット３４２が決定する場合、１つ以上の前に受け取ったサウンドサンプルを廃棄し、サウンドセンサ３００を介して、廃棄されたサウンドサンプルに対する１つ以上の新規のサウンドサンプルを受け取り得る。追加的にまたは代替的に、サウンド検出モデルを生成する際に使用されると決定される、前に受け取ったサウンドサンプルがない場合、サウンドサンプル検証ユニット３４２は、前に受け取ったサウンドサンプルを廃棄し、サウンドセンサ３００を介して１つ以上の新規のサウンドサンプルを受け取り得る。

[0065] １つの実施形態によると、サウンドサンプル検証ユニット３４２は、サウンドサンプルを次々に受け取り、次に、受け取ったサウンドサンプルを一括モードで処理し得る。例えば、５つのサウンドサンプルが受け取られるとき、サウンドサンプル検証ユニット３４２は、５つのサウンドサンプル全てがサウンド検出モデルを生成する際に使用され得るかどうかを決定し、５つのサウンドサンプル全ての決定結果の指示を出力するようＩ／Ｏユニット３１０に指示し得る。別の実施形態では、サウンドサンプル検証ユニット３４２は、サウンドサンプルを１つずつ受け取り、処理し得る。

[0066] サウンド検出モデル生成ユニット３４４は、サウンド検出モデルを生成する際に使用されると決定されている１つ以上のサウンドサンプルをサウンドサンプル検証ユニット３４２から受け取るように構成され得る。サウンド検出モデル生成ユニット３４４は次に、受け取ったサウンドサンプルの少なくとも１つに基づいて、サウンド検出モデルを生成し得る。サウンド検出モデルは、スピーカ検証モデル、予め定められたキーワードまたはユーザによって定義されたキーワードについてのキーワード検出モデルなどを含み得る。サウンド検出モデル生成ユニット３４４は、サウンド検出モデルを生成する際に使用されると決定されている受け取ったサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルについての閾値を決定し得る。１つの実施形態では、サウンド検出モデル生成ユニット３４４は、低いＳＮＲのために廃棄されているかまたは新規のサウンドサンプルと置き換えられている可能性がある少なくとも１つのサウンドサンプルを、生成されたサウンド検出モデルを調整する際に、ノイズが含まれたサウンドサンプルとしてそのサウンドサンプルを使用するために、サウンドサンプル検証ユニット３４２から受け取り得る。追加的にまたは代替的に、サウンド検出モデル生成ユニット３４４は、低いＳＮＲ、低いサウンド強度レベルなどのために廃棄されている可能性のある少なくとも１つのサウンドサンプルをサウンドサンプル検証ユニット３４２から受け取り、サウンド検出モデルについての閾値を調整する際にそのサウンドサンプルを使用し得る。サウンド検出モデル生成ユニット３４４は、生成されたサウンド検出モデルを記憶ユニット３３０中に記憶し得る。

[0067] サウンド検出ユニット３４６は、入力サウンドストリームをサウンドセンサ３００または記憶ユニット３３０から受け取り、記憶ユニット３３０に記憶された少なくとも１つのサウンド検出モデルに基づいて、入力サウンドストリームのサウンド信号またはデータにおいて、キーワードおよび／または特定のユーザを検出するように構成され得る。例えば、キーワードを示す入力サウンドストリームを受け取ると、サウンド検出ユニット３４６は、入力サウンドストリームから複数の音響特徴を順に抽出し、少なくとも１つのキーワード検出モデルに関連付けられた少なくとも１つのキーワード（少なくとも１つのユーザによって定義されたキーワードおよび少なくとも１つの予め定められたキーワードを含む）に対するマッチングスコアを決定し得る。サウンド検出ユニット３４６は次に、最も高いマッチングスコアを有するキーワード検出モデルを識別し、かつそのマッチングスコアが入力サウンドストリームへのマッチングしたキーワード検出モデルとして閾値以上であるかを識別し得る。

[0068] キーワードに関連付けられるマッチングしたキーワード検出モデルを識別すると、サウンド検出ユニット３４６は、キーワードに関連付けられた機能を実行するか、またはキーワードに関連付けられたアプリケーションをアクティブ化、制御、または動作し得る。追加的にまたは代替的に、サウンド検出ユニット３４６は、キーワードに関連付けられ得るボイスアシスタントユニット３４８をオンにするために、アクティブ化信号を生成および送信し得る。ボイスアシスタントユニット３４８は、サウンド検出ユニット３４６からのアクティブ化信号に応答してアクティブ化され得る。一旦アクティブ化されると、ボイスアシスタントユニット３４８は、ディスプレイスクリーン１１０上におよび／またはＩ／Ｏユニット３１０のスピーカを通じて「ご用件は何でしょうか？」のようなメッセージを出力することによって、ボイスアシスタント機能を実行し得る。これに応答して、ユーザは、電子デバイス１００の様々な関連付けられた機能をアクティブ化するためのボイスコマンドを話し得る。例えば、インターネット検索のためのボイスコマンドが受け取られるとき、ボイスアシスタントユニット３４８は、検索コマンドとしてボイスコマンドを認識し、通信ユニット３２０を介してウェブ検索を実行し得る。

[0069] 図４は、本開示の１つの実施形態に従った、１つ以上のサウンドサンプルが、サウンド検出モデルを生成する際に使用され得るかどうかを決定するように構成された、サウンドサンプル検証ユニット３４２のブロック図を図示する。サウンドサンプル検証ユニット３４２は、特徴抽出器４００、特徴バッファ４１０、および類似性決定ユニット４２０を含み得る。特徴抽出器４００は、１つ以上のサウンドサンプルをサウンドセンサ３００または記憶ユニット３３０から受け取り、受け取ったサウンドサンプルの各々から１つ以上の音響特徴を抽出するように構成され得る。例えば、特徴抽出器４００は、受け取ったサウンドサンプルの各々からスペクトル特徴、時間領域特徴などを抽出し得る。１つの実施形態では、特徴抽出器４００は、各サウンドサンプルについてのサブワードのシーケンスを音響特徴として生成するために、受け取ったサウンドサンプルの各々でサブワード認識を実行し得る。別の実施形態では、特徴抽出器４００は、受け取ったサウンドサンプルの各々から、サウンド強度レベル（例えば、平均的なサウンドインテンシブレベル（sound intensive level））またはＳＮＲを抽出し得る。

[0070] いくつかの実施形態では、特徴抽出器４００は、受け取ったサウンドサンプルの各々のＲＴを計算し得る。この処理では、特徴抽出器４００は、サウンドサンプルの各々を均等な時間期間の複数の連続的なフレームに分割し、１つ以上の音響特徴（例えば、スペクトル特徴）をそれらフレームから抽出し得る。フレーム中の音響特徴に基づいて、複数のフレーム間の１つ以上の音響特徴における類似性が相関値として決定され得る。相関値に基づいて、特徴抽出器４００は、サウンドサンプルのＲＴとして、閾値相関値以上の相関値を有するサウンドサンプル中の２つのフレーム間の最も長い時間期間を決定し得る。

[0071] サウンドサンプルの各々から１つ以上の音響特徴を抽出すると、特徴抽出器４００は、抽出された音響特徴を特徴バッファ４１０中に記憶し得る。特徴バッファ４１０は、抽出された音響特徴を特徴抽出器４００から受け取り、類似性決定ユニット４２０にそれらを送信するように構成され得る。抽出された音響特徴はまた、記憶ユニット３３０中に記憶され得る。

[0072] 類似性決定ユニット４２０は、抽出された音響特徴を特徴バッファ４１０または記憶ユニット３３０から受け取り、サウンドサンプルの抽出された音響特徴が類似するかどうかを決定し得る。１つの実施形態では、類似性決定ユニット４２０は、関連付けられた音響特徴を比較することによって、サウンドサンプルの各々のペアの音響特徴が類似するかどうかを決定し得る。少なくとも２つのサウンドサンプルの音響特徴が類似すると決定される場合、類似性決定ユニット４２０は、その少なくとも２つのサウンドサンプルが類似することを決定し得、サウンド検出モデルを生成する際に使用され得る。一方、類似性決定ユニット４２０が、サウンドサンプルの音響特徴が少なくとも２つの他のサウンドサンプルの音響特徴に類似しないと決定する場合、それは、サウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。

[0073] 別の実施形態では、類似性決定ユニット４２０は、２つ以上のサウンドサンプルの組み合わせられた音響特徴を決定し、サウンドサンプルの音響特徴が、その組み合わせられた音響特徴に類似するかどうかを決定し得る。組み合わせられた音響特徴は、特徴バッファ４１０または記憶ユニット３３０中に記憶され得る。例えば、第１および第２のサウンドサンプルの音響特徴が類似すると決定される場合、類似性決定ユニット４２０は、第１および第２のサウンドサンプルの音響特徴に基づいて、組み合わせられた音響特徴を決定し得る。その際、第３のサウンドサンプルの音響特徴が、組み合わせられた音響特徴に類似すると決定される場合、類似性決定ユニット４２０は、第１、第２、および第３のサウンドサンプルが類似することを決定し、サウンド検出モデルを生成する際に使用され得る。一方、類似性決定ユニット４２０が、第３のサウンドサンプルの音響特徴が組み合わせられた音響特徴に類似しないと決定する場合、それは、第３のサウンドサンプルがサウンド検出モデルを生成する際に使用されない可能性があることを決定し得る。

[0074] 図５は、本開示の１つの実施形態に従った、サウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、電子デバイス１００において実行される方法５００のフローチャートである。始めに、電子デバイス１００は、５１０において、サウンド検出モデルを生成するために第１のサウンドサンプルを受け取り得る。電子デバイス１００は、５２０において、第１のサウンドサンプルから第１の音響特徴を抽出し得る。電子デバイス１００は、５３０において、サウンド検出モデルを生成するために第２のサウンドサンプルを受け取り得る。電子デバイス１００は、５４０において、第２のサウンドサンプルから第２の音響特徴を抽出し得る。電子デバイス１００は、５５０において、第２の音響特徴が第１の音響特徴に類似するかどうかを決定し得る。

[0075] 図６は、本開示の１つの実施形態に従った、組み合わせられた音響特徴を決定するために、電子デバイス１００において実行される方法６００のフローチャートである。始めに、電子デバイス１００は、６１０において、第１のサウンドサンプルを受け取り、第１のサウンドサンプルから第１の音響特徴を抽出し得る。電子デバイス１００は、６２０において、第２のサウンドサンプルを受け取り、第２のサウンドサンプルから第２の音響特徴を抽出し得る。電子デバイス１００は、６３０において、第２の音響特徴が第１の音響特徴に類似するかどうかを決定し得る。第１および第２の音響特徴が類似すると決定される（すなわち、６４０でＹＥＳである）場合、電子デバイス１００は、６５０において、第１および第２の音響特徴に基づいて、組み合わせられた音響特徴を決定し得る。第１および第２の音響特徴が類似しないと決定される（すなわち、６４０でＮＯである）場合、方法６００は、第１のサウンドサンプルを受け取るために６１０へと進み、第１のサウンドサンプルから第１の音響特徴を抽出し得る。

[0076] 図７は、本開示の別の実施形態に従った、サウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、電子デバイス１００で実行される方法７００のフローチャートである。図６で図示されるように、電子デバイス１００は、第１および第２の音響特徴に基づいて、組み合わせられた音響特徴を決定し得る。電子デバイス１００は、７１０において、サウンド検出モデルを生成するために第３のサウンドサンプルを受け取り得る。電子デバイス１００は、７２０において、第３のサウンドサンプルから第３の音響特徴を抽出し得る。電子デバイス１００は、７３０において、第３の音響特徴が第１および第２の音響特徴の組み合わせられた音響特徴に類似するかどうかを決定し得る。第３の音響特徴が、組み合わせられた音響特徴に類似すると決定される（すなわち、７４０でＹＥＳである）場合、電子デバイス１００は、７５０において、少なくとも１つの第１のサウンドサンプル、第２のサウンドサンプル、または第３のサウンドサンプルに基づいて、サウンド検出モデルを生成し得る。第３の音響特徴が、組み合わせられた音響特徴に類似しないと決定される（すなわち、７４０でＮＯである）場合、方法７００は、第３のサウンドサンプルを受け取るために７１０へと進む。

[0077] 図８は、本開示の１つの実施形態に従った、一括モードでサウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、電子デバイスにおいて実行される方法８００のフローチャートである。電子デバイス１００は、８１０において、第２のサウンド検出モデルを生成するために複数のサウンドサンプルを受け取り得る。電子デバイス１００は、８２０において、受け取ったサウンドサンプルが類似するかどうかを決定し得る。サウンドサンプルが類似すると決定される（すなわち、８３０でＹＥＳである）場合、電子デバイス１００は、８５０において、サウンドサンプルの少なくとも１つに基づいて、サウンド検出モデルを生成し得る。サウンドサンプルが類似しないと決定される（すなわち、８３０でＮＯである）場合、電子デバイス１００は、８４０において、他のサウンドサンプルに類似しないと決定されている少なくとも１つのサウンドサンプルに対する代替のサウンドサンプルとして、少なくとも１つの新規のサウンドサンプルを受け取り得、方法８００は、受け取ったサウンドサンプルが類似するかどうかを決定するために、８２０へと進み得る。

[0078] 図９は、本開示の１つの実施形態に従った、１つ以上のサウンドサンプルの音響特徴が類似するかどうかを決定するために、電子デバイス１００において実行される方法８２０のフローチャートである。電子デバイス１００は、９００において、サウンドサンプルの各々から１つ以上の音響特徴を抽出し得る。電子デバイス１００は、９１０において、サウンドサンプルの各ペアの音響特徴が類似するかどうかを決定し得る。電子デバイス１００は、９２０において、サウンドサンプルの各ペアの音響特徴が類似するかどうかを決定することに基づいて、サウンドサンプルが類似するかどうかの指示を出力し得る。

[0079] 図１０は、いくつかの実施形態に従った、サウンド検出モデルを生成する際に使用される１つ以上のサウンドサンプルを検証するために、本開示の方法および装置が実装され得るワイヤレス通信システム中の例示的な電子デバイス１０００のブロック図を図示する。例示的な電子デバイス１０００は、セルラフォン、スマートフォン、ウエアラブルコンピュータ、スマートウォッチ、スマートメガネ、タブレットパーソナルコンピュータ、端末、ハンドセット、パーソナルデジタルアシスタント（ＰＤＡ）、ワイヤレスモデム、コードレスフォン、タブレットなどであり得る。ワイヤレス通信システムは、ＣＤＭＡシステム、ＧＳＭ（登録商標）システム、Ｗ−ＣＤＭＡ（登録商標）システム、ＬＴＥ（登録商標）システム、ＬＴＥアドバンストシステムなどであり得る。

[0080] 例示的な電子デバイス１０００は、受信パスおよび送信パスを介して双方向通信を提供することが可能であり得る。受信パスにおいて、基地局によって送信された信号は、アンテナ１０１２によって受信され得、受信機（ＲＣＶＲ）１０１４に提供され得る。受信機１０１４は、受信した信号を調整およびデジタル化し得、さらなる処理のために、調整されデジタル化されたデジタル信号をデジタルセクションに提供し得る。送信パスでは、送信機（ＴＭＴＲ）１０１６が、デジタルセクション１０２０から送信されるデータを受信し、このデータを処理および調整し、変調された信号を生成し得、それは、アンテナ１０１２を基地局に送信される。受信機１０１４および送信機１０１６は、ＣＤＭＡ、ＧＳＭ、Ｗ−ＣＤＭＡ、ＬＴＥ、ＬＴＥアドバンストなどをサポートし得るトランシーバの一部であり得る。

[0081]デジタルセクション１０２０は、例えば、モデムプロセッサ１０２２、縮小命令セットコンピュータ／デジタル信号プロセッサ（ＲＩＳＣ／ＤＳＰ）１０２４、コントローラ／プロセッサ１０２６、内部メモリ１０２８、汎用オーディオ／ビデオエンコーダ１０３２、汎用オーディオデコーダ１０３４、グラフィックス／ディスプレイプロセッサ１０３６、および外部バスインターフェース（ＥＢＩ）１０３８のような様々な処理、インターフェース、およびメモリユニットを含み得る。モデムプロセッサ１０２２は、例えば、符号化、変調、復調、変調、および復号などの、データ送信および受信のための処理を実行し得る。ＲＩＳＣ／ＤＳＰ１０２４は、例示的な電子デバイス１０００のための汎用および専用の処理を実行し得る。コントローラ／プロセッサ１０２６は、デジタルセクション１０２０中の様々な処理およびインターフェースユニットの動作を実行し得る。内部メモリ１０２８は、デジタルセクション１０２０中の様々なユニットについてのデータおよび／または命令を記憶し得る。

[0082] 汎用オーディオ／ビデオエンコーダ１０３２は、オーディオ／ビデオソース１０４２、マイクロフォン１０４４、画像センサ１０４６などからの入力信号を符号化することを実行し得る。汎用オーディオデコーダ１０３４は、コード化されたオーディオデータに対する復号を実行し、スピーカ／ヘッドセット１０４８に出力信号を提供し得る。グラフィックス／ディスプレイプロセッサ１０３６は、グラフィックス、ビデオ、画像、およびテキストに対する処理を実行し得、それらは、ディスプレイユニット１０５０に表示され得る。ＥＢＩ１０３８は、デジタルセクション１０２０とメインメモリ１０５２との間のデータの転送を容易にし得る。

[0083] デジタルセクション１０２０は、１つ以上のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣなどで実装され得る。デジタルセクション１０２０はまた、１つ以上の特定用途向け集積回路（ＡＳＩＣ）および／またはいくつかの他のタイプの集積回路（ＩＣ）上で組み立てられ得る。

[0084] 図１１は、いくつかの実施形態に従って実装された、先に説明されたサーバのうちのいずれか１つであり得るサーバシステム１１００を図示するブロック図である。サーバシステム１１００は、１つ以上の処理ユニット（例えば、ＣＰＵ）１１０２、１つ以上のネットワークまたは他の通信ネットワークインターフェース、メモリ１１１２、およびこれらの構成要素を相互接続するための１つ以上の通信バス１１１４を含み得る。サーバシステム１１００はまた、ディスプレイデバイスおよびキーボードを有するユーザインターフェース（図示されない）を含み得る。

[0085] メモリ１１１２は、高速ランダムアクセスメモリ（例えば、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭ、または他のランダムアクセスソリッドステートメモリデバイス）のような任意の適切なメモリであり得る。メモリ１１１２は、不揮発性メモリ（例えば、１つ以上の磁気ディスク記憶デバイス、光学ディスク記憶デバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステート記憶デバイス）を含み得るか、または代替的にそれら不揮発性メモリであり得る。いくつかの実施形態では、メモリ１１１２は、ＣＰＵ１１０２から離れて位置付けられるおよび／または複数の場所（sites）に離れて位置付けられる１つ以上の記憶デバイスを含み得る。

[0086] メモリ１１１２によって表わされる上記メモリデバイスのうちの任意の１つは、前に説明された任意の処理、動作、および方法を実行するおよび／または行うための命令のセットに対応する任意の数のモジュールまたはプログラムを記憶し得る。例えば、メモリ１１１２は、様々な基本的システムサービスに対処するための、およびハードウェア依存タスクを実行するためのプロシージャを含む命令を記憶するように構成されたオペレーティングシステム１１１６を含み得る。メモリ１１１２のネットワーク通信モジュール１１１８は、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、大都市エリアネットワークなどのような、１つ以上の通信ネットワークおよび１つ以上の通信ネットワークインターフェース１１１０（有線またはワイヤレス）を介して、サーバシステム１１００を他のコンピュータに接続するために使用され得る。

[0087] メモリ１１１２はまた、１つ以上のオブジェクト（例えば、テキストオブジェクトおよび非テキストオブジェクト）、分類データベース、文字情報データベース、辞書データベースなどを有する複数の画像の画像データベースを含むように構成されるデータベース１１２０を含み得る。オペレーティングシステム１１１６は、ネットワーク通信モジュール１１１８を通じて、受信および／またはキャプチャされ得る様々な画像を用いて画像データベースをアップデートし得る。オペレーティングシステム１１１６はまた、ネットワーク通信モジュール１１１８を介して、画像を複数の電子デバイスに提供し得る。加えて、分類データベース、文字情報データベース、辞書データベースは、画像の少なくとも１つのテキスト領域を検出する際に使用するために、複数の電子デバイスに提供される、および／または少なくとも１つのテキスト領域において１つ以上の文字ストリングを認識し得る。

[0088] 一般に、本明細書で説明される任意のデバイスは、ワイヤレスフォン、セルラフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ（ＰＣ）カード、ＰＤＡ、外部または内部モデム、無線チャネルを通じて通信するデバイスなどのような、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、遠隔局、遠隔端末、遠隔ユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどのような様々な名称を有し得る。本明細書で説明される任意のデバイスは、命令およびデータを記憶するためのメモリ、並びにハードウェア、ソフトウェア、ファームウェア、またはこれらの組み合わせを有し得る。

[0089] 本明細書で説明される技法は、様々な手段によって実装され得る。例えば、これらの技術は、ハードウェア、ファームウェア、ソフトウェア、またはこれらの組み合わせで実装され得る。当業者はさらに、本明細書の開示に関連して説明される様々な例示のための論理ブロック、モジュール、回路、アルゴリズムステップが電子ハードウェア、コンピュータソフトウェア、または両方の組み合わせとして実装され得ることを理解するだろう。ハードウェアおよびソフトウェアのこの互換性を明確に例示するために、様々な例示のための構成要素、ブロック、モジュール、回路、およびステップがそれらの機能の観点から一般的に上記に説明されている。このような機能が、ハードウェアとして実装されるか、またはソフトウェアとして実装されるかは、特定のアプリケーションおよびシステム全体に課せられた設計制約に依存する。当業者は、説明される機能を特定のアプリケーションごとに異なる方法で実装し得るが、このような実装の決定は、本開示の範囲からの逸脱を引き起こしていると解釈されるべきではない。

[0090] ハードウェアの実装について、技術を実行するために使用される処理ユニットは、１つ以上のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細で説明される機能を実行するように設計された他の電子ユニット、コンピュータ、またはこれらの組み合わせ内で実装され得る。

[0091] よって、本明細書の開示に関連して説明される様々な例示のための論理ブロック、モジュール、および回路は、汎用プロセッサ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡまたは他のプログラマブル論理デバイス、ディスクリートゲートまたはトランジスタ論理、ディスクリートハードウェア構成要素、または本明細書で説明される機能を実行するように設計されるこれらの任意の組み合わせで実装または実行され得る。汎用プロセッサはマイクロプロセッサであり得るが、代替として、プロセッサは、任意のプロセッサ、コントローラ、マイクロプロセッサ、またはステートマシンであり得る。プロセッサはまた、例えば、ＤＳＰとマイクロプロセッサとの組み合わせ、複数のマイクロプロセッサ、ＤＳＰコアと結合された１つ以上のマイクロプロセッサ、または任意の他のこのような構成のようなコンピューティングデバイスの組み合わせとして実装され得る。

[0092] ソフトウェアで実装される場合、機能は、コンピュータ可読媒体に記憶され得る。コンピュータ可読媒体は、１つの場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む通信媒体とコンピュータ記憶媒体との両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。例として、限定はされないが、このようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭ、または他の光ディスク記憶装置、磁気ディスク記憶装置または他の磁気記憶デバイス、あるいは、命令またはデータ構造の形式で所望されるプログラムコードを搬送または記憶するために使用され得、コンピュータによってアクセスされ得る任意の他の媒体を備え得る。本明細書で使用されるようなディスク（disk）およびディスク（disc）は、コンパクトディスク（ＣＤ）、レーザーディスク（登録商標）、光ディスク、デジタル多目的ディスク（ＤＶＤ）、フロッピー（登録商標）ディスク、およびＢｌｕ−ｒａｙ（登録商標）ディスクを含み、ここで、ディスク（disks）が通常磁気的にデータを再生する一方、ディスク（discs）は、レーザーを用いて光学的にデータを再生する。上記の組み合わせもまた、コンピュータ可読媒体の範囲内に含まれるべきである。例えば、コンピュータ可読記憶媒体は、プロセッサによって実行可能な命令を含む、非一時的なコンピュータ可読記憶デバイスであり得る。よって、コンピュータ可読記憶媒体は、信号ではない可能性がある。

[0093] 本開示の上記説明は、当業者が本開示を実施および使用することを可能にするために提供される。本開示への様々な修正は、当業者にとって容易に明らかであり、本明細書に定義される一般的な原理は、本開示の範囲から逸脱することなく、他のバリエーションに適用され得る。よって、本開示は、本明細書で説明される例に限定されることが意図されるものではなく、本明細書に開示される原理および新規の特徴と一致する最も広い範囲が付与されるべきものである。

[0094] 例示的な実装は、１つ以上の独立型（stand-alone）コンピュータシステムのコンテキストにおいて、本開示の主題の態様を利用するように述べられているが、主題は、限定はされないが、むしろ、ネットワークまたは分散型コンピューティング環境のような、任意のコンピューティング環境に関連して実装され得る。さらに、本開示の主題の態様は、複数の処理チップ内でまたはデバイスを介して実装され得、記憶媒体も同様に、複数のデバイスを介して影響を受け得る。このようなデバイスは、ＰＣ、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。

[0095] 主題は、構造上の特徴および／または方法論的動作に特有の表現で説明されているが、添付の請求項に定義される主題は、上述される特定の特徴または動作に必ずしも限定されないことが理解されるべきである。むしろ、上述された特定の特徴および動作は、請求項を実現する形態の例として開示されている。

[0096] 上述されるモジュールまたはプログラム（すなわち、命令のセット）は、別個のソフトウェアプログラム、プロシージャ、またはモジュールとして実装される必要がなく、そのため、様々な実施形態においてこれらのモジュールの様々なサブセットが組み合わせられ得るか、またはそうでなければ再配置され得ることが理解されるだろう。さらに、メモリ１１１２は、上述されていない追加のモジュールおよびデータ構造を記憶し得る。

＜本開示の態様＞
[0097] 以下に、本開示のいくつかの態様がさらに記載される。

[0098] （例１）本開示の態様によると、サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための方法が提供され、方法は、第１のサウンドサンプルを受け取ることと、第１のサウンドサンプルから第１の音響特徴を抽出することと、第２のサウンドサンプルを受け取ることと、第２のサウンドサンプルから第２の音響特徴を抽出することと、第２の音響特徴が第１の音響特徴に類似するかどうかを決定することと、を備える。

[0099] （例２）例１の方法は、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成することをさらに備える。

[00100] （例３）例１または２の方法は、第１のサウンドサンプルの信号対雑音比（ＳＮＲ）を決定することと、第２のサウンドサンプルのＳＮＲを決定することと、第１および第２のサウンドサンプルのＳＮＲに基づいて、第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つを選択することと、第２の音響特徴が第１の音響特徴に類似することを決定すると、選択された少なくとも１つのサウンドサンプルに基づいて、サウンド検出モデルを生成することと、選択されていないサウンドサンプルに基づいて、生成されたサウンド検出モデルを調整することと、をさらに備える。

[00101] （例４）例１乃至３のうちのいずれか１つの方法は、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１の音響特徴および第２の音響特徴に基づいて、組み合わせられた音響特徴を決定することをさらに備える。

[00102] （例５）例１乃至４のうちのいずれか１つの方法は、第３のサウンドサンプルを受け取ることと、第３のサウンドサンプルから第３の音響特徴を抽出することと、第３の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定することと、をさらに備える。

[00103] （例６）例１乃至５のうちのいずれか１つの方法において、第１の音響特徴および第２の音響特徴の各々は、スペクトル特徴または時間領域特徴のうちの少なくとも１つを含む。

[00104] （例７）例１乃至６のうちのいずれか１つの方法において、第１の音響特徴および第２の音響特徴の各々は、サブワードのシーケンスを含む。

[00105] （例８）例１乃至７のうちのいずれか１つの方法において、サブワードは、音、音素、トライフォン、または音節のうちの少なくとも１つを含む。

[00106] （例９）例１乃至８のうちのいずれか１つの方法は、第２の音響特徴が第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取ることと、新規のサウンドサンプルから新規の音響特徴を抽出することと、新規の音響特徴が第１の音響特徴に類似するかどうかを決定することと、をさらに備える。

[00107] （例１０）例１乃至９の例のうちのいずれか１つの方法は、新規の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１のサウンドサンプルまたは新規のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成することをさらに備える。

[00108] （例１１）例１乃至１０のうちのいずれか１つの方法において、サウンド検出モデルを生成することは、第１のサウンドサンプルまたは新規のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルの閾値を決定することと、第２のサウンドサンプルに基づいて、閾値を調整することと、を備える。

[00109] （例１２）例１乃至１１のいずれか１つの方法は、第２の音響特徴が第１の音響特徴に類似するかどうかを決定することに基づいて、第２のサウンドサンプルが第１のサウンドサンプルに類似するかどうかの指示を出力することと、サウンド検出モデルを生成する際に使用される第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取ることと、をさらに備える。

[00110] （例１３）例１乃至１２のうちのいずれか１つの方法において、第１のサウンドサンプルおよび第２のサウンドサンプルの各々は、電子デバイスをアクティブ化するためのコマンド、あるいは電子デバイスにおけるアプリケーションまたは機能を制御するためのコマンドのうちの少なくとも１つを示す。

[00111] （例１４）例１乃至１３のうちのいずれか１つの方法は、音声入力を受け取ることと、サウンド検出モデルに基づいて、音声入力からキーワードまたはユーザのうちの少なくとも１つを認識することと、をさらに備える。

[00112] （例１５）本開示の別の態様によると、第１のサウンドサンプルおよび第２のサウンドサンプルを受け取るように構成されたサウンドセンサと、第１のサウンドサンプルから第１の音響特徴を抽出し、第２のサウンドサンプルから第２の音響特徴を抽出し、第２の音響特徴が第１の音響特徴に類似するかどうかを決定するように構成されたサウンドサンプル検証ユニットと、を備える、サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスが提供される。

[00113] （例１６）例１５の電子デバイスは、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成するように構成されたサウンド検出モデル生成ユニットをさらに備える。

[00114] （例１４）例１５または１６の電子デバイスにおいて、サウンドサンプル検証ユニットは、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１の音響特徴および第２の音響特徴に基づいて、組み合わせられた音響特徴を決定するように構成される。

[00115] （例１８）例１５乃至１７のうちのいずれか１つの電子デバイスにおいて、サウンドセンサは、第３のサウンドサンプルを受け取るように構成され、サウンドサンプル検証ユニットは、第３のサウンドサンプルから第３の音響特徴を抽出し、第３の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定するように構成される。

[00116] （例１９）例１５乃至１８のうちのいずれか１つの電子デバイスにおいて、サウンドセンサは、第２の音響特徴が第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るように構成され、サウンドサンプル検証ユニットは、新規のサウンドサンプルから新規の音響特徴を抽出し、新規の音響特徴が第１の音響特徴に類似するかどうかを決定するように構成される。

[00117] （例２０）本開示のさらに別の態様によると、電子デバイスの少なくとも１つのプロセッサに、第１のサウンドサンプルを受け取り、第１のサウンドサンプルから第１の音響特徴を抽出し、第２のサウンドサンプルを受け取り、第２のサウンドサンプルから第２の音響特徴を抽出し、第２の音響特徴が第１の音響特徴に類似するかどうかを決定する、動作を実行させる命令を備える非一時的コンピュータ可読記憶媒体が提供される。

[00118] （例２１）例２０に記載の非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも１つのプロセッサに、第２の音響特徴が第１の音響特徴に類似すると決定することに応答して、第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成する動作を実行させる命令をさらに備える。

[00119] （例２２）例２０または２１に記載の非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも１つのプロセッサに、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１の音響特徴および第２の音響特徴に基づいて、組み合わせられた音響特徴を決定する動作を実行させる命令をさらに備える。

[00120] （例２３）例２０乃至２２のうちのいずれか１つの非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも１つのプロセッサに、第３のサウンドサンプルを受け取り、第３のサウンドサンプルから第３の音響特徴を抽出し、第３の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定する動作を実行させる命令をさらに備える。

[00121] （例２４）例２０乃至２３のうちのいずれか１つの非一時的コンピュータ可読記憶媒体は、電子デバイスの少なくとも１つのプロセッサに、第２の音響特徴が第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取り、新規のサウンドサンプルから新規の音響特徴を抽出し、新規の音響特徴が第１の音響特徴に類似するかどうかを決定する動作を実行させる命令をさらに備える。

[00122] （例２５）本開示のさらに別の態様によると、第１のサウンドサンプルを受け取るための手段と、第１のサウンドサンプルから第１の音響特徴を抽出するための手段と、第２のサウンドサンプルを受け取るための手段と、第２のサウンドサンプルから第２の音響特徴を抽出するための手段と、第２の音響特徴が第１の音響特徴に類似するかどうかを決定するための手段と、を備える、サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスが提供される。

[00123] （例２６）例２５の電子デバイスは、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成するための手段をさらに備える。

[00124] （例２７）例２５または２６の電子デバイスは、第２の音響特徴が第１の音響特徴に類似することを決定することに応答して、第１の音響特徴および第２の音響特徴に基づいて、組み合わせられた音響特徴を決定するための手段をさらに備える。

[00125] （例２８）例２５乃至２７のうちのいずれか１の電子デバイスは、第３のサウンドサンプルを受け取るための手段と、第３のサウンドサンプルから第３の音響特徴を抽出するための手段と、第３の音響特徴が組み合わせられた音響特徴に類似するかどうかを決定するための手段と、をさらに備える。

[00126] （例２９）例２５乃至２８のうちのいずれか１つの電子デバイスは、第２の音響特徴が第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るための手段と、新規のサウンドサンプルから新規の音響特徴を抽出するための手段と、新規の音響特徴が第１の音響特徴に類似するかどうかを決定するための手段と、をさらに備える。

[00127] （例３０）例２５乃至２９のうちのいずれか１つの電子デバイスは、第２の音響特徴が第１の音響特徴に類似するかどうかを決定することに基づいて、第２のサウンドサンプルが第１のサウンドサンプルに類似するかどうかの指示を出力するための手段と、サウンド検出モデルを生成する際に使用される第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取るための手段と、をさらに備える。

[00127] （例３０）例２５乃至２９のうちのいずれか１つの電子デバイスは、第２の音響特徴が第１の音響特徴に類似するかどうかを決定することに基づいて、第２のサウンドサンプルが第１のサウンドサンプルに類似するかどうかの指示を出力するための手段と、サウンド検出モデルを生成する際に使用される第１のサウンドサンプルまたは第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取るための手段と、をさらに備える。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するために、電子デバイスにおいて実行される方法であって、前記方法は、
第１のサウンドサンプルを受け取ることと、
前記第１のサウンドサンプルから第１の音響特徴を抽出することと、
第２のサウンドサンプルを受け取ることと、
前記第２のサウンドサンプルから第２の音響特徴を抽出することと、
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定することと
を備える、方法。
［Ｃ２］
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成することをさらに備える、Ｃ１に記載の方法。
［Ｃ３］
前記第１のサウンドサンプルの信号対雑音比（ＳＮＲ）を決定することと、
前記第２のサウンドサンプルのＳＮＲを決定することと、
前記第１および第２のサウンドサンプルの前記ＳＮＲに基づいて、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つを選択することと、
前記第２の音響特徴が前記第１の音響特徴に類似することを決定すると、前記選択された少なくとも１つのサウンドサンプルに基づいて、前記サウンド検出モデルを生成することと、
選択されていないサウンドサンプルに基づいて、前記生成されたサウンド検出モデルを調整することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ４］
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定することをさらに備える、Ｃ１に記載の方法。
［Ｃ５］
第３のサウンドサンプルを受け取ることと、
前記第３のサウンドサンプルから第３の音響特徴を抽出することと、
前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定することと
をさらに備える、Ｃ４に記載の方法。
［Ｃ６］
前記第１の音響特徴および前記第２の音響特徴の各々は、スペクトル特徴または時間領域特徴のうちの少なくとも１つを含む、Ｃ１に記載の方法。
［Ｃ７］
前記第１の音響特徴および前記第２の音響特徴の各々は、サブワードのシーケンスを含む、Ｃ１に記載の方法。
［Ｃ８］
前記サブワードは、音、音素、トライフォン、または音節のうちの少なくとも１つを含む、Ｃ７に記載の方法。
［Ｃ９］
前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取ることと、
前記新規のサウンドサンプルから新規の音響特徴を抽出することと、
前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ１０］
前記新規の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成することをさらに備える、Ｃ９に記載の方法。
［Ｃ１１］
前記サウンド検出モデルを生成することは、
前記第１のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルの閾値を決定することと、
前記第２のサウンドサンプルに基づいて、前記閾値を調整することと
を備える、Ｃ１０に記載の方法。
［Ｃ１２］
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定することに基づいて、前記第２のサウンドサンプルが前記第１のサウンドサンプルに類似するかどうかの指示を出力することと、
前記サウンド検出モデルを生成する際に使用される前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取ることと
をさらに備える、Ｃ１に記載の方法。
［Ｃ１３］
前記第１のサウンドサンプルおよび前記第２のサウンドサンプルの各々は、前記電子デバイスをアクティブ化するためのコマンド、あるいは前記電子デバイスにおけるアプリケーションまたは機能を制御するためのコマンドのうちの少なくとも１つを示す、Ｃ１に記載の方法。
［Ｃ１４］
音声入力を受け取ることと、
前記サウンド検出モデルに基づいて、前記音声入力からキーワードまたはユーザのうちの少なくとも１つを認識することと
をさらに備える、Ｃ２に記載の方法。
［Ｃ１５］
サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスであって、
第１のサウンドサンプルおよび第２のサウンドサンプルを受け取るように構成されたサウンドセンサと、
前記第１のサウンドサンプルから第１の音響特徴を抽出し、前記第２のサウンドサンプルから第２の音響特徴を抽出し、前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定するように構成されたサウンドサンプル検証ユニットと
を備える、電子デバイス。
［Ｃ１６］
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成するように構成されたサウンド検出モデル生成ユニットをさらに備える、Ｃ１５に記載の電子デバイス。
［Ｃ１７］
前記サウンドサンプル検証ユニットは、前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定するように構成される、Ｃ１５に記載の電子デバイス。
［Ｃ１８］
前記サウンドセンサは、第３のサウンドサンプルを受け取るように構成され、
前記サウンドサンプル検証ユニットは、前記第３のサウンドサンプルから第３の音響特徴を抽出し、前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するように構成される、
Ｃ１７に記載の電子デバイス。
［Ｃ１９］
前記サウンドセンサは、前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るように構成され、
前記サウンドサンプル検証ユニットは、前記新規のサウンドサンプルから新規の音響特徴を抽出し、前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定するように構成される、
Ｃ１５に記載の電子デバイス。
［Ｃ２０］
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定することに基づいて、前記第２のサウンドサンプルが前記第１のサウンドサンプルに類似するかどうかの指示を出力するように構成された出力ユニットと、
前記サウンド検出モデルを生成する際に使用される前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取るための入力ユニットと
をさらに備える、Ｃ１５に記載の電子デバイス。
［Ｃ２１］
命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、電子デバイスの少なくとも１つのプロセッサに、
第１のサウンドサンプルを受け取り、
前記第１のサウンドサンプルから第１の音響特徴を抽出し、
第２のサウンドサンプルを受け取り、
前記第２のサウンドサンプルから第２の音響特徴を抽出し、
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定する
動作を実行させる、非一時的コンピュータ可読記憶媒体。
［Ｃ２２］
前記電子デバイスの前記少なくとも１つのプロセッサに、前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成する動作を実行させる命令をさらに備える、Ｃ２１に記載の非一時的コンピュータ可読記憶媒体。
［Ｃ２３］
前記電子デバイスの前記少なくとも１つのプロセッサに、前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定する動作を実行させる命令をさらに備える、Ｃ２１に記載の非一時的コンピュータ可読記憶媒体。
［Ｃ２４］
前記電子デバイスの前記少なくとも１つのプロセッサに、
第３のサウンドサンプルを受け取り、
前記第３のサウンドサンプルから第３の音響特徴を抽出し、
前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定する
動作を実行させる命令をさらに備える、Ｃ２３に記載の非一時的コンピュータ可読記憶媒体。
［Ｃ２５］
前記電子デバイスの前記少なくとも１つのプロセッサに、
前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取り、
前記新規のサウンドサンプルから新規の音響特徴を抽出し、
前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定する
動作を実行させる命令をさらに備える、Ｃ２１に記載の非一時的コンピュータ可読記憶媒体。
［Ｃ２６］
サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスであって、
第１のサウンドサンプルを受け取るための手段と、
前記第１のサウンドサンプルから第１の音響特徴を抽出するための手段と、
第２のサウンドサンプルを受け取るための手段と、
前記第２のサウンドサンプルから第２の音響特徴を抽出するための手段と、
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定するための手段と
を備える、電子デバイス。
［Ｃ２７］
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成するための手段をさらに備える、Ｃ２６に記載の電子デバイス。
［Ｃ２８］
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定するための手段をさらに備える、Ｃ２６に記載の電子デバイス。
［Ｃ２９］
第３のサウンドサンプルを受け取るための手段と、
前記第３のサウンドサンプルから第３の音響特徴を抽出するための手段と、
前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するための手段と
をさらに備える、Ｃ２８に記載の電子デバイス。
［Ｃ３０］
前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るための手段と、
前記新規のサウンドサンプルから新規の音響特徴を抽出するための手段と、
前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定するための手段と
をさらに備える、Ｃ２６に記載の電子デバイス。

Claims

サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するために、電子デバイスにおいて実行される方法であって、前記方法は、
第１のサウンドサンプルを受け取ることと、
前記第１のサウンドサンプルから第１の音響特徴を抽出することと、
第２のサウンドサンプルを受け取ることと、
前記第２のサウンドサンプルから第２の音響特徴を抽出することと、
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定することと
を備える、方法。
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成することをさらに備える、請求項１に記載の方法。
前記第１のサウンドサンプルの信号対雑音比（ＳＮＲ）を決定することと、
前記第２のサウンドサンプルのＳＮＲを決定することと、
前記第１および第２のサウンドサンプルの前記ＳＮＲに基づいて、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つを選択することと、
前記第２の音響特徴が前記第１の音響特徴に類似することを決定すると、前記選択された少なくとも１つのサウンドサンプルに基づいて、前記サウンド検出モデルを生成することと、
選択されていないサウンドサンプルに基づいて、前記生成されたサウンド検出モデルを調整することと
をさらに備える、請求項１に記載の方法。
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定することをさらに備える、請求項１に記載の方法。
第３のサウンドサンプルを受け取ることと、
前記第３のサウンドサンプルから第３の音響特徴を抽出することと、
前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定することと
をさらに備える、請求項４に記載の方法。
前記第１の音響特徴および前記第２の音響特徴の各々は、スペクトル特徴または時間領域特徴のうちの少なくとも１つを含む、請求項１に記載の方法。
前記第１の音響特徴および前記第２の音響特徴の各々は、サブワードのシーケンスを含む、請求項１に記載の方法。
前記サブワードは、音、音素、トライフォン、または音節のうちの少なくとも１つを含む、請求項７に記載の方法。
前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取ることと、
前記新規のサウンドサンプルから新規の音響特徴を抽出することと、
前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定することと
をさらに備える、請求項１に記載の方法。
前記新規の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成することをさらに備える、請求項９に記載の方法。
前記サウンド検出モデルを生成することは、
前記第１のサウンドサンプルまたは前記新規のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルの閾値を決定することと、
前記第２のサウンドサンプルに基づいて、前記閾値を調整することと
を備える、請求項１０に記載の方法。
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定することに基づいて、前記第２のサウンドサンプルが前記第１のサウンドサンプルに類似するかどうかの指示を出力することと、
前記サウンド検出モデルを生成する際に使用される前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取ることと
をさらに備える、請求項１に記載の方法。
前記第１のサウンドサンプルおよび前記第２のサウンドサンプルの各々は、前記電子デバイスをアクティブ化するためのコマンド、あるいは前記電子デバイスにおけるアプリケーションまたは機能を制御するためのコマンドのうちの少なくとも１つを示す、請求項１に記載の方法。
音声入力を受け取ることと、
前記サウンド検出モデルに基づいて、前記音声入力からキーワードまたはユーザのうちの少なくとも１つを認識することと
をさらに備える、請求項２に記載の方法。
サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスであって、
第１のサウンドサンプルおよび第２のサウンドサンプルを受け取るように構成されたサウンドセンサと、
前記第１のサウンドサンプルから第１の音響特徴を抽出し、前記第２のサウンドサンプルから第２の音響特徴を抽出し、前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定するように構成されたサウンドサンプル検証ユニットと
を備える、電子デバイス。
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成するように構成されたサウンド検出モデル生成ユニットをさらに備える、請求項１５に記載の電子デバイス。
前記サウンドサンプル検証ユニットは、前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定するように構成される、請求項１５に記載の電子デバイス。
前記サウンドセンサは、第３のサウンドサンプルを受け取るように構成され、
前記サウンドサンプル検証ユニットは、前記第３のサウンドサンプルから第３の音響特徴を抽出し、前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するように構成される、
請求項１７に記載の電子デバイス。
前記サウンドセンサは、前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るように構成され、
前記サウンドサンプル検証ユニットは、前記新規のサウンドサンプルから新規の音響特徴を抽出し、前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定するように構成される、
請求項１５に記載の電子デバイス。
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定することに基づいて、前記第２のサウンドサンプルが前記第１のサウンドサンプルに類似するかどうかの指示を出力するように構成された出力ユニットと、
前記サウンド検出モデルを生成する際に使用される前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つを示す入力を受け取るための入力ユニットと
をさらに備える、請求項１５に記載の電子デバイス。
命令を備える非一時的コンピュータ可読記憶媒体であって、前記命令は、電子デバイスの少なくとも１つのプロセッサに、
第１のサウンドサンプルを受け取り、
前記第１のサウンドサンプルから第１の音響特徴を抽出し、
第２のサウンドサンプルを受け取り、
前記第２のサウンドサンプルから第２の音響特徴を抽出し、
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定する
動作を実行させる、非一時的コンピュータ可読記憶媒体。
前記電子デバイスの前記少なくとも１つのプロセッサに、前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、サウンド検出モデルを生成する動作を実行させる命令をさらに備える、請求項２１に記載の非一時的コンピュータ可読記憶媒体。
前記電子デバイスの前記少なくとも１つのプロセッサに、前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定する動作を実行させる命令をさらに備える、請求項２１に記載の非一時的コンピュータ可読記憶媒体。
前記電子デバイスの前記少なくとも１つのプロセッサに、
第３のサウンドサンプルを受け取り、
前記第３のサウンドサンプルから第３の音響特徴を抽出し、
前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定する
動作を実行させる命令をさらに備える、請求項２３に記載の非一時的コンピュータ可読記憶媒体。
前記電子デバイスの前記少なくとも１つのプロセッサに、
前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取り、
前記新規のサウンドサンプルから新規の音響特徴を抽出し、
前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定する
動作を実行させる命令をさらに備える、請求項２１に記載の非一時的コンピュータ可読記憶媒体。
サウンド検出モデルを生成する際に使用される少なくとも１つのサウンドサンプルを検証するための電子デバイスであって、
第１のサウンドサンプルを受け取るための手段と、
前記第１のサウンドサンプルから第１の音響特徴を抽出するための手段と、
第２のサウンドサンプルを受け取るための手段と、
前記第２のサウンドサンプルから第２の音響特徴を抽出するための手段と、
前記第２の音響特徴が前記第１の音響特徴に類似するかどうかを決定するための手段と
を備える、電子デバイス。
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１のサウンドサンプルまたは前記第２のサウンドサンプルのうちの少なくとも１つに基づいて、前記サウンド検出モデルを生成するための手段をさらに備える、請求項２６に記載の電子デバイス。
前記第２の音響特徴が前記第１の音響特徴に類似することを決定することに応答して、前記第１の音響特徴および前記第２の音響特徴に基づいて、組み合わせられた音響特徴を決定するための手段をさらに備える、請求項２６に記載の電子デバイス。
第３のサウンドサンプルを受け取るための手段と、
前記第３のサウンドサンプルから第３の音響特徴を抽出するための手段と、
前記第３の音響特徴が前記組み合わせられた音響特徴に類似するかどうかを決定するための手段と
をさらに備える、請求項２８に記載の電子デバイス。
前記第２の音響特徴が前記第１の音響特徴に類似しないと決定することに応答して、新規のサウンドサンプルを受け取るための手段と、
前記新規のサウンドサンプルから新規の音響特徴を抽出するための手段と、
前記新規の音響特徴が前記第１の音響特徴に類似するかどうかを決定するための手段と
をさらに備える、請求項２６に記載の電子デバイス。