JP6373985B2

JP6373985B2 - 音声動作式機能にキーワードモデルを割り当てるための方法および装置

Info

Publication number: JP6373985B2
Application number: JP2016525380A
Authority: JP
Inventors: キム、テス; リ、ミンスブ
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2013-07-08
Filing date: 2014-07-02
Publication date: 2018-08-15
Anticipated expiration: 2034-07-02
Also published as: CN105340006A; CN105340006B; KR101922782B1; WO2015006116A9; JP2016532146A; US20150012279A1; EP3020040B1; EP3020040A1; WO2015006116A1; KR20160030199A; US9786296B2

Description

関連出願の相互参照
[0001]本出願は、同一出願人が所有する、２０１３年７月８日に出願された米国仮特許出願第６１／８４３，６５０号、および２０１４年１２月１０日に出願された米国非仮特許出願第１４／１０１，８６９号の優先権を主張し、それらの各々の内容の全体が参照により本明細書に明確に組み込まれる。

[0002]本開示は、一般に、電子デバイスにおける音声認識に関し、より詳細には、電子デバイスにおける機能を実行するためのターゲットキーワードを認識することに関する。

[0003]最近は、スマートフォンおよびタブレットコンピュータなど、モバイルデバイスの使用が普及してきている。これらのデバイスは、一般に、ワイヤレスネットワークを介して音声および／またはデータ通信機能を与える。さらに、そのようなモバイルデバイスは、一般に、ユーザの利便性を高めるように設計された様々な機能を与える他の特徴を含む。

[0004]ますます使用されているモバイルデバイスにおける特徴の１つは、音声認識機能である。そのような機能は、ユーザからの音声コマンド（たとえば、キーワード）が認識されたときにモバイルデバイスが様々な機能を実行することを可能にする。たとえば、モバイルデバイスは、ユーザからの音声コマンドに応答して、音声アシスタントアプリケーションをアクティブ化すること、オーディオファイルを再生すること、または写真を撮ることがある。

[0005]従来のモバイルデバイスでは、製造業者または通信事業者はしばしば、関連キーワードを検出するために使用され得る音モデルをデバイスに搭載する。だが、そのようなデバイスは一般に、限られた数の音モデルとキーワードとを含む。したがって、ユーザは、デバイスにおいて最初に提供されたキーワードと音モデルとだけを使用することに制限され得る。デバイスによっては、ユーザは、新しいキーワードを検出するための音モデルを、当該キーワードに関するいくつかの発話に基づいて音モデルをトレーニングすることによって生成し得る。ユーザ入力に応答して生成されたそのような音モデルは、たとえば、キーワードのサンプリングが不十分であるために、新しいキーワードを検出する際にあまり正確ではないことがある。

[0006]本開示は、ターゲットキーワードに関連するキーワードモデルに基づいてターゲットキーワードが検出されたときに機能を実行するために、機能にターゲットキーワードを割り当てるための方法と装置とを提供する。

[0007]本開示の一態様によれば、機能にターゲットキーワードを割り当てるための方法が開示される。この方法では、通信ネットワークを介して電子デバイスにおいて、複数のターゲットキーワードからなるリストが受信され、複数のターゲットキーワードからなる受信済みリストからターゲットキーワードが選択される。さらに、本方法は、通信ネットワークを介して被選択ターゲットキーワードに関するキーワードモデルを受信することと、電子デバイスの機能に、電子デバイスにおいて受信された入力音においてキーワードモデルに基づいてターゲットキーワードを検出したことに応答して機能が実行されるようにターゲットキーワードを割り当てることを含み得る。本開示はまた、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。

[0008]本開示の別の態様によれば、アプリケーションにターゲットキーワードを割り当てるための方法が開示される。この方法では、通信ネットワークを介して、複数のアプリケーションからなるリストが受信され、アプリケーションからなる受信済みリストからアプリケーションが選択される。さらに、本方法は、通信ユニットを介して被選択アプリケーションのためのアプリケーションファイルを受信することと、ターゲットキーワードに関するキーワードモデルをアプリケーションファイルが含む、アプリケーションファイルからキーワードモデルを抽出することと、アプリケーションに、キーワードモデルに基づいて入力音においてターゲットキーワードが検出されたときにアプリケーションをアクティブ化するためにターゲットキーワードを割り当てることとを含み得る。本開示はまた、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。

[0009]本開示のさらに別の態様によれば、データファイルを提供するための方法が開示される。この方法では、通信ネットワークを介して電子デバイスに、複数のターゲットキーワードからなるリストが送信され、通信ネットワークを介して電子デバイスから、被選択ターゲットキーワードについての要求が受信される。さらに、本方法は、電子デバイスに、通信ネットワークを介して被選択ターゲットキーワードに関するキーワードモデルを送信することを含み得る。キーワードモデルは、入力音において被選択ターゲットキーワードを検出するように適合される。本開示はまた、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。

[0010]本開示のまた別の態様によれば、電子デバイスが、ダウンロード管理ユニットとキーワード設定ユニットとを含む。ダウンロード管理ユニットは、通信ネットワークを介して、複数のターゲットキーワードからなるリストから選択された特定のターゲットキーワードに関するキーワードモデルを受信するように構成される。キーワード設定ユニットは、電子デバイスの機能に、電子デバイスにおいて受信された入力音においてキーワードモデルに基づいて特定のターゲットキーワードを検出したことに応答して機能が実行されるように特定のターゲットキーワードを割り当てるように構成される。

[0011]本開示のまた別の態様によれば、電子デバイスが、ダウンロード管理ユニットと、抽出ユニットと、キーワード設定ユニットとを含む。ダウンロード管理ユニットは、通信ネットワークを介して、複数のアプリケーションからなるリストから選択されたアプリケーションのためのアプリケーションファイルを受信するように構成される。アプリケーションファイルは、ターゲットキーワードに関するキーワードモデルを含む。抽出ユニットは、アプリケーションファイルからキーワードモデルを抽出するように構成される。キーワード設定ユニットは、被選択アプリケーションに、キーワードモデルに基づいて入力音においてターゲットキーワードが検出されたときにアプリケーションをアクティブ化するためにターゲットキーワードを割り当てるように構成される。

[0012]本開示のまた別の態様によれば、サーバが、データベースと、通信ユニットと、制御ユニットとを含む。データベースは、少なくとも１つのターゲットキーワードと、少なくとも１つのキーワードモデルとを記憶するように構成される。キーワードモデルは、入力音において関連ターゲットキーワードを検出するように適合される。通信ユニットは、電子デバイスに、少なくとも１つのターゲットキーワードからなるリストを送信し、電子デバイスから、少なくとも１つのターゲットキーワードからなるリストから選択されたターゲットキーワードについての要求を受信するように構成される。制御ユニットは、要求に応答してデータベースにアクセスし、電子デバイスに、通信ユニットを介して少なくとも１つのキーワードモデルのうちで被選択ターゲットキーワードに関連するキーワードモデルを送信するように構成される。

[0013]本開示の発明的態様の実施形態は、以下の発明を実施するための形態を参照し、添付の図面とともに読めば理解されよう。

[0014]本開示の一実施形態による、ターゲットキーワードを検出する際に使用する、通信ネットワークを介して電子デバイスによってダウンロードされ得るサーバにおける複数のキーワードモデルを提供するためのシステムを示す図。 [0015]本開示の一実施形態による、複数のターゲットキーワードにアクセスし、入力音スチームから被選択ターゲットキーワードを検出する際に使用するキーワードモデルをダウンロードするように構成された電子デバイスのブロック図。 [0016]本開示の一実施形態による、被選択ターゲットキーワードを検出するための、選択され、電子デバイスにダウンロードされ得る電子デバイスのディスプレイ画面上のターゲットキーワードからなるリストを示す図。 [0017]本開示の一実施形態による、ヘッダと、キーワードモデルと、Ａｃｋ音データと、音声トーンモデルと、エラーチェックデータとを含む例示的なキーワードデータファイルを示す図。 [0018]本開示の一実施形態による、被選択機能にターゲットキーワードを割り当て、ターゲットキーワードが検出されたときに被選択機能を実行するように構成された電子デバイスにおける制御ユニットのより詳細なブロック図。 [0019]本開示の一実施形態による、キーワードモデルに関連するターゲットキーワードを検出する際に使用するキーワードモデルをサーバから受信するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0020]本開示の一実施形態による、サーバからアプリケーションファイルを受信し、アプリケーションファイルからキーワードモデルを抽出するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0021]本開示の一実施形態による、機能にターゲットキーワードを割り当てるためのメニューを示す電子デバイスにおけるディスプレイ画面を示す図。 [0022]本開示の一実施形態による、複数のターゲットキーワードを複数の機能にマッピングする例示的なキーワード／機能データベースを示す図。 [0023]本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード／機能データベースを更新するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0024]本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード検出モデルを更新するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0025]本開示の一実施形態による、複数のキーワードモデルを含む例示的なキーワード検出モデルを示す図。 [0026]本開示の一実施形態による、入力音において関連ターゲットキーワードを検出したことに応答して複数の機能を実行するように構成された電子デバイスを示す図。 [0027]本開示の一実施形態による、ターゲットキーワードに関連する音声トーンモデルに基づいてテキストから音声データを生成するように構成された電子デバイスを示す図。 [0028]本開示の一実施形態による、入力音において検出されたターゲットキーワードに関連する機能を実行するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0029]本開示のいくつかの実施形態による、機能を動作させるためのターゲットキーワードを設定するための方法および装置が実装され得るワイヤレス通信システムにおけるモバイルデバイスのブロック図。 [0030]本開示のいくつかの実施形態による、関連ターゲットキーワードを検出するためのキーワードモデルを提供するための方法および装置が実装され得るサーバシステムのブロック図。

[0031]図１は、本開示の一実施形態による、サーバ１１０における複数のキーワードモデルを提供するためのシステム１００を示している。システム１００は、サーバ１１０と、電子デバイス１４０と、キーワードモデルプロバイダ１３０とを含み、これらは通信ネットワーク１５０を介して通信する。サーバ１１０は、制御ユニット１１２と、データベース１１４と、支払い管理ユニット１１６と、データベース更新ユニット１１８と、通信ユニット１２０とを含む。

[0032]ターゲットキーワードを検出する際に使用するキーワードモデルが、通信ネットワーク１５０を介して電子デバイス１４０によってダウンロードされ得る。本明細書で使用する「ターゲットキーワード」という用語は、電子デバイス１４０における機能をアクティブ化または実行するためにキーワードとして使用され得る１つもしくは複数の単語または音の任意のデジタル表現またはアナログ表現を指す。「キーワードモデル」は、ターゲットキーワードを検出するために電子デバイス１４０によって使用され得るデータを指す。特定の実施形態では、キーワードモデルは、ユーザ固有のものではなく、完全言語モデル（full language model）を含んでいない。たとえば、キーワードモデルは、ターゲットキーワードの言語のすべての音素よりも少ない音素をモデル化するためのデータを含み得る。この例では、キーワードモデルは、ターゲットキーワードの言語の音素のサブセットを検出するためのデータを含む。したがって、キーワードモデルは、完全言語モデルよりもはるかに小さくてよい。例示すると、キーワードモデルがメモリの１〜５００キロビット（ＫＢ）を使用し得る一方、完全言語モデルを記憶することは、１メガビット（ＭＢ）または数ＭＢを使用し得る。

[0033]サーバ１１０では、制御ユニット１１２はサーバ１１０の動作全体を制御する。サーバ１１０におけるデータベース１１４は、キーワードモデルプロバイダ１３０によってアップロードされた複数のキーワードデータファイルを記憶する。キーワードデータファイルの各々は、ターゲットキーワードを検出する際に使用するキーワードモデル、ターゲットキーワードの検出を示す確認応答音もしくは応答音を出力するためのＡｃｋ音データ（もしくは応答音データ）、テキストから生成された音声の音声トーンを修正するように適合された音声トーンモデル、またはそれらの組合せを含み得る。キーワードモデルプロバイダ１３０によってアップロードされるキーワードモデルは、関連ターゲットキーワードを検出するためにキーワードモデルが最適化され得るように、多数のキーワード記録のトレーニングに基づいて生成され得る。したがって、電子デバイス１４０のユーザは、多数のキーワード記録に基づくキーワードモデルを、キーワードモデルをダウンロードすることによって使用し得る。したがってユーザは、キーワードモデルをトレーニングするためにユーザがキーワード記録を記録する必要なしに、多数のキーワード記録によりキーワードモデルをトレーニングすることによってもたらされる正確性の向上の恩恵を得る。特定の実施形態では、電子デバイス１４０は、ユーザ入力の入力音を継続的に監視するように構成されたキーワード検出エンジンを含み得る。この実施形態では、ユーザは、電子デバイス１４０が高い検出率（たとえば、９０％超）と低い誤検出率（たとえば、０．０１％未満）とを有すると予想する。低い誤検出率を有することで、ユーザエクスペリエンスを改善し、電力消費を低減し得る。たとえば、誤検出により、電子デバイス１４０は、アクティブであることをユーザが望んでいない機能をアクティブ化することがあり、これは、迷惑となることがあり、電子デバイス１４０の電力消費を増大させることがある。そのような高い検出率と低い誤検出率とを達成することは、キーワードモデルの広範なトレーニングを必要とし得る。たとえば、場合によっては、０．０１％未満の誤検出率で９０％の検出率を達成するキーワード検出モデルは、数千のキーワード記録と数万の非キーワード記録とを使用し得る。

[0034]データベース１１４は、評点（rating）、ダウンロード数、キーワードモデルのプロバイダなどのような、キーワードモデルに関係する情報も含み得る。一実施形態では、データベース１１４は、電子デバイス１４０にアプリケーションをインストールするためのアプリケーションファイルも記憶し得る。この実施形態では、アプリケーションファイルは、ターゲットキーワードを検出し、ターゲットキーワードの検出に伴ってアプリケーションをアクティブ化する際に使用され得るキーワードモデルを含み得る。

[0035]いくつかの実施形態では、サーバ１１０は、通信ネットワーク１５０を介して様々なタイプの電子デバイスにターゲットキーワードを提供するためのオンラインストアをホストするように構成され得る。オンラインストアは、キーワードモデルを提供するための専用ストアであること、または一般的なアプリケーションストアの一部として実装されることがある。オンラインストアはまた、ユーザが関心を有し得るターゲットキーワードを突き止めるための検索機能を提供し得る。

[0036]サーバ１１０における支払い管理ユニット１１６は、ユーザがサーバ１１０からキーワードモデルを選択し、購入することを可能にする。一実施形態では、支払い管理ユニット１１６は、電話料金請求サービス、インターネット料金請求サービスなど、サードパーティの料金請求サービスと統合され得る。別の実施形態では、支払い管理ユニット１１６は、通信ネットワーク１５０を介してサーバ１１０と通信する別個の支払いサーバとして実装され得る。

[0037]サーバ１１０は、通信ネットワーク１５０へのネットワークインターフェースとして機能する通信ユニット１２０を介して、電子デバイス１４０およびキーワードモデルプロバイダ１３０と通信するように構成される。この構成では、サーバ１１０はキーワードモデルプロバイダ１３０から、新しいターゲットキーワードを検出する際に使用する新しいキーワードモデルを含む新しいキーワードデータファイルを受信し得る。新しいキーワードデータファイルはまた、新しいターゲットキーワードに関連する新しいＡｃｋ音データと新しい音声トーンモデルとを含み得る。新しいキーワードデータファイルを受信すると、データベース更新ユニット１１８は、新しいキーワードデータファイルを追加することによってデータベース１１４を更新し得る。別の実施形態では、データベース更新ユニット１１８は、キーワードモデルプロバイダ１３０から関連するＡｃｋ音データおよび音声トーンモデルとともに新しいキーワードモデルを受信し、新しいキーワードデータファイルを生成し得る。

[0038]電子デバイス１４０のユーザは、通信ネットワーク１５０を介してサーバ１１０における利用可能なターゲットキーワードからなるリストにアクセスし得る。ユーザが利用可能なターゲットキーワードからなるリストからターゲットキーワードを選択したとき、電子デバイス１４０は、通信ネットワーク１５０を介してサーバ１１０に、被選択ターゲットキーワードに関連するキーワードモデルについての要求を送信する。要求に応答して、サーバ１１０は電子デバイス１４０に、被選択ターゲットキーワードに関連するキーワードモデルを含むキーワードデータファイルを送信する。キーワードモデルを受信した後、ユーザは電子デバイス１４０の機能に、キーワードモデルに基づいて入力音においてターゲットキーワードが検出されたときに機能が実行されるようにターゲットキーワードを割り当て得る。

[0039]図２は、本開示の一実施形態による、複数のターゲットキーワードにアクセスし、入力音ストリーム（input sound stream）から被選択ターゲットキーワードを検出する際に使用するキーワードモデルをダウンロードするように構成された電子デバイス１４０のブロック図を示している。本明細書で使用する「音ストリーム」という用語は、一連の１つまたは複数の音信号または音データを指す。電子デバイス１４０は、通信ユニット２１０と、ＴＴＳ（テキスト音声）変換ユニット２２０と、スピーカー２３０と、ストレージユニット２４０と、制御ユニット２５０と、入力／出力（Ｉ／Ｏ）ユニット２６０（たとえば、ユーザインターフェースユニット）と、音センサー２７０と、音声検出器２８０と、キーワード検出ユニット２９０とを含む。電子デバイス１４０は、セルラーフォン、スマートフォン、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートテレビ、ゲームデバイス、マルチメディアプレーヤなどのような、音をキャプチャおよび処理する能力を備えた任意の適切なデバイスであり得る。

[0040]電子デバイス１４０は、通信ネットワーク１５０へのネットワークインターフェースとして機能する通信ユニット２１０を介して、サーバ１１０と通信し得る。このプロセスでは、電子デバイス１４０は、サーバ１１０における複数のターゲットキーワードにアクセスし得る。電子デバイス１４０のユーザがＩ／Ｏユニット２６０を介して複数のターゲットキーワードからなるリストからターゲットキーワードを選択したとき、電子デバイス１４０はサーバ１１０に、被選択ターゲットキーワードについての要求を送信する。それに応答して、サーバ１１０は電子デバイス１４０に、被選択ターゲットキーワードに関連するキーワードモデルを含むキーワードデータファイルを送信する。キーワードデータファイルはまた、被選択ターゲットキーワードに関連するＡｃｋ音データと音声トーンモデルとを含み得る。

[0041]電子デバイス１４０における制御ユニット２５０は、キーワードデータファイルを受信し、キーワードデータファイルからキーワードモデルと、Ａｃｋ音データと、音声トーンモデルとを抽出するように構成される。次いで、抽出されたキーワードモデル、Ａｃｋ音データ、および音声トーンモデルはストレージユニット２４０に記憶され得る。ストレージユニット２４０は、ＲＡＭ（ランダムアクセスメモリ）、ＲＯＭ（読取り専用メモリ）、ＥＥＰＲＯＭ（登録商標）（電気的消去可能プログラマブル読取り専用メモリ）、フラッシュメモリ、またはＳＳＤ（ソリッドステートドライブ）など、任意の適切なストレージまたはメモリデバイスを使用して実装され得る。このようにして、ユーザは、関連ターゲットキーワードを検出する際に使用する複数のキーワードモデルをダウンロードし得る。ストレージユニット２４０はまた、電子デバイス１４０において最初に提供されている１つまたは複数の他のキーワードおよび関連キーワードモデルを記憶し得る。

[0042]キーワードモデルを含むキーワードデータファイルがダウンロードされ、記憶されると、ユーザは、Ｉ／Ｏユニット２６０を介して電子デバイス１４０における被選択機能に、キーワードモデルに関連するターゲットキーワードを割り当て得る。それに応答して、制御ユニット２５０は、キーワードモデルに基づいて入力音ストリームにおいてターゲットキーワードが検出されたときに被選択機能が実行されるように、ターゲットキーワードに関するキーワードモデルを被選択機能に関連付ける。電子デバイス１４０は、複数の機能（たとえば、アプリケーション、特徴など）を含み得、機能のうちのいずれかは、選択され、被選択機能を実行するためにターゲットキーワードに関連付けられ得ることを諒解されたい。たとえば、そのような機能は、音声アシスタントアプリケーションをアクティブ化すること、写真を撮ること、電子デバイス１４０をロック解除すること、ボイスレコーダアプリケーションをアクティブ化すること、カメラアプリケーションをアクティブ化すること、音楽プレーヤアプリケーションをアクティブ化することなどのうちの１つであり得る。

[0043]電子デバイス１４０は、ターゲットキーワードに関するキーワードモデルに基づいて、入力音ストリームにおいてターゲットキーワードを検出し得る。電子デバイス１４０における音センサー２７０は、ターゲットキーワードを含み得る入力音ストリームを受信し、音声検出器２８０に入力音ストリームを提供するように構成される。音センサー２７０は、電子デバイス１４０への音入力を受信、キャプチャ、感知および／または検出するために使用され得る１つもしくは複数のマイクロフォンまたは任意の他のタイプの音センサーを含み得る。さらに、音センサー２７０は、そのような機能を実行するために任意の適切なソフトウェアおよび／またはハードウェアを用い得る。

[0044]一実施形態では、音センサー２７０は、デューティサイクルに従って周期的に入力音ストリームを受信するように構成され得る。この場合、音センサー２７０は、入力音ストリームの受信部分がしきい値音強度を上回るかどうかを決定し得る。音ストリームの受信部分がしきい値強度を上回るとき、音センサー２７０は、音声検出器２８０をアクティブ化し、音声検出器２８０に受信部分を提供する。代替的に、音センサー２７０は、周期的に（たとえば、デューティサイクルに従って）入力音ストリームの一部分を受信し、（たとえば、音強度とは無関係に）音声検出器２８０に受信部分を提供するために音声検出器２８０をアクティブ化し得る。さらなる代替として、音センサー２７０は、（たとえば、１００％デューティサイクルに従って）入力音ストリームを継続的に受信し、入力音の受信部分がしきい値音強度を上回るときに音声検出器２８０をアクティブ化し得る。

[0045]音声検出器２８０は、音センサー２７０から入力音ストリームの一部分を受信するように構成される。一実施形態では、音声検出器２８０は、受信部分から複数の音特徴を抽出し、混合ガウスモデル（ＧＭＭ）ベースの分類子、ニューラルネットワーク、隠れマルコフモデル（ＨＭＭ）、グラフィカルモデル、およびサポートベクターマシン（ＳＶＭ）技法など、任意の適切な音分類方法を使用して、抽出された音特徴が音声などの注目する音を示すかどうかを決定する。受信部分が注目する音であると決定された場合、音声検出器２８０は、キーワード検出ユニット２９０をアクティブ化し、入力音ストリームの受信部分および残存部分がキーワード検出ユニット２９０に提供される。いくつかの他の実施形態では、音声検出器２８０は、電子デバイス１４０において省略され得る。この場合、受信部分がしきい値強度を上回るとき、音センサー２７０は、キーワード検出ユニット２９０をアクティブ化し、入力音ストリームの受信部分および残存部分をキーワード検出ユニット２９０に直接提供する。代替として、音声検出器２８０は省略され、音センサー２７０は、（たとえば、音強度とは無関係に）入力音ストリームの実質的にすべてをキーワード検出ユニット２９０に直接提供し得る。

[0046]キーワード検出ユニット２９０は、アクティブ化されたときに、入力音ストリームを受信し、キーワードモデルに基づいてターゲットキーワードを検出するように構成される。入力音ストリームにおいてターゲットキーワードが検出されたとき、キーワード検出ユニット２９０は、検出されているターゲットキーワードを示す検出信号を生成し、制御ユニット２５０に検出信号を送信する。検出信号に応答して、制御ユニット２５０は、検出されたターゲットキーワードに関連する機能を実行する。キーワード検出ユニット２９０は、複数のキーワードモデルに基づいて複数のターゲットキーワードを検出するように構成され得る。この場合、複数のキーワードモデルは、以下で詳細に説明するキーワード検出モデル（たとえば、合成キーワードモデル）に合成され得る。

[0047]制御ユニット２５０はまた、ターゲットキーワードに関連するＡｃｋ音データと音声トーンモデルとをストレージユニット２４０から取り出し得る。この場合、制御ユニット２５０は、ターゲットキーワードの検出を示すためにスピーカー２３０を介して出力する確認応答音を、取り出されたＡｃｋ音データから生成し得る。ＴＴＳ変換ユニット２２０は、制御ユニット２５０から音声トーンモデルを受信し、受信された音声トーンモデルに基づいてＴＴＳ変換ユニット２２０の音声トーンを修正するように構成される。次いでＴＴＳ変換ユニット２２０は、ユーザに出力され得るテキストを、修正された音声トーンにより音声に変換し、スピーカー２３０を介して音声を出力する。

[0048]図３は、本開示の一実施形態による、被選択ターゲットキーワードを検出するための、選択され、電子デバイス１４０にダウンロードされ得る電子デバイス１４０のディスプレイ画面３１０上のターゲットキーワードからなるリストを示している。キーワードストアがサーバ１１０から、ターゲットキーワードからなるリストを提供する。キーワードストアの上側部分には、「ランキング（RANKING）」、「新規（NEW）」、および「検索（SEARCH）」など、複数のメニュータブが表示され得る。図３の実施形態では、「ランキング」メニュータブの下側部分に太い線によって示されているように、ユーザ入力（たとえば、ディスプレイ画面３１０上のタッチ入力）によってメニュータブ「ランキング」が選択されたとき、電子デバイス１４０は、ターゲットキーワードの評点に基づいてソートされているターゲットキーワードからなるリストを表示する。この場合、より高い評点を有するターゲットキーワード（たとえば、「ちょっと、アシスタント（HEY ASSISTANT）」）が、より低い評点を有するターゲットキーワード（たとえば、「はい、チーズ（SAY CHEESE）」）の前に表示される。

[0049]いくつかの実施形態では、ターゲットキーワードからなるリストは、それらのダウンロード価格とともに表示され得る。図３の実施形態では、ターゲットキーワードの「ちょっと、アシスタント」および「開けゴマ（OPEN SESAME）」はダウンロード無料であり、したがって、右側部分に「無料」と示されている。一方、ターゲットキーワードの「はい、チーズ」および「記録を開始する（START RECORDING）」は、それぞれダウンロードが＄０．９９および＄１．９９であり、それらの価格は、ターゲットキーワードの右側部分に表示されている。ユーザがターゲットキーワードからなるリストからターゲットキーワードを選択したとき、電子デバイス１４０は、（必要な場合、支払い処理の後）被選択ターゲットキーワードを検出する際に使用するキーワードモデルを含むキーワードデータファイルをダウンロードする。キーワードデータファイルはまた、被選択ターゲットキーワードに関連するＡｃｋ音データと音声トーンモデルとを含み得る。

[0050]別の実施形態では、サーバ１１０にターゲットキーワードがアップロードされた順序でターゲットキーワードからなるリストを表示するために、メニュータブ「新規」が選択され得る。代替的に、メニュータブ「検索」が選択されたとき、ユーザが関心を有し得るターゲットキーワードを突き止めるために、検索ウィンドウまたは検索ボックスを表示することによって、検索機能が提供される。この場合、ユーザは、検索ウィンドウまたは検索ボックスに検索語を入力し得、電子デバイス１４０は、検索語に応答してディスプレイ画面３１０に１つまたは複数のターゲットキーワードを表示する。

[0051]図４は、本開示の一実施形態による、ヘッダ４１０と、キーワードモデル４２０と、Ａｃｋ音データ４３０と、音声トーンモデル４４０と、エラーチェックデータ４５０とを含む例示的なキーワードデータファイル４００を示している。ヘッダ４１０は、プロバイダ情報、データサイズ、データタイプ、作成日などのような、キーワードモデル４２０に関係する情報を含み得る。ヘッダ４１０は、互換性チェックのための互換性情報またはバージョン情報をさらに含み得る。この場合、互換性またはバージョン情報は、キーワードモデル４２０のタイプ（たとえば、ＨＭＭ方法に基づいて生成されたモデル）、キーワードモデル４２０の適用可能な認識アルゴリズムなどを示し得る。

[0052]図４に示すように、キーワードモデル４２０は、ターゲットキーワード４２２と、キーワードモデルパラメータ４２４と、しきい値４２６とを含む。ターゲットキーワード４２２は、テキスト列または１つもしくは複数の単語であり得る。キーワードモデルパラメータ４２４は、ターゲットキーワード４２２の音特性を示しており、ターゲットキーワード４２２を検出するためにキーワードモデル４２０が最適化され得るように、多数のキーワード記録のトレーニングに基づいて生成され得る。たとえば、複数の人々からのキーワード記録がトレーニングに使用され得る。特定の実施形態では、キーワードモデル４２０は、ユーザ固有ではなく、ターゲットキーワード４２２の言語のすべての音素よりも少ない音素をモデル化するための情報（たとえば、キーワードモデルパラメータ４２４）を含む。

[0053]いくつかの実施形態では、キーワードモデルパラメータ４２４は、ターゲットキーワードの複数の部分に関連する複数の状態に関する状態情報を含む。一実施形態では、ターゲットキーワード４２２は、単音、音素など、音の複数の基本単位、またはそれらのサブ単位に分割され得、音の基本単位に基づいて、ターゲットキーワード４２２を表す複数の部分が生成され得る。次いで、ターゲットキーワードの各部分は、マルコフ連鎖モデル（隠れマルコフモデル（ＨＭＭ）またはセミマルコフモデル（ＳＭＭ）など）、リカレントニューラルネットワークのノード、またはそれらの組合せに基づく状態に関連付けられる。状態情報は、状態の各々からそれ自体を含む次の状態への移行情報を含み得る。キーワードモデルパラメータ４２４はまた、入力音の観測スコアを決定するための確率モデルを含む。たとえば、確率モデルは、ＧＭＭ、ニューラルネットワーク、およびＳＶＭなど、任意の適切なモデルであり得る。しきい値４２６は、入力音がターゲットキーワードを含むことを保証するための最小信頼性値である。しきい値４２６は、ターゲットキーワードを含まない入力音からターゲットキーワードが誤って検出されることのないように、適切な値に決定され得る。

[0054]Ａｃｋ音データ４３０は、ターゲットキーワードの検出を示す確認応答音を出力する際に使用され得る。Ａｃｋ音データ４３０がオーディオデータである場合、電子デバイス１４０は、確認応答音を生成し出力するために、オーディオデータを変換し得る。一方、Ａｃｋ音データ４３０がオーディオデータではなく、テキスト列または１つもしくは複数の単語である場合、電子デバイス１４０は、ターゲットキーワード４２２に関連する音声トーンモデル４４０に基づいて、テキスト列または単語を音声に変換することによって、確認応答音を生成し出力し得る。

[0055]音声トーンモデル４４０は、テキストから生成された音声の音声トーンを修正するように適合される。エラーチェックデータ４５０は、キーワードデータファイル４００のデータの完全性をチェックする際、および／または偶発的変化を検出する際に使用され得る。たとえば、エラーチェックデータ４５０は、巡回冗長検査（ＣＲＣ）コードであり得る。

[0056]図５は、本開示の一実施形態による、被選択機能にターゲットキーワードを割り当て、ターゲットキーワードが検出されたときに被選択機能を実行するように構成された電子デバイス１４０における制御ユニット２５０のより詳細なブロック図を示している。制御ユニット２５０は、ダウンロード管理ユニット５１０と、確認ユニット５２０と、摘出ユニット５３０と、キーワード設定ユニット５４０と、機能管理ユニット５５０とを含む。ダウンロード管理ユニット５１０は、テキストファイル、オーディオファイル、ビデオファイル、キーワードデータファイル、アプリケーションファイルなどのような、任意のタイプのファイルをダウンロードするように構成され得る。

[0057]ターゲットキーワードを検出する際に使用するキーワードモデルを含むキーワードデータファイルをダウンロード管理ユニット５１０がダウンロードしたとき、確認ユニット５２０は、キーワードデータファイルを受信し、ダウンロードされたキーワードデータファイルのヘッダにおける互換性情報またはバージョン情報に基づいて、キーワード検出ユニット２９０においてキーワードモデルが使用され得るかどうかを確認する。確認ユニット５２０はまた、ダウンロードされたキーワードデータファイルのエラーチェックデータを復号することによって、ダウンロードされたキーワードデータファイルのデータの完全性をチェックし得る。ダウンロードされたキーワードモデルがキーワード検出ユニット２９０に適合する（compatible）ことを確認ユニット５２０が確認した場合、抽出ユニット５３０は、ダウンロードされたキーワードデータファイルからキーワードモデルを抽出し、抽出されたキーワードモデルをストレージユニット２４０に記憶する。特定の実施形態では、キーワードデータファイルがキーワード検出ユニット２９０に適合しないと確認ユニット５２０が決定した場合、制御ユニット２５０は、キーワード検出ユニット２９０に適合するバージョンにキーワードモデルを変換しようと試み得る。別の特定の実施形態では、キーワードデータファイルがキーワード検出ユニット２９０に適合しないと確認ユニット５２０が決定した場合、ダウンロード管理ユニット５１０は、キーワードモデルの別のバージョンをダウンロードしようと試み得る。たとえば、ダウンロード管理ユニット５１０は、図１のサーバ１１０にキーワードモデルの第２のバージョンについての要求を送ることがあり、この場合、キーワードモデルの第２のバージョンは、キーワード検出ユニット２９０に適合する。別の例では、ダウンロード管理ユニット５１０は図２の通信ユニット２１０に、電子デバイス１４０に関係する情報をサーバ１１０に送らせることがある。電子デバイス１４０に関係する情報は、たとえば、デバイスタイプ識別子、モデル名識別子、モデルタイプ識別子、キーワード検出ユニットバージョン識別子、他の情報、またはそれらの組合せを含み得る。サーバ１１０は、キーワード検出ユニット２９０に適合するキーワードモデルを選択し送信するために、電子デバイス１４０に関係する情報を使用し得る。抽出ユニット５３０は、第２のダウンロードされたキーワードデータファイルからキーワードモデルの第２のバージョンを抽出し、キーワードモデルの抽出された第２のバージョンをストレージユニット２４０に記憶する。キーワードデータファイルがさらにＡｃｋ音データと音声トーンモデルとを含むとき、抽出ユニット５３０は、ダウンロードされたキーワードデータファイルからＡｃｋ音データと音声トーンモデルとを抽出し、それらをストレージユニット２４０に記憶する。

[0058]電子デバイス１４０は、複数のターゲットキーワードを複数の機能にマッピングするキーワード／機能データベースをストレージユニット２４０に記憶し得る。キーワード／機能データベースは、製造業者もしくは通信事業者によって電子デバイス１４０において提供されること、またはユーザ入力に応答して作成されることがある。キーワード設定ユニット５４０は、新しいキーワード／機能データベースを作成するか、または既存のキーワード／機能データベースを更新するように構成される。

[0059]キーワード設定ユニット５４０は、ユーザがターゲットキーワードと電子デバイス１４０における機能とを、入力音において被選択ターゲットキーワードが検出されたときに被選択機能を実行するために選択することを可能にする。ターゲットキーワードと機能とを選択すると、キーワード設定ユニット５４０は、被選択機能に被選択ターゲットキーワードを割り当てる。既存のキーワード／機能データベースが発見されなかった場合、キーワード設定ユニット５４０は、被選択ターゲットキーワードを被選択機能にマッピングする新しいキーワード／機能データベースを生成する。一方、キーワード／機能データベースがすでに存在する場合、既存のデータベースが被選択ターゲットキーワードおよび機能のマッピングにより更新される。キーワード設定ユニット５４０はキーワード／機能データベースを、ターゲットキーワードおよび機能の追加的選択またはデータベースにおける既存のエントリの削除に応答して更新し得る。

[0060]電子デバイス１４０はまた、複数のキーワードモデルに関連するターゲットキーワードを検出する際に使用する複数のキーワードモデルを含むキーワード検出モデルを、ストレージユニット２４０またはキーワード検出ユニット２９０に記憶し得る。機能に被選択ターゲットキーワードを割り当てると、キーワード設定ユニット５４０は、被選択ターゲットキーワードに関するキーワードモデルをストレージユニット２４０から取り出し得る。既存のキーワード検出モデルが発見されなかった場合、キーワード設定ユニット５４０は、取り出されたキーワードモデルをキーワード検出モデルとしてストレージユニット２４０またはキーワード検出ユニット２９０に送り得る。一方、キーワード検出モデルがすでに存在する場合、取り出されたキーワードモデルを追加することによって、既存のモデルが更新される。たとえば、第１のターゲットキーワードに関してキーワード検出モデルが存在するとき、ユーザは、第２のターゲットキーワードに関するキーワードデータファイルをダウンロードし得る。この例では、確認ユニット５２０によってキーワードデータファイルが確認された後、抽出ユニット５３０は、第２のターゲットキーワードに関するキーワードモデルをキーワードデータファイルから抽出する。キーワード設定ユニット５４０は、更新済みキーワード検出モデル（たとえば、第１のターゲットキーワードおよび第２のターゲットキーワードに関する合成キーワード検出モデル）を形成するために、第２のターゲットキーワードに関する抽出されたキーワードモデルを既存のキーワード検出モデルとマージ（merge）または合成（combine）する（たとえば、連結する）。キーワード設定ユニット５４０は、入力音ストリームにおいてターゲットキーワードを検出する際に使用する更新済みキーワード検出モデルを、ストレージユニット２４０またはキーワード検出ユニット２９０に提供する。キーワード設定ユニット５４０はまた、ターゲットキーワードおよび機能の追加的選択またはキーワード／機能データベースにおける既存のエントリの削除に応答して、キーワード検出モデルを更新し得る。

[0061]キーワード検出ユニット２９０がキーワード検出モデルに基づいてターゲットキーワードを検出したとき、キーワード検出ユニット２９０は、検出されているターゲットキーワードを示す検出信号を生成する。検出信号に応答して、機能管理ユニット５５０は、検出されたターゲットキーワードに関連する機能を識別するために、キーワード／機能データベースにアクセスする。次いで、機能管理ユニット５５０は、識別された機能を実行する。

[0062]さらに、機能管理ユニット５５０は、検出されたターゲットキーワードに関連するＡｃｋ音データと音声トーンモデルとをストレージユニット２４０から取り出し得る。この場合、機能管理ユニット５５０は、ターゲットキーワードの検出を示すために、取り出されたＡｃｋ音データに基づいて確認応答音を生成し出力し得る。機能管理ユニット５５０はまた、ＴＴＳ変換ユニット２２０によって生成された音声の音声トーンを修正するために、ＴＴＳ変換ユニット２２０に音声トーンモデルを送信し得る。

[0063]図６は、本開示の一実施形態による、キーワードモデルに関連するターゲットキーワードを検出する際に使用するキーワードモデルをサーバ１１０から受信するための電子デバイス１４０において実行される例示的な方法６００のフローチャートを示している。最初に、電子デバイス１４０は、サーバ１１０における複数のターゲットキーワードにアクセスし、６１０において、電子デバイス１４０のユーザは、複数のターゲットキーワードからターゲットキーワードを選択する。ユーザの選択に応答して、６２０において、電子デバイス１４０は、被選択ターゲットキーワードに関するキーワードデータファイルをサーバ１１０から受信する。キーワードデータファイルは、被選択ターゲットキーワードを検出する際に使用するキーワードモデルを含む。キーワードデータファイルはまた、Ａｃｋ音データと音声トーンモデルとを含み得る。

[0064]６３０において、電子デバイス１４０はキーワード検出のために、受信されたキーワードデータファイルを確認する。一実施形態では、電子デバイス１４０は、受信されたキーワードデータファイルにおけるキーワードモデルがキーワード検出ユニット２９０において使用され得るかどうかを、キーワードデータファイルのヘッダにおける互換性情報またはバージョン情報に基づいて確認する。キーワードモデルがキーワード検出ユニット２９０に適合することを電子デバイス１４０が確認した場合、６４０において、電子デバイス１４０は、受信されたキーワードデータファイルからキーワードモデルを抽出する。キーワードモデルがキーワード検出ユニット２９０に適合しないと電子デバイス１４０が決定した場合、制御ユニット２５０が、キーワードモデルを互換バージョンに変換しようと試み得るか、または電子デバイス１４０が、キーワード検出ユニット２９０に適合するキーワードモデルの異なるバージョンを自動的にダウンロードし得る。キーワードデータファイルがさらにＡｃｋ音データと音声トーンモデルとを含むとき、電子デバイス１４０はさらに、受信されたキーワードデータファイルからＡｃｋ音データと音声トーンモデルとを抽出する。

[0065]次いで６５０において、電子デバイス１４０は、抽出されたキーワードモデルをストレージユニット２４０に記憶する。受信されたキーワードデータファイルからＡｃｋ音データおよび音声トーンモデルも抽出された場合、電子デバイス１４０は、抽出されたＡｃｋ音データと音声トーンモデルとをストレージユニット２４０に記憶する。別のターゲットキーワードに関係するキーワード検出モデルがキーワード検出ユニット２９０によってすでに使用されている場合、電子デバイス１４０は、更新済みキーワード検出モデル（たとえば、被選択ターゲットキーワードおよび他のターゲットキーワードに関する合成キーワード検出モデル）を形成するために、キーワード検出ユニット２９０によって使用されているキーワード検出モデルと抽出されたキーワードモデルをマージまたは合成（たとえば、連結）し得る。キーワード設定ユニット５４０は、入力音ストリームにおいて１つまたは複数のターゲットキーワードを検出する際に使用する更新済みキーワード検出モデルを、ストレージユニット２４０またはキーワード検出ユニット２９０に提供する。６６０において、方法６００は、別のターゲットキーワードが選択されるかどうかを決定する。たとえば、電子デバイス１４０は、ユーザが別のターゲットキーワードを選択するかどうかを示すユーザからの入力を受信するのを待ち得る。別のターゲットキーワードが選択されると決定された場合、方法６００は、次のターゲットキーワードを選択するために６１０に戻る。そうでない場合、方法６００は終了する。

[0066]図７は、本開示の一実施形態による、サーバ１１０からアプリケーションファイルを受信し、アプリケーションファイルからキーワードモデルを抽出するための電子デバイス１４０において実行される例示的な方法７００のフローチャートを示している。最初に、電子デバイス１４０は、サーバ１１０における複数のアプリケーションにアクセスし、７１０において、電子デバイス１４０のユーザは、ダウンロードおよびインストールのために複数のアプリケーションからアプリケーションを選択する。ユーザの選択に応答して、７２０において、電子デバイス１４０は、被選択アプリケーションをインストールするためのアプリケーションファイルを受信する。アプリケーションファイルは、ターゲットキーワードを検出し、ターゲットキーワードの検出に伴ってアプリケーションをアクティブ化する際に使用され得るキーワードモデルを含み得る。この場合、アプリケーションファイルはまた、ターゲットキーワードに関連するＡｃｋ音データと音声トーンモデルとを含み得る。

[0067]７３０において、方法７００は、受信されたアプリケーションファイルにキーワードモデルが存在するかどうかを決定する。受信されたアプリケーションファイルにキーワードモデルが存在しないと決定された場合、７８０において、電子デバイス１４０にアプリケーションがインストールされる。アプリケーションをインストールした後、方法７００は７９０に進む。

[0068]一方、受信されたアプリケーションファイルにキーワードモデルが存在すると決定された場合、キーワード検出のためにキーワードモデルを確認するために、方法７００は７４０に進む。一実施形態では、電子デバイス１４０は、ターゲットキーワードを検出するためにキーワード検出ユニット２９０においてアプリケーションファイルにおけるキーワードモデルが使用され得るかどうかを、アプリケーションファイルのヘッダにおける互換性またはバージョン情報に基づいて確認する。キーワードモデルがキーワード検出ユニット２９０に適合することを電子デバイス１４０が確認した場合、７５０において、電子デバイス１４０は、受信されたアプリケーションファイルからキーワードモデルを抽出し、抽出されたキーワードモデルをストレージユニット２４０に記憶する。キーワードモデルがキーワード検出ユニット２９０に適合しないと電子デバイス１４０が決定した場合、電子デバイス１４０は、キーワード検出ユニット２９０に適合するキーワードモデルの異なるバージョンを自動的にダウンロードし得る。アプリケーションファイルがさらにＡｃｋ音データと音声トーンモデルとを含むとき、Ａｃｋ音データおよび音声トーンモデルは、受信されたアプリケーションファイルから抽出され、ストレージユニット２４０に記憶される。

[0069]キーワードモデルを抽出した後、７６０において、受信されたアプリケーションファイルを使用して電子デバイス１４０にアプリケーションがインストールされる。次いで７７０において、アプリケーションファイルにおけるキーワードモデルに関連するターゲットキーワードがアプリケーションに、キーワードモデルに基づくターゲットキーワードの検出に伴ってインストール済みアプリケーションをアクティブ化するために割り当てられる。７９０において、方法７００は、別のアプリケーションが選択されるかどうかを決定する。別のアプリケーションが選択されると決定された場合、方法７００は、別のアプリケーションを選択するために７１０に戻る。そうでない場合、方法７００は終了する。

[0070]図８は、本開示の一実施形態による、機能にターゲットキーワードを割り当てるためのメニュー８１０および８２０を示す電子デバイス１４０におけるディスプレイ画面３１０を示している。最初に、複数の機能からなるリストから機能を選択するために、ディスプレイ画面３１０上にメニュー８１０が表示され得る。図示のように、複数の機能からなるリストは、音声アシスタントアプリケーションをアクティブ化すること、写真を撮ること、電子デバイス１４０をロック解除すること、ボイスレコーダアプリケーションをアクティブ化することなどを含む。

[0071]電子デバイス１４０のユーザは、メニュー８１０から機能を選択し得る。たとえば、ユーザは機能「音声アシサントをアクティブ化する（ACTIVATE VOICE ASSISANT）」を選択し得る。それに応答して、電子デバイス１４０は、選択機能を実行するための、すなわち、音声アシスタントアプリケーションをアクティブ化するためのターゲットキーワードをユーザが選択することができるように、メニュー８２０を表示する。

[0072]ターゲットキーワードを選択するためのメニュー８２０は、電子デバイス１４０に記憶されたキーワードモデルに関連するターゲットキーワードからなるリストを表示する。ユーザは、機能「音声アシサントをアクティブ化する」に被選択ターゲットキーワードを割り当てるために、メニュー８２０からターゲットキーワードを選択し得る。たとえば、ターゲットキーワード「ちょっと、アシスタント」が被選択機能、すなわち、音声アシスタントアプリケーションをアクティブ化することに割り当てられ得る。ターゲットキーワードを選択するためのメニュー８２０はまた、新しいターゲットキーワードをダウンロードするためのメニュー項目を提供し得る。たとえば、ユーザは、メニュー項目「新しいキーワードをダウンロードする（DOWNLOAD NEW KEYWORD）」を選択することによって、図３に示すキーワードストアを立ち上げ、新しいターゲットキーワードと関連キーワードモデルとをサーバ１１０からダウンロードし得る。

[0073]ターゲットキーワード「ちょっと、アシスタント」が機能「音声アシスタントをアクティブ化する」に割り当てられたとき、電子デバイス１４０は、被選択キーワード「ちょっと、アシスタント」を被選択機能「音声アシサントをアクティブ化する」にマッピングすることによって、キーワード／機能データベースを更新する。電子デバイス１４０はまた、被選択キーワード「ちょっと、アシスタント」に関するキーワードモデルを取り出し、取り出されたキーワードモデルを追加することによってキーワード検出モデルを更新する。更新済みキーワード検出モデルに基づいて、電子デバイス１４０は、入力音においてターゲットキーワード「ちょっと、アシスタント」を検出し、更新済みキーワード／機能データベースにアクセスすることによって音声アシスタントアプリケーションをアクティブ化し得る。

[0074]図９は、本開示の一実施形態による、複数のターゲットキーワードを複数の機能にマッピングする例示的なキーワード／機能データベース９００である。図示の実施形態では、ターゲットキーワードの「はい、チーズ」、「開けゴマ」、「ちょっと、アシスタント」および「記録を開始する」が、それぞれ機能の「写真を撮る」、「デバイスをロック解除する」、「音声アシスタントをアクティブ化する」および「ボイスレコーダをアクティブ化する」にマッピングされる。キーワード／機能データベース９００はまた、ターゲットキーワード（たとえば、「はい、チーズ」）を関連するＡｃｋ音データ（たとえば、ビープ音）および音声トーンモデル（たとえば、ロボットの音声）にマッピングし得る。キーワード／機能データベース９００は、複数のターゲットキーワードを複数の機能に関連付けるルックアップテーブルまたは任意の他のデータ構造として実装され得る。

[0075]図５を参照しながら上述したように、電子デバイス１４０がターゲットキーワード（たとえば、「はい、チーズ」）をそれのキーワードモデルに基づいて検出したとき、電子デバイス１４０は、検出されたターゲットキーワードに関連する機能（たとえば、写真を撮ること）を識別するためにキーワード／機能データベース９００をアクセスする。次いで電子デバイス１４０は、識別された機能（たとえば、写真を撮ること）を実行する。さらに、電子デバイス１４０は、キーワード／機能データベース９００における検出されたターゲットキーワード（たとえば、「はい、チーズ」）に関連付けられるＡｃｋ音データ（たとえば、ビープ音）と音声トーンモデル（たとえば、ロボットの音声）とをストレージユニット２４０から取り出し得る。

[0076]Ａｃｋ音データを取り出すと、電子デバイス１４０は、ターゲットキーワード（たとえば、「はい、チーズ」）が検出されていることを示す確認応答音を生成し出力するために、取り出されたＡｃｋ音データ（たとえば、ビープ音）を変換し得る。Ａｃｋ音データがオーディオデータではなく、テキスト列または１つもしくは複数の単語である場合、電子デバイス１４０は、ターゲットキーワードに関連する音声トーンモデルに基づいて、テキスト列または単語を音声に変換することによって、確認応答音を生成し出力し得る。たとえば、電子デバイス１４０は、ターゲットキーワード「ちょっと、アシスタント」を検出したとき、機能「音声アシスタントをアクティブ化する」を実行し、「女性の音声２（FEMALE VOICE 2）」の音声トーンで確認応答音「お手伝いしましょうか？（MAY I HELP YOU?）」を生成する。

[0077]電子デバイス１４０はまた、ＴＴＳ変換ユニット２２０によって生成された音声の音声トーンを修正するために、ターゲットキーワードに関連する音声トーンモデル（たとえば、ロボットの音声）をＴＴＳ変換ユニット２２０に送信し得る。音声トーンモデルが設定されると、ＴＴＳ変換ユニット２２０は、検出されたターゲットキーワードに関連する音声トーンモデルに基づいて、テキスト音声変換を実行する。たとえば、ターゲットキーワード「はい、チーズ」を検出した後、電子デバイス１４０は、照明が写真を撮るには不十分であると決定し得る。この場合、電子デバイス１４０は、「不十分な照明」などのオーディオメッセージを生成するために、音声トーンモデル「ロボットの音声（ROBOTIC VOICE）」に基づいてテキスト音声変換を実行し得る。

[0078]図１０Ａは、本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード／機能データベースを更新するための電子デバイス１４０において実行される例示的な方法１０１０のフローチャートを示している。最初に１０１２において、電子デバイス１４０のユーザが、ターゲットキーワードを割り当てるために複数の機能からなるリストから機能を選択する。次いで１０１４において、ユーザは、被選択機能に関するターゲットキーワードを、被選択機能に被選択ターゲットキーワードを割り当てるために選択する。機能とターゲットキーワードとを選択することは、図８を参照しながら上述したような方法で実行され得る。

[0079]それに応答して、１０１６において、電子デバイス１４０は、被選択機能に被選択ターゲットキーワードを割り当てる。機能にターゲットキーワードが割り当てられたとき、方法１０１０は、キーワード／機能データベースが存在するかどうかを決定する。キーワード／機能データベースがすでに存在すると決定された場合、方法１０１０は、被選択ターゲットキーワードおよび被選択機能のマッピングにより既存のデータベースを更新するために、１０２０に進む。一方、既存のキーワード／機能データベースが発見されなかった場合、方法１０１０は、被選択ターゲットキーワードを被選択機能にマッピングする新しいキーワード／機能データベースを作成するために、１０２２に進む。キーワード／機能データベースを更新または作成した後、方法１０１０は、以下で詳細に説明するように、被選択ターゲットキーワードに関するキーワードモデルを抽出するために、図１０Ｂにおける１０３２に進む。

[0080]図１０Ｂは、本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード検出モデルを更新するための電子デバイス１４０において実行される例示的な方法１０３０のフローチャートを示している。最初に、図１０Ａの方法１０１０においてキーワード／機能データベースを更新または作成した後、１０３２において、電子デバイス１４０は、被選択ターゲットキーワードに関するキーワードモデルをストレージユニット２４０から取り出す。取り出されたキーワードモデルは、ターゲットキーワードと、キーワードモデルパラメータと、しきい値とを含み得る。

[0081]キーワードモデルが取り出されたとき、方法１０３０は１０３４において、キーワード検出モデルがすでに存在するかどうか（たとえば、キーワード検出ユニット２９０がキーワード検出モデルをすでに使用しているかどうか）を決定する。既存のキーワード検出モデルが発見されなかった場合、方法１０３０は、取り出されたキーワードモデルをキーワード検出モデルとしてキーワード検出ユニット２９０に送るために、１０４０に進む。一方、キーワード検出モデルがすでに存在すると決定された場合、方法１０３０は、既存のキーワード検出モデルを更新するために、１０３６に進む。たとえば、電子デバイス１４０は、取り出されたキーワードモデルを既存のキーワード検出モデルに追加することによって（たとえば、合成キーワード検出モデルを形成するために、取り出されたキーワードモデルとキーワード検出モデルとをマージすることによって）、キーワード検出モデルを更新し得る。次いで１０３８において、電子デバイス１４０は、被選択ターゲットキーワードを検出する際に使用する更新済みキーワード検出モデルをキーワード検出ユニット２９０に送る。

[0082]図１１は、本開示の一実施形態による、複数のキーワードモデルを含む例示的なキーワード検出モデル１１００を示している。キーワード検出モデル１１００は、キーワードモデルに関するターゲットキーワード１１１０と、キーワードモデルパラメータ１１２０と、しきい値１１３０とを含む。図示の実施形態では、ターゲットキーワード１１１０、キーワードモデルパラメータ１１２０、およびしきい値１１３０は、それらのカテゴリに従ってキーワード検出モデル１１００において別個に並べられている。別の機能に新しいターゲットキーワードが割り当てられたとき、新しいターゲットキーワードに関連するキーワードモデルが、キーワード検出モデル１１００におけるキーワードモデルと合成され得る。

[0083]上記で図５を参照しながら述べたように、キーワード検出ユニット２９０は、キーワード検出モデル１１００に基づいて入力音においてターゲットキーワード１１１０を検出するように構成され得る。キーワード検出ユニット２９０は、ターゲットキーワード１１１０のうちの１つを検出したとき、検出されているターゲットキーワードを示す検出信号を生成し、制御ユニット２５０に検出信号を送信する。検出信号に応答して、制御ユニット２５０は、キーワード／機能データベースにアクセスすることによって、検出されたターゲットキーワードに関連する機能を実行する。図１１におけるキーワード検出モデル１１００は、ターゲットキーワード１１１０と、キーワードモデルパラメータ１１２０と、しきい値１１３０とを含むが、キーワード検出モデル１１００は、随意の項目としてターゲットキーワード１１１０を含んでよい。

[0084]図１２は、本開示の一実施形態による、入力音において関連ターゲットキーワードを検出したことに応答して複数の機能を実行するように構成された電子デバイス１４０を示している。図示の実施形態では、ユーザ１２１０は、異なる時間に電子デバイス１４０に、３つの異なるターゲットキーワードの「はい、チーズ」、「記録を開始する」および「ちょっと、アシスタント」を話しかける。入力音に応答して、電子デバイス１４０は、キーワード検出モデル１１００に基づいてターゲットキーワードを検出し得る。ターゲットキーワード「はい、チーズ」が検出された場合には、電子デバイス１４０は、キーワード／機能データベース９００にアクセスし、写真を撮る関連機能を実行する。さらに、電子デバイス１４０は、ターゲットキーワード「はい、チーズ」に関連するＡｃｋ音データに基づいてビープ音を生成し、出力し得る。

[0085]同様に、ターゲットキーワード「記録を開始する」が検出されたとき、電子デバイス１４０は、キーワード／機能データベース９００に基づいてボイスレコーダアプリケーションをアクティブ化する関連機能を実行する。電子デバイス１４０はまた、ターゲットキーワード「記録を開始する」に関連するＡｃｋ音データに基づいて呼出し音を生成し、出力し得る。ターゲットキーワード「ちょっと、アシスタント」が検出された場合には、電子デバイス１４０は、キーワード／機能データベース９００にアクセスし、音声アシスタントアプリケーションをアクティブ化する関連機能を実行する。さらに、電子デバイス１４０は、ターゲットキーワード「ちょっと、アシスタント」に関連するＡｃｋ音データと音声トーンモデルとを使用することによって、「女性の音声２」の音声トーンで確認応答音「お手伝いしましょうか？」を生成し出力する。

[0086]図１３は、本開示の一実施形態による、ターゲットキーワードに関連する音声トーンモデルに基づいてテキストから音声データを生成するように構成された電子デバイス１４０を示している。上記で図１２を参照しながら述べたように、ターゲットキーワード「ちょっと、アシスタント」が検出されたとき、電子デバイスは、ターゲットキーワードに関連する音声アシスタントアプリケーションをアクティブ化し、「女性の音声２」の音声トーンで確認応答音「お手伝いしましょうか？」を出力する。それに応答して、ユーザ１３１０は、音声コマンドを話すことによって音声アシスタントアプリケーションを通じて様々な動作を実行し得る。

[0087]図示の実施形態では、ユーザ１３１０は、音声コマンド「今日の気象はどうですか？」を話すことによって気象予報を尋ね得る。次いで電子デバイス１４０は、電子デバイス１４０のＧＰＳ（全地球測位システム）情報に基づいて通信ネットワーク１５０を通じて気象情報にアクセスし、受信された気象情報をディスプレイ画面３１０に表示し得る。さらに、電子デバイス１４０はまた、ターゲットキーワード「ちょっと、アシスタント」に関連する音声トーン「女性の音声２」による音声にテキストメッセージ「サンディエゴは晴れ、気温は７４度です」を変換することによって、気象情報を出力し得る。

[0088]図１４は、本開示の一実施形態による、入力音において検出されたターゲットキーワードに関連する機能を実行するための電子デバイス１４０において実行される例示的な方法１４００のフローチャートを示している。最初に１４１０において、電子デバイス１４０は、音センサー２７０によって入力音を受信する。次いで１４２０において、電子デバイス１４０は、キーワード検出モデルに基づいて入力音からターゲットキーワードを検出する。

[0089]ターゲットキーワードを検出すると、電子デバイス１４０は、１４３０において、検出されたターゲットキーワードに関連する機能を識別するために、キーワード／機能データベースにアクセスする。キーワード／機能データベースにアクセスすることによって、電子デバイス１４０はさらに、検出されたターゲットキーワードに関連するＡｃｋ音データと音声トーンモデルとを識別し得る。次いで方法１４００は、検出されたターゲットキーワードに関連する機能を実行するために１４４０に進む。さらに１４５０において、検出されたターゲットキーワードに関連するＡｃｋ音データに基づいて確認応答音が出力される。機能を実行した後、１４６０において、電子デバイス１４０は、識別された音声トーンモデルに基づいてＴＴＳ変換ユニット２２０の音声トーンを修正する。

[0090]図１５は、本開示のいくつかの実施形態による、機能を動作させるためのターゲットキーワードを設定するための方法および装置が実装され得るワイヤレス通信システムにおけるモバイルデバイス１５００のブロック図を示している。モバイルデバイス１５００は、セルラーフォン、端末、ハンドセット、携帯情報端末（ＰＤＡ）、ワイヤレスモデム、コードレスフォン、タブレットなどであり得る。ワイヤレス通信システムは、符号分割多元接続（ＣＤＭＡ）システム、モバイル通信用グローバルシステム（ＧＳＭ（登録商標）：Global System for Mobile Communications）システム、広帯域ＣＤＭＡ（Ｗ−ＣＤＭＡ（登録商標））システム、ロングタームエボリューション（ＬＴＥ：Long Tern Evolution）システム、ＬＴＥＡｄｖａｎｃｅｄシステムなどであり得る。

[0091]モバイルデバイス１５００は、受信経路および送信経路を介して双方向通信を行うことが可能であり得る。受信経路上では、基地局によって送信された信号は、アンテナ１５１２によって受信され、受信機（ＲＣＶＲ）１５１４に与えられる。受信機１５１４は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化された信号をデジタルセクション１５２０に与える。送信経路上では、送信機（ＴＭＴＲ）は、デジタルセクション１５２０から送信されるべきデータを受信し、データを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ１５１２を介して基地局に送信される。受信機１５１４および送信機１５１６は、ＣＤＭＡ、ＧＳＭ、Ｗ−ＣＤＭＡ、ＬＴＥ、ＬＴＥＡｄｖａｎｃｅｄなどをサポートするトランシーバの一部である。

[0092]デジタルセクション１５２０は、たとえば、モデムプロセッサ１５２２、縮小命令セットコンピュータ／デジタル信号プロセッサ（ＲＩＳＣ／ＤＳＰ）１５２４、コントローラ／プロセッサ１５２６、内部メモリ１５２８、一般化オーディオエンコーダ１５３２、一般化オーディオデコーダ１５３４、グラフィックス／ディスプレイプロセッサ１５３６、および／または外部バスインターフェース（ＥＢＩ）１５３８など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ１５２２は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行する。ＲＩＳＣ／ＤＳＰ１５２４は、モバイルデバイス１５００のための一般的処理と専用処理とを実行する。コントローラ／プロセッサ１５２６は、デジタルセクション１５２０内の様々な処理およびインターフェースユニットの演算を制御する。内部メモリ１５２８は、デジタルセクション１５２０内の様々なユニットのためのデータおよび／または命令を記憶する。

[0093]一般化オーディオエンコーダ１５３２は、オーディオソース１５４２、マイクロフォン１５４３などからの入力信号に対して符号化を実行する。一般化オーディオデコーダ１５３４は、コーディングされたオーディオデータに対して復号を実行し、出力信号をスピーカー／ヘッドセット１５４４に与える。一般化オーディオエンコーダ１５３２および一般化オーディオデコーダ１５３４は、必ずしも、オーディオソース、マイクロフォン１５４３およびスピーカー／ヘッドセット１５４４とのインターフェースのために必要とされるとは限らず、したがって、モバイルデバイス１５００に示されていないことに留意されたい。グラフィックス／ディスプレイプロセッサ１５３６は、ディスプレイユニット１５４６に提示されるグラフィックス、ビデオ、画像、およびテキストのための処理を実行する。ＥＢＩ１５３８は、デジタルセクション１５２０とメインメモリ１５４８との間のデータの転送を可能にする。

[0094]デジタルセクション１５２０は、１つまたは複数のプロセッサ、ＤＳＰ、マイクロプロセッサ、ＲＩＳＣなどを用いて実装される。デジタルセクション１５２０はまた、１つまたは複数の特定用途向け集積回路（ＡＳＩＣ）および／または何らかの他のタイプの集積回路（ＩＣ）上に作製される。

[0095]概して、本明細書で説明したいかなるデバイスも、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ（ＰＣ）カード、ＰＤＡ、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなどのような、様々なタイプのデバイスを示す。デバイスは、アクセス端末（ＡＴ）、アクセスユニット、加入者ユニット、移動局、クライアントデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどのような、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。

[0096]図１６は、本開示のいくつかの実施形態による、関連ターゲットキーワードを検出するためのキーワードモデルを提供するための方法および装置が実装され得るサーバシステム１６００のブロック図を示している。サーバシステム１６００は、１つまたは複数の処理ユニット（ＣＰＵ）１６０２と、１つまたは複数のネットワークまたは他の通信ネットワークインターフェース１６１０と、メモリ１６１２と、これらの構成要素を相互接続するための１つまたは複数の通信バス１６１４とを含み得る。サーバシステム１６００はまた、ディスプレイデバイスとキーボードとを有するユーザインターフェース（図示せず）を含み得る。

[0097]メモリ１６１２は、高速ランダムアクセスメモリ（たとえば、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭまたは他のランダムアクセスソリッドステートメモリデバイス）など、任意の適切なメモリであり得る。メモリ１６１２は、不揮発性メモリ（たとえば、１つまたは複数の磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートストレージデバイス）を含み得るか、または代替的に不揮発性メモリであり得る。いくつかの実施形態では、メモリ１６１２は、ＣＰＵ１６０２から遠隔に位置する、および／または複数のサイト中に遠隔に位置する１つまたは複数のストレージデバイスを含み得る。

[0098]メモリ１６１２によって表される上記のメモリデバイスのうちのいずれか１つが、前に説明したプロセス、動作、および方法のいずれかを実行および／または履行するための命令のセットに対応する、任意の数のモジュールまたはプログラムを記憶し得る。たとえば、メモリ１６１２は、様々な基本システムサービスを処理するためのプロシージャと、ハードウェア依存タスクを実行するためのプロシージャとを含む命令を記憶するように構成されたオペレーティングシステム１６１６を含み得る。メモリ１６１２のネットワーク通信モジュール１６１８は、１つまたは複数の通信ネットワークインターフェース１６１０（ワイヤードまたはワイヤレス）と、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどのような、１つまたは複数の通信ネットワークとを介して、サーバシステム１６００を他のコンピュータに接続するために使用され得る。

[0099]メモリ１６１２はまた、サーバシステム１６００の動作に必要な様々なデータおよび／または情報を記憶するように構成されたデータベース１６２０を含み得る。たとえば、データベース１６２０は、複数のターゲットキーワードに関するキーワードデータファイルを記憶する。この構成では、キーワードデータファイルの各々は、キーワードモデルと、Ａｃｋ音データと、音声トーンモデルとを含み得る。

[0100]上記の識別されたモジュールまたはプログラム（すなわち、命令のセット）は、別個のソフトウェアプログラム、プロシージャまたはモジュールとして実装される必要がなく、したがって、これらのモジュールの様々なサブセットは、様々な実施形態において組み合わせられるか、あるいは並べ替えられ得ることを諒解されよう。さらに、メモリ１６１２は、上記で説明していない追加のモジュールおよびデータ構造を記憶し得る。

[0101]図１５および図１６は、本明細書で説明する実施形態の構造概略図というよりむしろ、クライアントシステムおよびサーバシステムの様々な特徴の機能説明として意図されている。実際には、当業者によって認識されるように、別々に示されたアイテムが組み合わせられ得、いくつかのアイテムが分離され得る。たとえば、図１６で別々に示されたいくつかのアイテムは、単一のサーバ上で実装され得、単一のアイテムは、１つまたは複数のサーバによって実装され得る。さらに、データベース１６２０は、サーバの異なるセット上で、またはサーバシステム１６００の他の構成要素において実装され得る。サーバシステム１６００を実装するために使用されるサーバの実際の数、およびそれらの間の特徴の割振りは、実装ごとに異なり得る。

[0102]本明細書で説明した技法は様々な手段によって実装される。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装される。さらに、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せが可能であるように実装され得ることを諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能がハードウェアとして実装されるか、またはソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。説明した機能は、特定の適用例ごとに様々な方法で実装され得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じさせるものと解釈されるべきではない。

[0103]ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、１つまたは複数のＡＳＩＣ、ＤＳＰ、デジタル信号処理デバイス（ＤＳＰＤ）、プログラマブル論理デバイス（ＰＬＤ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。

[0104]ソフトウェアで実装された場合、前に説明した方法、動作、およびプロセスは、１つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、ＣＤ−ＲＯＭもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または、命令もしくはデータ構造の形態の所望のプログラムコードを搬送もしくは記憶するために使用され得る、コンピュータによってアクセスされ得る、任意の他の媒体を備え得る。また、任意の接続が、適切にコンピュータ可読媒体と呼ばれる。たとえば、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線（「ＤＳＬ」）、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ソフトウェアがウェブサイト、サーバまたは他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、ＤＳＬ、または赤外線、無線、およびマイクロ波などワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク（disk）およびディスク（disc）は、コンパクトディスク（disc）（ＣＤ）、レーザーディスク（登録商標）（disc）、光ディスク（disc）、デジタル多用途ディスク（disc）（ＤＶＤ）、フロッピー（登録商標）ディスク（disk）、およびＢｌｕ−ｒａｙ（登録商標）ディスク（disc）を含み、ディスク（disk）は、通常、データを磁気的に再生し、ディスク（disc）は、データをレーザーで光学的に再生する。上述の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。

[0105]本開示の先の説明は、当業者が本開示を作成または使用することを可能にするために提供される。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用される。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。

[0106]主題は構造機能および／または方法論的な行為に固有の言語で記載されているが、添付の特許請求の範囲において定義される主題は必ずしも上記の特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記の特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択することと、
前記通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信することと、
前記電子デバイスの機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てることと
を備える方法。
［Ｃ２］
応答音データを受信することをさらに備え、ここにおいて前記電子デバイスは、前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記応答音データに基づいて応答音を出力する、Ｃ１に記載の方法。
［Ｃ３］
前記キーワードモデルは、前記キーワードモデルと互換性情報とを含むキーワードデータファイルにおいて受信され、前記方法は、
前記互換性情報に基づいて、前記キーワードデータファイルが前記電子デバイスのキーワード検出ユニットに適合するかどうかを決定することと、
前記キーワードデータファイルが前記キーワード検出ユニットに適合する場合に、前記キーワードデータファイルから前記キーワードモデルを抽出し、前記抽出されたキーワードモデルを記憶することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ４］
前記キーワードデータファイルが前記キーワード検出ユニットに適合しない場合に、前記キーワードモデルの第２のバージョンをダウンロードすることと、ここにおいて、前記キーワードモデルの前記第２のバージョンが前記キーワード検出ユニットに適合する、前記キーワードモデルの前記第２のバージョンを記憶することとをさらに備える、Ｃ３に記載の方法。
［Ｃ５］
前記キーワードデータファイルが前記キーワード検出ユニットに適合しない場合に、
前記通信ネットワークを介してサーバに、前記電子デバイス、前記キーワード検出ユニット、または両方を記述している情報を送ることと、ここにおいて、前記サーバが前記情報に基づいて前記キーワードモデルの第２のバージョンを選択し、ここにおいて、前記キーワードモデルの前記第２のバージョンが前記キーワード検出ユニットに適合する、
前記サーバから前記キーワードモデルの前記第２のバージョンを受信することと、
前記キーワードモデルの前記第２のバージョンを記憶することと
をさらに備える、Ｃ３に記載の方法。
［Ｃ６］
前記キーワードデータファイルが前記キーワード検出ユニットに適合しない場合に、前記キーワードモデルを第２のバージョンに変換することと、ここにおいて、前記キーワードモデルの前記第２のバージョンが前記キーワード検出ユニットに適合する、前記キーワードモデルの前記第２のバージョンを記憶することとをさらに備える、Ｃ３に記載の方法。
［Ｃ７］
前記機能に前記特定のターゲットキーワードを割り当てることは、合成キーワードモデルを形成するために、前記キーワードモデルを、第２の特定のターゲットキーワードに関連する少なくとも１つの他のキーワードモデルと合成することを備え、ここにおいて前記第２の特定のターゲットキーワードは、前記電子デバイスの少なくとも１つの他の機能に関連付けられる、Ｃ１に記載の方法。
［Ｃ８］
前記入力音を受信することと、
前記合成キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記機能を実行することと、
前記合成キーワードモデルに基づいて前記入力音において前記第２の特定のターゲットキーワードを検出したことに応答して、前記少なくとも１つの他の機能を実行することと
をさらに備える、Ｃ７に記載の方法。
［Ｃ９］
前記キーワードモデルはアプリケーションファイルにおいて受信され、前記方法は、前記アプリケーションファイルから前記キーワードモデルを抽出することをさらに備え、ここにおいて前記特定のターゲットキーワードが割り当てられる前記機能は、アプリケーションをアクティブ化することを含む、Ｃ１に記載の方法。
［Ｃ１０］
前記特定のターゲットキーワードに関連する音声トーンモデルを受信することをさらに備え、ここにおいて前記音声トーンモデルは、前記電子デバイスによって出力された音声の音声トーンを修正するように適合される、Ｃ１に記載の方法。
［Ｃ１１］
前記音声トーンモデルは、テキストから変換された音声の前記音声トーンを修正するように適合され、前記方法は、
前記入力音を受信することと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
前記入力音において前記特定のターゲットキーワードが検出された場合に、前記特定のターゲットキーワードに関連する前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正することと
をさらに備える、Ｃ１０に記載の方法。
［Ｃ１２］
前記入力音を受信することと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
前記入力音において前記特定のターゲットキーワードが検出された場合に、前記機能を実行することと
をさらに備える、Ｃ１に記載の方法。
［Ｃ１３］
前記機能は、音声アシスタントをアクティブ化すること、カメラをアクティブ化すること、音楽プレーヤをアクティブ化すること、ボイスレコーダをアクティブ化すること、写真を撮ること、および前記電子デバイスをロック解除することのうちの１つである、Ｃ１に記載の方法。
［Ｃ１４］
前記キーワードモデルは、ユーザ固有ではなく、前記特定のターゲットキーワードの言語のすべての音素よりも少ない音素をモデル化するための情報を含む、Ｃ１に記載の方法。
［Ｃ１５］
複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するためのユーザインターフェースユニットと、
通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信するように構成されたダウンロード管理ユニットと、
前記電子デバイスの機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てるように構成されたキーワード設定ユニットと
を備える電子デバイス。
［Ｃ１６］
前記ダウンロード管理ユニットは、前記入力音における前記特定のターゲットキーワードの検出を示す応答音を生成するために応答音データを受信するようにさらに構成される、Ｃ１５に記載の電子デバイス。
［Ｃ１７］
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードが検出されたときに、前記特定のターゲットキーワードに関連する前記応答音データに基づいて前記応答音を生成するように構成された機能管理ユニットと
をさらに備える、Ｃ１６に記載の電子デバイス。
［Ｃ１８］
前記ダウンロード管理ユニットは、テキストから変換された音声の音声トーンを修正するように適合された音声トーンモデルを受信するようにさらに構成される、Ｃ１５に記載の電子デバイス。
［Ｃ１９］
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正するように構成されたＴＴＳ（テキスト音声）変換ユニットと
をさらに備える、Ｃ１８に記載の電子デバイス。
［Ｃ２０］
前記キーワード設定ユニットは、合成キーワードモデルを形成するために、前記キーワードモデルを、第２の特定のターゲットキーワードに関連する少なくとも１つの他のキーワードモデルと合成するようにさらに構成され、ここにおいて前記第２の特定のターゲットキーワードは、前記電子デバイスの少なくとも１つの他の機能に関連付けられる、Ｃ１５に記載の電子デバイス。
［Ｃ２１］
前記入力音を受信するように構成された音センサーと、
前記合成キーワードモデルに基づいて前記入力音においてキーワードを検出するように構成されたキーワード検出ユニットと、
前記合成キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードが検出されたときに、前記機能を実行し、前記合成キーワードモデルに基づいて前記入力音において前記第２の特定のターゲットキーワードが検出されたときに、前記少なくとも１つの他の機能を実行するように構成された機能管理ユニットと
をさらに備える、Ｃ２０に記載の電子デバイス。
［Ｃ２２］
前記ダウンロード管理ユニットは、前記通信ネットワークを介して、アプリケーションファイルを受信するように構成され、ここにおいて前記アプリケーションファイルは、前記特定のターゲットキーワードに関する前記キーワードモデルを含み、前記電子デバイスは、前記アプリケーションファイルから前記キーワードモデルを抽出するように構成された抽出ユニットをさらに備え、ここにおいて前記キーワード設定ユニットは、前記アプリケーションに、前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出したことに応答して前記アプリケーションをアクティブ化するために前記特定のターゲットキーワードを割り当てるように構成される、Ｃ１５に記載の電子デバイス。
［Ｃ２３］
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記アプリケーションをアクティブ化するように構成された機能管理ユニットと
をさらに備える、Ｃ２２に記載の電子デバイス。
［Ｃ２４］
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して前記機能を実行するように構成された機能管理ユニットと
をさらに備える、Ｃ１５に記載の電子デバイス。
［Ｃ２５］
複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するための手段と、
通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信するための手段と、
機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てるための手段と
を備える電子デバイス。
［Ｃ２６］
前記キーワードモデルを受信するための前記手段は、応答音データを受信するように構成され、前記電子デバイスは、
前記入力音を受信するための手段と、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するための手段と、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記特定のターゲットキーワードに関連する前記応答音データに基づいて応答音を生成するための手段と
をさらに備える、Ｃ２５に記載の電子デバイス。
［Ｃ２７］
前記キーワードモデルは、前記キーワードモデルと互換性情報とを含むキーワードデータファイルにおいて受信され、前記電子デバイスは、
前記入力音においてキーワードを検出するための手段と、
前記互換性情報に基づいて、前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合するかどうかを決定するための手段と、
前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合する場合に、前記キーワードデータファイルから前記キーワードモデルを抽出するための手段と
をさらに備える、Ｃ２５に記載の電子デバイス。
［Ｃ２８］
前記キーワードモデルを受信するための前記手段は、前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合しない場合に、前記キーワードモデルの第２のバージョンを受信するように構成される、Ｃ２７に記載の電子デバイス。
［Ｃ２９］
機能にターゲットキーワードを割り当てるための命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、
電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択することと、
前記通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信することと、
前記電子デバイスの機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てることと
を行う動作をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
［Ｃ３０］
前記キーワードモデルは、ユーザ固有ではなく、前記特定のターゲットキーワードの言語のすべての音素よりも少ない音素をモデル化するための情報を含む、Ｃ２９に記載の非一時的コンピュータ可読記憶媒体。

Claims

電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
前記電子デバイスにおいて、前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択するユーザ入力を受信することと、
前記ユーザ入力に応答して、
前記通信ネットワークを介して、前記電子デバイスにおいて、キーワードデータファイルを受信することと、前記キーワードデータファイルは、前記特定のターゲットキーワードに関するキーワードモデルを含み、互換性情報を含む、
前記互換性情報に基づいて、前記キーワードデータファイルが前記電子デバイスのキーワード検出ユニットに適合するかどうかを決定することと、
前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に基づいて前記キーワードモデルの第２のバージョンを受信することと、
前記電子デバイスにおいて受信された入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して前記電子デバイスの機能がアクティブ化されるように、前記電子デバイスにおいて、前記機能に前記特定のターゲットキーワードを割り当てることと
を備える方法。
前記電子デバイスにおいて、応答音データを受信することと、
前記特定のターゲットキーワードが前記入力音に含まれるかどうかを検出することと、
前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記応答音データに基づいて、前記電子デバイスにおいて応答音を出力することと
をさらに備える、請求項１に記載の方法。
前記キーワードデータファイルが前記キーワード検出ユニットに適合するという決定に応答して、前記キーワードデータファイルから前記キーワードモデルを抽出し、前記キーワードモデルを記憶することをさらに備える、請求項１に記載の方法。
前記キーワードモデルの前記第２のバージョンが前記キーワード検出ユニットに適合し、前記キーワードモデルの前記第２のバージョンを記憶することをさらに備える、請求項１に記載の方法。
前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に応答して、
前記通信ネットワークを介してサーバに、前記電子デバイス、前記キーワード検出ユニット、または両方を記述している情報を送ることと、ここにおいて、前記サーバが前記情報に基づいて前記キーワードモデルの前記第２のバージョンを選択し、ここにおいて、前記キーワードモデルの前記第２のバージョンが前記キーワード検出ユニットに適合する、
前記サーバから前記キーワードモデルの前記第２のバージョンを受信することと、
前記電子デバイスにおいて、前記キーワードモデルの前記第２のバージョンを記憶することと
をさらに備える、請求項１に記載の方法。
前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に応答して、前記キーワードモデルを前記第２のバージョンに変換することと、ここにおいて、前記キーワードモデルの前記第２のバージョンが前記キーワード検出ユニットに適合し、前記キーワードモデルの前記第２のバージョンを記憶することとをさらに備える、請求項１に記載の方法。
前記機能に前記特定のターゲットキーワードを割り当てることは、合成キーワードモデルを形成するために、前記キーワードモデルを、前記複数のターゲットキーワードからの第２の特定のターゲットキーワードに関連する少なくとも１つの他のキーワードモデルと合成することを備え、前記第２の特定のターゲットキーワードは、前記電子デバイスの少なくとも１つの他の機能に関連付けられる、請求項１に記載の方法。
前記電子デバイスにおいて前記入力音を受信することと、
前記合成キーワードモデルに基づいて、前記特定のターゲットキーワード、前記第２の特定のターゲットキーワード、またはこれらの組合せが前記入力音に含まれるかどうかを、前記電子デバイスにおいて検出することと、
前記特定のターゲットキーワードが前記入力音に含まれることを検出したことに応答して、前記機能を実行することと、
前記第２の特定のターゲットキーワードが前記入力音に含まれることを検出したことに応答して、前記少なくとも１つの他の機能を実行することと
をさらに備える、請求項７に記載の方法。
前記キーワードデータファイルはアプリケーションファイルを含み、前記方法は、前記アプリケーションファイルから前記キーワードモデルを抽出することをさらに備え、ここにおいて前記特定のターゲットキーワードが割り当てられる前記機能は、前記アプリケーションファイルをアクティブ化することを含む、請求項１に記載の方法。
前記特定のターゲットキーワードに関連する音声トーンモデルを受信することをさらに備え、ここにおいて前記音声トーンモデルは、前記電子デバイスによって出力された音声の音声トーンを修正するように適合される、請求項１に記載の方法。
前記音声トーンモデルは、テキストから変換された音声の前記音声トーンを修正するように適合され、前記方法は、
前記電子デバイスにおいて前記入力音を受信することと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記特定のターゲットキーワードに関連する前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正することと
をさらに備える、請求項１０に記載の方法。
前記電子デバイスにおいて前記入力音を受信することと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
前記特定のターゲットキーワードが前記入力音に含まれることを検出したことに応答して、前記機能をアクティブ化することと、ここにおいて、前記機能をアクティブ化することは、前記電子デバイスに前記機能を実行させる命令を実行することを備える、
をさらに備える、請求項１に記載の方法。
前記機能は、音声アシスタントをアクティブ化すること、カメラをアクティブ化すること、音楽プレーヤをアクティブ化すること、ボイスレコーダをアクティブ化すること、写真を撮ること、前記電子デバイスをロック解除すること、またはこれらの組合せを備える、請求項１に記載の方法。
前記機能に前記特定のターゲットキーワードを割り当てるより前に、前記電子デバイスのユーザインターフェースを介して前記機能の選択を受信することをさらに備える、請求項１に記載の方法。
複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するためのユーザインターフェースユニットと、
前記入力に応答して、通信ネットワークを介して、キーワードデータファイルを受信するように構成されたダウンロード管理ユニットと、前記キーワードデータファイルは、前記特定のターゲットキーワードのためのキーワードモデルを含み、互換性情報を含む、
前記互換性情報に基づいて、前記キーワードデータファイルがキーワード検出ユニットに適合するかどうかを決定するように構成された確認ユニットと、ここにおいて、前記ダウンロード管理ユニットは、前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に基づいて、前記キーワードモデルの第２のバージョンを受信するように構成される、
電子デバイスにおいて受信された入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して前記電子デバイスの機能がアクティブ化されるように、前記入力に応答して、前記機能に前記特定のターゲットキーワードを割り当てるように構成されたキーワード設定ユニットと
を備える電子デバイス。
前記ダウンロード管理ユニットは、応答音データを受信するようにさらに構成され、前記応答音データは、前記入力音に前記特定のターゲットキーワードが含まれるという検出を示す応答音を生成するために使用される、請求項１５に記載の電子デバイス。
前記入力音を受信するように構成された音センサーと、ここにおいて、前記キーワード検出ユニットは、前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれるかどうかを検出するように構成される、
前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記特定のターゲットキーワードに関連する前記応答音データに基づいて前記応答音を生成するように構成された機能管理ユニットと
をさらに備える、請求項１６に記載の電子デバイス。
前記ダウンロード管理ユニットは、テキストから変換された音声の音声トーンを修正するように適合された音声トーンモデルを受信するようにさらに構成される、請求項１５に記載の電子デバイス。
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれることを検出するように構成されたキーワード検出ユニットと、
前記入力音における前記特定のターゲットキーワードの検出に応答して、前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正するように構成されたテキスト音声（ＴＴＳ）変換ユニットと
をさらに備える、請求項１８に記載の電子デバイス。
前記キーワード設定ユニットは、合成キーワードモデルを形成するために、前記キーワードモデルを、第２の特定のターゲットキーワードに関連する少なくとも１つの他のキーワードモデルと合成するようにさらに構成され、ここにおいて前記第２の特定のターゲットキーワードは、前記電子デバイスの少なくとも１つの他の機能に関連付けられる、請求項１５に記載の電子デバイス。
前記入力音を受信するように構成された音センサーと、
前記合成キーワードモデルに基づいて前記入力音にキーワードが含まれるかどうかを検出するように構成されたキーワード検出ユニットと、
前記合成キーワードモデルに基づいて前記入力音における前記特定のターゲットキーワードの検出に応答して、前記機能をアクティブ化することと、
前記合成キーワードモデルに基づいて前記入力音における前記第２の特定のターゲットキーワードの検出に応答して、前記少なくとも１つの他の機能をアクティブ化することと
を行うように構成された機能管理ユニットと
をさらに備える、請求項２０に記載の電子デバイス。
前記ダウンロード管理ユニットは、前記通信ネットワークを介して、アプリケーションファイルを受信するように構成され、ここにおいて前記アプリケーションファイルは、前記キーワードデータファイルを含み、前記電子デバイスは、前記アプリケーションファイルから前記キーワードデータファイルを抽出するように構成された抽出ユニットをさらに備え、ここにおいて前記キーワード設定ユニットは、前記アプリケーションファイルに、前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出したことに応答してアプリケーションをアクティブ化するために前記特定のターゲットキーワードを割り当てるように構成される、請求項１５に記載の電子デバイス。
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれるかどうかを検出するように構成されたキーワード検出ユニットと、
前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記アプリケーションをアクティブ化するように構成された機能管理ユニットと
をさらに備える、請求項２２に記載の電子デバイス。
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれるかどうかを検出するように構成されたキーワード検出ユニットと、
前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して前記機能を実行するように構成された機能管理ユニットと
をさらに備える、請求項１５に記載の電子デバイス。
複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するための手段と、
前記特定のターゲットキーワードに応答して、通信ネットワークを介して、キーワードデータファイルを受信するための手段と、前記キーワードデータファイルは、前記特定のターゲットキーワードに関するキーワードモデルを含み、互換性情報を含む、
前記互換性情報に基づいて、前記キーワードデータファイルが入力音においてキーワードを検出するための手段に適合するかどうかを決定するための手段と、ここにおいて、前記キーワードデータファイルを受信するための前記手段は、前記キーワードデータファイルが前記入力音においてキーワードを検出するための前記手段に適合しないという決定に基づいて、前記キーワードモデルの第２のバージョンを受信するように構成される、
電子デバイスにおいて受信された前記入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して機能がアクティブ化されるように、前記入力に応答して前記機能に前記特定のターゲットキーワードを割り当てるための手段と
を備える電子デバイス。
前記キーワードモデルを受信するための前記手段は、応答音データを受信するように構成され、キーワードを検出するための前記手段は、前記入力音に前記特定のターゲットキーワードが含まれるかどうかを決定するように構成され、前記電子デバイスは、
前記入力音を受信するための手段と、
前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記特定のターゲットキーワードに関連する前記応答音データに基づいて応答音を生成するための手段と
をさらに備える、請求項２５に記載の電子デバイス。
前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合するという決定に応答して、前記キーワードデータファイルから前記キーワードモデルを抽出するための手段
をさらに備える、請求項２５に記載の電子デバイス。
前記キーワードモデルの前記第２のバージョンは、キーワードを検出するための前記手段に適合し、前記キーワードモデルの前記第２のバージョンを記憶することをさらに備える、請求項２７に記載の電子デバイス。
命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、
電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択するユーザ入力を受信することと、
前記ユーザ入力に応答して、
前記通信ネットワークを介して、キーワードデータファイルを受信することと、前記キーワードデータファイルは、前記特定のターゲットキーワードに関するキーワードモデルを含み、互換性情報を含む、
前記互換性情報に基づいて、前記キーワードデータファイルが前記電子デバイスに適合するかどうかを決定することと、
前記キーワードデータファイルがキーワード検出ユニットに適合しないという決定に基づいて前記キーワードモデルの第２のバージョンを受信することと、
前記電子デバイスにおいて受信された入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して前記電子デバイスの機能がアクティブ化されるように、前記電子デバイスにおいて、前記機能に前記特定のターゲットキーワードを割り当てることと
をプロセッサに行わせる、非一時的コンピュータ可読記憶媒体。
前記キーワードモデルは、ユーザ固有ではなく、前記特定のターゲットキーワードの言語の音素のサブセットをモデル化するための情報を含む、請求項２９に記載の非一時的コンピュータ可読記憶媒体。