JP6373985B2 - 音声動作式機能にキーワードモデルを割り当てるための方法および装置 - Google Patents

音声動作式機能にキーワードモデルを割り当てるための方法および装置 Download PDF

Info

Publication number
JP6373985B2
JP6373985B2 JP2016525380A JP2016525380A JP6373985B2 JP 6373985 B2 JP6373985 B2 JP 6373985B2 JP 2016525380 A JP2016525380 A JP 2016525380A JP 2016525380 A JP2016525380 A JP 2016525380A JP 6373985 B2 JP6373985 B2 JP 6373985B2
Authority
JP
Japan
Prior art keywords
keyword
model
electronic device
specific target
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016525380A
Other languages
English (en)
Other versions
JP2016532146A (ja
JP2016532146A5 (ja
Inventor
キム、テス
リ、ミンスブ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016532146A publication Critical patent/JP2016532146A/ja
Publication of JP2016532146A5 publication Critical patent/JP2016532146A5/ja
Application granted granted Critical
Publication of JP6373985B2 publication Critical patent/JP6373985B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

関連出願の相互参照
[0001]本出願は、同一出願人が所有する、2013年7月8日に出願された米国仮特許出願第61/843,650号、および2014年12月10日に出願された米国非仮特許出願第14/101,869号の優先権を主張し、それらの各々の内容の全体が参照により本明細書に明確に組み込まれる。
[0002]本開示は、一般に、電子デバイスにおける音声認識に関し、より詳細には、電子デバイスにおける機能を実行するためのターゲットキーワードを認識することに関する。
[0003]最近は、スマートフォンおよびタブレットコンピュータなど、モバイルデバイスの使用が普及してきている。これらのデバイスは、一般に、ワイヤレスネットワークを介して音声および/またはデータ通信機能を与える。さらに、そのようなモバイルデバイスは、一般に、ユーザの利便性を高めるように設計された様々な機能を与える他の特徴を含む。
[0004]ますます使用されているモバイルデバイスにおける特徴の1つは、音声認識機能である。そのような機能は、ユーザからの音声コマンド(たとえば、キーワード)が認識されたときにモバイルデバイスが様々な機能を実行することを可能にする。たとえば、モバイルデバイスは、ユーザからの音声コマンドに応答して、音声アシスタントアプリケーションをアクティブ化すること、オーディオファイルを再生すること、または写真を撮ることがある。
[0005]従来のモバイルデバイスでは、製造業者または通信事業者はしばしば、関連キーワードを検出するために使用され得る音モデルをデバイスに搭載する。だが、そのようなデバイスは一般に、限られた数の音モデルとキーワードとを含む。したがって、ユーザは、デバイスにおいて最初に提供されたキーワードと音モデルとだけを使用することに制限され得る。デバイスによっては、ユーザは、新しいキーワードを検出するための音モデルを、当該キーワードに関するいくつかの発話に基づいて音モデルをトレーニングすることによって生成し得る。ユーザ入力に応答して生成されたそのような音モデルは、たとえば、キーワードのサンプリングが不十分であるために、新しいキーワードを検出する際にあまり正確ではないことがある。
[0006]本開示は、ターゲットキーワードに関連するキーワードモデルに基づいてターゲットキーワードが検出されたときに機能を実行するために、機能にターゲットキーワードを割り当てるための方法と装置とを提供する。
[0007]本開示の一態様によれば、機能にターゲットキーワードを割り当てるための方法が開示される。この方法では、通信ネットワークを介して電子デバイスにおいて、複数のターゲットキーワードからなるリストが受信され、複数のターゲットキーワードからなる受信済みリストからターゲットキーワードが選択される。さらに、本方法は、通信ネットワークを介して被選択ターゲットキーワードに関するキーワードモデルを受信することと、電子デバイスの機能に、電子デバイスにおいて受信された入力音においてキーワードモデルに基づいてターゲットキーワードを検出したことに応答して機能が実行されるようにターゲットキーワードを割り当てることを含み得る。本開示はまた、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0008]本開示の別の態様によれば、アプリケーションにターゲットキーワードを割り当てるための方法が開示される。この方法では、通信ネットワークを介して、複数のアプリケーションからなるリストが受信され、アプリケーションからなる受信済みリストからアプリケーションが選択される。さらに、本方法は、通信ユニットを介して被選択アプリケーションのためのアプリケーションファイルを受信することと、ターゲットキーワードに関するキーワードモデルをアプリケーションファイルが含む、アプリケーションファイルからキーワードモデルを抽出することと、アプリケーションに、キーワードモデルに基づいて入力音においてターゲットキーワードが検出されたときにアプリケーションをアクティブ化するためにターゲットキーワードを割り当てることとを含み得る。本開示はまた、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0009]本開示のさらに別の態様によれば、データファイルを提供するための方法が開示される。この方法では、通信ネットワークを介して電子デバイスに、複数のターゲットキーワードからなるリストが送信され、通信ネットワークを介して電子デバイスから、被選択ターゲットキーワードについての要求が受信される。さらに、本方法は、電子デバイスに、通信ネットワークを介して被選択ターゲットキーワードに関するキーワードモデルを送信することを含み得る。キーワードモデルは、入力音において被選択ターゲットキーワードを検出するように適合される。本開示はまた、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0010]本開示のまた別の態様によれば、電子デバイスが、ダウンロード管理ユニットとキーワード設定ユニットとを含む。ダウンロード管理ユニットは、通信ネットワークを介して、複数のターゲットキーワードからなるリストから選択された特定のターゲットキーワードに関するキーワードモデルを受信するように構成される。キーワード設定ユニットは、電子デバイスの機能に、電子デバイスにおいて受信された入力音においてキーワードモデルに基づいて特定のターゲットキーワードを検出したことに応答して機能が実行されるように特定のターゲットキーワードを割り当てるように構成される。
[0011]本開示のまた別の態様によれば、電子デバイスが、ダウンロード管理ユニットと、抽出ユニットと、キーワード設定ユニットとを含む。ダウンロード管理ユニットは、通信ネットワークを介して、複数のアプリケーションからなるリストから選択されたアプリケーションのためのアプリケーションファイルを受信するように構成される。アプリケーションファイルは、ターゲットキーワードに関するキーワードモデルを含む。抽出ユニットは、アプリケーションファイルからキーワードモデルを抽出するように構成される。キーワード設定ユニットは、被選択アプリケーションに、キーワードモデルに基づいて入力音においてターゲットキーワードが検出されたときにアプリケーションをアクティブ化するためにターゲットキーワードを割り当てるように構成される。
[0012]本開示のまた別の態様によれば、サーバが、データベースと、通信ユニットと、制御ユニットとを含む。データベースは、少なくとも1つのターゲットキーワードと、少なくとも1つのキーワードモデルとを記憶するように構成される。キーワードモデルは、入力音において関連ターゲットキーワードを検出するように適合される。通信ユニットは、電子デバイスに、少なくとも1つのターゲットキーワードからなるリストを送信し、電子デバイスから、少なくとも1つのターゲットキーワードからなるリストから選択されたターゲットキーワードについての要求を受信するように構成される。制御ユニットは、要求に応答してデータベースにアクセスし、電子デバイスに、通信ユニットを介して少なくとも1つのキーワードモデルのうちで被選択ターゲットキーワードに関連するキーワードモデルを送信するように構成される。
[0013]本開示の発明的態様の実施形態は、以下の発明を実施するための形態を参照し、添付の図面とともに読めば理解されよう。
[0014]本開示の一実施形態による、ターゲットキーワードを検出する際に使用する、通信ネットワークを介して電子デバイスによってダウンロードされ得るサーバにおける複数のキーワードモデルを提供するためのシステムを示す図。 [0015]本開示の一実施形態による、複数のターゲットキーワードにアクセスし、入力音スチームから被選択ターゲットキーワードを検出する際に使用するキーワードモデルをダウンロードするように構成された電子デバイスのブロック図。 [0016]本開示の一実施形態による、被選択ターゲットキーワードを検出するための、選択され、電子デバイスにダウンロードされ得る電子デバイスのディスプレイ画面上のターゲットキーワードからなるリストを示す図。 [0017]本開示の一実施形態による、ヘッダと、キーワードモデルと、Ack音データと、音声トーンモデルと、エラーチェックデータとを含む例示的なキーワードデータファイルを示す図。 [0018]本開示の一実施形態による、被選択機能にターゲットキーワードを割り当て、ターゲットキーワードが検出されたときに被選択機能を実行するように構成された電子デバイスにおける制御ユニットのより詳細なブロック図。 [0019]本開示の一実施形態による、キーワードモデルに関連するターゲットキーワードを検出する際に使用するキーワードモデルをサーバから受信するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0020]本開示の一実施形態による、サーバからアプリケーションファイルを受信し、アプリケーションファイルからキーワードモデルを抽出するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0021]本開示の一実施形態による、機能にターゲットキーワードを割り当てるためのメニューを示す電子デバイスにおけるディスプレイ画面を示す図。 [0022]本開示の一実施形態による、複数のターゲットキーワードを複数の機能にマッピングする例示的なキーワード/機能データベースを示す図。 [0023]本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード/機能データベースを更新するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0024]本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード検出モデルを更新するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0025]本開示の一実施形態による、複数のキーワードモデルを含む例示的なキーワード検出モデルを示す図。 [0026]本開示の一実施形態による、入力音において関連ターゲットキーワードを検出したことに応答して複数の機能を実行するように構成された電子デバイスを示す図。 [0027]本開示の一実施形態による、ターゲットキーワードに関連する音声トーンモデルに基づいてテキストから音声データを生成するように構成された電子デバイスを示す図。 [0028]本開示の一実施形態による、入力音において検出されたターゲットキーワードに関連する機能を実行するための電子デバイスにおいて実行される例示的な方法のフローチャートを示す図。 [0029]本開示のいくつかの実施形態による、機能を動作させるためのターゲットキーワードを設定するための方法および装置が実装され得るワイヤレス通信システムにおけるモバイルデバイスのブロック図。 [0030]本開示のいくつかの実施形態による、関連ターゲットキーワードを検出するためのキーワードモデルを提供するための方法および装置が実装され得るサーバシステムのブロック図。
[0031]図1は、本開示の一実施形態による、サーバ110における複数のキーワードモデルを提供するためのシステム100を示している。システム100は、サーバ110と、電子デバイス140と、キーワードモデルプロバイダ130とを含み、これらは通信ネットワーク150を介して通信する。サーバ110は、制御ユニット112と、データベース114と、支払い管理ユニット116と、データベース更新ユニット118と、通信ユニット120とを含む。
[0032]ターゲットキーワードを検出する際に使用するキーワードモデルが、通信ネットワーク150を介して電子デバイス140によってダウンロードされ得る。本明細書で使用する「ターゲットキーワード」という用語は、電子デバイス140における機能をアクティブ化または実行するためにキーワードとして使用され得る1つもしくは複数の単語または音の任意のデジタル表現またはアナログ表現を指す。「キーワードモデル」は、ターゲットキーワードを検出するために電子デバイス140によって使用され得るデータを指す。特定の実施形態では、キーワードモデルは、ユーザ固有のものではなく、完全言語モデル(full language model)を含んでいない。たとえば、キーワードモデルは、ターゲットキーワードの言語のすべての音素よりも少ない音素をモデル化するためのデータを含み得る。この例では、キーワードモデルは、ターゲットキーワードの言語の音素のサブセットを検出するためのデータを含む。したがって、キーワードモデルは、完全言語モデルよりもはるかに小さくてよい。例示すると、キーワードモデルがメモリの1〜500キロビット(KB)を使用し得る一方、完全言語モデルを記憶することは、1メガビット(MB)または数MBを使用し得る。
[0033]サーバ110では、制御ユニット112はサーバ110の動作全体を制御する。サーバ110におけるデータベース114は、キーワードモデルプロバイダ130によってアップロードされた複数のキーワードデータファイルを記憶する。キーワードデータファイルの各々は、ターゲットキーワードを検出する際に使用するキーワードモデル、ターゲットキーワードの検出を示す確認応答音もしくは応答音を出力するためのAck音データ(もしくは応答音データ)、テキストから生成された音声の音声トーンを修正するように適合された音声トーンモデル、またはそれらの組合せを含み得る。キーワードモデルプロバイダ130によってアップロードされるキーワードモデルは、関連ターゲットキーワードを検出するためにキーワードモデルが最適化され得るように、多数のキーワード記録のトレーニングに基づいて生成され得る。したがって、電子デバイス140のユーザは、多数のキーワード記録に基づくキーワードモデルを、キーワードモデルをダウンロードすることによって使用し得る。したがってユーザは、キーワードモデルをトレーニングするためにユーザがキーワード記録を記録する必要なしに、多数のキーワード記録によりキーワードモデルをトレーニングすることによってもたらされる正確性の向上の恩恵を得る。特定の実施形態では、電子デバイス140は、ユーザ入力の入力音を継続的に監視するように構成されたキーワード検出エンジンを含み得る。この実施形態では、ユーザは、電子デバイス140が高い検出率(たとえば、90%超)と低い誤検出率(たとえば、0.01%未満)とを有すると予想する。低い誤検出率を有することで、ユーザエクスペリエンスを改善し、電力消費を低減し得る。たとえば、誤検出により、電子デバイス140は、アクティブであることをユーザが望んでいない機能をアクティブ化することがあり、これは、迷惑となることがあり、電子デバイス140の電力消費を増大させることがある。そのような高い検出率と低い誤検出率とを達成することは、キーワードモデルの広範なトレーニングを必要とし得る。たとえば、場合によっては、0.01%未満の誤検出率で90%の検出率を達成するキーワード検出モデルは、数千のキーワード記録と数万の非キーワード記録とを使用し得る。
[0034]データベース114は、評点(rating)、ダウンロード数、キーワードモデルのプロバイダなどのような、キーワードモデルに関係する情報も含み得る。一実施形態では、データベース114は、電子デバイス140にアプリケーションをインストールするためのアプリケーションファイルも記憶し得る。この実施形態では、アプリケーションファイルは、ターゲットキーワードを検出し、ターゲットキーワードの検出に伴ってアプリケーションをアクティブ化する際に使用され得るキーワードモデルを含み得る。
[0035]いくつかの実施形態では、サーバ110は、通信ネットワーク150を介して様々なタイプの電子デバイスにターゲットキーワードを提供するためのオンラインストアをホストするように構成され得る。オンラインストアは、キーワードモデルを提供するための専用ストアであること、または一般的なアプリケーションストアの一部として実装されることがある。オンラインストアはまた、ユーザが関心を有し得るターゲットキーワードを突き止めるための検索機能を提供し得る。
[0036]サーバ110における支払い管理ユニット116は、ユーザがサーバ110からキーワードモデルを選択し、購入することを可能にする。一実施形態では、支払い管理ユニット116は、電話料金請求サービス、インターネット料金請求サービスなど、サードパーティの料金請求サービスと統合され得る。別の実施形態では、支払い管理ユニット116は、通信ネットワーク150を介してサーバ110と通信する別個の支払いサーバとして実装され得る。
[0037]サーバ110は、通信ネットワーク150へのネットワークインターフェースとして機能する通信ユニット120を介して、電子デバイス140およびキーワードモデルプロバイダ130と通信するように構成される。この構成では、サーバ110はキーワードモデルプロバイダ130から、新しいターゲットキーワードを検出する際に使用する新しいキーワードモデルを含む新しいキーワードデータファイルを受信し得る。新しいキーワードデータファイルはまた、新しいターゲットキーワードに関連する新しいAck音データと新しい音声トーンモデルとを含み得る。新しいキーワードデータファイルを受信すると、データベース更新ユニット118は、新しいキーワードデータファイルを追加することによってデータベース114を更新し得る。別の実施形態では、データベース更新ユニット118は、キーワードモデルプロバイダ130から関連するAck音データおよび音声トーンモデルとともに新しいキーワードモデルを受信し、新しいキーワードデータファイルを生成し得る。
[0038]電子デバイス140のユーザは、通信ネットワーク150を介してサーバ110における利用可能なターゲットキーワードからなるリストにアクセスし得る。ユーザが利用可能なターゲットキーワードからなるリストからターゲットキーワードを選択したとき、電子デバイス140は、通信ネットワーク150を介してサーバ110に、被選択ターゲットキーワードに関連するキーワードモデルについての要求を送信する。要求に応答して、サーバ110は電子デバイス140に、被選択ターゲットキーワードに関連するキーワードモデルを含むキーワードデータファイルを送信する。キーワードモデルを受信した後、ユーザは電子デバイス140の機能に、キーワードモデルに基づいて入力音においてターゲットキーワードが検出されたときに機能が実行されるようにターゲットキーワードを割り当て得る。
[0039]図2は、本開示の一実施形態による、複数のターゲットキーワードにアクセスし、入力音ストリーム(input sound stream)から被選択ターゲットキーワードを検出する際に使用するキーワードモデルをダウンロードするように構成された電子デバイス140のブロック図を示している。本明細書で使用する「音ストリーム」という用語は、一連の1つまたは複数の音信号または音データを指す。電子デバイス140は、通信ユニット210と、TTS(テキスト音声)変換ユニット220と、スピーカー230と、ストレージユニット240と、制御ユニット250と、入力/出力(I/O)ユニット260(たとえば、ユーザインターフェースユニット)と、音センサー270と、音声検出器280と、キーワード検出ユニット290とを含む。電子デバイス140は、セルラーフォン、スマートフォン、パーソナルコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートテレビ、ゲームデバイス、マルチメディアプレーヤなどのような、音をキャプチャおよび処理する能力を備えた任意の適切なデバイスであり得る。
[0040]電子デバイス140は、通信ネットワーク150へのネットワークインターフェースとして機能する通信ユニット210を介して、サーバ110と通信し得る。このプロセスでは、電子デバイス140は、サーバ110における複数のターゲットキーワードにアクセスし得る。電子デバイス140のユーザがI/Oユニット260を介して複数のターゲットキーワードからなるリストからターゲットキーワードを選択したとき、電子デバイス140はサーバ110に、被選択ターゲットキーワードについての要求を送信する。それに応答して、サーバ110は電子デバイス140に、被選択ターゲットキーワードに関連するキーワードモデルを含むキーワードデータファイルを送信する。キーワードデータファイルはまた、被選択ターゲットキーワードに関連するAck音データと音声トーンモデルとを含み得る。
[0041]電子デバイス140における制御ユニット250は、キーワードデータファイルを受信し、キーワードデータファイルからキーワードモデルと、Ack音データと、音声トーンモデルとを抽出するように構成される。次いで、抽出されたキーワードモデル、Ack音データ、および音声トーンモデルはストレージユニット240に記憶され得る。ストレージユニット240は、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、EEPROM(登録商標)(電気的消去可能プログラマブル読取り専用メモリ)、フラッシュメモリ、またはSSD(ソリッドステートドライブ)など、任意の適切なストレージまたはメモリデバイスを使用して実装され得る。このようにして、ユーザは、関連ターゲットキーワードを検出する際に使用する複数のキーワードモデルをダウンロードし得る。ストレージユニット240はまた、電子デバイス140において最初に提供されている1つまたは複数の他のキーワードおよび関連キーワードモデルを記憶し得る。
[0042]キーワードモデルを含むキーワードデータファイルがダウンロードされ、記憶されると、ユーザは、I/Oユニット260を介して電子デバイス140における被選択機能に、キーワードモデルに関連するターゲットキーワードを割り当て得る。それに応答して、制御ユニット250は、キーワードモデルに基づいて入力音ストリームにおいてターゲットキーワードが検出されたときに被選択機能が実行されるように、ターゲットキーワードに関するキーワードモデルを被選択機能に関連付ける。電子デバイス140は、複数の機能(たとえば、アプリケーション、特徴など)を含み得、機能のうちのいずれかは、選択され、被選択機能を実行するためにターゲットキーワードに関連付けられ得ることを諒解されたい。たとえば、そのような機能は、音声アシスタントアプリケーションをアクティブ化すること、写真を撮ること、電子デバイス140をロック解除すること、ボイスレコーダアプリケーションをアクティブ化すること、カメラアプリケーションをアクティブ化すること、音楽プレーヤアプリケーションをアクティブ化することなどのうちの1つであり得る。
[0043]電子デバイス140は、ターゲットキーワードに関するキーワードモデルに基づいて、入力音ストリームにおいてターゲットキーワードを検出し得る。電子デバイス140における音センサー270は、ターゲットキーワードを含み得る入力音ストリームを受信し、音声検出器280に入力音ストリームを提供するように構成される。音センサー270は、電子デバイス140への音入力を受信、キャプチャ、感知および/または検出するために使用され得る1つもしくは複数のマイクロフォンまたは任意の他のタイプの音センサーを含み得る。さらに、音センサー270は、そのような機能を実行するために任意の適切なソフトウェアおよび/またはハードウェアを用い得る。
[0044]一実施形態では、音センサー270は、デューティサイクルに従って周期的に入力音ストリームを受信するように構成され得る。この場合、音センサー270は、入力音ストリームの受信部分がしきい値音強度を上回るかどうかを決定し得る。音ストリームの受信部分がしきい値強度を上回るとき、音センサー270は、音声検出器280をアクティブ化し、音声検出器280に受信部分を提供する。代替的に、音センサー270は、周期的に(たとえば、デューティサイクルに従って)入力音ストリームの一部分を受信し、(たとえば、音強度とは無関係に)音声検出器280に受信部分を提供するために音声検出器280をアクティブ化し得る。さらなる代替として、音センサー270は、(たとえば、100%デューティサイクルに従って)入力音ストリームを継続的に受信し、入力音の受信部分がしきい値音強度を上回るときに音声検出器280をアクティブ化し得る。
[0045]音声検出器280は、音センサー270から入力音ストリームの一部分を受信するように構成される。一実施形態では、音声検出器280は、受信部分から複数の音特徴を抽出し、混合ガウスモデル(GMM)ベースの分類子、ニューラルネットワーク、隠れマルコフモデル(HMM)、グラフィカルモデル、およびサポートベクターマシン(SVM)技法など、任意の適切な音分類方法を使用して、抽出された音特徴が音声などの注目する音を示すかどうかを決定する。受信部分が注目する音であると決定された場合、音声検出器280は、キーワード検出ユニット290をアクティブ化し、入力音ストリームの受信部分および残存部分がキーワード検出ユニット290に提供される。いくつかの他の実施形態では、音声検出器280は、電子デバイス140において省略され得る。この場合、受信部分がしきい値強度を上回るとき、音センサー270は、キーワード検出ユニット290をアクティブ化し、入力音ストリームの受信部分および残存部分をキーワード検出ユニット290に直接提供する。代替として、音声検出器280は省略され、音センサー270は、(たとえば、音強度とは無関係に)入力音ストリームの実質的にすべてをキーワード検出ユニット290に直接提供し得る。
[0046]キーワード検出ユニット290は、アクティブ化されたときに、入力音ストリームを受信し、キーワードモデルに基づいてターゲットキーワードを検出するように構成される。入力音ストリームにおいてターゲットキーワードが検出されたとき、キーワード検出ユニット290は、検出されているターゲットキーワードを示す検出信号を生成し、制御ユニット250に検出信号を送信する。検出信号に応答して、制御ユニット250は、検出されたターゲットキーワードに関連する機能を実行する。キーワード検出ユニット290は、複数のキーワードモデルに基づいて複数のターゲットキーワードを検出するように構成され得る。この場合、複数のキーワードモデルは、以下で詳細に説明するキーワード検出モデル(たとえば、合成キーワードモデル)に合成され得る。
[0047]制御ユニット250はまた、ターゲットキーワードに関連するAck音データと音声トーンモデルとをストレージユニット240から取り出し得る。この場合、制御ユニット250は、ターゲットキーワードの検出を示すためにスピーカー230を介して出力する確認応答音を、取り出されたAck音データから生成し得る。TTS変換ユニット220は、制御ユニット250から音声トーンモデルを受信し、受信された音声トーンモデルに基づいてTTS変換ユニット220の音声トーンを修正するように構成される。次いでTTS変換ユニット220は、ユーザに出力され得るテキストを、修正された音声トーンにより音声に変換し、スピーカー230を介して音声を出力する。
[0048]図3は、本開示の一実施形態による、被選択ターゲットキーワードを検出するための、選択され、電子デバイス140にダウンロードされ得る電子デバイス140のディスプレイ画面310上のターゲットキーワードからなるリストを示している。キーワードストアがサーバ110から、ターゲットキーワードからなるリストを提供する。キーワードストアの上側部分には、「ランキング(RANKING)」、「新規(NEW)」、および「検索(SEARCH)」など、複数のメニュータブが表示され得る。図3の実施形態では、「ランキング」メニュータブの下側部分に太い線によって示されているように、ユーザ入力(たとえば、ディスプレイ画面310上のタッチ入力)によってメニュータブ「ランキング」が選択されたとき、電子デバイス140は、ターゲットキーワードの評点に基づいてソートされているターゲットキーワードからなるリストを表示する。この場合、より高い評点を有するターゲットキーワード(たとえば、「ちょっと、アシスタント(HEY ASSISTANT)」)が、より低い評点を有するターゲットキーワード(たとえば、「はい、チーズ(SAY CHEESE)」)の前に表示される。
[0049]いくつかの実施形態では、ターゲットキーワードからなるリストは、それらのダウンロード価格とともに表示され得る。図3の実施形態では、ターゲットキーワードの「ちょっと、アシスタント」および「開けゴマ(OPEN SESAME)」はダウンロード無料であり、したがって、右側部分に「無料」と示されている。一方、ターゲットキーワードの「はい、チーズ」および「記録を開始する(START RECORDING)」は、それぞれダウンロードが$0.99および$1.99であり、それらの価格は、ターゲットキーワードの右側部分に表示されている。ユーザがターゲットキーワードからなるリストからターゲットキーワードを選択したとき、電子デバイス140は、(必要な場合、支払い処理の後)被選択ターゲットキーワードを検出する際に使用するキーワードモデルを含むキーワードデータファイルをダウンロードする。キーワードデータファイルはまた、被選択ターゲットキーワードに関連するAck音データと音声トーンモデルとを含み得る。
[0050]別の実施形態では、サーバ110にターゲットキーワードがアップロードされた順序でターゲットキーワードからなるリストを表示するために、メニュータブ「新規」が選択され得る。代替的に、メニュータブ「検索」が選択されたとき、ユーザが関心を有し得るターゲットキーワードを突き止めるために、検索ウィンドウまたは検索ボックスを表示することによって、検索機能が提供される。この場合、ユーザは、検索ウィンドウまたは検索ボックスに検索語を入力し得、電子デバイス140は、検索語に応答してディスプレイ画面310に1つまたは複数のターゲットキーワードを表示する。
[0051]図4は、本開示の一実施形態による、ヘッダ410と、キーワードモデル420と、Ack音データ430と、音声トーンモデル440と、エラーチェックデータ450とを含む例示的なキーワードデータファイル400を示している。ヘッダ410は、プロバイダ情報、データサイズ、データタイプ、作成日などのような、キーワードモデル420に関係する情報を含み得る。ヘッダ410は、互換性チェックのための互換性情報またはバージョン情報をさらに含み得る。この場合、互換性またはバージョン情報は、キーワードモデル420のタイプ(たとえば、HMM方法に基づいて生成されたモデル)、キーワードモデル420の適用可能な認識アルゴリズムなどを示し得る。
[0052]図4に示すように、キーワードモデル420は、ターゲットキーワード422と、キーワードモデルパラメータ424と、しきい値426とを含む。ターゲットキーワード422は、テキスト列または1つもしくは複数の単語であり得る。キーワードモデルパラメータ424は、ターゲットキーワード422の音特性を示しており、ターゲットキーワード422を検出するためにキーワードモデル420が最適化され得るように、多数のキーワード記録のトレーニングに基づいて生成され得る。たとえば、複数の人々からのキーワード記録がトレーニングに使用され得る。特定の実施形態では、キーワードモデル420は、ユーザ固有ではなく、ターゲットキーワード422の言語のすべての音素よりも少ない音素をモデル化するための情報(たとえば、キーワードモデルパラメータ424)を含む。
[0053]いくつかの実施形態では、キーワードモデルパラメータ424は、ターゲットキーワードの複数の部分に関連する複数の状態に関する状態情報を含む。一実施形態では、ターゲットキーワード422は、単音、音素など、音の複数の基本単位、またはそれらのサブ単位に分割され得、音の基本単位に基づいて、ターゲットキーワード422を表す複数の部分が生成され得る。次いで、ターゲットキーワードの各部分は、マルコフ連鎖モデル(隠れマルコフモデル(HMM)またはセミマルコフモデル(SMM)など)、リカレントニューラルネットワークのノード、またはそれらの組合せに基づく状態に関連付けられる。状態情報は、状態の各々からそれ自体を含む次の状態への移行情報を含み得る。キーワードモデルパラメータ424はまた、入力音の観測スコアを決定するための確率モデルを含む。たとえば、確率モデルは、GMM、ニューラルネットワーク、およびSVMなど、任意の適切なモデルであり得る。しきい値426は、入力音がターゲットキーワードを含むことを保証するための最小信頼性値である。しきい値426は、ターゲットキーワードを含まない入力音からターゲットキーワードが誤って検出されることのないように、適切な値に決定され得る。
[0054]Ack音データ430は、ターゲットキーワードの検出を示す確認応答音を出力する際に使用され得る。Ack音データ430がオーディオデータである場合、電子デバイス140は、確認応答音を生成し出力するために、オーディオデータを変換し得る。一方、Ack音データ430がオーディオデータではなく、テキスト列または1つもしくは複数の単語である場合、電子デバイス140は、ターゲットキーワード422に関連する音声トーンモデル440に基づいて、テキスト列または単語を音声に変換することによって、確認応答音を生成し出力し得る。
[0055]音声トーンモデル440は、テキストから生成された音声の音声トーンを修正するように適合される。エラーチェックデータ450は、キーワードデータファイル400のデータの完全性をチェックする際、および/または偶発的変化を検出する際に使用され得る。たとえば、エラーチェックデータ450は、巡回冗長検査(CRC)コードであり得る。
[0056]図5は、本開示の一実施形態による、被選択機能にターゲットキーワードを割り当て、ターゲットキーワードが検出されたときに被選択機能を実行するように構成された電子デバイス140における制御ユニット250のより詳細なブロック図を示している。制御ユニット250は、ダウンロード管理ユニット510と、確認ユニット520と、摘出ユニット530と、キーワード設定ユニット540と、機能管理ユニット550とを含む。ダウンロード管理ユニット510は、テキストファイル、オーディオファイル、ビデオファイル、キーワードデータファイル、アプリケーションファイルなどのような、任意のタイプのファイルをダウンロードするように構成され得る。
[0057]ターゲットキーワードを検出する際に使用するキーワードモデルを含むキーワードデータファイルをダウンロード管理ユニット510がダウンロードしたとき、確認ユニット520は、キーワードデータファイルを受信し、ダウンロードされたキーワードデータファイルのヘッダにおける互換性情報またはバージョン情報に基づいて、キーワード検出ユニット290においてキーワードモデルが使用され得るかどうかを確認する。確認ユニット520はまた、ダウンロードされたキーワードデータファイルのエラーチェックデータを復号することによって、ダウンロードされたキーワードデータファイルのデータの完全性をチェックし得る。ダウンロードされたキーワードモデルがキーワード検出ユニット290に適合する(compatible)ことを確認ユニット520が確認した場合、抽出ユニット530は、ダウンロードされたキーワードデータファイルからキーワードモデルを抽出し、抽出されたキーワードモデルをストレージユニット240に記憶する。特定の実施形態では、キーワードデータファイルがキーワード検出ユニット290に適合しないと確認ユニット520が決定した場合、制御ユニット250は、キーワード検出ユニット290に適合するバージョンにキーワードモデルを変換しようと試み得る。別の特定の実施形態では、キーワードデータファイルがキーワード検出ユニット290に適合しないと確認ユニット520が決定した場合、ダウンロード管理ユニット510は、キーワードモデルの別のバージョンをダウンロードしようと試み得る。たとえば、ダウンロード管理ユニット510は、図1のサーバ110にキーワードモデルの第2のバージョンについての要求を送ることがあり、この場合、キーワードモデルの第2のバージョンは、キーワード検出ユニット290に適合する。別の例では、ダウンロード管理ユニット510は図2の通信ユニット210に、電子デバイス140に関係する情報をサーバ110に送らせることがある。電子デバイス140に関係する情報は、たとえば、デバイスタイプ識別子、モデル名識別子、モデルタイプ識別子、キーワード検出ユニットバージョン識別子、他の情報、またはそれらの組合せを含み得る。サーバ110は、キーワード検出ユニット290に適合するキーワードモデルを選択し送信するために、電子デバイス140に関係する情報を使用し得る。抽出ユニット530は、第2のダウンロードされたキーワードデータファイルからキーワードモデルの第2のバージョンを抽出し、キーワードモデルの抽出された第2のバージョンをストレージユニット240に記憶する。キーワードデータファイルがさらにAck音データと音声トーンモデルとを含むとき、抽出ユニット530は、ダウンロードされたキーワードデータファイルからAck音データと音声トーンモデルとを抽出し、それらをストレージユニット240に記憶する。
[0058]電子デバイス140は、複数のターゲットキーワードを複数の機能にマッピングするキーワード/機能データベースをストレージユニット240に記憶し得る。キーワード/機能データベースは、製造業者もしくは通信事業者によって電子デバイス140において提供されること、またはユーザ入力に応答して作成されることがある。キーワード設定ユニット540は、新しいキーワード/機能データベースを作成するか、または既存のキーワード/機能データベースを更新するように構成される。
[0059]キーワード設定ユニット540は、ユーザがターゲットキーワードと電子デバイス140における機能とを、入力音において被選択ターゲットキーワードが検出されたときに被選択機能を実行するために選択することを可能にする。ターゲットキーワードと機能とを選択すると、キーワード設定ユニット540は、被選択機能に被選択ターゲットキーワードを割り当てる。既存のキーワード/機能データベースが発見されなかった場合、キーワード設定ユニット540は、被選択ターゲットキーワードを被選択機能にマッピングする新しいキーワード/機能データベースを生成する。一方、キーワード/機能データベースがすでに存在する場合、既存のデータベースが被選択ターゲットキーワードおよび機能のマッピングにより更新される。キーワード設定ユニット540はキーワード/機能データベースを、ターゲットキーワードおよび機能の追加的選択またはデータベースにおける既存のエントリの削除に応答して更新し得る。
[0060]電子デバイス140はまた、複数のキーワードモデルに関連するターゲットキーワードを検出する際に使用する複数のキーワードモデルを含むキーワード検出モデルを、ストレージユニット240またはキーワード検出ユニット290に記憶し得る。機能に被選択ターゲットキーワードを割り当てると、キーワード設定ユニット540は、被選択ターゲットキーワードに関するキーワードモデルをストレージユニット240から取り出し得る。既存のキーワード検出モデルが発見されなかった場合、キーワード設定ユニット540は、取り出されたキーワードモデルをキーワード検出モデルとしてストレージユニット240またはキーワード検出ユニット290に送り得る。一方、キーワード検出モデルがすでに存在する場合、取り出されたキーワードモデルを追加することによって、既存のモデルが更新される。たとえば、第1のターゲットキーワードに関してキーワード検出モデルが存在するとき、ユーザは、第2のターゲットキーワードに関するキーワードデータファイルをダウンロードし得る。この例では、確認ユニット520によってキーワードデータファイルが確認された後、抽出ユニット530は、第2のターゲットキーワードに関するキーワードモデルをキーワードデータファイルから抽出する。キーワード設定ユニット540は、更新済みキーワード検出モデル(たとえば、第1のターゲットキーワードおよび第2のターゲットキーワードに関する合成キーワード検出モデル)を形成するために、第2のターゲットキーワードに関する抽出されたキーワードモデルを既存のキーワード検出モデルとマージ(merge)または合成(combine)する(たとえば、連結する)。キーワード設定ユニット540は、入力音ストリームにおいてターゲットキーワードを検出する際に使用する更新済みキーワード検出モデルを、ストレージユニット240またはキーワード検出ユニット290に提供する。キーワード設定ユニット540はまた、ターゲットキーワードおよび機能の追加的選択またはキーワード/機能データベースにおける既存のエントリの削除に応答して、キーワード検出モデルを更新し得る。
[0061]キーワード検出ユニット290がキーワード検出モデルに基づいてターゲットキーワードを検出したとき、キーワード検出ユニット290は、検出されているターゲットキーワードを示す検出信号を生成する。検出信号に応答して、機能管理ユニット550は、検出されたターゲットキーワードに関連する機能を識別するために、キーワード/機能データベースにアクセスする。次いで、機能管理ユニット550は、識別された機能を実行する。
[0062]さらに、機能管理ユニット550は、検出されたターゲットキーワードに関連するAck音データと音声トーンモデルとをストレージユニット240から取り出し得る。この場合、機能管理ユニット550は、ターゲットキーワードの検出を示すために、取り出されたAck音データに基づいて確認応答音を生成し出力し得る。機能管理ユニット550はまた、TTS変換ユニット220によって生成された音声の音声トーンを修正するために、TTS変換ユニット220に音声トーンモデルを送信し得る。
[0063]図6は、本開示の一実施形態による、キーワードモデルに関連するターゲットキーワードを検出する際に使用するキーワードモデルをサーバ110から受信するための電子デバイス140において実行される例示的な方法600のフローチャートを示している。最初に、電子デバイス140は、サーバ110における複数のターゲットキーワードにアクセスし、610において、電子デバイス140のユーザは、複数のターゲットキーワードからターゲットキーワードを選択する。ユーザの選択に応答して、620において、電子デバイス140は、被選択ターゲットキーワードに関するキーワードデータファイルをサーバ110から受信する。キーワードデータファイルは、被選択ターゲットキーワードを検出する際に使用するキーワードモデルを含む。キーワードデータファイルはまた、Ack音データと音声トーンモデルとを含み得る。
[0064]630において、電子デバイス140はキーワード検出のために、受信されたキーワードデータファイルを確認する。一実施形態では、電子デバイス140は、受信されたキーワードデータファイルにおけるキーワードモデルがキーワード検出ユニット290において使用され得るかどうかを、キーワードデータファイルのヘッダにおける互換性情報またはバージョン情報に基づいて確認する。キーワードモデルがキーワード検出ユニット290に適合することを電子デバイス140が確認した場合、640において、電子デバイス140は、受信されたキーワードデータファイルからキーワードモデルを抽出する。キーワードモデルがキーワード検出ユニット290に適合しないと電子デバイス140が決定した場合、制御ユニット250が、キーワードモデルを互換バージョンに変換しようと試み得るか、または電子デバイス140が、キーワード検出ユニット290に適合するキーワードモデルの異なるバージョンを自動的にダウンロードし得る。キーワードデータファイルがさらにAck音データと音声トーンモデルとを含むとき、電子デバイス140はさらに、受信されたキーワードデータファイルからAck音データと音声トーンモデルとを抽出する。
[0065]次いで650において、電子デバイス140は、抽出されたキーワードモデルをストレージユニット240に記憶する。受信されたキーワードデータファイルからAck音データおよび音声トーンモデルも抽出された場合、電子デバイス140は、抽出されたAck音データと音声トーンモデルとをストレージユニット240に記憶する。別のターゲットキーワードに関係するキーワード検出モデルがキーワード検出ユニット290によってすでに使用されている場合、電子デバイス140は、更新済みキーワード検出モデル(たとえば、被選択ターゲットキーワードおよび他のターゲットキーワードに関する合成キーワード検出モデル)を形成するために、キーワード検出ユニット290によって使用されているキーワード検出モデルと抽出されたキーワードモデルをマージまたは合成(たとえば、連結)し得る。キーワード設定ユニット540は、入力音ストリームにおいて1つまたは複数のターゲットキーワードを検出する際に使用する更新済みキーワード検出モデルを、ストレージユニット240またはキーワード検出ユニット290に提供する。660において、方法600は、別のターゲットキーワードが選択されるかどうかを決定する。たとえば、電子デバイス140は、ユーザが別のターゲットキーワードを選択するかどうかを示すユーザからの入力を受信するのを待ち得る。別のターゲットキーワードが選択されると決定された場合、方法600は、次のターゲットキーワードを選択するために610に戻る。そうでない場合、方法600は終了する。
[0066]図7は、本開示の一実施形態による、サーバ110からアプリケーションファイルを受信し、アプリケーションファイルからキーワードモデルを抽出するための電子デバイス140において実行される例示的な方法700のフローチャートを示している。最初に、電子デバイス140は、サーバ110における複数のアプリケーションにアクセスし、710において、電子デバイス140のユーザは、ダウンロードおよびインストールのために複数のアプリケーションからアプリケーションを選択する。ユーザの選択に応答して、720において、電子デバイス140は、被選択アプリケーションをインストールするためのアプリケーションファイルを受信する。アプリケーションファイルは、ターゲットキーワードを検出し、ターゲットキーワードの検出に伴ってアプリケーションをアクティブ化する際に使用され得るキーワードモデルを含み得る。この場合、アプリケーションファイルはまた、ターゲットキーワードに関連するAck音データと音声トーンモデルとを含み得る。
[0067]730において、方法700は、受信されたアプリケーションファイルにキーワードモデルが存在するかどうかを決定する。受信されたアプリケーションファイルにキーワードモデルが存在しないと決定された場合、780において、電子デバイス140にアプリケーションがインストールされる。アプリケーションをインストールした後、方法700は790に進む。
[0068]一方、受信されたアプリケーションファイルにキーワードモデルが存在すると決定された場合、キーワード検出のためにキーワードモデルを確認するために、方法700は740に進む。一実施形態では、電子デバイス140は、ターゲットキーワードを検出するためにキーワード検出ユニット290においてアプリケーションファイルにおけるキーワードモデルが使用され得るかどうかを、アプリケーションファイルのヘッダにおける互換性またはバージョン情報に基づいて確認する。キーワードモデルがキーワード検出ユニット290に適合することを電子デバイス140が確認した場合、750において、電子デバイス140は、受信されたアプリケーションファイルからキーワードモデルを抽出し、抽出されたキーワードモデルをストレージユニット240に記憶する。キーワードモデルがキーワード検出ユニット290に適合しないと電子デバイス140が決定した場合、電子デバイス140は、キーワード検出ユニット290に適合するキーワードモデルの異なるバージョンを自動的にダウンロードし得る。アプリケーションファイルがさらにAck音データと音声トーンモデルとを含むとき、Ack音データおよび音声トーンモデルは、受信されたアプリケーションファイルから抽出され、ストレージユニット240に記憶される。
[0069]キーワードモデルを抽出した後、760において、受信されたアプリケーションファイルを使用して電子デバイス140にアプリケーションがインストールされる。次いで770において、アプリケーションファイルにおけるキーワードモデルに関連するターゲットキーワードがアプリケーションに、キーワードモデルに基づくターゲットキーワードの検出に伴ってインストール済みアプリケーションをアクティブ化するために割り当てられる。790において、方法700は、別のアプリケーションが選択されるかどうかを決定する。別のアプリケーションが選択されると決定された場合、方法700は、別のアプリケーションを選択するために710に戻る。そうでない場合、方法700は終了する。
[0070]図8は、本開示の一実施形態による、機能にターゲットキーワードを割り当てるためのメニュー810および820を示す電子デバイス140におけるディスプレイ画面310を示している。最初に、複数の機能からなるリストから機能を選択するために、ディスプレイ画面310上にメニュー810が表示され得る。図示のように、複数の機能からなるリストは、音声アシスタントアプリケーションをアクティブ化すること、写真を撮ること、電子デバイス140をロック解除すること、ボイスレコーダアプリケーションをアクティブ化することなどを含む。
[0071]電子デバイス140のユーザは、メニュー810から機能を選択し得る。たとえば、ユーザは機能「音声アシサントをアクティブ化する(ACTIVATE VOICE ASSISANT)」を選択し得る。それに応答して、電子デバイス140は、選択機能を実行するための、すなわち、音声アシスタントアプリケーションをアクティブ化するためのターゲットキーワードをユーザが選択することができるように、メニュー820を表示する。
[0072]ターゲットキーワードを選択するためのメニュー820は、電子デバイス140に記憶されたキーワードモデルに関連するターゲットキーワードからなるリストを表示する。ユーザは、機能「音声アシサントをアクティブ化する」に被選択ターゲットキーワードを割り当てるために、メニュー820からターゲットキーワードを選択し得る。たとえば、ターゲットキーワード「ちょっと、アシスタント」が被選択機能、すなわち、音声アシスタントアプリケーションをアクティブ化することに割り当てられ得る。ターゲットキーワードを選択するためのメニュー820はまた、新しいターゲットキーワードをダウンロードするためのメニュー項目を提供し得る。たとえば、ユーザは、メニュー項目「新しいキーワードをダウンロードする(DOWNLOAD NEW KEYWORD)」を選択することによって、図3に示すキーワードストアを立ち上げ、新しいターゲットキーワードと関連キーワードモデルとをサーバ110からダウンロードし得る。
[0073]ターゲットキーワード「ちょっと、アシスタント」が機能「音声アシスタントをアクティブ化する」に割り当てられたとき、電子デバイス140は、被選択キーワード「ちょっと、アシスタント」を被選択機能「音声アシサントをアクティブ化する」にマッピングすることによって、キーワード/機能データベースを更新する。電子デバイス140はまた、被選択キーワード「ちょっと、アシスタント」に関するキーワードモデルを取り出し、取り出されたキーワードモデルを追加することによってキーワード検出モデルを更新する。更新済みキーワード検出モデルに基づいて、電子デバイス140は、入力音においてターゲットキーワード「ちょっと、アシスタント」を検出し、更新済みキーワード/機能データベースにアクセスすることによって音声アシスタントアプリケーションをアクティブ化し得る。
[0074]図9は、本開示の一実施形態による、複数のターゲットキーワードを複数の機能にマッピングする例示的なキーワード/機能データベース900である。図示の実施形態では、ターゲットキーワードの「はい、チーズ」、「開けゴマ」、「ちょっと、アシスタント」および「記録を開始する」が、それぞれ機能の「写真を撮る」、「デバイスをロック解除する」、「音声アシスタントをアクティブ化する」および「ボイスレコーダをアクティブ化する」にマッピングされる。キーワード/機能データベース900はまた、ターゲットキーワード(たとえば、「はい、チーズ」)を関連するAck音データ(たとえば、ビープ音)および音声トーンモデル(たとえば、ロボットの音声)にマッピングし得る。キーワード/機能データベース900は、複数のターゲットキーワードを複数の機能に関連付けるルックアップテーブルまたは任意の他のデータ構造として実装され得る。
[0075]図5を参照しながら上述したように、電子デバイス140がターゲットキーワード(たとえば、「はい、チーズ」)をそれのキーワードモデルに基づいて検出したとき、電子デバイス140は、検出されたターゲットキーワードに関連する機能(たとえば、写真を撮ること)を識別するためにキーワード/機能データベース900をアクセスする。次いで電子デバイス140は、識別された機能(たとえば、写真を撮ること)を実行する。さらに、電子デバイス140は、キーワード/機能データベース900における検出されたターゲットキーワード(たとえば、「はい、チーズ」)に関連付けられるAck音データ(たとえば、ビープ音)と音声トーンモデル(たとえば、ロボットの音声)とをストレージユニット240から取り出し得る。
[0076]Ack音データを取り出すと、電子デバイス140は、ターゲットキーワード(たとえば、「はい、チーズ」)が検出されていることを示す確認応答音を生成し出力するために、取り出されたAck音データ(たとえば、ビープ音)を変換し得る。Ack音データがオーディオデータではなく、テキスト列または1つもしくは複数の単語である場合、電子デバイス140は、ターゲットキーワードに関連する音声トーンモデルに基づいて、テキスト列または単語を音声に変換することによって、確認応答音を生成し出力し得る。たとえば、電子デバイス140は、ターゲットキーワード「ちょっと、アシスタント」を検出したとき、機能「音声アシスタントをアクティブ化する」を実行し、「女性の音声2(FEMALE VOICE 2)」の音声トーンで確認応答音「お手伝いしましょうか?(MAY I HELP YOU?)」を生成する。
[0077]電子デバイス140はまた、TTS変換ユニット220によって生成された音声の音声トーンを修正するために、ターゲットキーワードに関連する音声トーンモデル(たとえば、ロボットの音声)をTTS変換ユニット220に送信し得る。音声トーンモデルが設定されると、TTS変換ユニット220は、検出されたターゲットキーワードに関連する音声トーンモデルに基づいて、テキスト音声変換を実行する。たとえば、ターゲットキーワード「はい、チーズ」を検出した後、電子デバイス140は、照明が写真を撮るには不十分であると決定し得る。この場合、電子デバイス140は、「不十分な照明」などのオーディオメッセージを生成するために、音声トーンモデル「ロボットの音声(ROBOTIC VOICE)」に基づいてテキスト音声変換を実行し得る。
[0078]図10Aは、本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード/機能データベースを更新するための電子デバイス140において実行される例示的な方法1010のフローチャートを示している。最初に1012において、電子デバイス140のユーザが、ターゲットキーワードを割り当てるために複数の機能からなるリストから機能を選択する。次いで1014において、ユーザは、被選択機能に関するターゲットキーワードを、被選択機能に被選択ターゲットキーワードを割り当てるために選択する。機能とターゲットキーワードとを選択することは、図8を参照しながら上述したような方法で実行され得る。
[0079]それに応答して、1016において、電子デバイス140は、被選択機能に被選択ターゲットキーワードを割り当てる。機能にターゲットキーワードが割り当てられたとき、方法1010は、キーワード/機能データベースが存在するかどうかを決定する。キーワード/機能データベースがすでに存在すると決定された場合、方法1010は、被選択ターゲットキーワードおよび被選択機能のマッピングにより既存のデータベースを更新するために、1020に進む。一方、既存のキーワード/機能データベースが発見されなかった場合、方法1010は、被選択ターゲットキーワードを被選択機能にマッピングする新しいキーワード/機能データベースを作成するために、1022に進む。キーワード/機能データベースを更新または作成した後、方法1010は、以下で詳細に説明するように、被選択ターゲットキーワードに関するキーワードモデルを抽出するために、図10Bにおける1032に進む。
[0080]図10Bは、本開示の一実施形態による、機能にターゲットキーワードを割り当て、キーワード検出モデルを更新するための電子デバイス140において実行される例示的な方法1030のフローチャートを示している。最初に、図10Aの方法1010においてキーワード/機能データベースを更新または作成した後、1032において、電子デバイス140は、被選択ターゲットキーワードに関するキーワードモデルをストレージユニット240から取り出す。取り出されたキーワードモデルは、ターゲットキーワードと、キーワードモデルパラメータと、しきい値とを含み得る。
[0081]キーワードモデルが取り出されたとき、方法1030は1034において、キーワード検出モデルがすでに存在するかどうか(たとえば、キーワード検出ユニット290がキーワード検出モデルをすでに使用しているかどうか)を決定する。既存のキーワード検出モデルが発見されなかった場合、方法1030は、取り出されたキーワードモデルをキーワード検出モデルとしてキーワード検出ユニット290に送るために、1040に進む。一方、キーワード検出モデルがすでに存在すると決定された場合、方法1030は、既存のキーワード検出モデルを更新するために、1036に進む。たとえば、電子デバイス140は、取り出されたキーワードモデルを既存のキーワード検出モデルに追加することによって(たとえば、合成キーワード検出モデルを形成するために、取り出されたキーワードモデルとキーワード検出モデルとをマージすることによって)、キーワード検出モデルを更新し得る。次いで1038において、電子デバイス140は、被選択ターゲットキーワードを検出する際に使用する更新済みキーワード検出モデルをキーワード検出ユニット290に送る。
[0082]図11は、本開示の一実施形態による、複数のキーワードモデルを含む例示的なキーワード検出モデル1100を示している。キーワード検出モデル1100は、キーワードモデルに関するターゲットキーワード1110と、キーワードモデルパラメータ1120と、しきい値1130とを含む。図示の実施形態では、ターゲットキーワード1110、キーワードモデルパラメータ1120、およびしきい値1130は、それらのカテゴリに従ってキーワード検出モデル1100において別個に並べられている。別の機能に新しいターゲットキーワードが割り当てられたとき、新しいターゲットキーワードに関連するキーワードモデルが、キーワード検出モデル1100におけるキーワードモデルと合成され得る。
[0083]上記で図5を参照しながら述べたように、キーワード検出ユニット290は、キーワード検出モデル1100に基づいて入力音においてターゲットキーワード1110を検出するように構成され得る。キーワード検出ユニット290は、ターゲットキーワード1110のうちの1つを検出したとき、検出されているターゲットキーワードを示す検出信号を生成し、制御ユニット250に検出信号を送信する。検出信号に応答して、制御ユニット250は、キーワード/機能データベースにアクセスすることによって、検出されたターゲットキーワードに関連する機能を実行する。図11におけるキーワード検出モデル1100は、ターゲットキーワード1110と、キーワードモデルパラメータ1120と、しきい値1130とを含むが、キーワード検出モデル1100は、随意の項目としてターゲットキーワード1110を含んでよい。
[0084]図12は、本開示の一実施形態による、入力音において関連ターゲットキーワードを検出したことに応答して複数の機能を実行するように構成された電子デバイス140を示している。図示の実施形態では、ユーザ1210は、異なる時間に電子デバイス140に、3つの異なるターゲットキーワードの「はい、チーズ」、「記録を開始する」および「ちょっと、アシスタント」を話しかける。入力音に応答して、電子デバイス140は、キーワード検出モデル1100に基づいてターゲットキーワードを検出し得る。ターゲットキーワード「はい、チーズ」が検出された場合には、電子デバイス140は、キーワード/機能データベース900にアクセスし、写真を撮る関連機能を実行する。さらに、電子デバイス140は、ターゲットキーワード「はい、チーズ」に関連するAck音データに基づいてビープ音を生成し、出力し得る。
[0085]同様に、ターゲットキーワード「記録を開始する」が検出されたとき、電子デバイス140は、キーワード/機能データベース900に基づいてボイスレコーダアプリケーションをアクティブ化する関連機能を実行する。電子デバイス140はまた、ターゲットキーワード「記録を開始する」に関連するAck音データに基づいて呼出し音を生成し、出力し得る。ターゲットキーワード「ちょっと、アシスタント」が検出された場合には、電子デバイス140は、キーワード/機能データベース900にアクセスし、音声アシスタントアプリケーションをアクティブ化する関連機能を実行する。さらに、電子デバイス140は、ターゲットキーワード「ちょっと、アシスタント」に関連するAck音データと音声トーンモデルとを使用することによって、「女性の音声2」の音声トーンで確認応答音「お手伝いしましょうか?」を生成し出力する。
[0086]図13は、本開示の一実施形態による、ターゲットキーワードに関連する音声トーンモデルに基づいてテキストから音声データを生成するように構成された電子デバイス140を示している。上記で図12を参照しながら述べたように、ターゲットキーワード「ちょっと、アシスタント」が検出されたとき、電子デバイスは、ターゲットキーワードに関連する音声アシスタントアプリケーションをアクティブ化し、「女性の音声2」の音声トーンで確認応答音「お手伝いしましょうか?」を出力する。それに応答して、ユーザ1310は、音声コマンドを話すことによって音声アシスタントアプリケーションを通じて様々な動作を実行し得る。
[0087]図示の実施形態では、ユーザ1310は、音声コマンド「今日の気象はどうですか?」を話すことによって気象予報を尋ね得る。次いで電子デバイス140は、電子デバイス140のGPS(全地球測位システム)情報に基づいて通信ネットワーク150を通じて気象情報にアクセスし、受信された気象情報をディスプレイ画面310に表示し得る。さらに、電子デバイス140はまた、ターゲットキーワード「ちょっと、アシスタント」に関連する音声トーン「女性の音声2」による音声にテキストメッセージ「サンディエゴは晴れ、気温は74度です」を変換することによって、気象情報を出力し得る。
[0088]図14は、本開示の一実施形態による、入力音において検出されたターゲットキーワードに関連する機能を実行するための電子デバイス140において実行される例示的な方法1400のフローチャートを示している。最初に1410において、電子デバイス140は、音センサー270によって入力音を受信する。次いで1420において、電子デバイス140は、キーワード検出モデルに基づいて入力音からターゲットキーワードを検出する。
[0089]ターゲットキーワードを検出すると、電子デバイス140は、1430において、検出されたターゲットキーワードに関連する機能を識別するために、キーワード/機能データベースにアクセスする。キーワード/機能データベースにアクセスすることによって、電子デバイス140はさらに、検出されたターゲットキーワードに関連するAck音データと音声トーンモデルとを識別し得る。次いで方法1400は、検出されたターゲットキーワードに関連する機能を実行するために1440に進む。さらに1450において、検出されたターゲットキーワードに関連するAck音データに基づいて確認応答音が出力される。機能を実行した後、1460において、電子デバイス140は、識別された音声トーンモデルに基づいてTTS変換ユニット220の音声トーンを修正する。
[0090]図15は、本開示のいくつかの実施形態による、機能を動作させるためのターゲットキーワードを設定するための方法および装置が実装され得るワイヤレス通信システムにおけるモバイルデバイス1500のブロック図を示している。モバイルデバイス1500は、セルラーフォン、端末、ハンドセット、携帯情報端末(PDA)、ワイヤレスモデム、コードレスフォン、タブレットなどであり得る。ワイヤレス通信システムは、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標):Global System for Mobile Communications)システム、広帯域CDMA(W−CDMA(登録商標))システム、ロングタームエボリューション(LTE:Long Tern Evolution)システム、LTE Advancedシステムなどであり得る。
[0091]モバイルデバイス1500は、受信経路および送信経路を介して双方向通信を行うことが可能であり得る。受信経路上では、基地局によって送信された信号は、アンテナ1512によって受信され、受信機(RCVR)1514に与えられる。受信機1514は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化された信号をデジタルセクション1520に与える。送信経路上では、送信機(TMTR)は、デジタルセクション1520から送信されるべきデータを受信し、データを処理し、調整し、被変調信号を生成し、被変調信号はアンテナ1512を介して基地局に送信される。受信機1514および送信機1516は、CDMA、GSM、W−CDMA、LTE、LTE Advancedなどをサポートするトランシーバの一部である。
[0092]デジタルセクション1520は、たとえば、モデムプロセッサ1522、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1524、コントローラ/プロセッサ1526、内部メモリ1528、一般化オーディオエンコーダ1532、一般化オーディオデコーダ1534、グラフィックス/ディスプレイプロセッサ1536、および/または外部バスインターフェース(EBI)1538など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ1522は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行する。RISC/DSP1524は、モバイルデバイス1500のための一般的処理と専用処理とを実行する。コントローラ/プロセッサ1526は、デジタルセクション1520内の様々な処理およびインターフェースユニットの演算を制御する。内部メモリ1528は、デジタルセクション1520内の様々なユニットのためのデータおよび/または命令を記憶する。
[0093]一般化オーディオエンコーダ1532は、オーディオソース1542、マイクロフォン1543などからの入力信号に対して符号化を実行する。一般化オーディオデコーダ1534は、コーディングされたオーディオデータに対して復号を実行し、出力信号をスピーカー/ヘッドセット1544に与える。一般化オーディオエンコーダ1532および一般化オーディオデコーダ1534は、必ずしも、オーディオソース、マイクロフォン1543およびスピーカー/ヘッドセット1544とのインターフェースのために必要とされるとは限らず、したがって、モバイルデバイス1500に示されていないことに留意されたい。グラフィックス/ディスプレイプロセッサ1536は、ディスプレイユニット1546に提示されるグラフィックス、ビデオ、画像、およびテキストのための処理を実行する。EBI1538は、デジタルセクション1520とメインメモリ1548との間のデータの転送を可能にする。
[0094]デジタルセクション1520は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装される。デジタルセクション1520はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に作製される。
[0095]概して、本明細書で説明したいかなるデバイスも、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなどのような、様々なタイプのデバイスを示す。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、クライアントデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどのような、様々な名前を有し得る。本明細書で説明したいかなるデバイスも、命令およびデータを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。
[0096]図16は、本開示のいくつかの実施形態による、関連ターゲットキーワードを検出するためのキーワードモデルを提供するための方法および装置が実装され得るサーバシステム1600のブロック図を示している。サーバシステム1600は、1つまたは複数の処理ユニット(CPU)1602と、1つまたは複数のネットワークまたは他の通信ネットワークインターフェース1610と、メモリ1612と、これらの構成要素を相互接続するための1つまたは複数の通信バス1614とを含み得る。サーバシステム1600はまた、ディスプレイデバイスとキーボードとを有するユーザインターフェース(図示せず)を含み得る。
[0097]メモリ1612は、高速ランダムアクセスメモリ(たとえば、DRAM、SRAM、DDR RAMまたは他のランダムアクセスソリッドステートメモリデバイス)など、任意の適切なメモリであり得る。メモリ1612は、不揮発性メモリ(たとえば、1つまたは複数の磁気ディスクストレージデバイス、光ディスクストレージデバイス、フラッシュメモリデバイス、または他の不揮発性ソリッドステートストレージデバイス)を含み得るか、または代替的に不揮発性メモリであり得る。いくつかの実施形態では、メモリ1612は、CPU1602から遠隔に位置する、および/または複数のサイト中に遠隔に位置する1つまたは複数のストレージデバイスを含み得る。
[0098]メモリ1612によって表される上記のメモリデバイスのうちのいずれか1つが、前に説明したプロセス、動作、および方法のいずれかを実行および/または履行するための命令のセットに対応する、任意の数のモジュールまたはプログラムを記憶し得る。たとえば、メモリ1612は、様々な基本システムサービスを処理するためのプロシージャと、ハードウェア依存タスクを実行するためのプロシージャとを含む命令を記憶するように構成されたオペレーティングシステム1616を含み得る。メモリ1612のネットワーク通信モジュール1618は、1つまたは複数の通信ネットワークインターフェース1610(ワイヤードまたはワイヤレス)と、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、メトロポリタンエリアネットワークなどのような、1つまたは複数の通信ネットワークとを介して、サーバシステム1600を他のコンピュータに接続するために使用され得る。
[0099]メモリ1612はまた、サーバシステム1600の動作に必要な様々なデータおよび/または情報を記憶するように構成されたデータベース1620を含み得る。たとえば、データベース1620は、複数のターゲットキーワードに関するキーワードデータファイルを記憶する。この構成では、キーワードデータファイルの各々は、キーワードモデルと、Ack音データと、音声トーンモデルとを含み得る。
[0100]上記の識別されたモジュールまたはプログラム(すなわち、命令のセット)は、別個のソフトウェアプログラム、プロシージャまたはモジュールとして実装される必要がなく、したがって、これらのモジュールの様々なサブセットは、様々な実施形態において組み合わせられるか、あるいは並べ替えられ得ることを諒解されよう。さらに、メモリ1612は、上記で説明していない追加のモジュールおよびデータ構造を記憶し得る。
[0101]図15および図16は、本明細書で説明する実施形態の構造概略図というよりむしろ、クライアントシステムおよびサーバシステムの様々な特徴の機能説明として意図されている。実際には、当業者によって認識されるように、別々に示されたアイテムが組み合わせられ得、いくつかのアイテムが分離され得る。たとえば、図16で別々に示されたいくつかのアイテムは、単一のサーバ上で実装され得、単一のアイテムは、1つまたは複数のサーバによって実装され得る。さらに、データベース1620は、サーバの異なるセット上で、またはサーバシステム1600の他の構成要素において実装され得る。サーバシステム1600を実装するために使用されるサーバの実際の数、およびそれらの間の特徴の割振りは、実装ごとに異なり得る。
[0102]本明細書で説明した技法は様々な手段によって実装される。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装される。さらに、本明細書の開示に関連して説明した様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、または両方の組合せが可能であるように実装され得ることを諒解されよう。ハードウェアとソフトウェアのこの互換性を明確に示すために、様々な例示的な構成要素、ブロック、モジュール、回路、およびステップについて、上記では概してそれらの機能に関して説明した。そのような機能がハードウェアとして実装されるか、またはソフトウェアとして実装されるかは、特定の適用例および全体的なシステムに課された設計制約に依存する。説明した機能は、特定の適用例ごとに様々な方法で実装され得るが、そのような実装の決定は、本開示の範囲からの逸脱を生じさせるものと解釈されるべきではない。
[0103]ハードウェア実装の場合、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書で説明した機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。
[0104]ソフトウェアで実装された場合、前に説明した方法、動作、およびプロセスは、1つまたは複数の命令またはコードとしてコンピュータ可読媒体上に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を容易にする任意の媒体を含む、コンピュータ記憶媒体と通信媒体の両方を含む。記憶媒体は、コンピュータによってアクセスされ得る任意の利用可能な媒体であり得る。限定ではなく例として、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD−ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気ストレージデバイス、または、命令もしくはデータ構造の形態の所望のプログラムコードを搬送もしくは記憶するために使用され得る、コンピュータによってアクセスされ得る、任意の他の媒体を備え得る。また、任意の接続が、適切にコンピュータ可読媒体と呼ばれる。たとえば、同軸ケーブル、光ファイバーケーブル、ツイストペア、デジタル加入者線(「DSL」)、または赤外線、無線、およびマイクロ波などのワイヤレス技術を使用して、ソフトウェアがウェブサイト、サーバまたは他のリモートソースから送信される場合、同軸ケーブル、光ファイバーケーブル、ツイストペア、DSL、または赤外線、無線、およびマイクロ波などワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザーディスク(登録商標)(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピー(登録商標)ディスク(disk)、およびBlu−ray(登録商標)ディスク(disc)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)は、データをレーザーで光学的に再生する。上述の組合せもコンピュータ可読媒体の範囲内に含まれるべきである。
[0105]本開示の先の説明は、当業者が本開示を作成または使用することを可能にするために提供される。本開示への様々な修正は当業者には容易に明らかとなり、本明細書で定義した一般原理は、本開示の趣旨または範囲から逸脱することなく他の変形形態に適用される。したがって、本開示は、本明細書で説明した例に限定されるものではなく、本明細書で開示した原理および新規の特徴に合致する最も広い範囲を与えられるべきである。
[0106]主題は構造機能および/または方法論的な行為に固有の言語で記載されているが、添付の特許請求の範囲において定義される主題は必ずしも上記の特定の特徴または行為に限定されるとは限らないことを理解されたい。むしろ、上記の特定の特徴および行為は、特許請求の範囲を実施することの例示的な形態として開示される。
以下に本願発明の当初の特許請求の範囲に記載された発明を付記する。
[C1]
電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択することと、
前記通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信することと、
前記電子デバイスの機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てることと
を備える方法。
[C2]
応答音データを受信することをさらに備え、ここにおいて前記電子デバイスは、前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記応答音データに基づいて応答音を出力する、C1に記載の方法。
[C3]
前記キーワードモデルは、前記キーワードモデルと互換性情報とを含むキーワードデータファイルにおいて受信され、前記方法は、
前記互換性情報に基づいて、前記キーワードデータファイルが前記電子デバイスのキーワード検出ユニットに適合するかどうかを決定することと、
前記キーワードデータファイルが前記キーワード検出ユニットに適合する場合に、前記キーワードデータファイルから前記キーワードモデルを抽出し、前記抽出されたキーワードモデルを記憶することと
をさらに備える、C1に記載の方法。
[C4]
前記キーワードデータファイルが前記キーワード検出ユニットに適合しない場合に、前記キーワードモデルの第2のバージョンをダウンロードすることと、ここにおいて、前記キーワードモデルの前記第2のバージョンが前記キーワード検出ユニットに適合する、前記キーワードモデルの前記第2のバージョンを記憶することとをさらに備える、C3に記載の方法。
[C5]
前記キーワードデータファイルが前記キーワード検出ユニットに適合しない場合に、
前記通信ネットワークを介してサーバに、前記電子デバイス、前記キーワード検出ユニット、または両方を記述している情報を送ることと、ここにおいて、前記サーバが前記情報に基づいて前記キーワードモデルの第2のバージョンを選択し、ここにおいて、前記キーワードモデルの前記第2のバージョンが前記キーワード検出ユニットに適合する
前記サーバから前記キーワードモデルの前記第2のバージョンを受信することと、
前記キーワードモデルの前記第2のバージョンを記憶することと
をさらに備える、C3に記載の方法。
[C6]
前記キーワードデータファイルが前記キーワード検出ユニットに適合しない場合に、前記キーワードモデルを第2のバージョンに変換することと、ここにおいて、前記キーワードモデルの前記第2のバージョンが前記キーワード検出ユニットに適合する、前記キーワードモデルの前記第2のバージョンを記憶することとをさらに備える、C3に記載の方法。
[C7]
前記機能に前記特定のターゲットキーワードを割り当てることは、合成キーワードモデルを形成するために、前記キーワードモデルを、第2の特定のターゲットキーワードに関連する少なくとも1つの他のキーワードモデルと合成することを備え、ここにおいて前記第2の特定のターゲットキーワードは、前記電子デバイスの少なくとも1つの他の機能に関連付けられる、C1に記載の方法。
[C8]
前記入力音を受信することと、
前記合成キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記機能を実行することと、
前記合成キーワードモデルに基づいて前記入力音において前記第2の特定のターゲットキーワードを検出したことに応答して、前記少なくとも1つの他の機能を実行することと
をさらに備える、C7に記載の方法。
[C9]
前記キーワードモデルはアプリケーションファイルにおいて受信され、前記方法は、前記アプリケーションファイルから前記キーワードモデルを抽出することをさらに備え、ここにおいて前記特定のターゲットキーワードが割り当てられる前記機能は、アプリケーションをアクティブ化することを含む、C1に記載の方法。
[C10]
前記特定のターゲットキーワードに関連する音声トーンモデルを受信することをさらに備え、ここにおいて前記音声トーンモデルは、前記電子デバイスによって出力された音声の音声トーンを修正するように適合される、C1に記載の方法。
[C11]
前記音声トーンモデルは、テキストから変換された音声の前記音声トーンを修正するように適合され、前記方法は、
前記入力音を受信することと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
前記入力音において前記特定のターゲットキーワードが検出された場合に、前記特定のターゲットキーワードに関連する前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正することと
をさらに備える、C10に記載の方法。
[C12]
前記入力音を受信することと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
前記入力音において前記特定のターゲットキーワードが検出された場合に、前記機能を実行することと
をさらに備える、C1に記載の方法。
[C13]
前記機能は、音声アシスタントをアクティブ化すること、カメラをアクティブ化すること、音楽プレーヤをアクティブ化すること、ボイスレコーダをアクティブ化すること、写真を撮ること、および前記電子デバイスをロック解除することのうちの1つである、C1に記載の方法。
[C14]
前記キーワードモデルは、ユーザ固有ではなく、前記特定のターゲットキーワードの言語のすべての音素よりも少ない音素をモデル化するための情報を含む、C1に記載の方法。
[C15]
複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するためのユーザインターフェースユニットと、
通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信するように構成されたダウンロード管理ユニットと、
前記電子デバイスの機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てるように構成されたキーワード設定ユニットと
を備える電子デバイス。
[C16]
前記ダウンロード管理ユニットは、前記入力音における前記特定のターゲットキーワードの検出を示す応答音を生成するために応答音データを受信するようにさらに構成される、C15に記載の電子デバイス。
[C17]
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードが検出されたときに、前記特定のターゲットキーワードに関連する前記応答音データに基づいて前記応答音を生成するように構成された機能管理ユニットと
をさらに備える、C16に記載の電子デバイス。
[C18]
前記ダウンロード管理ユニットは、テキストから変換された音声の音声トーンを修正するように適合された音声トーンモデルを受信するようにさらに構成される、C15に記載の電子デバイス。
[C19]
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正するように構成されたTTS(テキスト音声)変換ユニットと
をさらに備える、C18に記載の電子デバイス。
[C20]
前記キーワード設定ユニットは、合成キーワードモデルを形成するために、前記キーワードモデルを、第2の特定のターゲットキーワードに関連する少なくとも1つの他のキーワードモデルと合成するようにさらに構成され、ここにおいて前記第2の特定のターゲットキーワードは、前記電子デバイスの少なくとも1つの他の機能に関連付けられる、C15に記載の電子デバイス。
[C21]
前記入力音を受信するように構成された音センサーと、
前記合成キーワードモデルに基づいて前記入力音においてキーワードを検出するように構成されたキーワード検出ユニットと、
前記合成キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードが検出されたときに、前記機能を実行し、前記合成キーワードモデルに基づいて前記入力音において前記第2の特定のターゲットキーワードが検出されたときに、前記少なくとも1つの他の機能を実行するように構成された機能管理ユニットと
をさらに備える、C20に記載の電子デバイス。
[C22]
前記ダウンロード管理ユニットは、前記通信ネットワークを介して、アプリケーションファイルを受信するように構成され、ここにおいて前記アプリケーションファイルは、前記特定のターゲットキーワードに関する前記キーワードモデルを含み、前記電子デバイスは、前記アプリケーションファイルから前記キーワードモデルを抽出するように構成された抽出ユニットをさらに備え、ここにおいて前記キーワード設定ユニットは、前記アプリケーションに、前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出したことに応答して前記アプリケーションをアクティブ化するために前記特定のターゲットキーワードを割り当てるように構成される、C15に記載の電子デバイス。
[C23]
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記アプリケーションをアクティブ化するように構成された機能管理ユニットと
をさらに備える、C22に記載の電子デバイス。
[C24]
前記入力音を受信するように構成された音センサーと、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するように構成されたキーワード検出ユニットと、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して前記機能を実行するように構成された機能管理ユニットと
をさらに備える、C15に記載の電子デバイス。
[C25]
複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するための手段と、
通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信するための手段と、
機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てるための手段と
を備える電子デバイス。
[C26]
前記キーワードモデルを受信するための前記手段は、応答音データを受信するように構成され、前記電子デバイスは、
前記入力音を受信するための手段と、
前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出するための手段と、
前記入力音において前記特定のターゲットキーワードを検出したことに応答して、前記特定のターゲットキーワードに関連する前記応答音データに基づいて応答音を生成するための手段と
をさらに備える、C25に記載の電子デバイス。
[C27]
前記キーワードモデルは、前記キーワードモデルと互換性情報とを含むキーワードデータファイルにおいて受信され、前記電子デバイスは、
前記入力音においてキーワードを検出するための手段と、
前記互換性情報に基づいて、前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合するかどうかを決定するための手段と、
前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合する場合に、前記キーワードデータファイルから前記キーワードモデルを抽出するための手段と
をさらに備える、C25に記載の電子デバイス。
[C28]
前記キーワードモデルを受信するための前記手段は、前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合しない場合に、前記キーワードモデルの第2のバージョンを受信するように構成される、C27に記載の電子デバイス。
[C29]
機能にターゲットキーワードを割り当てるための命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、
電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択することと、
前記通信ネットワークを介して、前記特定のターゲットキーワードに関するキーワードモデルを受信することと、
前記電子デバイスの機能に、前記電子デバイスにおいて受信された入力音において前記キーワードモデルに基づいて前記特定のターゲットキーワードを検出したことに応答して前記機能が実行されるように前記特定のターゲットキーワードを割り当てることと
を行う動作をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
[C30]
前記キーワードモデルは、ユーザ固有ではなく、前記特定のターゲットキーワードの言語のすべての音素よりも少ない音素をモデル化するための情報を含む、C29に記載の非一時的コンピュータ可読記憶媒体。

Claims (30)

  1. 電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
    前記電子デバイスにおいて、前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択するユーザ入力を受信することと、
    前記ユーザ入力に応答して、
    前記通信ネットワークを介して、前記電子デバイスにおいて、キーワードデータファイルを受信することと、前記キーワードデータファイルは、前記特定のターゲットキーワードに関するキーワードモデルを含み、互換性情報を含む、
    前記互換性情報に基づいて、前記キーワードデータファイルが前記電子デバイスのキーワード検出ユニットに適合するかどうかを決定することと、
    前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に基づいて前記キーワードモデルの第2のバージョンを受信することと、
    前記電子デバイスにおいて受信された入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して前記電子デバイスの機能がアクティブ化されるように、前記電子デバイスにおいて、前記機能に前記特定のターゲットキーワードを割り当てることと
    を備える方法。
  2. 前記電子デバイスにおいて、応答音データを受信することと、
    前記特定のターゲットキーワードが前記入力音に含まれるかどうかを検出することと、
    前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記応答音データに基づいて、前記電子デバイスにおいて応答音を出力することと
    をさらに備える、請求項1に記載の方法。
  3. 前記キーワードデータファイルが前記キーワード検出ユニットに適合するという決定に応答して、前記キーワードデータファイルから前記キーワードモデルを抽出し、前記キーワードモデルを記憶することをさらに備える、請求項1に記載の方法。
  4. 前記キーワードモデルの前記第2のバージョンが前記キーワード検出ユニットに適合し、前記キーワードモデルの前記第2のバージョンを記憶することをさらに備える、請求項1に記載の方法。
  5. 前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に応答して、
    前記通信ネットワークを介してサーバに、前記電子デバイス、前記キーワード検出ユニット、または両方を記述している情報を送ることと、ここにおいて、前記サーバが前記情報に基づいて前記キーワードモデルの前記第2のバージョンを選択し、ここにおいて、前記キーワードモデルの前記第2のバージョンが前記キーワード検出ユニットに適合する、
    前記サーバから前記キーワードモデルの前記第2のバージョンを受信することと、
    前記電子デバイスにおいて、前記キーワードモデルの前記第2のバージョンを記憶することと
    をさらに備える、請求項1に記載の方法。
  6. 前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に応答して、前記キーワードモデルを前記第2のバージョンに変換することと、ここにおいて、前記キーワードモデルの前記第2のバージョンが前記キーワード検出ユニットに適合し、前記キーワードモデルの前記第2のバージョンを記憶することとをさらに備える、請求項1に記載の方法。
  7. 前記機能に前記特定のターゲットキーワードを割り当てることは、合成キーワードモデルを形成するために、前記キーワードモデルを、前記複数のターゲットキーワードからの第2の特定のターゲットキーワードに関連する少なくとも1つの他のキーワードモデルと合成することを備え、前記第2の特定のターゲットキーワードは、前記電子デバイスの少なくとも1つの他の機能に関連付けられる、請求項1に記載の方法。
  8. 前記電子デバイスにおいて前記入力音を受信することと、
    前記合成キーワードモデルに基づいて、前記特定のターゲットキーワード、前記第2の特定のターゲットキーワード、またはこれらの組合せが前記入力音に含まれるかどうかを、前記電子デバイスにおいて検出することと、
    前記特定のターゲットキーワードが前記入力音に含まれることを検出したことに応答して、前記機能を実行することと、
    前記第2の特定のターゲットキーワードが前記入力音に含まれることを検出したことに応答して、前記少なくとも1つの他の機能を実行することと
    をさらに備える、請求項7に記載の方法。
  9. 前記キーワードデータファイルはアプリケーションファイルを含み、前記方法は、前記アプリケーションファイルから前記キーワードモデルを抽出することをさらに備え、ここにおいて前記特定のターゲットキーワードが割り当てられる前記機能は、前記アプリケーションファイルをアクティブ化することを含む、請求項1に記載の方法。
  10. 前記特定のターゲットキーワードに関連する音声トーンモデルを受信することをさらに備え、ここにおいて前記音声トーンモデルは、前記電子デバイスによって出力された音声の音声トーンを修正するように適合される、請求項1に記載の方法。
  11. 前記音声トーンモデルは、テキストから変換された音声の前記音声トーンを修正するように適合され、前記方法は、
    前記電子デバイスにおいて前記入力音を受信することと、
    前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
    前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記特定のターゲットキーワードに関連する前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正することと
    をさらに備える、請求項10に記載の方法。
  12. 前記電子デバイスにおいて前記入力音を受信することと、
    前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出することと、
    前記特定のターゲットキーワードが前記入力音に含まれることを検出したことに応答して、前記機能をアクティブ化することと、ここにおいて、前記機能をアクティブ化することは、前記電子デバイスに前記機能を実行させる命令を実行することを備える、
    をさらに備える、請求項1に記載の方法。
  13. 前記機能は、音声アシスタントをアクティブ化すること、カメラをアクティブ化すること、音楽プレーヤをアクティブ化すること、ボイスレコーダをアクティブ化すること、写真を撮ること、前記電子デバイスをロック解除すること、またはこれらの組合せを備える、請求項1に記載の方法。
  14. 前記機能に前記特定のターゲットキーワードを割り当てるより前に、前記電子デバイスのユーザインターフェースを介して前記機能の選択を受信することをさらに備える、請求項1に記載の方法。
  15. 複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するためのユーザインターフェースユニットと、
    前記入力に応答して、通信ネットワークを介して、キーワードデータファイルを受信するように構成されたダウンロード管理ユニットと、前記キーワードデータファイルは、前記特定のターゲットキーワードのためのキーワードモデルを含み、互換性情報を含む、
    前記互換性情報に基づいて、前記キーワードデータファイルがキーワード検出ユニットに適合するかどうかを決定するように構成された確認ユニットと、ここにおいて、前記ダウンロード管理ユニットは、前記キーワードデータファイルが前記キーワード検出ユニットに適合しないという決定に基づいて、前記キーワードモデルの第2のバージョンを受信するように構成される、
    電子デバイスにおいて受信された入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して前記電子デバイスの機能がアクティブ化されるように、前記入力に応答して、前記機能に前記特定のターゲットキーワードを割り当てるように構成されたキーワード設定ユニットと
    を備える電子デバイス。
  16. 前記ダウンロード管理ユニットは、応答音データを受信するようにさらに構成され、前記応答音データは、前記入力音に前記特定のターゲットキーワードが含まれるという検出を示す応答音を生成するために使用される、請求項15に記載の電子デバイス。
  17. 前記入力音を受信するように構成された音センサーと、ここにおいて、前記キーワード検出ユニットは、前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれるかどうかを検出するように構成される、
    前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記特定のターゲットキーワードに関連する前記応答音データに基づいて前記応答音を生成するように構成された機能管理ユニットと
    をさらに備える、請求項16に記載の電子デバイス。
  18. 前記ダウンロード管理ユニットは、テキストから変換された音声の音声トーンを修正するように適合された音声トーンモデルを受信するようにさらに構成される、請求項15に記載の電子デバイス。
  19. 前記入力音を受信するように構成された音センサーと、
    前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれることを検出するように構成されたキーワード検出ユニットと、
    前記入力音における前記特定のターゲットキーワードの検出に応答して、前記音声トーンモデルに基づいて、前記テキストから変換された前記音声の前記音声トーンを修正するように構成されたテキスト音声(TTS)変換ユニットと
    をさらに備える、請求項18に記載の電子デバイス。
  20. 前記キーワード設定ユニットは、合成キーワードモデルを形成するために、前記キーワードモデルを、第2の特定のターゲットキーワードに関連する少なくとも1つの他のキーワードモデルと合成するようにさらに構成され、ここにおいて前記第2の特定のターゲットキーワードは、前記電子デバイスの少なくとも1つの他の機能に関連付けられる、請求項15に記載の電子デバイス。
  21. 前記入力音を受信するように構成された音センサーと、
    前記合成キーワードモデルに基づいて前記入力音にキーワードが含まれるかどうかを検出するように構成されたキーワード検出ユニットと、
    前記合成キーワードモデルに基づいて前記入力音における前記特定のターゲットキーワードの検出に応答して、前記機能をアクティブ化することと、
    前記合成キーワードモデルに基づいて前記入力音における前記第2の特定のターゲットキーワードの検出に応答して、前記少なくとも1つの他の機能をアクティブ化することと
    を行うように構成された機能管理ユニットと
    をさらに備える、請求項20に記載の電子デバイス。
  22. 前記ダウンロード管理ユニットは、前記通信ネットワークを介して、アプリケーションファイルを受信するように構成され、ここにおいて前記アプリケーションファイルは、前記キーワードデータファイルを含み、前記電子デバイスは、前記アプリケーションファイルから前記キーワードデータファイルを抽出するように構成された抽出ユニットをさらに備え、ここにおいて前記キーワード設定ユニットは、前記アプリケーションファイルに、前記キーワードモデルに基づいて前記入力音において前記特定のターゲットキーワードを検出したことに応答してアプリケーションをアクティブ化するために前記特定のターゲットキーワードを割り当てるように構成される、請求項15に記載の電子デバイス。
  23. 前記入力音を受信するように構成された音センサーと、
    前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれるかどうかを検出するように構成されたキーワード検出ユニットと、
    前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記アプリケーションをアクティブ化するように構成された機能管理ユニットと
    をさらに備える、請求項22に記載の電子デバイス。
  24. 前記入力音を受信するように構成された音センサーと、
    前記キーワードモデルに基づいて前記入力音に前記特定のターゲットキーワードが含まれるかどうかを検出するように構成されたキーワード検出ユニットと、
    前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して前記機能を実行するように構成された機能管理ユニットと
    をさらに備える、請求項15に記載の電子デバイス。
  25. 複数のターゲットキーワードからなるリストから特定のターゲットキーワードを選択する入力を受信するための手段と、
    前記特定のターゲットキーワードに応答して、通信ネットワークを介して、キーワードデータファイルを受信するための手段と、前記キーワードデータファイルは、前記特定のターゲットキーワードに関するキーワードモデルを含み、互換性情報を含む、
    前記互換性情報に基づいて、前記キーワードデータファイルが入力音においてキーワードを検出するための手段に適合するかどうかを決定するための手段と、ここにおいて、前記キーワードデータファイルを受信するための前記手段は、前記キーワードデータファイルが前記入力音においてキーワードを検出するための前記手段に適合しないという決定に基づいて、前記キーワードモデルの第2のバージョンを受信するように構成される、
    電子デバイスにおいて受信された前記入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して機能がアクティブ化されるように、前記入力に応答して前記機能に前記特定のターゲットキーワードを割り当てるための手段と
    を備える電子デバイス。
  26. 前記キーワードモデルを受信するための前記手段は、応答音データを受信するように構成され、キーワードを検出するための前記手段は、前記入力音に前記特定のターゲットキーワードが含まれるかどうかを決定するように構成され、前記電子デバイスは、
    前記入力音を受信するための手段と、
    前記入力音に前記特定のターゲットキーワードが含まれることを検出したことに応答して、前記特定のターゲットキーワードに関連する前記応答音データに基づいて応答音を生成するための手段と
    をさらに備える、請求項25に記載の電子デバイス。
  27. 前記キーワードデータファイルが、前記入力音においてキーワードを検出するための前記手段に適合するという決定に応答して、前記キーワードデータファイルから前記キーワードモデルを抽出するための手段
    をさらに備える、請求項25に記載の電子デバイス。
  28. 前記キーワードモデルの前記第2のバージョンは、キーワードを検出するための前記手段に適合し、前記キーワードモデルの前記第2のバージョンを記憶することをさらに備える、請求項27に記載の電子デバイス。
  29. 命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、
    電子デバイスにおいて、複数のターゲットキーワードからなるリストを受信することと、前記リストが通信ネットワークを介して受信される、
    前記複数のターゲットキーワードからなる前記リストから特定のターゲットキーワードを選択するユーザ入力を受信することと、
    前記ユーザ入力に応答して、
    前記通信ネットワークを介して、キーワードデータファイルを受信することと、前記キーワードデータファイルは、前記特定のターゲットキーワードに関するキーワードモデルを含み、互換性情報を含む、
    前記互換性情報に基づいて、前記キーワードデータファイルが前記電子デバイスに適合するかどうかを決定することと、
    前記キーワードデータファイルがキーワード検出ユニットに適合しないという決定に基づいて前記キーワードモデルの第2のバージョンを受信することと、
    前記電子デバイスにおいて受信された入力音が前記特定のターゲットキーワードを含むことを、前記キーワードモデルに基づいて検出したことに応答して前記電子デバイスの機能がアクティブ化されるように、前記電子デバイスにおいて、前記機能に前記特定のターゲットキーワードを割り当てることと
    をプロセッサに行わせる、非一時的コンピュータ可読記憶媒体。
  30. 前記キーワードモデルは、ユーザ固有ではなく、前記特定のターゲットキーワードの言語の音素のサブセットをモデル化するための情報を含む、請求項29に記載の非一時的コンピュータ可読記憶媒体。
JP2016525380A 2013-07-08 2014-07-02 音声動作式機能にキーワードモデルを割り当てるための方法および装置 Active JP6373985B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361843650P 2013-07-08 2013-07-08
US61/843,650 2013-07-08
US14/101,869 2013-12-10
US14/101,869 US9786296B2 (en) 2013-07-08 2013-12-10 Method and apparatus for assigning keyword model to voice operated function
PCT/US2014/045193 WO2015006116A1 (en) 2013-07-08 2014-07-02 Method and apparatus for assigning keyword model to voice operated function

Publications (3)

Publication Number Publication Date
JP2016532146A JP2016532146A (ja) 2016-10-13
JP2016532146A5 JP2016532146A5 (ja) 2017-12-21
JP6373985B2 true JP6373985B2 (ja) 2018-08-15

Family

ID=52133403

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016525380A Active JP6373985B2 (ja) 2013-07-08 2014-07-02 音声動作式機能にキーワードモデルを割り当てるための方法および装置

Country Status (6)

Country Link
US (1) US9786296B2 (ja)
EP (1) EP3020040B1 (ja)
JP (1) JP6373985B2 (ja)
KR (1) KR101922782B1 (ja)
CN (1) CN105340006B (ja)
WO (1) WO2015006116A1 (ja)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN105404625A (zh) * 2014-09-03 2016-03-16 富泰华工业(深圳)有限公司 应用程序的查找方法与系统
US9805714B2 (en) * 2016-03-22 2017-10-31 Asustek Computer Inc. Directional keyword verification method applicable to electronic device and electronic device using the same
CN105845125B (zh) * 2016-05-18 2019-05-03 百度在线网络技术(北京)有限公司 语音合成方法和语音合成装置
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
CN106898352B (zh) * 2017-02-27 2020-09-25 联想(北京)有限公司 语音控制方法及电子设备
CN110444199B (zh) * 2017-05-27 2022-01-07 腾讯科技(深圳)有限公司 一种语音关键词识别方法、装置、终端及服务器
CN109151155B (zh) * 2017-06-27 2021-03-23 北京搜狗科技发展有限公司 一种通信处理方法、装置及机器可读介质
CN107221332A (zh) * 2017-06-28 2017-09-29 上海与德通讯技术有限公司 机器人的交互方法及系统
CN107564517A (zh) 2017-07-05 2018-01-09 百度在线网络技术(北京)有限公司 语音唤醒方法、设备及系统、云端服务器与可读介质
JP6752870B2 (ja) * 2017-12-18 2020-09-09 ネイバー コーポレーションNAVER Corporation 複数のウェイクワードを利用して人工知能機器を制御する方法およびシステム
KR102079979B1 (ko) * 2017-12-28 2020-02-21 네이버 주식회사 인공지능 기기에서의 복수의 호출 용어를 이용한 서비스 제공 방법 및 그 시스템
KR102361458B1 (ko) * 2018-01-25 2022-02-10 삼성전자주식회사 사용자 발화 응답 방법 및 이를 지원하는 전자 장치
KR20190114321A (ko) 2018-03-29 2019-10-10 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108665900B (zh) 2018-04-23 2020-03-03 百度在线网络技术(北京)有限公司 云端唤醒方法及系统、终端以及计算机可读存储介质
US11815936B2 (en) 2018-08-22 2023-11-14 Microstrategy Incorporated Providing contextually-relevant database content based on calendar data
US11714955B2 (en) 2018-08-22 2023-08-01 Microstrategy Incorporated Dynamic document annotations
US11682390B2 (en) * 2019-02-06 2023-06-20 Microstrategy Incorporated Interactive interface for analytics
KR20200099380A (ko) * 2019-02-14 2020-08-24 삼성전자주식회사 음성 인식 서비스를 제공하는 방법 및 그 전자 장치
CN112534771B (zh) * 2019-07-17 2024-04-19 谷歌有限责任公司 在基于声学的数字助理应用中验证触发关键字的系统和方法
KR102433964B1 (ko) * 2019-09-30 2022-08-22 주식회사 오투오 관계 설정을 이용한 실감형 인공지능기반 음성 비서시스템
KR20210044606A (ko) 2019-10-15 2021-04-23 삼성전자주식회사 웨이크업 모델 생성 방법 및 이를 위한 전자 장치
KR20210045241A (ko) 2019-10-16 2021-04-26 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령어 공유 방법
KR20210094251A (ko) * 2020-01-21 2021-07-29 삼성전자주식회사 디스플레이 장치 및 그 제어방법
CN115334030B (zh) * 2022-08-08 2023-09-19 阿里健康科技(中国)有限公司 语音消息显示方法及装置
WO2024072036A1 (ko) * 2022-09-30 2024-04-04 삼성전자 주식회사 음성인식 장치 및 음성인식 장치의 동작방법
US11790107B1 (en) 2022-11-03 2023-10-17 Vignet Incorporated Data sharing platform for researchers conducting clinical trials

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054082A (en) 1988-06-30 1991-10-01 Motorola, Inc. Method and apparatus for programming devices to recognize voice commands
JPH1078952A (ja) 1996-07-29 1998-03-24 Internatl Business Mach Corp <Ibm> 音声合成方法、音声合成装置、ハイパーテキストの制御方法及び制御装置
US6092192A (en) * 1998-01-16 2000-07-18 International Business Machines Corporation Apparatus and methods for providing repetitive enrollment in a plurality of biometric recognition systems based on an initial enrollment
US6128482A (en) * 1998-12-22 2000-10-03 General Motors Corporation Providing mobile application services with download of speaker independent voice model
US6442519B1 (en) 1999-11-10 2002-08-27 International Business Machines Corp. Speaker model adaptation via network of similar users
US7219058B1 (en) * 2000-10-13 2007-05-15 At&T Corp. System and method for processing speech recognition results
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US20030005412A1 (en) * 2001-04-06 2003-01-02 Eanes James Thomas System for ontology-based creation of software agents from reusable components
US20030007609A1 (en) * 2001-07-03 2003-01-09 Yuen Michael S. Method and apparatus for development, deployment, and maintenance of a voice software application for distribution to one or more consumers
US6810378B2 (en) 2001-08-22 2004-10-26 Lucent Technologies Inc. Method and apparatus for controlling a speech synthesis system to provide multiple styles of speech
US7054817B2 (en) * 2002-01-25 2006-05-30 Canon Europa N.V. User interface for speech model generation and testing
WO2003073417A2 (en) 2002-02-26 2003-09-04 Sap Aktiengesellschaft Intelligent personal assistants
US7099825B1 (en) 2002-03-15 2006-08-29 Sprint Communications Company L.P. User mobility in a voice recognition environment
JP2004164466A (ja) * 2002-11-15 2004-06-10 Sony Corp 情報更新システム、情報処理装置および情報更新方法
EP1564721A1 (en) 2002-11-21 2005-08-17 Matsushita Electric Industrial Co., Ltd. Standard model creating device and standard model creating method
US7437294B1 (en) * 2003-11-21 2008-10-14 Sprint Spectrum L.P. Methods for selecting acoustic model for use in a voice command platform
JP2008529101A (ja) 2005-02-03 2008-07-31 ボイス シグナル テクノロジーズ インコーポレイテッド 移動通信装置の音声語彙を自動的に拡張するための方法及び装置
US7706510B2 (en) 2005-03-16 2010-04-27 Research In Motion System and method for personalized text-to-voice synthesis
JP4843987B2 (ja) * 2005-04-05 2011-12-21 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US7941316B2 (en) * 2005-10-28 2011-05-10 Microsoft Corporation Combined speech and alternate input modality to a mobile device
JP5208104B2 (ja) * 2006-05-12 2013-06-12 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 第1の適応化データ処理バージョンから第2の適応化データ処理バージョンに切り替えるための方法
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US7689417B2 (en) * 2006-09-04 2010-03-30 Fortemedia, Inc. Method, system and apparatus for improved voice recognition
US7831431B2 (en) * 2006-10-31 2010-11-09 Honda Motor Co., Ltd. Voice recognition updates via remote broadcast signal
US8886537B2 (en) 2007-03-20 2014-11-11 Nuance Communications, Inc. Method and system for text-to-speech synthesis with personalized voice
US20090132920A1 (en) * 2007-11-20 2009-05-21 Microsoft Corporation Community-based software application help system
JP5266761B2 (ja) * 2008-01-10 2013-08-21 日産自動車株式会社 情報案内システムおよびその認識辞書データベース更新方法
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands
US8468012B2 (en) * 2010-05-26 2013-06-18 Google Inc. Acoustic model adaptation using geographic information
US9484018B2 (en) * 2010-11-23 2016-11-01 At&T Intellectual Property I, L.P. System and method for building and evaluating automatic speech recognition via an application programmer interface
JP5494468B2 (ja) * 2010-12-27 2014-05-14 富士通株式会社 状態検出装置、状態検出方法および状態検出のためのプログラム
DE112011105407T5 (de) * 2011-07-05 2014-04-30 Mitsubishi Electric Corporation Spracherkennungsvorrichtung und Navigationsvorrichtung
US20130085753A1 (en) * 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
US9329751B2 (en) * 2011-10-07 2016-05-03 Predictive Analystics Solutions Pvt. Ltd. Method and a system to generate a user interface for analytical models
JP2013254483A (ja) * 2012-05-11 2013-12-19 Ricoh Co Ltd 情報処理装置、情報処理装置の制御プログラム、画像形成装置
US20150088523A1 (en) * 2012-09-10 2015-03-26 Google Inc. Systems and Methods for Designing Voice Applications
US8935167B2 (en) * 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8719229B1 (en) * 2012-10-12 2014-05-06 Autodesk, Inc. Cloud platform for managing design data
EP2987312B1 (en) * 2013-04-15 2020-08-19 Cerence Operating Company System and method for acoustic echo cancellation
US9767799B2 (en) * 2013-05-21 2017-09-19 Mitsubishi Electric Corporation Voice recognition system and recognition result display apparatus

Also Published As

Publication number Publication date
CN105340006A (zh) 2016-02-17
CN105340006B (zh) 2019-05-03
KR101922782B1 (ko) 2018-11-27
WO2015006116A9 (en) 2015-05-21
JP2016532146A (ja) 2016-10-13
US20150012279A1 (en) 2015-01-08
EP3020040B1 (en) 2018-12-19
EP3020040A1 (en) 2016-05-18
WO2015006116A1 (en) 2015-01-15
KR20160030199A (ko) 2016-03-16
US9786296B2 (en) 2017-10-10

Similar Documents

Publication Publication Date Title
JP6373985B2 (ja) 音声動作式機能にキーワードモデルを割り当てるための方法および装置
CN106663430B (zh) 使用用户指定关键词的说话者不相依关键词模型的关键词检测
US20220394442A1 (en) Routing queries based on carrier phrase registration
CN107210033B (zh) 基于众包来更新用于数字个人助理的语言理解分类器模型
KR101649771B1 (ko) 발성 처리를 위한 인식기들의 마크업 언어 기반 선택 및 이용
US8682640B2 (en) Self-configuring language translation device
US20150193199A1 (en) Tracking music in audio stream
CN112470217A (zh) 用于确定要执行语音识别的电子装置的方法及电子装置
CN111312233A (zh) 一种语音数据的识别方法、装置及系统
KR20190122457A (ko) 음성 인식을 수행하는 전자 장치 및 전자 장치의 동작 방법
US9224388B2 (en) Sound recognition method and system
US11948564B2 (en) Information processing device and information processing method
JP6944920B2 (ja) スマートインタラクティブの処理方法、装置、設備及びコンピュータ記憶媒体
CN112148754A (zh) 一种歌曲识别方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170605

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170605

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20171102

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20171211

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373985

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250