JP2017515147A

JP2017515147A - ユーザ定義のキーワードを検出するためのキーワードモデル生成

Info

Publication number: JP2017515147A
Application number: JP2016562023A
Authority: JP
Inventors: サンラック・ユン; テス・キム
Original assignee: クアルコム，インコーポレイテッド
Priority date: 2014-04-17
Filing date: 2015-04-08
Publication date: 2017-06-08
Also published as: BR112016024086A2; US9953632B2; EP3132442B1; KR20160145634A; CN106233374B; US20150302847A1; WO2015160586A1; CN106233374A; EP3132442A1

Abstract

本開示の一態様によれば、電子デバイスにおいてユーザ定義のキーワードのキーワードモデルを生成するための方法が、開示される。本方法は、ユーザ定義のキーワードを示す少なくとも1つの入力を受信するステップと、その少なくとも1つの入力からサブワードのシーケンスを判定するステップと、サブワードのシーケンスおよびサブワードのサブワードモデルに基づいてユーザ定義のキーワードに関連するキーワードモデルを生成するステップであり、サブワードモデルが音声データベースに基づいてサブワードの複数の音響特性をモデル化するように構成されたステップと、ユーザ定義のキーワードに関連するキーワードモデルを所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットに提供するステップとを含む。

Description

関連出願の相互参照
本出願は、参照によりその全内容が本明細書に組み込まれている、2014年8月22日に出願した米国特許出願第14/466,644号、表題「KEYWORD MODEL GENERATION FOR DETECTING USER-DEFINED KEYWORD」、および、2014年4月17日に出願した米国仮特許出願第61/980,911号、表題「METHOD AND APPARATUS FOR GENERATING KEYWORD MODEL FOR USE IN DETECTING USER-DEFINED KEYWORD」に基づき、その優先権の利益を主張するものである。

本開示は、概して電子デバイスにおける音声認識に関し、より詳細には、ユーザ定義のキーワードの検出において使用するためのキーワードモデルの生成に関する。

近年、スマートフォン、タブレットコンピュータ、ウェアラブル電子デバイス、スマートTVなどの電子デバイスの人気が、消費者の間で高まっている。これらのデバイスは、通常は、ワイヤレスまたはワイヤードネットワークを介して音声および/またはデータ通信機能を提供する。加えて、そのような電子デバイスは、概して、ユーザ利便性を向上させるように設計された様々な機能を提供する他の特徴を含む。

従来の電子デバイスは、しばしば、ユーザから音声コマンドを受信するための音声認識機能を含む。そのような機能は、ユーザからの音声コマンドが受信および認識されたときにその音声コマンド(たとえば、キーワード)に関連する機能を電子デバイスが実行することを可能にする。たとえば、電子デバイスは、ユーザからの音声コマンドに応答して音声アシスタントアプリケーションを起動する、オーディオファイルを再生する、または、写真を撮ることができる。

音声認識機能を有する電子デバイスにおいて、製造会社またはキャリアは、しばしば、入力サウンド内のキーワードの検出に使用することができる、所定のキーワードおよび関連サウンドモデルをデバイスに備える。いくつかの電子デバイスは、ユーザがキーワードを音声コマンドとして指定することをも可能にし得る。たとえば、電子デバイスは、ユーザからキーワードのいくつかの発声を受信し、その発声から指定キーワードのキーワードモデルを生成することができる。

一般に、キーワードモデルの検出性能は、そのキーワードモデルがそこから生成された発声の数と相関する。すなわち、キーワードモデルの検出性能は、発声の数が増えるにつれて向上し得る。たとえば、製造会社は、数千回以上の発声から生成された電子デバイス内のキーワードモデルを提供することがある。

しかし、従来の電子デバイスでは、ユーザから受信されるキーワードの発声の数は、比較的小さい(たとえば、5回)。したがって、そのような限られた数の発声から生成されたキーワードモデルは、適切な検出性能を実現しないことがある。他方では、相当な数の発声をユーザから受信して、十分な検出性能を提供することができるキーワードモデルを生成することは、時間がかかり、ユーザにとって不便であることがある。

本開示は、ユーザ定義のキーワードの検出において使用するためのキーワードモデルの生成に関する。

本開示の一態様によれば、電子デバイスにおいてユーザ定義のキーワードのキーワードモデルを生成するための方法が開示される。本方法では、ユーザ定義のキーワードを示す少なくとも1つの入力が、受信される。その少なくとも1つの入力から、サブワードのシーケンスが、判定される。サブワードのシーケンスおよびサブワードのサブワードモデルに基づいて、ユーザ定義のキーワードに関連するキーワードモデルが、生成される。サブワードモデルは、音声データベースに基づくサブワードの複数の音響特性をモデル化するまたは表すように構成される。ユーザ定義のキーワードに関連するキーワードモデルは、所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットに提供される。本開示はまた、本方法に関連する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体について説明する。

本開示のもう1つの態様によれば、ユーザ定義のキーワードのキーワードモデルを生成するための電子デバイスが、開示される。本電子デバイスは、入力ユニット、音声起動ユニット、およびユーザ定義のキーワードモデル生成ユニットを含む。入力ユニットは、ユーザ定義のキーワードを示す少なくとも1つの入力を受信するように構成される。音声起動ユニットは、所定のキーワードに関連するキーワードモデルで構成される。ユーザ定義のキーワードモデル生成ユニットは、少なくとも1つの入力からサブワードのシーケンスを判定し、サブワードのシーケンスおよびサブワードのサブワードモデルに基づいてユーザ定義のキーワードに関連するキーワードモデルを生成し、音声起動ユニットにユーザ定義のキーワードに関連するキーワードモデルを提供するように構成される。サブワードモデルは、音声データベースに基づくサブワードの複数の音響特性をモデル化するまたは表すように構成される。

本開示の発明態様の実施形態は、以下の詳細な説明を参照し、添付の図面とともに読むことで理解されよう。

本開示の一実施形態による、ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドからユーザ定義のキーワードの検出において使用するためのキーワードモデルを生成するように構成された電子デバイスを示す図である。本開示の一実施形態による、ユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドおよび1つまたは複数のタイプのノイズに基づいて1つまたは複数の混合サンプルサウンドを生成するための方法を示す図である。本開示の一実施形態による、ユーザ定義のキーワードのテキストからユーザ定義のキーワードの検出において使用するためのキーワードモデルを生成するように構成された電子デバイスを示す図である。本開示の一実施形態による、ユーザ定義のキーワードを検出するためのキーワードモデルの生成において使用することができるサブワードモデルを適合させるように構成された電子デバイスを示す図である。本開示の一実施形態による、入力サウンドに基づいてユーザ定義のキーワードを検出するためのスコア閾値を適合させるように構成された電子デバイスを示す図である。本開示の一実施形態による、入力サウンドからのキーワードの検出に応答した電子デバイスにおける音声アシスタントアプリケーションの起動を示す図である。本開示の一実施形態による、ユーザ定義のキーワードを含む入力サウンドに基づいてユーザを認識するように構成された電子デバイスを示す図である。本開示の一実施形態による、ユーザ定義のキーワードのキーワードモデルを生成するように、およびそのキーワードモデルに基づいて入力サウンドストリームにおいてユーザ定義のキーワードを検出するように構成された電子デバイスのブロック図である。本開示の一実施形態による、ユーザ定義のキーワードを示す少なくとも1つの入力からユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイスにおいて実行される、例示的方法の流れ図である。本開示の一実施形態による、ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドからユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイスにおいて実行される、例示的方法の流れ図である。本開示の一実施形態による、ユーザ定義のキーワードを検出するためのキーワードモデルの生成において使用されるサブワードモデルを適合させるための、電子デバイスにおいて実行される、例示的方法の流れ図である。本開示の一実施形態による、入力サウンドに基づいてユーザ定義のキーワードを検出するためのスコア閾値を適合させるための、電子デバイスにおいて実行される、例示的方法の流れ図である。本開示のいくつかの実施形態による、ユーザ定義のキーワードの検出において使用するためのキーワードモデルを生成するための方法および装置が実装され得る例示的電子デバイスのブロック図である。

その例が添付の図面に示される、様々な実施形態をここで詳しく参照する。以下の詳細な説明では、本主題の完全な理解を与えるために多くの具体的な詳細が記載される。しかし、本主題はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。他の事例では、様々な実施形態の態様を不必要に不明瞭にしないように、よく知られている方法、手順、システム、および構成要素については詳細に説明していない。

図1は、本開示の一実施形態による、ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドからユーザ定義のキーワードの検出において使用するためのキーワードモデルを生成するように構成された電子デバイス100を示す。電子デバイス100は、携帯電話、スマートフォン、パーソナルコンピュータ、ラップトップコンピュータ、タブレットパーソナルコンピュータ、スマートテレビジョン、ゲームデバイス、マルチメディアプレーヤなどのサウンド取込みおよび処理能力を備えた任意の適切なデバイスでもよい。本明細書では、「キーワード」という用語は、電子デバイス100において機能またはアプリケーションを起動するために使用することができる1つまたは複数の単語またはサウンドの任意のデジタルまたはアナログ表現を指し得る。

電子デバイス100は、所定のキーワードのセットおよび/またはユーザ定義のキーワードの別のセットを記憶することができる。本明細書では、「所定のキーワード」という用語は、電子デバイス100において機能またはアプリケーションを起動するための予め定められたキーワードを指し得る。所定のキーワードのキーワードモデルまたは学習済みのキーワードモデルは、電子デバイス100への入力サウンドから所定のキーワードを検出する際に使用するためのキーワード検出モデルを指し得る。いくつかの実施形態では、複数の所定のキーワードの複数のキーワードモデルは、電子デバイス100の第三者のプロバイダまたは製造会社によって生成されてもよく、電子デバイス100に予め記憶されてもよくおよび/または外部サーバもしくはデバイス(図示せず)からダウンロードされてもよい。さらに、「ユーザ定義のキーワード」という用語は、電子デバイス100のユーザによって機能またはアプリケーションを起動するために定義または指定され得るキーワードを指し得る。ユーザ定義のキーワードのキーワードモデルは、電子デバイス100への入力サウンドからユーザ定義のキーワードの検出において使用するためのキーワード検出モデルを指し得る。いくつかの実施形態では、ユーザ定義のキーワードのキーワードモデルは、図4を参照して以下により詳しく説明される、所定のセットのサブワードモデルに基づいてユーザによって生成または更新され得る。

一実施形態では、電子デバイス100は、電子デバイス100に記憶された複数の所定のキーワードに加えてユーザ120によって入力された1つまたは複数のサンプルサウンドに応答してユーザ定義のキーワードを指定するための機能またはアプリケーションとともに構成され得る。ユーザ定義のキーワードを指定するために、電子デバイス100は、ユーザ120からのユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドを受信するためのユーザインターフェースを提供することができる。たとえば、メッセージ「登録モード…キーワードを5回言ってください」が、ユーザ120からのユーザ定義のキーワードを示すサンプルサウンドを受信するために、電子デバイス100のディスプレイ画面110に表示され得る。ユーザ定義のキーワードの5回の発声が、示された実施形態では要求されるが、ユーザ定義のキーワードの発声の数は、ユーザの利便性、性能要件などのいくつかの要因に応じて変わってもよい。たとえば、ユーザ定義のキーワードの発声の数は、3から5回のように決定されてもよい。

ユーザ定義のキーワードを示す受信されたサンプルサウンドに基づいて、電子デバイス100は、図8を参照して以下に詳しく説明するように、ユーザ定義のキーワードを検出するためのキーワードモデルを生成することができる。生成されたキーワードモデルは、電子デバイス100に記憶し、電子デバイス100内の音声起動ユニット(図示せず)に提供することができる。その音声起動ユニットは、電子デバイス100への入力サウンドにおいて特定のキーワード(たとえば、ユーザ定義のキーワードもしくは所定のキーワード)または特定のユーザの音声を検出するように構成された電子デバイス100内の任意の適切な処理ユニットでもよい。一実施形態では、音声起動ユニットは、キーワード認識のための生成されたキーワードモデルにアクセスすることができる。ユーザによって発声されたキーワードの認識において、音声起動ユニットは、ユーザ定義のキーワードならびに所定のキーワードのキーワードモデルの間の最適な一致を捜すことができる。

一実施形態によれば、電子デバイス100は、ユーザ定義のキーワードが関連する機能またはアプリケーションに関連するユーザ120からの入力を受信するためのユーザインターフェースを提供することができる。たとえば、ユーザ定義のキーワードを示すサンプルサウンドがユーザ120から受信された後、電子デバイス100は、ユーザ120から機能またはアプリケーションを選択するための入力を受信し、選択された機能またはアプリケーションにユーザ定義のキーワードを割り当てることができる。

図2は、本開示の一実施形態による、ユーザ定義のキーワードを示す1つまたは複数のサンプルサウンド210および1つまたは複数のタイプのノイズに基づいて1つまたは複数の混合サンプルサウンド220を生成するための方法の図式200を示す。図1を参照して上述したように、ユーザ定義のキーワードを指定するために、電子デバイス100は、ユーザ120からユーザ定義のキーワードを示すサンプルサウンド210を受信することができる。サンプルサウンド210を受信したとき、電子デバイス100は、少なくとも1つのタイプのノイズをサンプルサウンド210に追加することによって混合サンプルサウンド220を生成して、サンプルサウンド210に関連するユーザ定義のキーワードのキーワードモデルを生成するために使用することができるサンプルサウンドの数を増やすことができる。たとえば、車のノイズ230が、各々のサンプルサウンド210に追加されて、1つまたは複数の車のノイズの埋め込まれたサンプルサウンド250を生成することができる。同様に、バブル化ノイズ240は、各々のサンプルサウンド210に追加されて1つまたは複数のバブル化ノイズの埋め込まれたサンプルサウンド260を生成することができる。一実施形態では、車のノイズ、バブル化ノイズ、街頭ノイズ、風のノイズなどの任意の適切なタイプのノイズ、または、それらの任意の組合せが、サンプルサウンド210に追加されて任意の適切な数のノイズの埋め込まれたサンプルサウンドを生成することができる。図8を参照して以下で説明するように、サンプルサウンド210とノイズの埋め込まれたサンプルサウンド250および260とを含む混合サンプルサウンド220は、ほぼノイズのない環境および騒がしい環境を含む様々なサウンド環境においてサンプルサウンド210に関連するユーザ定義のキーワードを検出する際に使用することができる。

いくつかの実施形態では、混合サンプルサウンド220はまた、サンプルサウンド210の1つまたは複数の複製サンプルサウンド270を含み得る。複製サンプルサウンド270を混合サンプルサウンド220に追加することで、サンプルサウンド210の数を増やして多数のサンプルサウンド210を提供することができる。混合サンプルサウンド220内の多数のサンプルサウンド210は、サンプルサウンド210の数とノイズの埋め込まれたサンプルサウンド250および260の数との比率のバランスを取ってバランスの取れた検出性能を提供することができる。たとえば、ノイズの埋め込まれたサンプルサウンドの数が、サンプルサウンド210の数よりも多い場合、サンプルサウンド210に関連するユーザ定義のキーワードは、ノイズのないまたはほぼノイズのない環境において正確に検出されないことがある。一実施形態では、混合サンプルサウンド220は、任意の適切な数の複製サンプルサウンド270を含み得る。

図3は、本開示の一実施形態による、ユーザ定義のキーワードのテキストからのユーザ定義のキーワードの検出において使用するためのキーワードモデルを生成するように構成された電子デバイス100を示す。ユーザ定義のキーワードを指定するために、電子デバイス100は、ユーザ120からユーザ定義のキーワードのテキストを受信するためのユーザインターフェースを提供することができる。たとえば、メッセージ「登録モード…キーワードをタイプしてください」が、ユーザ120からユーザ定義のキーワードのテキスト(たとえば、1つまたは複数の単語)を受信するために、電子デバイス100のディスプレイ画面110に表示され得る。

ユーザ定義のキーワードの受信されたテキストに基づいて、電子デバイス100は、ユーザ定義のキーワードのテキストをユーザ定義のキーワードを示すサブワードのシーケンスに変換することができる。本明細書では、「サブワード」または「サブワード単位」という用語は、音、音素、トライフォン、音節など、基本サウンド単位を指し得る。ユーザ定義のキーワードまたは所定のキーワードなどのキーワードは、1つまたは複数のサブワードまたはサブワード単位の組合せとして表され得る。電子デバイス100は、次いで、図8を参照してさらに詳しく説明するように、ユーザ定義のキーワードの検出において使用するためにユーザ定義のキーワードを示すサウンドデータからキーワードモデルを生成することができる。一実施形態では、電子デバイス100はまた、図1を参照して上述したように、ユーザ120からユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドを受信するためのユーザインターフェースを提供することができる。この場合、電子デバイス100は、ユーザ定義のキーワードを示すサウンドデータおよびユーザ定義のキーワードを示す受信されたサンプルサウンドに基づいてユーザ定義のキーワードを検出するためのキーワードモデルを生成することができる。

図4は、本開示の一実施形態による、ユーザ定義のキーワードを検出するためのキーワードモデルの生成において使用することができるサブワードモデルを適合させるように構成された電子デバイス100を示す。電子デバイス100は、最初に、少なくとも1つのサブワードモデルを記憶することができる。「サブワードモデル」という用語は、隠れマルコフモデル(HMM)、準マルコフモデル(SMM)、またはそれらの組合せなどのグラフィックモデルの下で生成および更新することができる複数のサブワードまたはサブワード単位の音響特性を表すまたは示す音響モデルを指し得る。

電子デバイス100は、最初に、電子デバイス100に事前に記憶されたおよび/または外部サーバもしくはデバイス(図示せず)からダウンロードされた1つまたは複数のサブワードモデルを含み得る。そのサブワードモデルは、音声コーパスと呼ばれることもある音声データベースに基づいて生成され得る。その音声データベースは、多数のサンプルサウンドデータ(たとえば、数千以上の音声サンプル)および/またはテキストを含み得る。そのサブワードモデルは、サンプルサウンドデータから複数の音響特性を抽出することによって、そのような多数のサンプルサウンドデータから生成することができ、そして、ユーザ定義のキーワードのキーワードモデルは、ユーザからのユーザ定義のキーワードを示す1つまたは複数のサブワードモデルおよびサンプルサウンドに基づいて、生成され得る。そのようにして生成されたキーワードモデルは、ユーザからのユーザ定義のキーワードを示す入力サンプルサウンドの数が比較的小さい(たとえば、5つ)ことがあるとしても、高い精度でユーザ定義のキーワードの検出を可能にし得る。

一実施形態では、最初に電子デバイス100に記憶されるサブワードモデルは、ユーザに依存しなくてもよく、ユーザの特定の音声特徴を反映しないことがある。この場合、電子デバイス100は、ユーザの入力サウンドに基づいてサブワードモデルを適合させるための事前適応のための機能またはアプリケーションとともに構成され得る。サブワードモデルの事前適応の機能は、ユーザ定義のキーワードを検出するためのキーワードモデルを生成する前に実行されてもよい。加えてまたは別法として、事前適応の機能は、ユーザ定義のキーワードを検出するためのキーワードモデルが生成された後に実行されてもよい。

事前適応のために、電子デバイス100は、ユーザ120から所定の文(たとえば、語句)を示す入力サウンドを受信するためのユーザインターフェースを提供することができる。音素が1つの言語において出現し得るとき、その所定の文は、同じまたは同様の周波数で特定の音素を使用し得る音声学的にバランスの取れた文(たとえば、ハーバードセンテンス)のうちの少なくとも1つでもよい。たとえば、音声学的にバランスの取れた文は、「オークは強く、そしてまた日陰を作る」、「猫と犬は互いを嫌っている」、「パイプは、新しいうちに錆び始めた」、「ガラスを割らずに木箱を開けろ」などの文を含み得る。電子デバイス100は、所定の文およびそれらのサブワードのシーケンスまたはネットワークを記憶することができる。

図示された実施形態では、メッセージ「事前適応モード…オークは強く、そしてまた日陰を作る…上記の文を読んでください」が、ユーザ120から所定の文「オークは強く、そしてまた日陰を作る」を示す入力サウンドを受信するために、電子デバイス100のディスプレイ画面110に表示され得る。受信された入力サウンドに基づいて、電子デバイス100は、図8を参照して以下に詳しく説明するような形で、サブワードモデルを適合させることができる。たとえば、電子デバイス100は、受信入力サウンドから音響特性を抽出し、抽出された音響特性および所定の文のサブワードの記憶されたシーケンスまたはネットワークに基づいて、サブワードモデルにおいて音響パラメータを適合させることができる。一実施形態では、電子デバイス100は、受信入力サウンドからサブワード単位のシーケンスを認識し、認識されたサブワードのシーケンスを使用して所定の文のサブワードの記憶されたシーケンスまたはネットワークを更新することができる。

図5は、本開示の一実施形態による、入力サウンドに基づいてユーザ定義のキーワードを検出するためのスコア閾値を適合させるように構成された電子デバイス100を示す。本明細書では、「マッチングスコア」という用語は、入力サウンドと任意のキーワード(たとえば、ユーザ定義のキーワードまたは所定のキーワード)との間の類似の程度を示す値を指し得る。また、「閾値スコア」という用語は、入力サウンドにおけるキーワードの検出において所望の精度を確保するためのマッチングスコアの閾値を指し得る。たとえば、閾値スコアが高すぎる場合、電子デバイス100は、キーワードを含む入力サウンドからそのキーワードを検出できないことがある。他方では、閾値スコアが低すぎる場合、電子デバイス100は、キーワードを含まない入力サウンドにおいてそのキーワードを誤って検出することがある。したがって、ユーザ定義のキーワードの閾値スコアは、ユーザ定義のキーワードのキーワードモデルが生成された後に、所望の検出精度を確保するために更新することができる。

一実施形態では、電子デバイス100は、入力サウンドにおけるユーザ定義のキーワードの検出における精度をさらに向上させるために、閾値スコアを適合させるための機能またはアプリケーションとともに構成され得る。閾値スコアを適合させるための機能は、ユーザ定義のキーワードのキーワードモデルが生成され、キーワードモデルの閾値スコアが判定された後に、起動することができる。閾値スコアを適合させるために、電子デバイス100は、ユーザ120からユーザ定義のキーワードを示すテスト入力サウンドを受信するためのユーザインターフェースを提供することができる。たとえば、メッセージ「テストモード…キーワードを言ってください」が、ユーザ120からユーザ定義のキーワードを示すテスト入力サウンドを受信するために、電子デバイス100のディスプレイ画面110に表示され得る。

ユーザ定義のキーワードを示す受信されたテスト入力サウンドから、電子デバイス100は、ユーザ定義のキーワードのキーワードモデルに基づいて、テスト入力サウンドのマッチングスコアを計算することができる。テスト入力サウンドの計算されたマッチングスコアに基づいて、電子デバイス100は、ユーザ定義のキーワードの閾値スコアを適合させることができる。たとえば、計算されたマッチングスコアが閾値スコアより低いとき、電子デバイス100は、閾値スコアを下げることができる。

図6は、本開示の一実施形態による、入力サウンドからのキーワードの検出に応答した電子デバイス100における音声アシスタントアプリケーション600の起動を示す。最初に、電子デバイス100は、所定のキーワードおよび/またはユーザ定義のキーワードのキーワードモデルを記憶することができる。音声アシスタントアプリケーション600を起動するために、ユーザ120は、電子デバイス100によって受信されたキーワード(たとえば、ユーザ定義のキーワードまたは所定のキーワード)を言ってもよい。電子デバイス100がキーワードを検出するとき、音声アシスタントアプリケーション600は、起動され、電子デバイス100のディスプレイ画面にまたはスピーカユニットを介して「ご用件は何ですか?」などのメッセージを出力することができる。

それに応えて、ユーザ120は、他の音声コマンドを言うことによって、音声アシスタントアプリケーション600を介して電子デバイス100の様々な機能を起動することができる。たとえば、ユーザ120は、音声コマンド「音楽を再生」を言うことによって、音楽プレーヤ610を起動することができる。図示された実施形態は、キーワードの検出に応答した音声アシスタントアプリケーション600の起動を示すが、別のアプリケーションまたは機能が、関連するキーワードの検出に応答して起動され得る。

図7は、本開示の一実施形態による、ユーザ定義のキーワードを含む入力サウンドに基づいてユーザを認識するように構成された電子デバイス100を示す。ユーザ定義のキーワードのキーワードモデルは、ユーザの識別において使用することができるユーザ特有の音響特性を組み込むことができる。一実施形態では、電子デバイス100は、ユーザ定義のキーワードのキーワードモデルに含まれるそのようなユーザ特有の音響特性を使用するユーザ検証のための機能またはアプリケーションとともに構成され得る。加えて、電子デバイス100は、ユーザ定義のキーワードのキーワードモデルに加えて、ユーザの音声を検証するために使用されるユーザ検証モデルを含み得る。

ユーザ検証のために、電子デバイス100は、ユーザ120からユーザ定義のキーワードを示す入力サウンドを受信するためのユーザインターフェースを提供することができる。たとえば、メッセージ「ユーザ検証…キーワードを言ってください」が、ユーザ120からユーザ定義のキーワードを示す入力サウンドを受信するために、電子デバイス100のディスプレイ画面110に表示され得る。入力サウンドから、電子デバイス100は、ユーザ定義のキーワードのキーワードモデルに基づいてユーザ定義のキーワードを検出し、入力サウンドのマッチングスコアを計算することができる。マッチングスコアがキーワード検出閾値よりも高いとき、電子デバイス100は、ユーザ定義のキーワードを含むものとしてその入力サウンドを判定することができる。電子デバイス100は、次いで、ユーザ検証モデルに基づいて入力サウンドでユーザ検証プロセスを実行し、その入力サウンドのユーザ検証スコアを計算することができる。ユーザ検証スコアがユーザ検証閾値よりも高いとき、電子デバイス100は、登録されたユーザの音声を含むものとしてその入力サウンドを判定することができる。別法として、電子デバイス100は、キーワード検出プロセスを実行する前に、ユーザ検証プロセスを実行することができる。いくつかの実施形態では、電子デバイス100は、ユーザ定義のキーワードの検出および登録されたユーザの音声の検証のための1つのモデルに基づいて、キーワード検出プロセスおよびユーザ検証プロセスを実行することができる。

図8は、本開示の一実施形態による、ユーザ定義のキーワードのキーワードモデルを生成し、そのキーワードモデルに基づいて入力サウンドストリームにおいてユーザ定義のキーワードを検出するように構成された電子デバイス100のブロック図である。電子デバイス100は、サウンドセンサ800、プロセッサ810、I/O(入力/出力)ユニット830、通信ユニット832、および記憶ユニット840を含み得る。プロセッサ810は、混合サウンド生成ユニット828、サブワード認識ユニット812、事前適応ユニット814、ユーザ定義のキーワードモデル生成ユニット816、音声検出器822、音声起動ユニット824、および音声アシスタントユニット826を含み得る。I/Oユニット830は、ディスプレイ画面110を含み得る。ディスプレイ画面110は、ユーザからタッチ入力を受信するように構成されたタッチディスプレイ画面でもよい。

サウンドセンサ800は、ユーザから入力サウンドストリームを受信するように構成され得る。本明細書では、「サウンドストリーム」という用語は、1つまたは複数のサウンド信号またはサウンドデータのシーケンスを指し得る。サウンドセンサ800は、1つもしくは複数のマイクロフォン、または、電子デバイス100への音声入力を受信、キャプチャ、感知、および/もしくは検出するために使用することができる任意の他のタイプの音声センサを含み得る。加えて、サウンドセンサ800は、そのような機能を実行するための任意の適切なソフトウェアおよび/またはハードウェアを利用し得る。ユーザの受信された入力サウンドストリームは、記憶ユニット840に記憶され得る。サウンドセンサ800は、処理のためにプロセッサ810にユーザの受信された入力サウンドストリームを提供することができる。

一実施形態では、サウンドセンサ800は、ユーザからユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドを含む入力サウンドストリームを受信することができる。入力サウンドストリームを受信したとき、サウンドセンサ800は、任意の適切な終点検出アルゴリズムを使用して、入力サウンドストリーム内のサンプルサウンドまたは切り離された発声の各々の始点および終点を検出することによって、入力サウンドストリームからサンプルサウンドの各々を検出することができる。検出されたサンプルサウンドは、抽出され、記憶ユニット840に記憶することができる。抽出されたサンプルサウンドは、混合サウンド生成ユニット828および/またはサブワード認識ユニット812に提供され得る。別法として、サウンドセンサ800は、少なくとも1つのタイプのノイズを入力サウンドストリームに追加することによって少なくとも1つの混合サウンドストリームを生成することができる混合サウンド生成ユニット828に入力サウンドストリームを提供することができる。サブワード認識ユニット812は、混合サウンド生成ユニット828から混合サウンドストリームを受信し、混合サウンドストリームから1つまたは複数のタイプのノイズが埋め込まれた各々のサンプルサウンドを検出および抽出することができる。

プロセッサ810内の混合サウンド生成ユニット828は、サウンドセンサ800からの抽出されたサンプルサウンドに基づいて1つまたは複数の混合サンプルサウンドを生成するように構成され得る。たとえば、その混合サンプルサウンドは、少なくとも1つのタイプのノイズを抽出されたサンプルサウンドに追加することによって、生成することができる。生成された混合サンプルサウンドは、記憶ユニット840に記憶することができる。生成された混合サンプルサウンドおよび/またはサウンドセンサ800からの抽出されたサンプルサウンドは、サブワード認識ユニット812に提供され得る。一実施形態では、混合サンプルサウンドはまた、抽出されたサンプルサウンドの1つまたは複数の複製サウンドを含み得る。

記憶ユニット840は、サウンドセンサ800、プロセッサ810、I/Oユニット830、および通信ユニット832を動作させるためのデータおよび命令と、サウンドセンサ800によって受信された入力サウンドストリームとを記憶するように構成することができる。記憶ユニット840はまた、辞書に載っている言葉の発音データを含む発音辞書データベースを記憶することができる。発音辞書データベースは、記憶ユニット840に事前に記憶することができ、および/または、通信ユニット832を介して外部サーバもしくはデバイス(図示せず)からダウンロードすることができる。記憶ユニット840は、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、EEPROM(電子的消去可能プログラム可能型読取り専用メモリ)、フラッシュメモリ、またはSSD(ソリッドステートドライブ)などの任意の適切な記憶またはメモリデバイスを使用して実装することができる。

記憶ユニット840はまた、少なくとも1つのサブワードモデルを記憶することができる。サブワードモデルは、記憶ユニット840に事前に記憶された、および/または、通信ユニット832を介して外部サーバまたはデバイス(図示せず)からダウンロードされた少なくとも1つのサブワードモデルを含み得る。加えて、そのサブワードモデルは、事前適応ユニット814によって最初に記憶されたサブワードモデルから適合させられた少なくとも1つの適合したサブワードモデルを含み得る。

いくつかの実施形態では、そのサブワードモデルは、サブワードモデルによって表されるサブワードのタイプに従って、音ベースのモデル、音素ベースのモデル、トライフォンベースのモデル、音節ベースのモデルなどでもよく、サブワード単位のリストおよび各サブワード単位のモデルパラメータを含み得る。そのモデルパラメータは、サブワードの音声データから抽出された特徴ベクトルに基づいて得るまたは推定することができる。その特徴ベクトルは、メル周波数ケプストラム係数(MFCC)、ケプストラム差分係数(デルタMFCC)、線形予測コーディング(LPC)係数、線スペクトル対(LSP)係数などのうちの少なくとも1つを含み得る。そのサブワードモデルはまた、単一のサブワード単位に統合することができる2つ以上のサブワード単位(たとえば、それらのサブワードが類似していると識別された場合には、統合されたサブワード単位のうちの1つ)を示すサブワード結合情報を含み得る。サブワードモデルが、事前適応ユニット814によって適合させられるとき、記憶ユニット840は、サブワードモデルに加えて、適合したサブワードモデルを記憶することができる。

記憶ユニット840はまた、所定のキーワードを検出するための1つまたは複数のキーワードモデル、および、ユーザ定義のキーワードを検出するための1つまたは複数のキーワードモデルを記憶することができる。所定のキーワードを検出するためのキーワードモデルは、記憶ユニット840に事前に記憶することができるか、または、通信ユニット832を介して外部サーバもしくはデバイス(図示せず)からダウンロードすることができる。一実施形態では、そのキーワードモデルは、ユーザ定義のキーワードモデル生成ユニット816によってユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドから判定され得る、複数の部分(すなわち、複数のサブワードまたはサブワード単位)を含むサブワードのシーケンスを含み得る。そのキーワードモデルはまた、そのサブワードのシーケンス内の複数のサブワードの各々に関連するモデルパラメータと、キーワードを検出するための閾値スコアとを含み得る。

もう1つの実施形態では、そのキーワードモデルは、サブワードネットワークを含み得る。そのサブワードネットワークは、複数のノードと、その複数のノードのうちの少なくとも2つのノードを接続することができる複数の回線とを含み得る。そのキーワードモデルはまた、サブワードネットワークのノードに対応する、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、準マルコフモデル(SMM)などの少なくとも1つのグラフィックモデルを含み得る。そのグラフィックモデルは、推移確率、状態出力確率などのいくつかの状態およびパラメータを含み得る。

記憶ユニット840はまた、サンプルサウンドおよびサンプルサウンドの検出ラベルを含む検出履歴データベースを記憶することができる。たとえば、サンプルサウンドの検出ラベルは、そのサンプルサウンドがキーワード音声または非キーワード音声として正しく検出されたかどうかを示すことができる。同様の形で、サンプルサウンドの検出ラベルは、サンプルサウンドがキーワード音声または非キーワード音声として誤って検出されたかどうかを示すことができる。検出ラベルは、I/Oユニット830を介してユーザが提供することができ、または、キーワード検出プロセスで判定することができる。検出履歴データベースは、ユーザ定義のキーワードのキーワードモデルの識別訓練において使用することができる。記憶ユニット840はまた、1つまたは複数の音声学的にバランスの取れた文(たとえば、ハーバードセンテンス)およびサブワードのそれらの対応するシーケンスまたはネットワークを記憶することができる。

プロセッサ810内のサブワード認識ユニット812は、記憶ユニット840に記憶された少なくとも1つのサブワードモデルを使用して1つまたは複数のサンプルサウンドのサブワード認識を実行するように構成され得る。一実施形態では、サブワード認識ユニット812は、サウンドセンサ800から1つまたは複数のサンプルサウンドを含む入力サウンドストリームを受信し、任意の適切な終点検出アルゴリズムを使用して入力サウンドストリームから各々のサンプルサウンドを抽出することができる。別法として、少なくとも1つの混合サウンドストリームは、任意の適切な終点検出アルゴリズムを使用して少なくとも1つの混合サウンドストリームから、1つまたは複数のタイプのノイズを含み得る各々のサンプルサウンドを抽出するために、混合サウンド生成ユニット828から受信することができる。もう1つの実施形態では、サブワード認識ユニット812は、入力サウンドストリームからサンプルサウンドを抽出することができるサウンドセンサ800からの1つまたは複数のサンプルサウンドを受信することができる。別法として、1つまたは複数の混合サンプルサウンドが、混合サウンド生成ユニット828から受信され得る。

受信されたまたは抽出されたサンプルサウンドまたは混合サンプルサウンドについて、サブワード認識ユニット812は、サンプルサウンドまたは混合サンプルサウンドの各々のサブワード認識を実行することができる。一実施形態では、サブワード認識ユニット812は、サンプルサウンドまたは混合サンプルサウンドの各々にモノフォン認識を実行して、サンプルサウンドまたは混合サンプルサウンドの各々についてサブワードのシーケンスを生成することができる。たとえば、サブワード認識ユニット812は、Table 1(表1)に示すように、それぞれ、5つのサンプルサウンドからサブワードの5つのシーケンスを生成することができる。

Table 1(表1)では、各シーケンス内の2つのサブワードの間のスペースは、2つのサブワードを区別することができる。示されたサブワードのシーケンスにおいて、サブワード単位「sil」は、沈黙、無音、または音がないことを示し得る。生成されたシーケンスは、事前適応ユニット814およびユーザ定義のキーワードモデル生成ユニット816のうちの少なくとも1つに提供され得る。

いくつかの実施形態では、サブワード認識ユニット812は、サブワード認識の実行においてユーザ定義のキーワードのテキストに関連する発音情報を使用することができる。たとえば、ユーザ定義のキーワードのテキストがI/Oユニット830から受信されるとき、サブワード認識ユニット812は、記憶ユニット840に記憶された発音辞書データベースからそのユーザ定義のキーワードに関連する発音情報を取得することができる。別法として、サブワード認識ユニット812は、ユーザ定義のキーワードに関連する発音情報を取得するために、辞書に載っている言葉の発音データまたは情報を記憶する外部サーバまたはデバイス(図示せず)と通信することができる。ユーザ定義のキーワードのサブワードの各シーケンスは、次いで、そのユーザ定義のキーワードのテキストに関連する発音情報を使用して、サンプルサウンドまたは混合サンプルサウンドの各々について判定され得る。

事前適応ユニット814は、所定の文を示す少なくとも1つのサンプルサウンドに基づいて、記憶ユニット840に記憶された少なくとも1つのサブワードモデルを適合させるように構成することができる。音素が1つの言語において出現し得るとき、所定の文は、同じまたは同様の周波数で特定の音素を使用し得る音声学的にバランスの取れた文(たとえば、ハーバードセンテンス)のうちの少なくとも1つでもよい。サブワードモデルの事前適応のために、サウンドセンサ800は、所定の文を示す少なくとも1つのサンプルサウンドを含む入力サウンドストリームを受信することができる。たとえば、ユーザは、ディスプレイ画面110で表示することができる所定の文を読むように指示を受けることができる。ユーザが所定の文を読むとき、事前適応ユニット814は、ユーザによって読まれた所定の文を含む入力サウンドストリームを受信し、その入力サウンドストリームから音響特性を抽出することができる。抽出された音響特性から、事前適応ユニット814は、記憶ユニット840からのサブワードモデルを適合させ、適合したサブワードモデルを記憶ユニット840に記憶することができる。一実施形態では、事前適応ユニット814は、抽出された音響特性および記憶ユニット840に記憶された所定の文のサブワードのシーケンスに基づいてサブワードモデルのモデルパラメータを適合させることができる。

いくつかの実施形態では、ユーザ定義のキーワードのキーワードモデルが、ユーザ定義のキーワードの生成において使用されるサブワードモデルの事前適応なしに生成されたとき、事前適応ユニット814は、適合したサブワードモデルに基づいてユーザ定義のキーワードの新しいキーワードモデルを生成することができる。たとえば、事前適応ユニット814は、信号をサブワード認識ユニット812に送信して記憶ユニット840からユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドを取得し、適合したサブワードモデルを使用してサンプルサウンドのサブワード認識を実行することができる。サブワード認識ユニット812が、サンプルサウンドのサブワードのシーケンスを生成した後は、事前適応ユニット814は、ユーザ定義のキーワードモデル生成ユニット816にサブワード認識ユニット812からサブワードの生成されたシーケンスを受信し、適合したサブワードモデルを使用してユーザ定義のキーワードの新しいキーワードモデルを生成するように指示する信号を送信することができる。

ユーザ定義のキーワードモデル生成ユニット816は、サブワード認識ユニット812からのサブワードの生成されたシーケンスに基づいてユーザ定義のキーワードのキーワードモデルを生成するように構成することができる。ユーザ定義のキーワードモデル生成ユニット816は、サブワード認識ユニット812からサブワードのシーケンスを受信し、受信されたシーケンスからサブワードのシーケンスを判定することができる。一実施形態では、各々のシーケンスの長さが判定可能であり、最も長いシーケンスのうちの1つがサブワードのシーケンスとして選択され得る。サブワードの各シーケンスの長さは、各シーケンス内のサブワードの数でもよい。たとえば、5つのシーケンスのうちの最も長い、Table 1(表1)のシーケンス1が、サブワードのシーケンスとして選択され得る。

加えてまたは別法として、ユーザ定義のキーワードモデル生成ユニット816は、サブワードのシーケンスのうちの少なくとも2つからの複数の部分(たとえば、複数のサブワード)を結合させてサブワードのシーケンスを生成することができる。たとえば、サブワードの2つのシーケンスが与えられると、それらのシーケンス内の1つまたは複数の同一のサブワードおよび関連する位置が、識別され得る。加えて、その他のシーケンス内にはない1つのシーケンス内の1つまたは複数のサブワードならびにそれらのシーケンス内のそのようなサブワードの位置が、識別され得る。この場合、同一のサブワードは、その関連する位置に従って順番付けることができ、1つのシーケンス内にあるがその他のシーケンス内にはない1つまたは複数のサブワードが、その関連する位置に基づいてそのシーケンスに挿入され得る。この方式では、ユーザ定義のキーワードモデル生成ユニット816は、それらのシーケンス内の関連する位置に従って、2つのシーケンスからの識別されたサブワードを結合させることによって、サブワードのシーケンスを判定することができる。ユーザ定義のキーワードモデル生成ユニット816はまた、サブワードの任意の適切な数のシーケンスからサブワードのシーケンスを生成することができることを理解されたい。

いくつかの実施形態では、サブワードのシーケンスが判定された後は、ユーザ定義のキーワードモデル生成ユニット816は、そのサブワードのシーケンスの最初または最後に沈黙のサブワードを追加することによって、サブワードのシーケンスを修正することができる。たとえば、沈黙のサブワードが、サブワードのシーケンスの最初に存在しないとき、沈黙のサブワードは、そのサブワードのシーケンスの最初に追加され得る。同様に、沈黙のサブワードが、サブワードのシーケンスの最後に存在しないとき、沈黙のサブワードは、そのサブワードのシーケンスの最後に追加され得る。

サブワードのシーケンスおよび記憶ユニット840からの少なくとも1つのサブワードモデルに基づいて、ユーザ定義のキーワードモデル生成ユニット816は、1つまたは複数のサンプルサウンドに関連するユーザ定義のキーワードのキーワードモデルを生成することができる。このプロセスでは、ユーザ定義のキーワードモデル生成ユニット816は、サブワードモデルからサブワードのシーケンス内の各々のサブワードに関連するモデルパラメータを取得することができる。そのサブワードのシーケンスおよび判定されたサブワードのシーケンスのうちの各々のサブワードに関連する取得されたモデルパラメータは、次いで、ユーザ定義のキーワードのキーワードモデルとして指定および出力され得る。一実施形態では、ユーザ定義のキーワードモデル生成ユニット816は、そのサブワードのシーケンスおよび/またはユーザ定義のキーワードを示す1つもしくは複数のサンプルサウンドに基づいて記憶ユニット840からの少なくとも1つのサブワードモデルを適合させ、記憶ユニット840にその適合したサブワードモデルを記憶することができる。

ユーザ定義のキーワードモデル生成ユニット816は、サブワード認識ユニット812から受信されたサブワードの複数のシーケンスに基づいてサブワードネットワークを生成することによって、ユーザ定義のキーワードのキーワードモデルを生成することができる。一実施形態では、ユーザ定義のキーワードモデル生成ユニット816は、隠れマルコフモデル(HMM)、準マルコフモデル(SMM)、またはそれらの組合せなど、グラフィックモデルの下で、複数のノードおよびその複数のノードのうち少なくとも2つのノードを接続することができる複数の回線を含む単一のネットワークにそのサブワードのシーケンスを結合させることによって、サブワードネットワークを生成することができる。ユーザ定義のキーワードモデル生成ユニット816はまた、任意の適切なグラフ統合アルゴリズムに基づいて2つ以上の同様のノードを単一のノード(たとえば、同様のノードのうちの1つ)に統合することによって、サブワードネットワークを枝刈りする(たとえば、減らす)ことができる。サブワードネットワーク内の複数のノードと、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、ニューラルネットワークなどのサブワードネットワーク内のノードに対応する少なくとも1つのグラフィックモデルは、次いで、ユーザ定義のキーワードのキーワードモデルとして指定および出力され得る。

いくつかの実施形態では、I/Oユニット830は、ユーザからのキーワードモデルの生成で使用するためのユーザ定義のキーワードを指定するテキストを受信することができる。そのユーザ定義のキーワードのテキストは、次いで、ユーザ定義のキーワードモデル生成ユニット816に提供され得る。ユーザ定義のキーワードを指定するテキストを受信したとき、ユーザ定義のキーワードモデル生成ユニット816は、ユーザ定義のキーワードのテキストをユーザ定義のキーワードを示すサブワードのシーケンスに変換することができる。一実施形態では、ユーザ定義のキーワードのサブワードのシーケンスは、記憶ユニット840に記憶された発音辞書データベースにアクセスすることによって、ユーザ定義のキーワードのテキストに関連する発音情報に基づいて判定することができる。別法として、ユーザ定義のキーワードモデル生成ユニット816は、辞書に載っている言葉の発音データまたは情報を記憶する外部サーバまたはデバイス(図示せず)と通信して、ユーザ定義のキーワードのテキストに関連する発音情報を受信することができる。ユーザ定義のキーワードのテキストが、発音辞書データベース内の辞書に載っている言葉と一致しないとき、ユーザ定義のキーワードモデル生成ユニット816は、任意の適切な言語学的および/または発音の規則に基づいてテキストの発音を判定し、その発音に基づいてサブワードのシーケンスを判定することによって、サブワードのシーケンスを生成することができる。

ユーザ定義のキーワードの検出の精度を上げるために、ユーザ定義のキーワードモデル生成ユニット816は、ユーザ定義のキーワード検出の信頼水準を示す閾値スコアを判定することができる。最初に、ユーザ定義のキーワードモデル生成ユニット816は、ユーザ定義のキーワードに関連するキーワードモデルに基づいてユーザから受信されたユーザ定義のキーワードを示す1つまたは複数のサンプルサウンドの各々のマッチングスコアを計算することができる。各サンプルサウンドの計算されたマッチングスコアに基づいて、ユーザ定義のキーワードを検出するための閾値スコアが、判定され得る。たとえば、Table 1(表1)内の5つのシーケンスのマッチングスコアは、それぞれ、9.5、9.0、8.3、6.5、および6として判定され得る。この場合、閾値スコアは、5つのマッチングスコアより小さいスコア(たとえば、5.0)であると判定され、入力サウンドストリームにおけるユーザ定義のキーワードの検出のために使用することができる。

さらなる一実施形態では、混合サウンド生成ユニット828は、ユーザから受信された、ユーザ定義のキーワードを示すサンプルサウンドに少なくとも1つのタイプのノイズを追加することによって、1つまたは複数の混合サンプルサウンドを生成することができる。ユーザ定義のキーワードモデル生成ユニット816は、混合サンプルサウンドを受信し、各々の混合サンプルサウンドのマッチングスコアを計算することができる。ユーザ定義のキーワードを検出するための閾値スコアが、次いで、各々のサンプルサウンドおよび混合サンプルサウンドの計算されたマッチングスコアに基づいて、判定され得る。この場合、その閾値スコアは、サンプルサウンドおよび混合サンプルサウンドのすべてのマッチングスコアより小さいスコアであると判定され得る。

ユーザ定義のキーワードモデル生成ユニット816は、ユーザ定義のキーワードの閾値スコアを適合させることができる。閾値スコアを適合させるために、サウンドセンサ800は、テスト入力サウンドとしてユーザ定義のキーワードを示す入力サウンドストリームを受信することができる。テスト入力サウンドを受信したとき、ユーザ定義のキーワードモデル生成ユニット816は、テスト入力サウンドから複数のサウンド特徴を連続して抽出し、抽出されたサウンド特徴とユーザ定義のキーワードのキーワードモデル内のサブワードのシーケンスまたはネットワークとの間のマッチングスコアを計算することができる。計算されたマッチングスコアに基づいて、ユーザ定義のキーワードを検出するための閾値スコアは、適合され得る。たとえば、計算されたマッチングスコアが4.5であるとき、ユーザ定義のキーワードモデル生成ユニット816は、閾値スコアを5.0から4.5未満のスコア(たとえば、4)に適合させることができる。

一実施形態では、ユーザ定義のキーワードモデル生成ユニット816は、サブワード認識ユニット812にユーザ定義のキーワードを示すテスト入力サウンドのサブワード認識を実行するように指示する信号を送信することができる。それに応答して、サブワード認識ユニット812は、テスト入力サウンドに基づいてサブワードのシーケンスを生成することができる。ユーザ定義のキーワードモデル生成ユニット816は、次いで、サブワード認識ユニット812からサブワードの生成されたシーケンスを受信し、そのサブワードの生成されたシーケンスに基づいてユーザ定義のキーワードのキーワードモデルを更新することができる。

ユーザ定義のキーワードを検出するためのキーワードモデルが生成された後は、ユーザ定義のキーワードモデル生成ユニット816は、ユーザ定義のキーワードの検出の精度を向上させるために、キーワードモデルの識別訓練を実行することができる。このプロセスでは、ユーザ定義のキーワードモデル生成ユニット816は、記憶ユニット840から検出履歴データベースにアクセスすることができ、所定のキーワードに関連し、サンプルサウンドの検出ラベルに基づいてユーザ定義のキーワードを含むものとして誤って検出された1つまたは複数のサンプルサウンドを識別することができる。加えて、ユーザ定義のキーワードに関連するがユーザ定義のキーワードを含むものとして正確に検出されなかったユーザ定義のキーワードに関連する1つまたは複数のサンプルサウンドが、サンプルサウンドの検出ラベルに基づいて識別され得る。ユーザ定義のキーワードモデル生成ユニット816は、次いで、誤って検出された所定のキーワードに関連するサンプルサウンドがユーザ定義のキーワードを含むものとして検出されないようなキーワードモデルを構成することができ、正確に検出されなかったユーザ定義のキーワードに関連するサンプルサウンドは、ユーザ定義のキーワードを含むものとして検出される。

音声検出器822は、サウンドセンサ800によって受信された入力サウンドストリームが対象のサウンド(たとえば、声)を含むかどうかを判定するように構成することができる。一実施形態では、サウンドセンサ800は、デューティサイクルに従って定期的にユーザ定義のキーワードまたは所定のキーワードを示す入力サウンドストリームを受信することができる。たとえば、サウンドセンサ800は、サウンドセンサ800が時間の10%に(たとえば、200ms期間内に20ms)入力サウンドストリームを受信するような、10%デューティサイクルで動作することができる。この場合、サウンドセンサ800は、入力サウンドストリームの受信部分の信号特性を分析し、入力サウンドストリームの受信部分が閾値サウンド強度を超えるかどうかを判定することができる。入力サウンドストリームの受信部分が、閾値サウンド強度を超えるサウンドであると判定されるとき、サウンドセンサ800は、音声検出器822を起動し、その受信部分を音声検出器822に提供することができる。別法として、受信部分が閾値サウンド強度を超えるかどうかを判定することなしに、サウンドセンサ800は、定期的に入力サウンドストリームの一部を受信し、音声検出器822を起動してその受信部分を音声検出器822に提供することができる。

音声検出器822は、起動されるとき、サウンドセンサ800から入力サウンドストリームの部分を受信することができる。一実施形態では、音声検出器822は、受信部分から1つまたは複数のサウンド特徴を抽出し、抽出されたサウンド特徴が、ガウス混合モデル(GMM)ベースの分類子、ニューラルネットワーク、HMM、グラフィックモデル、およびサポートベクタマシン(SVM)技法など、任意の適切なサウンド分類方法を使用することによって、音声などの対象のサウンドを示すかどうかを判定することができる。受信部分が対象のサウンドであると判定された場合、音声検出器822は音声起動ユニット824を起動することができ、入力サウンドストリームの受信部分および残りの部分が、音声起動ユニット824に提供され得る。いくつかの他の実施形態では、音声検出器822は、プロセッサにおいて省かれてもよい。この場合、受信部分が閾値サウンド強度を超えるとき、サウンドセンサ800は、音声起動ユニット824を起動し、音声起動ユニット824に直接に入力サウンドストリームの受信部分および残りの部分を提供することができる。

音声起動ユニット824は、起動されるとき、入力サウンドストリームを受信し、少なくとも1つのユーザ定義のキーワードおよび少なくとも1つの所定のキーワードのキーワードモデルに基づいて、少なくとも1つのユーザ定義のキーワードまたは少なくとも1つの所定のキーワードを検出するように構成することができる。たとえば、音声起動ユニット824は、入力サウンドストリームから複数のサウンド特徴を連続して抽出し、キーワードモデルに基づいて、少なくとも1つのキーワード(少なくとも1つのユーザ定義のキーワードおよび少なくとも1つの所定のキーワードを含む)のマッチングスコアを判定することができる。少なくとも1つのキーワードのマッチングスコアがその少なくとも1つのキーワードに関連する閾値スコアを超える場合、音声起動ユニット824は、少なくとも1つのキーワードを含むものとしてその入力サウンドストリームを検出することができる。一実施形態によれば、音声起動ユニット824は、記憶ユニット840の検出履歴データベースに入力サウンドストリームおよび入力サウンドストリームの検出ラベルを記憶することができる。たとえば、マッチングスコアが、閾値スコアよりも高い値にセットすることができる高信頼閾値を超えるとき、サンプルサウンドがキーワード音声として正確に検出されたことを示す検出ラベルが、生成され、記憶ユニット840において入力サウンドストリームとともに記憶され得る。同様の方式では、マッチングスコアが、閾値スコアよりも低い値にセットすることができる低信頼閾値を下回るとき、サンプルサウンドが非キーワード音声として正しく検出されたことを示す検出ラベルが、生成され、記憶ユニット840において入力サウンドストリームとともに記憶され得る。加えて、入力サウンドストリームの検出ラベルは、I/Oユニット830を介して、ユーザによって提供され得る。

キーワードを検出したとき、音声起動ユニット824は、そのキーワードに関連する機能を実行するか、または、そのキーワードに関連するアプリケーションを起動することができる。加えてまたは別法として、音声起動ユニット824は、起動信号を生成および送信して、検出されたキーワードに関連し得る音声アシスタントユニット826を作動させることができる。音声アシスタントユニット826は、音声起動ユニット824からの起動信号に応答して、起動することができる。起動された後は、音声アシスタントユニット826は、ディスプレイ画面110上におよび/またはI/Oユニット830のスピーカを介して「ご用件は何ですか?」などのメッセージを出力することによって、音声アシスタント機能を実行することができる。それに応答して、ユーザは、音声コマンドを話して、電子デバイス100の様々な関連機能を起動することができる。たとえば、インターネット検索のための音声コマンドが受信されたとき、音声アシスタントユニット826は、検索コマンドとしてその音声コマンドを認識し、通信ユニット832を介してウェブ検索を実行することができる。

図9は、本開示の一実施形態による、ユーザ定義のキーワードを示す少なくとも1つの入力からユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイス100において実行される、方法900の流れ図である。最初に、電子デバイス100は、910で、ユーザ定義のキーワードを示す少なくとも1つの入力を受信することができる。その少なくとも1つの入力は、ユーザ定義のキーワードのテキストおよびユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドのうちの少なくとも1つを含み得る。その少なくとも1つの入力から、電子デバイス100は、920で、サブワードのシーケンスを判定することができる。そのサブワードのシーケンスおよびそのサブワードのサブワードモデルに基づいて、電子デバイス100は、930で、ユーザ定義のキーワードに関連するキーワードモデルを生成することができる。電子デバイス100は、940で、ユーザ定義のキーワードに関連するキーワードモデルを所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットに提供することができる。

図10は、本開示の一実施形態による、ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドからユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイス100において実行される、方法1000の流れ図である。最初に、電子デバイス100は、1010で、ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを受信することができる。その少なくとも1つのサンプルサウンドから、電子デバイス100は、1020で、サブワードモデルに基づいてサブワードの少なくとも1つのシーケンスを生成することができる。そのサブワードの少なくとも1つのシーケンスに基づいて、電子デバイス100は、1030で、サブワードのシーケンスを判定することができる。そのサブワードのシーケンスおよびサブワードモデルに基づいて、電子デバイス100は、1040で、ユーザ定義のキーワードに関連するキーワードモデルを生成することができる。電子デバイス100は、1050で、所定のキーワードの学習済みのキーワードモデルで構成された音声起動ユニットにユーザ定義のキーワードに関連するキーワードモデルを提供することができる。

図11は、本開示の一実施形態による、ユーザ定義のキーワードを検出するためのキーワードモデルの生成において使用されるサブワードモデルを適合させるための、電子デバイス100において実行される、方法1100の流れ図である。電子デバイス100は、1110で、電子デバイス100のディスプレイ画面110に少なくとも1つの文を出力することができる。その少なくとも1つの文は、それらが1つの言語において出現するとき、同じまたは同様の周波数で特定の音素を使用し得る音声学的にバランスの取れた文(たとえば、ハーバードセンテンス)のうちの少なくとも1つでもよい。電子デバイス100は、1120で、少なくとも1つの文の入力サウンドを受信することができる。その入力サウンドに基づいて、電子デバイス100は、1130で、サブワードモデルを適合させることができる。

図12は、本開示の一実施形態による、入力サウンドに基づいてユーザ定義のキーワードを検出するためのスコア閾値を適合させるための、電子デバイス100において実行される、方法1200の流れ図である。電子デバイス100は、1210で、ユーザ定義のキーワードに関連するキーワードモデルの閾値スコアを判定することができる。電子デバイス100は、1220で、ユーザ定義のキーワードを示すテスト入力サウンドを受信することができる。電子デバイス100は、1230で、ユーザ定義のキーワードに関連するキーワードモデルに基づいてテスト入力サウンドのマッチングスコアを判定することができる。そのマッチングスコアに基づいて、電子デバイス100は、1240で、ユーザ定義のキーワードに関連するキーワードモデルの閾値スコアを適合させることができる。

図13は、ユーザ定義のキーワードの検出において使用するためのキーワードモデルを生成するための方法および装置が本開示のいくつかの実施形態に従ってそこで実装され得る例示的電子デバイス1300のブロック図である。電子デバイス1300の構成は、図1から図12を参照して説明された上述の実施形態による電子デバイスにおいて実装され得る。電子デバイス1300は、セルラーフォン、スマートフォン、タブレットコンピュータ、ラップトップコンピュータ、端末、ハンドセット、パーソナルデジタルアシスタント(PDA)、ワイヤレスモデム、コードレス電話などでもよい。ワイヤレス通信システムは、符号分割多元接続(CDMA)システム、モバイル通信用ブロードキャスト(GSM(登録商標))システム、広帯域CDMA(WCDMA(登録商標))システム、ロングタームエボリューション(LTE)システム、LTEアドバンストシステムなどでもよい。さらに、電子デバイス1300は、たとえば、Wi-Fiダイレクトまたはブルートゥース(登録商標)を使用し、別のモバイルデバイスと直接通信することができる。

電子デバイス1300は、受信パスおよび送信パスを介して双方向通信を提供する能力を有する。受信パス上で、基地局によって送信された信号は、アンテナ1312によって受信され、受信機(RCVR)1314に与えられる。受信機1314は、受信された信号を調整およびデジタル化し、調整およびデジタル化されたデジタル信号などのサンプルをさらなる処理のためにデジタル部に提供する。送信パスでは、送信機(TMTR)1316は、デジタル部1320から送信されることになるデータを受信し、そのデータを処理および調整し、基地局にアンテナ1312を介して送信される変調信号を生成する。受信機1314および送信機1316は、CDMA、GSM(登録商標)、LTE、LTEアドバンストなどをサポートすることができる送受信機の部分でもよい。

デジタル部1320は、たとえば、モデムプロセッサ1322、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1324、コントローラ/プロセッサ1326、内部メモリ1328、汎用オーディオ/ビデオエンコーダ1332、汎用オーディオデコーダ1334、グラフィックス/ディスプレイプロセッサ1336、および外部バスインターフェース(EBI)1338など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ1322は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行し得る。RISC/DSP 1324は、電子デバイス1300のための一般的および専門的処理を実行することができる。コントローラ/プロセッサ1326は、デジタル部1320内の様々な処理およびインターフェースユニットの動作を実行し得る。内部メモリ1328は、デジタル部1320内の様々なユニットのためのデータおよび/または命令を記憶し得る。

一般化オーディオ/ビデオエンコーダ1332は、オーディオ/ビデオソース1342、マイクロフォン1344、画像センサ1346などからの入力信号に対して、符号化を実行し得る。一般化オーディオデコーダ1334は、コード化オーディオデータに対して復号を実行し、出力信号をスピーカ/ヘッドセット1348に提供し得る。グラフィックス/ディスプレイプロセッサ1036は、ディスプレイユニット1350に提示され得るグラフィックス、ビデオ、画像、およびテキストに対して、処理を実行し得る。EBI 1338は、デジタル部1320とメインメモリ1352との間のデータの転送を円滑化することができる。

デジタル部1320は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装され得る。デジタル部1320はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)の上に製作され得る。

一般に、本明細書で説明する任意のデバイスは、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部モデムまたは内部モデム、ワイヤレスチャネルを通じて通信するデバイスなど、様々なタイプのデバイスを表し得る。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、モバイルデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなどの、様々な名前を有し得る。本明細書で説明する任意のデバイスは、命令およびデータを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。

本明細書で説明した技法は、様々な手段によって実装され得る。たとえば、これらの技法は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの組合せで実装され得る。本明細書の開示に関連して説明された様々な例示的な論理ブロック、モジュール、回路、およびアルゴリズムステップが、電子ハードウェア、コンピュータソフトウェア、または両方の組合せとして実装され得ることが当業者にはさらに理解されよう。ハードウェアおよびソフトウェアのこの互換性を明確に説明するために、様々な例示的構成要素、ブロック、モジュール、回路、およびステップは、概して、それらの機能性に関して上述されている。そのような機能性がハードウェアとして実装されるかソフトウェアとして実装されるかは、個々のアプリケーションおよびシステム全体に課される設計制約によって決まる。当業者は、説明された機能を各々の特定の応用分野について様々な方式で実装し得るが、そのような実装判断は、本開示の範囲からの逸脱を引き起こすと解釈されるべきではない。

ハードウェア実装では、本技法を実行するために使用される処理ユニットは、1つまたは複数のASIC、DSP、デジタル信号処理デバイス(DSPD)、プログラマブル論理デバイス(PLD)、フィールドプログラマブルゲートアレイ(FPGA)、プロセッサ、コントローラ、マイクロコントローラ、マイクロプロセッサ、電子デバイス、本明細書に記載の機能を実行するように設計された他の電子ユニット、コンピュータ、またはそれらの組合せ内で実装され得る。

したがって、本明細書の開示に関連して説明された様々な例示的な論理ブロック、モジュール、および回路は、汎用プロセッサ、DSP、ASIC、FPGAもしくは他のプログラマブル論理デバイス、個別ゲートもしくはトランジスタ論理、個別ハードウェアコンポーネント、または本明細書で説明する機能を実行するように設計されたそれらの任意の組合せを用いて、実装または実行され得る。汎用プロセッサは、マイクロプロセッサでもよいが、代替で、そのプロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械でもよい。プロセッサはまた、コンピューティングデバイスの組合せ、たとえば、DSPおよびマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連動する1つもしくは複数のマイクロプロセッサ、または任意の他のそのような構成として実装され得る。

ソフトウェアにおいて実装される場合、それらの機能は、コンピュータ可読媒体に記憶され得るか、または、1つもしくは複数の命令もしくはコードとして送信され得る。コンピュータ可読媒体は、ある場所から別の場所へのコンピュータプログラムの転送を円滑化する任意の媒体を含む、コンピュータ記憶媒体および通信媒体の両方を含み得る。記憶媒体は、コンピュータによってアクセスすることができる任意の使用可能な媒体でもよい。例として、そして、それに限定せず、そのようなコンピュータ可読媒体は、RAM、ROM、EEPROM、CD-ROMもしくは他の光ディスクストレージ、磁気ディスクストレージもしくは他の磁気記憶デバイス、または、コンピュータによってアクセスすることができる命令またはデータ構造の形で所望のプログラムコードを運ぶまたは記憶するために使用することができる任意の他の媒体を備え得る。さらに、任意の接続は、コンピュータ可読媒体と適切に呼ばれる。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または、赤外線、無線、およびマイクロ波などのワイヤレス技術を使用し、ウェブサイト、サーバ、または他のリモートソースから送信される場合、そのとき、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または、赤外線、無線、およびマイクロ波などのワイヤレス技術は、媒体の定義に含まれる。本明細書では、ディスク(diskおよびdisc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピディスク(disk)およびブルーレイディスク(disc)を含み、ディスク(disk)は、通常は、磁気的にデータを再生し、ディスク(disc)は、レーザで光学的にデータを再生する。上述の組合せもまた、コンピュータ可読媒体の範囲に含まれるべきである。

本開示の上述の説明は、当業者が本開示を行うまたは使用することを可能にするために提供される。本開示の様々な修正が当業者には容易に明らかになり、本明細書で定義する一般的原理は、本開示の趣旨または範囲から逸脱することなく、他の変形形態に適用される。したがって、本開示は、本明細書に記載された例に限定されるものではなく、本明細書で開示される原理および新しい特徴と一致する最も広い範囲を与えられるものとする。

例示的な実装形態は、現在開示される主題の態様を、1つまたは複数のスタンドアロンのコンピュータシステムのコンテキストにおいて利用することに言及されるが、本主題はそのように限定されず、むしろネットワーク環境または分散コンピューティング環境などの任意のコンピューティング環境とともに実施され得る。またさらに、現在開示される主題の態様は、複数の処理チップもしくはデバイスの中で、または複数の処理チップもしくはデバイスにわたって実装されてよく、ストレージが複数のデバイスにわたって同様に割り当てられてよい。そのようなデバイスは、PC、ネットワークサーバ、およびハンドヘルドデバイスを含み得る。

構造的な特徴および/または方法論的な動作に特有の言葉で本主題が説明されてきたが、添付の特許請求の範囲の中で定義される主題が、上述された特定の特徴または動作に必ずしも限定されないことを理解されたい。むしろ、上述された特定の特徴および動作は、特許請求の範囲を実施することの例示的な形態として開示される。

100 電子デバイス
110 ディスプレイ画面
120 ユーザ
210 サンプルサウンド
220 混合サンプルサウンド
600 音声アシスタントアプリケーション
800 サウンドセンサ
810 プロセッサ
812 サブワード認識ユニット
814 事前適応ユニット
816 キーワードモデル生成ユニット
828 混合サウンド生成ユニット
830 I/Oユニット
840 記憶ユニット

Claims

ユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイスにおいて実行される、方法であって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するステップと、
前記少なくとも1つの入力からサブワードのシーケンスを判定するステップと、
前記サブワードのシーケンスおよび前記サブワードのサブワードモデルに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップであり、前記サブワードモデルが、音声データベースに基づく前記サブワードの複数の音響特性をモデル化するように構成される、ステップと、
前記ユーザ定義のキーワードに関連する前記キーワードモデルを所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットに提供するステップと
を含む、方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルおよび前記所定のキーワードに関連する前記キーワードモデルに基づいて、前記音声起動ユニットによって、入力サウンドにおいて前記ユーザ定義のキーワードまたは前記所定のキーワードを検出するステップ
をさらに含む、請求項1に記載の方法。
前記ユーザ定義のキーワードまたは前記所定のキーワードに関連する機能を実行するステップ
をさらに含む、請求項2に記載の方法。
前記サブワードモデルが、少なくとも1つの文の入力サウンドに基づいて適合される、請求項1に記載の方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップが、前記ユーザ定義のキーワードに関連する前記キーワードモデルの閾値スコアを判定するステップを含む、請求項1に記載の方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルが、
前記ユーザ定義のキーワードを示すテスト入力サウンドを受信するステップと、
前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて前記テスト入力サウンドのマッチングスコアを判定するステップと、
前記マッチングスコアに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルの前記閾値スコアを適合させるステップと
によって、適合される、請求項5に記載の方法。
前記少なくとも1つの入力が、前記ユーザ定義のキーワードのテキストを含む、請求項1に記載の方法。
前記少なくとも1つの入力が、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを含む、請求項1に記載の方法。
前記サブワードのシーケンスを判定するステップが、
前記サブワードモデルに基づいて前記少なくとも1つのサンプルサウンドからサブワードの少なくとも1つのシーケンスを生成するステップと、
前記サブワードの少なくとも1つのシーケンスに基づいて前記サブワードのシーケンスを判定するステップと
を含む、請求項8に記載の方法。
前記サブワードの少なくとも1つのシーケンスのうちの前記サブワードが、音、音素、トライフォン、および音節のうちの少なくとも1つを含む、請求項9に記載の方法。
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって少なくとも1つの混合サンプルサウンドを生成するステップ
をさらに含む、請求項8に記載の方法。
前記サブワードのシーケンスを判定するステップが、
前記サブワードモデルに基づいて前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2つのシーケンスを生成するステップと、
前記サブワードの少なくとも2つのシーケンスに基づいて前記サブワードのシーケンスを判定するステップと
を含む、請求項11に記載の方法。
前記サブワードの少なくとも1つのシーケンスに基づいて前記サブワードのシーケンスを判定するステップが、最も長い前記サブワードの少なくとも1つのシーケンスのうちの1つを前記サブワードのシーケンスとして選択するステップを含む、請求項9に記載の方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップが、
前記サブワードのシーケンス、前記サブワードモデル、前記少なくとも1つのサンプルサウンド、および前記少なくとも1つの混合サンプルサウンドに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップ
を含む、請求項11に記載の方法。
前記サブワードのシーケンスの最初または最後にサブワード単位として沈黙部分を追加して前記サブワードのシーケンスを生成するステップ
をさらに含む、請求項1に記載の方法。
前記少なくとも1つの入力が、前記ユーザ定義のキーワードのテキストおよび前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを含む、請求項1に記載の方法。
ユーザ定義のキーワードのキーワードモデルを生成するための電子デバイスであって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するように構成された入力ユニットと、
所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットと、
前記少なくとも1つの入力からサブワードのシーケンスを判定し、前記サブワードのシーケンスおよび前記サブワードのサブワードモデルに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成し、前記ユーザ定義のキーワードに関連する前記キーワードモデルを前記音声起動ユニットに提供するように構成された、ユーザ定義のキーワードモデル生成ユニットと
を備え、
前記サブワードモデルが、音声データベースに基づいて前記サブワードの複数の音響特性をモデル化するように構成された、電子デバイス。
前記少なくとも1つの入力が、前記ユーザ定義のキーワードのテキストを含む、請求項17に記載の電子デバイス。
前記入力ユニットが、前記少なくとも1つの入力として前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを受信するように構成されたサウンドセンサを含む、請求項17に記載の電子デバイス。
前記サブワードモデルに基づいて前記少なくとも1つのサンプルサウンドからサブワードの少なくとも1つのシーケンスを生成するように構成されたサブワード認識ユニットをさらに備える、請求項19に記載の電子デバイス。
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって少なくとも1つの混合サンプルサウンドを生成するように構成された混合サウンド生成ユニットをさらに備える、請求項19に記載の電子デバイス。
前記音声起動ユニットが、前記ユーザ定義のキーワードに関連する前記キーワードモデルおよび前記所定のキーワードに関連する前記キーワードモデルに基づいて入力サウンドにおいて前記ユーザ定義のキーワードまたは前記所定のキーワードを検出するように構成された、請求項17に記載の電子デバイス。
前記音声起動ユニットが、前記ユーザ定義のキーワードまたは前記所定のキーワードに関連する機能を実行するように構成された、請求項17に記載の電子デバイス。
前記サウンドセンサによって受信された少なくとも1つの文の入力サウンドに基づいて前記サブワードモデルを適合させるように構成された事前適応ユニットをさらに備える、請求項19に記載の電子デバイス。
前記ユーザ定義のキーワードモデル生成ユニットが、前記ユーザ定義のキーワードに関連する前記キーワードモデルの閾値スコアを判定するように構成された、請求項17に記載の電子デバイス。
前記ユーザ定義のキーワードモデル生成ユニットが、
前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて前記サウンドセンサによって受信された前記ユーザ定義のキーワードを示すテスト入力サウンドのマッチングスコアを判定し、
前記マッチングスコアに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルの前記閾値スコアを適合させる
ように構成された、請求項25に記載の電子デバイス。
電子デバイスにおいてユーザ定義のキーワードのキーワードモデルを生成するための命令を記憶する非一時的コンピュータ可読記憶媒体であって、前記命令が、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信する動作と、
前記少なくとも1つの入力からサブワードのシーケンスを判定する動作と、
前記サブワードのシーケンスおよび前記サブワードのサブワードモデルに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成する動作であり、前記サブワードモデルが、音声データベースに基づいて前記サブワードの複数の音響特性をモデル化するように構成された、動作と、
前記ユーザ定義のキーワードに関連する前記キーワードモデルを所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットに提供する動作と
をプロセッサに実行させる、非一時的コンピュータ可読記憶媒体。
ユーザ定義のキーワードのキーワードモデルを生成するための電子デバイスであって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するための手段と、
前記少なくとも1つの入力からサブワードのシーケンスを判定するための手段と、
前記サブワードのシーケンスおよび前記サブワードのサブワードモデルに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するための手段であり、前記サブワードモデルが、音声データベースに基づいて前記サブワードの複数の音響特性をモデル化するように構成された、手段と、
前記ユーザ定義のキーワードに関連する前記キーワードモデルを所定のキーワードに関連するキーワードモデルで構成された音声起動ユニットに提供するための手段と
を備える、電子デバイス。
前記少なくとも1つの入力が、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを含む、請求項28に記載の電子デバイス。
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって少なくとも1つの混合サンプルサウンドを生成するための手段
をさらに備える、請求項29に記載の電子デバイス。