JP2017515147A5

JP2017515147A5 -

Info

Publication number: JP2017515147A5
Application number: JP2016562023A
Authority: JP
Filing date: 2015-04-08
Publication date: 2018-05-10

Claims

ユーザ定義のキーワードのキーワードモデルを生成するための、電子デバイスにおいて実行される、方法であって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するステップであって、前記少なくとも1つの入力は、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを含む、ステップと、
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって、少なくとも1つの混合サンプルサウンドを生成するステップと、
前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2のシーケンスを生成するとともに、サブワードの前記少なくとも2のシーケンスに基づいて、サブワードのシーケンスを判定するステップと、
サブワードの前記判定されたシーケンスおよび前記サブワードのサブワードモデルに基づいて、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップであって、前記サブワードモデルは、音声データベースに基づいて、前記サブワードの複数の音響特性をモデル化するように構成される、ステップと、
前記ユーザ定義のキーワードに関連する前記キーワードモデルを音声起動ユニットに提供するステップと
を含み、
サブワードの前記少なくとも2つのシーケンスは、前記サブワードモデルに基づいて生成され、
前記方法は、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップの前に：
所定の語句を示す入力サウンドを受信するステップと、
前記所定の語句を示す前記受信した入力サウンドから音響特性を抽出するステップと、
前記抽出した音響特性に基づいて、前記サブワードモデルを適合するステップと
をさらに含む、方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて、さらなる入力サウンド内の前記ユーザ定義のキーワードを、前記音声起動ユニットによって検出するステップをさらに含む、請求項1に記載の方法。
前記ユーザ定義のキーワードに関連する機能を実行するステップ
をさらに含む、請求項2に記載の方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成するステップが、前記ユーザ定義のキーワードに関連する前記キーワードモデルの閾値スコアを判定するステップを含む、請求項1に記載の方法。
前記ユーザ定義のキーワードに関連する前記キーワードモデルが、
前記ユーザ定義のキーワードを示すテスト入力サウンドを受信するステップと、
前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて前記テスト入力サウンドのマッチングスコアを判定するステップと、
前記マッチングスコアに基づいて前記ユーザ定義のキーワードに関連する前記キーワードモデルの前記閾値スコアを適合させるステップと
によって、適合される、請求項4に記載の方法。
前記サブワードの少なくとも1つのシーケンスのうちの前記サブワードが、音、音素、トライフォン、および音節のうちの少なくとも1つを含む、請求項1に記載の方法。
サブワードのシーケンスの最初および/または最後のサブワード単位が沈黙部分かどうかを判定するステップと、
サブワードのシーケンスの最初および/または最後の前記サブワード単位が沈黙部分ではないと判定されることに応答して、前記サブワードのシーケンスの最初および/または最後のそれぞれに、サブワード単位として沈黙部分を追加するステップと
をさらに含む、請求項1に記載の方法。
前記少なくとも1つの入力が、前記ユーザ定義のキーワードのテキストをさらに含む、請求項1に記載の方法。
ユーザ定義のキーワードのキーワードモデルを生成するための電子デバイスであって、
前記ユーザ定義のキーワードを示す少なくとも1つの入力を受信するように構成された入力ユニットであって、前記入力ユニットは、前記少なくとも1つの入力として、前記ユーザ定義のキーワードを示す少なくとも1つのサンプルサウンドを受信するように構成されたサウンドセンサを含む、入力ユニットと、
前記少なくとも1つのサンプルサウンドを少なくとも1つのタイプのノイズと混ぜることによって、少なくとも1つの混合サンプルサウンドを生成するように構成された混合サウンド生成ユニットと、
前記少なくとも1つのサンプルサウンドおよび前記少なくとも1つの混合サンプルサウンドからサブワードの少なくとも2のシーケンスを生成するように構成されたサブワード認識ユニットと、
音声起動ユニットと、
サブワードの前記少なくとも2のシーケンスに基づいて、サブワードのシーケンスを判定し、サブワードの前記判定されたシーケンスおよび前記サブワードのサブワードモデルに基づいて、前記ユーザ定義のキーワードに関連する前記キーワードモデルを生成し、前記ユーザ定義のキーワードに関連する前記キーワードモデルを前記音声起動ユニットに提供するように構成されたユーザ定義のキーワードモデル生成ユニットと、
前記ユーザ定義のキーワードモデルに関連する前記キーワードモデルが生成される前に、前記サウンドセンサによって受信された少なくとも1つの語句の入力サウンドに基づいて前記サブワードモデルを適合するように構成された事前適応ユニットとを備え、
前記サブワードモデルは、音声データベースに基づいて前記サブワードの複数の音響特性をモデル化するように構成され、サブワードの前記少なくとも2のシーケンスは、前記サブワードモデルに基づいて生成される、電子デバイス。
前記音声起動ユニットは、前記ユーザ定義のキーワードに関連する前記キーワードモデルに基づいて、入力サウンド内の前記ユーザ定義のキーワードを検出するように構成された、請求項9に記載の電子デバイス。
前記音声起動ユニットが、前記ユーザ定義のキーワードに関連する機能を実行するように構成された、請求項9に記載の電子デバイス。
電子デバイスにおけるユーザ定義のキーワードのキーワードモデルを生成するための命令を格納する非一時的コンピュータ可読記憶媒体であって、前記命令は、プロセッサに請求項1〜8のいずれか一項に記載の方法を実行させる、非一時的コンピュータ可読記憶媒体。