JP2016522910A5

JP2016522910A5 -

Info

Publication number: JP2016522910A5
Application number: JP2016512921A
Authority: JP
Filing date: 2014-04-24
Publication date: 2017-05-18

Claims

モバイルデバイスにおいて、機能をアクティブ化するために入力サウンドからターゲットキーワードを検出する方法であって、前記方法は、
前記モバイルデバイスによって、バッファにおいて第１の複数のサウンド特徴を受け取ることと、
一旦前記バッファにおいて前記第１の複数のサウンド特徴が受け取られたら、前記第１の複数のサウンド特徴の特徴統計量を生成することと、
一旦前記バッファにおいて前記第１の複数のサウンド特徴が受け取られたら、前記モバイルデバイスによって、前記バッファにおいて第２の複数のサウンド特徴を受け取ることと、
前記バッファにおいて受け取られた前記第２の複数のサウンド特徴の各サウンド特徴について、前記特徴統計量を更新することと、
前記バッファにおいて前記第２の複数のサウンド特徴のサウンド特徴を受け取っている間に、前記モバイルデバイスによって、前記バッファから第１の数のサウンド特徴を処理すること、前記第１の数のサウンド特徴は、２つ以上のサウンド特徴を含み、ここにおいて、前記処理することは、前記第１の複数のサウンド特徴の前記特徴統計量または前記更新された特徴統計量に基づく、と、
前記モバイルデバイスによって、前記処理されたサウンド特徴のうちの少なくとも１つのサウンド特徴についてのキーワードスコアを決定することと、
前記キーワードスコアが閾値スコアより大きいとき、前記モバイルデバイスによって、前記ターゲットキーワードとして前記入力サウンドを検出することと、
を備える、方法。
前記第１の数のサウンド特徴を処理することは、
前記バッファから前記第１の数のサウンド特徴を取り出すことと、
特徴統計量に基づいて前記取り出されたサウンド特徴を処理することと、
を備える、請求項１に記載の方法。
前記特徴統計量は、平均および分散を含み、前記取り出されたサウンド特徴を処理することは、前記特徴統計量に基づいて前記取り出されたサウンド特徴を正規化することを備える、請求項２に記載の方法。
前記取り出されたサウンド特徴を処理することは、前記第１の複数のサウンド特徴の前記特徴統計量に基づいて、前記第１の複数のサウンド特徴中のサウンド特徴を処理することを備える、請求項２に記載の方法。
前記取り出されたサウンド特徴を処理することは、
前記第２の複数のサウンド特徴の第１のサウンド特徴に基づいて前記特徴統計量を更新することと、
前記更新された特徴統計量に基づいて、前記第２の複数のサウンド特徴の前記第１のサウンド特徴を処理することと、
を備える、請求項２に記載の方法。
前記取り出されたサウンド特徴を処理することは、前記特徴統計量に基づいて、選択された数の前記取り出されたサウンド特徴を処理することを備える、請求項２に記載の方法。
前記選択された数は、前記モバイルデバイスのリソース情報に基づいて調整される、請求項６に記載の方法。
前記取り出されたサウンド特徴を処理することは、
前記取り出されたサウンド特徴中のサウンド特徴を、現在のサウンド特徴として識別することと、
前記現在のサウンド特徴と以前のサウンド特徴との間の差を決定することと、
前記差が閾値より小さいとき、前記以前のサウンド特徴に対応する処理されたサウンド特徴を、前記現在のサウンド特徴に対応する処理されたサウンド特徴として使用することと、
を備える、請求項２に記載の方法。
前記第１の数は、前記モバイルデバイスのリソース情報に基づいて調整される、請求項１に記載の方法。
前記処理されたサウンド特徴のうちの前記少なくとも１つのサウンド特徴について前記キーワードスコアを決定することは、マルコフ連鎖モデルを使用して前記キーワードスコアを計算することを備える、請求項１に記載の方法。
前記第１の数のサウンド特徴を処理することは、前記バッファ内の特定の数の前記サウンド特徴が前記第１の数より少ないとき、前記バッファ内にある前記特定の数のサウンド特徴を処理することを備える、請求項１に記載の方法。
前記バッファにおいて前記第１の複数のサウンド特徴を受け取ることは、
前記入力サウンドの第１の部分を第１の複数のフレームにセグメント化することと、
前記第１の複数のフレームのうちの少なくとも１つのフレームから第１のサウンド特徴を抽出することと、
を備え、
前記バッファにおいて前記第２の複数のサウンド特徴を受け取ることは、
前記入力サウンドの第２の部分を第２の複数のフレームにセグメント化することと、
前記第２の複数のフレームのうちの少なくとも１つのフレームから第２のサウンド特徴を抽出することと、
を備える、請求項１に記載の方法。
前記ターゲットキーワードとして検出される前記入力サウンドに応答して、前記ターゲットキーワードに関連付けられた前記機能をアクティブ化することをさらに備える、請求項１に記載の方法。
モバイルデバイスであって、
バッファにおいてサウンド特徴を受け取り、および記憶するための手段、ここにおいて、前記サウンド特徴は、第１の複数のサウンド特徴と第２の複数のサウンド特徴とを含み、前記第２の複数のサウンド特徴は、前記第１の複数のサウンド特徴が前記バッファにおいて受け取られた後に、前記バッファにおいて受け取られる、と、
一旦前記バッファにおいて前記第１の複数のサウンド特徴が受け取られたら、前記第１の複数のサウンド特徴の特徴統計量を生成するための手段と、
前記バッファにおいて受け取られた前記第２の複数のサウンド特徴の各サウンド特徴について前記特徴統計量を更新するための手段と、
前記サウンド特徴を記憶するための前記手段が前記第２の複数のサウンド特徴のサウンド特徴を受け取る間に、前記サウンド特徴を記憶するための前記手段から第１の数のサウンド特徴を処理するための手段、前記第１の数の前記サウンド特徴は、２つ以上のサウンド特徴を含み、ここにおいて、前記処理することは、前記第１の複数のサウンド特徴の前記特徴統計量または前記更新された特徴統計量に基づく、と、
前記処理されたサウンド特徴の各々についてのキーワードスコアを決定するための手段と、
前記キーワードスコアのうちの少なくとも１つが閾値スコアより大きいとき、ターゲットキーワードとして入力サウンドを検出するための手段と、
を備える、モバイルデバイス。
モバイルデバイスにおける機能をアクティブ化するために、入力サウンドからターゲットキーワードを検出するための命令を記憶する、非一時的なコンピュータ読取可能記憶媒体であって、前記命令は、プロセッサに請求項１〜１３のいずれか一項に記載の方法を行わせる、コンピュータ読取可能記憶媒体。