JP6309615B2 - ターゲットキーワードを検出するための方法および装置 - Google Patents

ターゲットキーワードを検出するための方法および装置 Download PDF

Info

Publication number
JP6309615B2
JP6309615B2 JP2016512922A JP2016512922A JP6309615B2 JP 6309615 B2 JP6309615 B2 JP 6309615B2 JP 2016512922 A JP2016512922 A JP 2016512922A JP 2016512922 A JP2016512922 A JP 2016512922A JP 6309615 B2 JP6309615 B2 JP 6309615B2
Authority
JP
Japan
Prior art keywords
state
keyword
score
speech
target keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2016512922A
Other languages
English (en)
Other versions
JP2016526178A (ja
JP2016526178A5 (ja
Inventor
キム、ソンウン
リ、ミンスブ
キム、テス
ジン、ミンホ
ホワン、キュ・ウォン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2016526178A publication Critical patent/JP2016526178A/ja
Publication of JP2016526178A5 publication Critical patent/JP2016526178A5/ja
Application granted granted Critical
Publication of JP6309615B2 publication Critical patent/JP6309615B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Input From Keyboards Or The Like (AREA)

Description

関連出願の相互参照
[0001]本出願は、各々の内容全体が参照により本明細書に明確に組み込まれる、同一出願人が所有する、2013年5月7日に出願された米国仮特許出願第61/820,498号、2013年7月26日に出願された米国仮特許出願第61/859,058号、および2013年11月22日に出願された米国非仮特許出願第14/087,939号の優先権を主張する。
[0002]本開示は一般にオーディオ処理に関し、より詳細には、電子デバイスにおけるオーディオ入力からターゲットキーワードを検出することに関する。
[0003]近年、スマートフォン、タブレットコンピュータ、およびスマートTVなどの、音声キャプチャ機能を有する電子デバイスの使用が着実に増加している。そのような電子デバイスは、1つまたは複数のアプリケーションまたは機能がボイスキーワードに応答して起動されることを可能にし得る。そのようなデバイスのユーザは通常、ランダムな時間フレームにおいてそのようなボイスアクティベーション機能を使用するので、これらのデバイスはしばしば、そのような入力音声がキャプチャされ処理されるのを可能にするために、アクティブ状態で継続的に動作する。
[0004]そのようなデバイスをアクティブ状態で継続的に動作させることは、一般に、入力音声からキーワードを検出する際にキーワード全体を受け取ることを可能にする。しかしながら、キーワードを検出するためにそのようなデバイスを使用して入力音声を継続的にキャプチャし処理することは通常、モバイルデバイスの場合、電力消費の増加またはバッテリー寿命の低下をもたらす。いくつかのデバイスは、入力音声ストリームが受け取られ処理される時間を低減するために、デューティサイクルを実施している。しかしながら、ユーザからのキーワードの先頭がデューティサイクルの非アクティブ状態にあたる場合、キーワードの検出の失敗を引き起し、ユーザがキーワードを繰り返すことを必要とする可能性がある。
[0005]加えて、異なるユーザが電子デバイスにおける機能を起動するために同じキーワードを話すとき、ユーザは通常、異なる速度でキーワードを話し、その結果、異なる時間期間がキーワードの部分の各々に充てられ得る。ユーザによる差に対処するために、いくつかの電子デバイスは、キーワードを検出するためにすべての考えられる時間期間のすべての組合せを処理している。しかしながら、そのような音声処理方法は一般に、計算複雑性(computational complexity)を増大させ、かなり大きいコンピューティングリソースを必要とする。
[0006]本開示は、機能またはアプリケーションを起動するためにターゲットキーワードを検出するための方法および装置を提供する。
[0007]本開示の一態様によれば、電子デバイスにおける機能を起動するために複数の部分を含むターゲットキーワードを検出する方法が開示される。方法は、ターゲットキーワードの複数の部分のうちの1つから始まる入力音声を受け取り、入力音声から複数の音声特徴を抽出する。さらに、方法は、状態ネットワークを記述しているデータを取得し、ここにおいて、状態ネットワークは、単一の開始状態と、複数のエントリ状態と、単一の開始状態から複数のエントリ状態の各々への遷移とを含む。抽出された音声特徴と状態ネットワークとに基づいて、入力音声がターゲットキーワードとして検出され得る。本開示は、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0008]本開示の別の態様によれば、機能を起動するためにターゲットキーワードを検出するための電子デバイスは、音声センサと、ボイスアクティベーションユニットとを含む。ターゲットキーワードは、複数の部分を含む。音声センサは、ターゲットキーワードの複数の部分のうちの1つから始まる入力音声を受け取るように構成される。ボイスアクティベーションユニットは、入力音声から複数の音声特徴を抽出し、状態ネットワークを記述しているデータを取得し、抽出された音声特徴と状態ネットワークとに基づいて、入力音声がターゲットキーワードに対応するかどうかを決定するように構成される。状態ネットワークは、単一の開始状態と、複数のエントリ状態と、単一の開始状態から複数のエントリ状態の各々への遷移とを含む
[0009]本開示のさらに別の態様によれば、電子デバイスにおいてターゲットキーワードを検出するための方法が開示される。ターゲットキーワードは、複数の部分を含む。
方法は、入力音声を受け取り、入力音声から複数の音声特徴を抽出する。さらに、方法は、ターゲットキーワードの複数の部分に関連付けられた状態情報を取得する。状態情報は、ターゲットキーワードの部分に関連付けられた複数の状態に対する複数の持続時間範囲を含む。抽出された音声特徴と状態情報とに基づいて、入力音声がターゲットキーワードとして検出される。本開示は、本方法に関係する装置、デバイス、システム、手段の組合せ、およびコンピュータ可読媒体についても説明する。
[0010]本開示のまた別の態様によれば、複数の部分を含むターゲットキーワードを検出するための電子デバイスが開示される。電子デバイスは、音声センサと、ボイスアクティベーションユニットとを含む。音声センサは、入力音声を受け取るように構成される。ボイスアクティベーションユニットは、入力音声から複数の音声特徴を抽出し、ターゲットキーワードの複数の部分に関連付けられた状態情報を取得するように構成される。状態情報は、ターゲットキーワードの部分に関連付けられた複数の状態に対する複数の持続時間範囲を含む。ボイスアクティベーションユニットは、抽出された音声特徴と状態情報とに基づいて、入力音声をターゲットキーワードとして検出するようにさらに構成される。
[0011]本開示の発明的態様の実施形態は、以下の詳細な説明を参照しながら、添付の図面とともに読むことで理解されよう。
[0012]本開示の一実施形態による、入力音声においてターゲットキーワードが検出されたときにボイスアシスタントアプリケーションを起動するモバイルデバイスを示す図。 [0013]本開示の一実施形態による、電子デバイスにおける機能を起動するために入力音声ストリームにおいてターゲットキーワードを検出するように構成された電子デバイスのブロック図。 [0014]本開示の一実施形態による、ボイスアクティベーションユニットを起動し、入力音声ストリームをボイスアクティベーションユニットに継続的に与えるように構成された音声センサおよびスピーチ検出器のブロック図。 [0015]本開示の一実施形態による、最初はデューティサイクルに基づいて受け取られ、デューティサイクルのアクティブ状態の間に受け取られた一部分が十分な強度の対象となる音声を含むと決定されると、継続的に受け取られる入力音声ストリームの図。 [0016]本開示の一実施形態による、入力音声を受け取り、入力音声においてターゲットキーワードを検出するように構成されたボイスアクティベーションユニットのより詳細なブロック図。 [0017]本開示の一実施形態による、ボイスアシスタントユニットを起動するために入力音声ストリームにおいてターゲットキーワードを検出するための方法のフローチャート。 [0018]一実施形態による、ターゲットキーワードの複数の状態についての複数の音声特徴の各々について決定された観測スコアのセットの図。 [0019]一実施形態による、ターゲットキーワードの検出に使用するための複数のエントリ状態を含む、マルコフ連鎖モデルの下でのターゲットキーワードに対する複数の状態シーケンスの図。 [0020]一実施形態による、各音声特徴に関連付けられた複数の状態の各々において終わる、各状態シーケンスについての最も大きいキーワードスコアを示す図。 [0021]本開示の一実施形態による、入力音声においてターゲットキーワードを検出するために状態シーケンスについてのキーワードスコアを決定するための方法のフローチャート。 [0022]本開示の一実施形態による、ターゲットキーワードに対するエントリ状態の数を決定する際に使用するためのターゲットキーワードに対する基準状態シーケンスの図。 [0023]本開示の一実施形態による、ターゲットキーワードに対する基準入力音声を処理することによってターゲットキーワードに対するエントリ状態の数を決定するための方法のフローチャート。 [0024]本開示の別の実施形態による、入力音声を受け取り、ターゲットキーワードに関連付けられた複数の状態の各々に対する持続時間の所定の範囲に基づいて、入力音声においてターゲットキーワードを検出するように構成されたボイスアクティベーションユニットのブロック図。 [0025]一実施形態による、ターゲットキーワードに関連付けられた各状態に対する持続時間の範囲に基づいて生成された、マルコフ連鎖モデルの下でのターゲットキーワードに対する複数の状態シーケンスのブロック図。 [0026]一実施形態による、ターゲットキーワードを検出するために各状態に対する持続時間の所定の範囲に基づいて最も大きいキーワードスコアを決定するための方法のフローチャート。 [0027]本開示のいくつかの実施形態による、機能を起動するために入力音声からターゲットキーワードを検出するための方法および装置が実装され得る、ワイヤレス通信システムにおけるモバイルデバイスのブロック図。
[0028]次に、添付の図面にその例が示されている、様々な実施形態を詳細に参照する。以下の詳細な説明では、本主題の完全な理解を与えるために多数の具体的な詳細が記載される。ただし、本主題はこれらの具体的な詳細なしに実施され得ることが当業者には明らかであろう。他の事例では、様々な実施形態の態様を不必要に不明瞭にしないように、よく知られている方法、手順、システム、および構成要素については詳細に説明していない。
[0029]図1は、本開示の一実施形態による、入力音声においてターゲットキーワードが検出されたときにボイスアシスタントアプリケーション130を起動するモバイルデバイス120を示す。最初に、モバイルデバイス120は、モバイルデバイス120におけるボイスアシスタントアプリケーション130などのアプリケーションまたは機能を起動するためのターゲットキーワードを記憶する。図示の実施形態では、ユーザ110が「START ASSISTANT」などのターゲットキーワードをモバイルデバイス120に話すと、モバイルデバイス120は入力音声をキャプチャし、入力音声においてターゲットキーワードを検出する。
[0030]ターゲットキーワードを検出すると、モバイルデバイス120はボイスアシスタントアプリケーション130を起動し、ボイスアシスタントアプリケーション130はユーザ110からの他のコマンドに応答して追加の機能を実行することができる。いくつかの実施形態では、モバイルデバイス120は、ユーザの音声入力からターゲットキーワードを検出する際に使用するための複数のターゲットキーワードを記憶し得る。ターゲットキーワードの各々は、モバイルデバイス120におけるターゲットキーワードに関連付けられたアプリケーションまたは機能を起動するように構成され得る。
[0031]図2は、本開示の一実施形態による、電子デバイス200における機能を起動するために入力音声ストリームにおいてターゲットキーワードを検出するように構成された電子デバイス200のブロック図を示す。本明細書で使用する「音声ストリーム」という用語は、1つまたは複数の音声信号または音声データのシーケンスを指す。さらに、「ターゲットキーワード」という用語は、電子デバイス200における機能またはアプリケーションを起動するために使用され得る、1つまたは複数の言葉または音声の任意のデジタルまたはアナログ表現を指す。電子デバイス200は、音声センサ210と、I/Oユニット220と、ストレージユニット230と、通信ユニット240と、プロセッサ250とを含む。電子デバイス200は、セルラーフォン、スマートフォン(たとえば、モバイルデバイス120)、パーソナルコンピュータ、ラップトップコンピュータ、タブレットパーソナルコンピュータ、スマートテレビジョン、ゲームデバイス、マルチメディアプレーヤなどの、音声キャプチャおよび処理機能を備えた任意の適切なデバイスであり得る。
[0032]プロセッサ250は、デジタル信号プロセッサ(DSP)252と、ボイスアシスタントユニット260とを含み、電子デバイス200を管理し動作させるためのアプリケーションプロセッサまたは中央処理装置(CPU)であり得る。DSP252は、スピーチ検出器254と、ボイスアクティベーションユニット256とを含む。一実施形態では、DSP252は、音声ストリームを処理する際の電力消費を低減するための低電力プロセッサである。この構成では、DSP252中のボイスアクティベーションユニット256は、入力音声ストリームにおいてターゲットキーワードが検出されたときにボイスアシスタントユニット260を起動するように構成される。図示の実施形態ではボイスアクティベーションユニット256がボイスアシスタントユニット260を起動するように構成されるが、ボイスアクティベーションユニット256はターゲットキーワードに関連付けられ得る任意の機能またはアプリケーションも起動し得る。
[0033]音声センサ210は、入力音声ストリームを受け取り、入力音声ストリームをDSP252中のスピーチ検出器254に与えるように構成され得る。音声センサ210は、1つまたは複数のマイクロフォンあるいは電子デバイス200への音声入力を受け取る、キャプチャする、感知する、および/または検出するために使用され得る任意の他のタイプの音声センサを含み得る。加えて、音声センサ210は、そのような機能を実行するための任意の適切なソフトウェアおよび/またはハードウェアを利用し得る。
[0034]一実施形態では、音声センサ210は、デューティサイクルに従って入力音声ストリームを周期的に受け取るように構成され得る。この場合、音声センサ210は、入力音声ストリームの受け取られた部分がしきい値音声強度を超えるかどうかを決定し得る。音声ストリームの受け取られた部分がしきい値強度を超えるとき、音声センサ210はスピーチ検出器254を起動し、受け取られた部分をDSP252中のスピーチ検出器254に与える。代替的に、受け取られた部分がしきい値音声強度を超えるかどうかを決定することなしに、音声センサ210は、入力音声ストリームの一部分を周期的に受け取り、受け取られた部分をスピーチ検出器254に与えるためにスピーチ検出器254を起動し得る。
[0035]ターゲットキーワードを検出する際に使用するために、ストレージユニット230は、ターゲットキーワードと、ターゲットキーワードの複数の部分に関連付けられた複数の状態についての状態情報とを記憶する。一実施形態では、ターゲットキーワードは、単音(phones)、音素(phonemes)などの音声の複数の基本単位、またはそれらの副次的単位に分割され得、ターゲットキーワードを表す複数の部分は、音声の基本単位に基づいて生成され得る。次いで、ターゲットキーワードの各部分は、隠れマルコフモデル(hidden Markov model)(「HMM」)、半マルコフモデル(semi-Markov model)(「SMM」)、またはそれらの組合せなどのマルコフ連鎖モデルの下での状態に関連付けられる。状態情報は、ターゲットキーワードに関連付けられた状態の中からの所定の数のエントリ状態と、これらの状態の各々からそれ自体を含む次の状態への遷移情報とを含み得る。ストレージユニット230は、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、EEPROM(登録商標)(電気的消去可能プログラマブル読取り専用メモリ)、フラッシュメモリ、またはSSD(ソリッドステートドライブ)などの任意の適切なストレージまたはメモリデバイスを使用して実装され得る。
[0036]DSP252中のスピーチ検出器254は、起動されると、音声センサ210から入力音声ストリームの部分を受け取る。一実施形態では、スピーチ検出器254は、受け取られた部分から複数の音声特徴を抽出し、ガウス混合モデル(Gaussian mixture model)(GMM)ベースの分類器、ニューラルネットワーク、HMM、グラフィカルモデル、およびサポートベクターマシン(Support Vector Machine)(SVM)技法などの任意の適切な音声分類方法を使用することによって、抽出された音声特徴がスピーチなどの対象となる音声を示すかどうかを決定する。受け取られた部分が対象となる音声であると決定された場合、スピーチ検出器254はボイスアクティベーションユニット256を起動し、入力音声ストリームの受け取られた部分と残りの部分とはボイスアクティベーションユニット256に与えられる。いくつかの他の実施形態では、スピーチ検出器254はDSP252中で省略され得る。この場合、受け取られた部分がしきい値強度を超えると、音声センサ210はボイスアクティベーションユニット256を起動し、入力音声ストリームの受け取られた部分と残りの部分とを直接ボイスアクティベーションユニット256に与える。
[0037]ボイスアクティベーションユニット256は、起動されると、入力音声ストリームを継続的に受け取り、入力音声ストリームからターゲットキーワードを検出するように構成される。入力音声ストリームが受け取られると、ボイスアクティベーションユニット256は入力音声ストリームから複数の音声特徴を連続的に抽出し得る。加えて、ボイスアクティベーションユニット256は、複数の状態と、所定の数のエントリ状態と、ターゲットキーワードの遷移情報とを含む状態情報をストレージユニット230から取得し得る。各音声特徴について、GMM、ニューラルネットワーク、およびSVMなどの任意の適切な確率モデルを使用することによって、状態の各々に対して観測スコアが決定され得る。
[0038]遷移情報から、ボイスアクティベーションユニット256は、ターゲットキーワードについて考えられる複数の状態シーケンスにおける状態の各々から次の状態への遷移スコアを取得し得る。遷移情報は、ターゲットキーワードの音声の基本単位に関連付けられた複数のエントリ状態に基づいてボイスアクティベーションユニット256が入力音声ストリームにおいてターゲットキーワードを検出することを可能にするための、所定の数のエントリ状態についての遷移スコアも含み得る。そのような複数のエントリ状態をターゲットキーワードに与えることによって、ボイスアクティベーションユニット256は、ターゲットキーワードの先頭の後に始まる入力音声ストリームを処理することによって、ターゲットキーワードを検出し得る。
[0039]観測スコアを決定し、遷移スコアを取得した後、ボイスアクティベーションユニット256は、考えられる状態シーケンスについてのキーワードスコアを決定する。一実施形態では、決定されたキーワードスコアの中で最も大きいキーワードスコアが所定のしきい値スコアを超える場合、ボイスアクティベーションユニット256は入力音声ストリームをターゲットキーワードとして検出する。ターゲットキーワードを検出すると、ボイスアクティベーションユニット256は、ボイスアシスタントユニット260をオンにするためのアクティベーション信号を生成および送信し、ボイスアシスタントユニット260はターゲットキーワードに関連付けられる。
[0040]ボイスアシスタントユニット260は、ボイスアクティベーションユニット256からのアクティベーション信号に応答して起動される。起動されると、ボイスアシスタントユニット260は、タッチスクリーン上でおよび/またはI/Oユニット220のスピーカーを通じて「MAY I HELP YOU?」などのメッセージを出力することによって、ボイスアシスタント機能を実行し得る。それに応答して、ユーザは電子デバイス200の様々な関連機能を起動するためにボイスコマンドを話してもよい。たとえば、インターネット検索のためのボイスコマンドが受け取られると、ボイスアシスタントユニット260はボイスコマンドを検索コマンドとして認識し、ネットワーク270を通じて通信ユニット240を介してウェブ検索を実行し得る。
[0041]図3は、本開示の一実施形態による、ボイスアクティベーションユニット256を起動し、入力音声ストリームをボイスアクティベーションユニット256に継続的に与えるように構成された音声センサ210およびスピーチ検出器254のブロック図を示す。音声センサ210は、マイクロフォン310と、音声検出器320とを含む。一実施形態では、マイクロフォン310および音声検出器320は、デューティサイクルに基づいて入力音声ストリームを周期的に受け取るように構成される。たとえば、マイクロフォン310および音声検出器320は、時間の10%(たとえば、200ms期間中の20ms)で入力音声ストリームを受け取るように、10%デューティサイクルで動作してもよい。図示したように、マイクロフォン310は、デューティサイクルの各アクティブ状態の間に入力音声ストリームを受け取り、入力音声ストリームの受け取られた部分を音声検出器320に与えるように構成され得る。このプロセスでは、マイクロフォン310はまた、受け取られた音声ストリームをデジタル形式に変換し得る。
[0042]音声検出器320は、入力音声ストリームの受け取られた部分の信号特性を解析し、受け取られた部分がしきい値音声強度を超えるかどうかを決定し得る。たとえば、音声検出器320は、受け取られた部分の音声強度を決定するために、受け取られた部分の音声エネルギー値または振幅値を解析し得る。受け取られた部分がしきい値音声強度を超える音声であると決定された場合、音声検出器320はアクティベーション信号と受け取られた部分とをスピーチ検出器254に与え得る。
[0043]スピーチ検出器254は、起動されると、音声検出器320から入力音声ストリームの部分を受け取る。次いで、スピーチ検出器254は、MFCC(メル周波数ケプストラム係数(Mel-frequency cepstral coefficients))法、LPC(線形予測符号(linear predictive coding))法、またはLSP(線スペクトル対(line spectral pair))法などの任意の適切な信号処理方式を使用することによって、受け取られた部分から1つまたは複数の音声特徴を抽出し得る。抽出された音声特徴を使用して、スピーチ検出器254は、受け取られた部分がスピーチを含むかどうかを決定するために、入力音声ストリームの受け取られた部分を分類する。
[0044]図示の実施形態では、入力音声ストリームの受け取られた部分がしきい値音声強度を超え、スピーチを含むと決定された場合、デューティサイクル機能は、(たとえば、フルデューティサイクルまたは100%デューティサイクルを使用して)入力音声ストリームの残りの部分をボイスアクティベーションユニット256に継続的に与えるために無効にされ得る。一実施形態によれば、受け取られた部分がしきい値音声強度を超えると音声検出器320が決定した場合、マイクロフォン310および音声検出器320が、入力音声ストリームの残りの部分を受け取り、スピーチ検出器254に送信するために、アクティブ状態で動作し続け得るように、音声検出器320は音声センサ210のデューティサイクル機能を無効にする。デューティサイクルのアクティブ状態の間に受け取られた冒頭の部分(initial portion)がスピーチを含むとスピーチ検出器254が決定した場合、スピーチ検出器254は、入力音声ストリームの冒頭の部分と残りの部分とをボイスアクティベーションユニット256に与える。一方、冒頭の部分がスピーチを含まないとスピーチ検出器254が決定した場合、スピーチ検出器254はアクティベーション信号を生成し、アクティベーション信号は、マイクロフォン310および音声検出器320のデューティサイクル機能を起動するために音声センサ210に与えられる。
[0045]別の実施形態では、受け取られた部分がしきい値音声強度を超えると音声検出器320が決定した場合、音声検出器320はスピーチ検出器254を起動し、受け取られた部分をスピーチ検出器254に与える。受け取られた部分がスピーチを含むとスピーチ検出器254が決定した場合、スピーチ検出器254はマイクロフォン310と音声検出器320とにデューティサイクル機能のデアクティベーション信号を与える。デアクティベーション信号を受け取ると、マイクロフォン310および音声検出器320は、入力音声ストリームの残りの部分を受け取り、スピーチ検出器254に送信するために、アクティブ状態で動作し続け得、その結果、スピーチ検出器254はその部分をボイスアクティベーションユニット256に与える。一方、デューティサイクルのアクティブ状態の間に受け取られた冒頭の部分がスピーチを含まないとスピーチ検出器254が決定した場合、スピーチ検出器254は、マイクロフォン310および音声検出器320がデューティサイクル機能に従って動作するように、アクティベーション信号をマイクロフォン310と音声検出器320とに与えない。
[0046]図4は、本開示の一実施形態による、最初はデューティサイクルに基づいて受け取られ、デューティサイクルのアクティブ状態の間に受け取られた一部分が十分な強度の対象となる音声を含むと決定されると、継続的に受け取られる入力音声ストリームの図を示す。図示のように、入力音声ストリームの複数の部分410、420、および430が、デューティサイクルに基づいて周期的に受け取られる。部分410および420は、十分な強度のまたは対象となる音声(たとえば、スピーチ)を含まない。一方、部分430は、しきい値音声強度を超えるとともにスピーチを含む音声を含む。したがって、入力音声ストリームの部分430と残りの部分440とは、継続的に受け取られ、ターゲットキーワードを検出するためのボイスアクティベーションユニット256に与えられる。
[0047]示される図では、ある部分(たとえば、部分410)の開始と次の部分(たとえば、部分420)の開始との間の期間は、デューティサイクル期間T1を表す。期間T2は、デューティサイクルがアクティブ状態である持続時間を表す。デューティサイクルの非アクティブ状態はT1−T2によって示され、その時間期間の間、入力音声ストリームは受け取られない。デューティサイクルに従って入力音声ストリームを受け取ることにより、ターゲットキーワードを検出するためのボイスアクティベーションユニット256に与えられる入力音声ストリームの冒頭の部分430は、ターゲットキーワードの先頭部分に続くターゲットキーワードの一部分に対応し得る。
[0048]図5は、本開示の一実施形態による、入力音声を受け取り、入力音声においてターゲットキーワードを検出するように構成されたボイスアクティベーションユニット256のより詳細なブロック図を示す。ボイスアクティベーションユニット256は、セグメント化ユニット510と、特徴抽出器520と、スコア決定ユニット530と、キーワード検出ユニット540とを含む。スコア決定ユニット530は、観測スコア決定ユニット550と、最大キーワードスコア決定ユニット560とを含む。
[0049]セグメント化ユニット510は、スピーチ検出器254から入力音声を受け取り、受け取られた入力音声を等しい時間期間の複数の連続したフレームにセグメント化する。特徴抽出器520は、セグメント化ユニット510からフレームを連続的に受け取り、フレームの各々から音声特徴を抽出する。一実施形態では、特徴抽出器520は、MFCC法などの任意の適切な特徴抽出方法を使用して、フレームから音声特徴を抽出し得る。たとえば、MFCC法の場合、N次元ベクトル中の成分はセグメント化されたフレームの各々から計算され、ベクトルは音声特徴として使用される。
[0050]スコア決定ユニット530において、観測スコア決定ユニット550は、音声特徴を連続的に受け取り、ストレージユニット230からターゲットキーワードの状態情報を受け取る。一実施形態によれば、ターゲットキーワードの状態情報は、ターゲットキーワードの複数の部分に関連付けられた複数の状態と、状態の各々に与えられるGMMなどの確率モデル(たとえば、確率関数)とを含み得る。上記で説明したように、ターゲットキーワードは音声の複数の基本単位に分割され得、ターゲットキーワードを表す複数の部分は、状態に対応する音声の基本単位に基づいて生成され得る。いくつかの実施形態では、ターゲットキーワードの状態は、ターゲットキーワードを表す複数の部分のうちのいずれにも関連付けられず、開始状態として使用され得る、非キーワード状態(たとえば、「フィラー」状態)も含み得る。たとえば、各々が単音などの音声の基本単位に対応する所定の数の状態を含むターゲットキーワードの場合、非キーワード状態は、ターゲットキーワードに含まれる基本単位以外の音声の基本単位を表し得る。
[0051]各音声特徴が受け取られると、観測スコア決定ユニット550は、音声特徴とストレージユニット230から受け取られた状態情報とに基づいて、ターゲットキーワードに関連付けられた状態の各々についての観測スコアを決定する。一実施形態では、状態の各々についての観測スコアは、関連する状態の確率モデルに従って確率値を計算することによって、受け取られた音声特徴について決定される。このようにして計算された確率値の各々は、関連する状態についての観測スコアとして使用され得る。状態についての高い観測スコアは、その状態に対して、音声特徴が音声の基本単位に対応する確率が高いことを示す。観測スコア決定ユニット550は、ターゲットキーワードについて、考えられる複数の状態シーケンスについてのキーワードスコアを決定するために、受け取られた音声特徴の各々についての観測スコアを最大キーワードスコア決定ユニット560に与える。
[0052]最大キーワードスコア決定ユニット560は、音声特徴の各々についての観測スコアを受け取り、ストレージユニット230から状態情報を取得する。この構成では、状態情報は、非キーワード状態(単一の非キーワード開始状態を含む)を含む、ターゲットキーワードの複数の状態と、複数の状態の中からの所定の数のエントリ状態と、状態の各々からそれ自体を含む次の状態への遷移情報とを含み得る。エントリ状態は、ターゲットキーワードの考えられる状態シーケンスの各々において非キーワード状態(または開始状態)が遷移し得る先の最初の状態を表す。
[0053]状態情報における遷移情報は、ターゲットキーワードの考えられる状態シーケンスの各々における、状態の各々から次の状態への遷移スコアを含む。遷移スコアは、考えられる状態シーケンスの各々における、状態の各々が次の状態に遷移する確率値を表し得る。遷移スコアは、非キーワード状態から所定の数のエントリ状態への遷移スコアも含む。
[0054]受け取られた観測スコアと遷移スコアとに基づいて、最大キーワードスコア決定ユニット560は、考えられる状態シーケンスの各々についてのキーワードスコアを計算する。この場合、非キーワード状態は入力音声が受け取られる前に割り当てられているので、状態シーケンスは非キーワード状態(すなわち、開始状態)から始まり得る。したがって、遷移スコアは、非キーワード状態からエントリ状態のいずれか1つへの遷移スコアを含み、状態シーケンスにおける非キーワード状態からそれ自体への遷移スコアも含む。各音声特徴についての観測スコアのセットが観測スコア決定ユニット550から受け取られると、最大キーワードスコア決定ユニット560は、上記で説明したような方法で、次の状態を各状態シーケンスに追加し、更新された状態シーケンスの各々についてのキーワードスコアを決定する。
[0055]状態シーケンスについてのキーワードスコアのセットが計算されると、最大キーワードスコア決定ユニット560は、キーワードスコアの中から最も大きいキーワードスコアを選択する。キーワードスコアは、ビタビアルゴリズムなどの任意の適切な方法を使用することによって、最も大きいキーワードスコアを決定するように計算され得る。最も大きいキーワードスコアを決定した後、最大キーワードスコア決定ユニット560は最も大きいキーワードスコアをキーワード検出ユニット540に与える。一実施形態では、最も大きいキーワードスコアは、最も大きいキーワードスコアを有する状態シーケンスの最後の状態がターゲットキーワードの音声の最後の基本単位(たとえば、最後の単音)に対応するときにのみ、キーワード検出ユニット540に与えられる。
[0056]最大キーワードスコア決定ユニット560から最も大きいキーワードスコアを受け取ると、キーワード検出ユニット540は、最も大きいキーワードスコアに基づいて、入力音声においてターゲットキーワードを検出する。たとえば、キーワード検出ユニット540は、ターゲットキーワードを検出するためのしきい値スコアをストレージユニット230から受け取り、最も大きいキーワードスコアが受け取られたしきい値スコアよりも大きい場合、ターゲットキーワードを検出し得る。この場合、しきい値スコアは、所望の信頼性レベル内でターゲットキーワードを検出するために最小キーワードスコアに設定され得る。
[0057]いくつかの実施形態では、最大キーワードスコア決定ユニット560は、非キーワード状態シーケンスについての非キーワードスコアを決定する。非キーワードスコアは、非キーワード状態シーケンスを含む、考えられる状態シーケンスについてのキーワードスコアから取得され、キーワード検出ユニット540に与えられ得る。キーワード検出ユニット540は、最も大きいキーワードスコアと非キーワードスコアとの間の差に基づいて信頼性値を決定し、入力音声においてターゲットキーワードを検出する。この場合、キーワード検出ユニット540は、ストレージユニット230からしきい値信頼性値を受け取り、信頼性値がしきい値信頼性値よりも大きい場合、ターゲットキーワードを検出し得る。ターゲットキーワードを検出する際に最も大きいキーワードスコアと非キーワードスコアとの間の差を使用することは、入力音声がキーワードスコアに影響を及ぼす可能性がある雑音などの周囲音を含むときは特に、検出精度を改善し得る。ターゲットキーワードが検出されると、キーワード検出ユニット540は、ボイスアシスタントユニット260をオンにするためのアクティベーション信号を生成し、これを与え、ボイスアシスタントユニット260はターゲットキーワードに関連付けられる。
[0058]図6は、本開示の一実施形態による、ボイスアシスタントユニット260を起動するために入力音声においてターゲットキーワードを検出するための、ボイスアクティベーションユニット256によって実行される方法600のフローチャートである。ターゲットキーワードは、冒頭の部分と、複数の後続(subsequent portions)の部分とを含み得る。最初に、610において、ボイスアクティベーションユニット256は、ターゲットキーワードの後続の部分のうちの1つから始まる入力音声を受け取る。受け取られた入力音声が複数のフレームにセグメント化された後、620において、ボイスアクティベーションユニット256は、MFCC法などの任意の適切な信号処理方式を使用することによって、複数のフレームから複数の音声特徴を抽出する。
[0059]次いで、630において、ボイスアクティベーションユニット256は、ストレージユニット230からターゲットキーワードの冒頭の部分と後続の部分とに関連付けられた状態情報を取得する。図2および図5に関して上記で説明したように、状態情報は、所定の数のエントリ状態と、確率モデルと、遷移情報とを含み得る。640において、抽出された音声特徴と状態情報とに基づいて、ボイスアクティベーションユニット256は、入力音声をターゲットキーワードとして検出する。ターゲットキーワードが検出されると、650において、ボイスアクティベーションユニット256は、ターゲットキーワードに関連付けられたボイスアシスタントユニット260を起動する。
[0060]図7は、一実施形態による、ターゲットキーワード(たとえば、「START ASSISTANT」)の複数の状態についての複数の音声特徴F1〜F5の各々について観測スコア決定ユニット550によって生成された観測スコアのセットの図700を示す。図700に示すターゲットキーワードの状態は「F」、「S」、「T」、「A」、「R」、「T」などを含み、ここで、状態「F」は非キーワード状態またはフィラー状態を示す。観測スコア決定ユニット550は、各フレームから抽出された音声特徴を連続的に受け取る。各音声特徴について、観測スコア決定ユニット550は、たとえば、図700の各状態および音声特徴の数字によって示されるように、GMMなどの確率モデルを使用することによって、状態の各々についての観測スコアを決定する。
[0061]図示の実施形態では、観測スコア決定ユニット550が、所定の時間間隔に連続的に受け取られた音声特徴F1、F2、F3、F4、およびF5の各々を受け取ると、状態についての観測スコアのセットが決定される。たとえば、音声特徴F1の場合、観測スコアのセット710は状態(すなわち、状態「F」、「S」、「T」、「A」、「R」、「T」など)について決定される。音声特徴F1についての観測スコアのセット710を決定した後、観測スコア決定ユニット550は、音声特徴F2〜F5についてそれぞれ、複数の観測スコアのセット720〜750を連続的に決定し得る。観測スコア決定ユニット550は、それぞれ音声特徴F1〜F5についての観測スコアのセット710〜750を、ターゲットキーワードを検出するための最大キーワードスコア決定ユニット560に連続的に与え得る。
[0062]図8は、一実施形態による、ターゲットキーワードの検出に使用するための複数のエントリ状態「S」、「T」、「A」、および「R」を含む、マルコフ連鎖モデルの下でのターゲットキーワードについて、考えられる複数の状態シーケンスを含む、状態ネットワークの図800を示す。一実施形態では、エントリ状態の数はあらかじめ決定され得る。図8の図示の実施形態では、図800のエントリ状態のセット810によって示されるように、所定の数のエントリ状態は4である。さらに、図800は、ターゲットキーワードについて、考えられる複数の状態シーケンスにおける現在の音声特徴(たとえば、音声特徴F1)に関連付けられた現在の状態の各々から次の音声特徴(たとえば、音声特徴F2)に関連付けられた複数の次の状態への遷移ラインを示す。
[0063]最初に、図800の音声特徴F0は、入力音声が受け取られていないことを示す。入力音声が受け取られると、音声特徴F1〜F5は受け取られた入力音声から連続的に抽出される。したがって、非キーワード状態「F」は音声特徴F0のみに割り当てられ、すべての状態シーケンスの単一の開始状態として働く。図800は、音声特徴F0の開始状態「F」から、次の音声特徴F1に関連付けられた、考えられる次の状態、すなわち、エントリ状態「S」、「T」、「A」、および「R」の各々への遷移ラインも示す。次いで、音声特徴F1において、考えられる状態シーケンスの各々について、音声特徴F1の状態の各々から次の音声特徴F2(すなわち、次の状態)の状態の各々への遷移ラインが示されている。図800に示すように、そのような遷移ラインは、ターゲットキーワードについてあらかじめ決定され、受け取られた入力音声の残りの音声特徴F2、F3、F4、およびF5の各々に同様の方法で適用され得る。
[0064]この構成では、各遷移ラインは遷移スコアに関連付けられる。状態のいくつかは、次の状態のいくつかへの遷移ラインを有しない場合がある。たとえば、ある音声特徴の状態「S」から次の音声特徴の状態「A」、「R」、および「T」への遷移ラインは与えられていない。一実施形態では、現在の状態から次の状態への遷移ラインがない場合、現在の状態から次の状態への状態シーケンスが生成されないことがある。別の実施形態では、ある状態から次の状態への遷移ラインが与えられない場合、遷移スコアは、そのような遷移スコアを含む状態シーケンスがターゲットキーワードを検出する際に使用するための最も大きいキーワードスコアを有さなくてもよいことを保証するために、大きい負の数(たとえば、−10)に設定され得る。
[0065]図800に基づいて、遷移ラインに関連付けられた、および遷移ラインに関連付けられない遷移スコアの例示的な表が次のように与えられ得る。
Figure 0006309615
表1に示すように、現在の状態(たとえば、状態「S」)から次の状態(たとえば、状態「A」)への遷移ラインがない場合、−10の関連する遷移スコアが割り当てられる。最初に、現在の状態「F」はエントリ状態「S」、「T」、「A」、および「R」への4つの遷移ラインを有するので、0.8、0.8、0.7、および0.9の遷移スコアが現在の状態「F」からエントリ状態「S」、「T」、「A」、および「R」への4つの遷移ラインに割り当てられる。複数のエントリ状態を与えることによって、ボイスアクティベーションユニット256がターゲットキーワードの先頭部分(すなわち、状態「S」)から始まらない入力音声を受け取った場合でも、ターゲットキーワードはそのような入力音声から検出され得る。
[0066]図9は、一実施形態による、各音声特徴に関連付けられた複数の状態の各々において終わる、各シーケンスについての最も大きいキーワードスコアを示す図900である。この図900では、ターゲットキーワード「START ASSISTANT」は、音声の基本単位の各々に関連付けられた状態を含む。説明を容易にするために、図900は音声の基本単位として単音(「S」、「T」、「A」、「R」、「T」など)を使用して示されている。
[0067]この実施形態では、各音声特徴に関連付けられた状態の各々において終わる、考えられる状態シーケンスについて決定されるキーワードスコアの中で、最も大きいキーワードスコアが決定される。次いで、そのような最も大きいキーワードスコアは、たとえば、候補キーワードスコアの中から最も大きいキーワードスコアを選択し、選択された最も大きいキーワードスコアをしきい値スコアと比較することによって、ターゲットキーワードを検出する際に候補キーワードスコアとして使用される。さらに、候補キーワードスコアは、各次の音声特徴に関連付けられた状態の各々において終わる、考えられる状態シーケンスについての最も大きいキーワードスコア(すなわち、次の候補キーワードスコア)を決定する際に使用され得る。候補キーワードスコアおよび選択された最も大きいキーワードスコアは、図6で与えられる観測スコアと表1で与えられる遷移スコアとに基づいてビタビアルゴリズムを使用することによって、決定され得る。
[0068]図900では、音声特徴F1の場合、図示した状態「F」、「S」、「T」、「A」、「R」、および「T」の各々は、音声特徴F0の開始状態「F」からの1つの、考えられる状態シーケンスを有し、状態についての最も大きいスコア(すなわち、候補スコア)はそれぞれ、1.0、1.6、1.7、0.8、1.0、および−9.9と決定される。候補キーワードスコアは、非キーワード状態「F」から音声特徴F1の状態の各々への遷移スコアと、音声特徴F1の関連する状態の観測スコアとを合計することによって決定され得る。たとえば、このようにして、エントリ状態のセット810に含まれる状態「T」の候補スコア1.7は、非キーワード状態「F」から状態「T」への遷移スコアと、状態「T」の観測スコアとを合計することによって決定される。図示の例では、音声特徴F1の時点での状態「T」を含むいかなる連続する状態シーケンスも、ターゲットキーワードを検出する際に使用するための最も大きいキーワードスコアを有することができないように、大きい負の数(たとえば、−10)が遷移スコアとして、エントリ状態のセット810に含まれない状態「T」に割り当てられる。
[0069]音声特徴F2の場合、最後の状態としての音声特徴F1の状態の各々を有する状態シーケンスについての候補キーワードスコアと、音声特徴F1の各状態から音声特徴F2の状態への遷移スコアと、音声特徴F2の状態の観測スコアとを合計することによって、候補キーワードスコアが各状態について決定される。音声特徴F2に関連付けられた状態の各々について、上記の合計の中で最も大きい合計が、最後の状態としての状態を有する、考えられる状態シーケンスについての候補キーワードスコアとして選択される。たとえば、最後の状態として音声フレームF2の状態「A」を有する、考えられる状態シーケンスについてのキーワードスコアは、表2において次のように与えられる。
Figure 0006309615
上記の表2では、上記の合計の中で最も大きいキーワードスコアの3.2が、音声特徴F2に関連付けられた状態「A」を有する、考えられる状態シーケンスについての候補キーワードスコアとして選択される。同様の方法で、その他の図示した状態、すなわち、「F」、「S」、「T」、「R」、「T」についての候補キーワードスコアは1.9、2.9、2.7、2.0、および1.8と決定され得る。次いで、図900に示すように、状態「A」についての候補キーワードスコアの3.2が、音声特徴F2の最も大きいキーワードスコアとして選択され得る。
[0070]残りの音声特徴F3、F4、およびF5の各々について、最後の状態として残りの音声特徴F3、F4、およびF5の各々に関連付けられた状態の各々を有する、考えられる状態シーケンスについての候補キーワードスコアのセットは、音声特徴F2と同様の方法で計算され得る。候補キーワードスコアの中で、音声特徴F3、F4、およびF5の各々についての最も大きいキーワードスコアも同様の方法で決定され得る。音声特徴F1〜F5の各々についての最も大きいキーワードスコアは、ターゲットキーワードを検出するために使用され得る。図9の図示の例では、矢印と太線の円とで示される、このようにして決定された最も大きいキーワードスコアの状態を含む状態シーケンスは、ターゲットキーワードの複数の連続した部分に対応し得る。
[0071]図10は、本開示の一実施形態による、入力音声においてターゲットキーワードを検出するための、ボイスアクティベーションユニット256によって実行される詳細な方法640のフローチャートである。最初に、1010において、観測スコア決定ユニット550は、入力音声の複数の音声特徴を受け取り、ターゲットキーワードに関連付けられた複数の状態の各々についての観測スコアを決定する。観測スコアは、最大キーワードスコア決定ユニット560に与えられる。1020において、最大キーワードスコア決定ユニット560は、所定の数のエントリ状態と、ターゲットキーワードについて、考えられる複数の状態シーケンスにおける状態の各々から次の状態への遷移スコアとを取得する。遷移スコアは、非キーワード状態からエントリ状態の各々への遷移スコアを含み得る。
[0072]1030において、最大キーワードスコア決定ユニット560は、観測スコアと遷移スコアとを使用することによって、考えられる状態シーケンスについてのキーワードスコアを決定する。このプロセスでは、図5および図9に関して上記で説明した方法で、決定されたキーワードスコアの中から最も大きいキーワードスコアが選択され、キーワード検出ユニット540に与えられ得る。次いで、1040において、受け取られた最も大きいキーワードスコアに基づいて、入力音声においてターゲットキーワードが検出される。
[0073]図11は、本開示の一実施形態による、ターゲットキーワードに対するエントリ状態の数を決定する際に使用するためのターゲットキーワード「START ACTIVATION」に対する基準状態シーケンス1102の図を示す。一実施形態では、エントリ状態の数の決定は、スコア決定ユニット530において実行され得る。図示のように、ターゲットキーワードに対する基準入力音声は、キーワードのすべての部分が受け取られるように、デューティサイクルを使用することなしに(すなわち、フルデューティサイクルに基づいて)時間期間T0にわたってキャプチャされる。基準入力音声は、時間期間T0にわたってユーザによって話された音声であり、等しい時間期間の複数の連続したフレームにセグメント化され得る。図示の実施形態では、複数のフレームは、ターゲットキーワードに対する基準状態シーケンス1102における状態に対応する。各フレームについて、音声特徴が抽出され、ストレージユニット230に記憶され得る。
[0074]一実施形態では、スコア決定ユニット530は、図5〜図9に関して上記で説明した方法で、抽出された音声特徴をストレージユニット230から受け取り、すべての考えられる状態シーケンスについての最も大きいキーワードスコアを決定する。この場合、単一のエントリ状態1104から始まる基準状態シーケンス1102全体が、最も大きいキーワードスコアの決定に使用され得る。基準状態シーケンス1102における状態および各状態の数は、基準状態シーケンス1102をバックトラックすることによって決定され得る。この実施形態では、基準状態シーケンス1102のエントリ状態の数は、T2/T1のデューティサイクルにおける非アクティブ状態T1−T2の間にターゲットキーワードのいくつかの部分が受け取られないことがある時間期間に基づいて、決定され得る。たとえば、ユーザによって話された入力音声がデューティサイクルに従って受け取られるとき、非アクティブ状態に対応するターゲットキーワードの複数の部分に関連付けられた複数の状態1110(すなわち、「S」、「T」、「A」、「A」、および「R」)が受け取られないことがある。
[0075]図11に示すように、状態「A」は、ユーザのスピーチ特性(たとえば、スピーチの速度)により、状態1110において2回現れることがある。デューティサイクルの冒頭の非アクティブ期間T1−T2に対応する状態1110は4つの冒頭の状態「S」、「T」、「A」、および「R」を含むので、入力音声がデューティサイクルに基づいて受け取られるとき、入力音声は最大で4つの冒頭の状態を含まないことがある。この例では、スピーチが非アクティブ状態内で始まり、デューティサイクルの次のアクティブ状態において受け取られるように始まるときでも、ユーザによって話されたスピーチにおいてターゲットキーワードが検出され得るように、エントリ状態の数は5以上であると決定され得る。この場合、受け取られたスピーチの先頭部分は、エントリ状態のうちのいずれか1つから始まり得る。
[0076]一実施形態では、スコア決定ユニット530はターゲットキーワードに対する複数の基準入力音声を受け取り得、これらの基準入力音声の各々はフルデューティサイクルに基づいてキャプチャされる。基準入力音声の各々について、スコア決定ユニット530は、基準状態シーケンス1102に関して上記で説明したのと同様の方法で、基準状態シーケンスと、基準状態シーケンスにおける複数の状態に対する状態時間期間とを決定することによって、デューティサイクルにおける冒頭の非アクティブ期間に従ってエントリ状態を決定する。次いで、基準状態シーケンスにおけるエントリ状態の数は、入力音声からターゲットキーワードを検出する際に使用するためのエントリ状態を決定するために、平均され得る。
[0077]図12は、本開示の一実施形態による、ターゲットキーワードに対する複数の基準入力音声を処理することによってターゲットキーワードに対するエントリ状態の数を決定するための、ボイスアクティベーションユニット256によって実行される方法1200のフローチャートである。最初に、1210において、ボイスアクティベーションユニット256は、フルデューティサイクルに基づいてターゲットキーワードに対する基準入力音声を受け取る。1220において、ボイスアクティベーションユニット256は、ターゲットキーワードの冒頭の部分と複数の後続の部分とに関連付けられた状態情報を取得する。
[0078]1230において、基準入力音声に対する複数の基準状態シーケンスが状態情報に基づいて決定される。1240において、ボイスアクティベーションユニット256は、図11に関して詳細に説明したように、基準状態シーケンスをバックトラックすることによって、基準状態シーケンスにおける複数の状態に対する複数の状態時間期間を決定する。次いで、1250において、ボイスアクティベーションユニット256は、状態時間期間とデューティサイクルの非アクティブ期間とに基づいて、複数のエントリ状態を決定する。
[0079]ボイスアクティベーションユニット256は、入力音声においてターゲットキーワードを検出するために、入力音声を可変持続時間の部分にセグメント化するように構成され得る。いくつかの実施形態では、ターゲットキーワードに関連付けられた状態の各々に対するそのような持続時間の考えられる範囲は、あらかじめ決定され得る。各状態に関連付けられた各持続時間について、スコア(たとえば、確率値(probability value))は最も大きいキーワードスコアを決定するために割り当てられ得る。
[0080]図13は、本開示の別の実施形態による、入力音声を受け取り、SMMの下で持続時間の所定の範囲に基づいて、入力音声においてターゲットキーワードを検出するように構成されたボイスアクティベーションユニット256のブロック図を示す。ボイスアクティベーションユニット256は、可変セグメント化ユニット1310と、特徴抽出器1320と、スコア決定ユニット1330と、キーワード検出ユニット1340とを含む。スコア決定ユニット1330は、観測スコア決定ユニット1350と、最大キーワードスコア決定ユニット1360とを含む。
[0081]可変セグメント化ユニット1310は、音声センサ(たとえば、音声センサ210)から入力音声を受け取り、受け取られた入力音声を、複数の持続時間を有する複数のフレームにセグメント化する。たとえば、30ms持続時間の入力音声が受け取られた場合、入力音声は、入力音声の0msから10msに位置する10ms持続時間の第1のフレームにセグメント化され得る。同様の方法で、入力音声は、10から20msの10ms持続時間の第2のフレームと、20msから30msの10ms持続時間の第3のフレームと、0msから20msの20ms持続時間の第4のフレームと、10msから30msの20ms持続時間の第5のフレームとにセグメント化され得る。
[0082]可変セグメント化ユニット1310は、複数のセグメント化されたフレームを特徴抽出器1320に与え、入力音声フレームとしての入力音声全体(たとえば、上記の例の30ms持続時間)を特徴抽出器1320に与え得る。このプロセスでは、可変セグメント化ユニット1310はまた、特徴抽出器1320に、各フレームの持続時間とロケーションとについてのフレーム情報を与える。フレームとフレーム情報とを受け取ると、特徴抽出器1320は、任意の適切な特徴抽出方法を使用して、フレームの各々から音声特徴を抽出し、出力する。上記の例では、特徴抽出器1320は、合計で6つのフレームを受け取り、合計で6つの音声特徴をフレームから抽出する。
[0083]スコア決定ユニット1330は、抽出された音声特徴に基づいて、キーワード検出ユニット1340に与えられるべき最も大きいキーワードスコアを生成するように構成される。スコア決定ユニット1330中の観測スコア決定ユニット1350は、特徴抽出器1320から音声特徴とフレーム情報とを受け取る。観測スコア決定ユニット1350はまた、ストレージユニット230からターゲットキーワードの状態情報を受け取る。状態情報は、図5に関して上記で説明したように、ターゲットキーワードに関連付けられた複数の状態と、状態の各々の確率モデルとを含む。
[0084]この実施形態では、状態情報は、状態の各々についてあらかじめ決定された持続時間の範囲についての持続時間情報をさらに含む。各状態に対する持続時間の所定の範囲は、状態に対する、考えられる時間範囲に設定され得る。たとえば、あるユーザは比較的短い持続時間で状態「S」に対応する音声を話すことがあるが、別のユーザはその音声を話すのにより長くかかることがある。したがって、状態に対する持続時間の所定の範囲は、ユーザが通常、状態に関連付けられた音声を話すのにかかり得る持続時間の範囲を含むように設定され得る。
[0085]指定された持続時間に関連付けられた各受け取られた音声特徴について、観測スコア決定ユニット1350は、受け取られた状態情報に基づいて状態の各々についての観測スコアを決定するかどうかについて決定し得る。一実施形態では、観測スコア決定ユニット1350は、持続時間を含むフレーム情報に基づいて、持続時間が各状態に対する持続時間の所定の範囲内にないかどうかを決定する。持続時間が持続時間の所定の範囲内にないと決定された場合、観測スコア決定ユニット1350は観測スコアを決定しないと決定する。さもなければ、観測スコア決定ユニット1350は観測スコアを決定することに進む。
[0086]観測スコアを決定する際、状態の各々の確率値は、関連する状態の確率モデルに従って計算され得る。計算された確率値は、関連する状態についての観測スコアとして使用され得る。次いで、観測スコア決定ユニット1350は、各音声特徴についての決定された観測スコアを、ターゲットキーワードについて、考えられる複数の状態シーケンスについてのキーワードスコアを決定するための最大キーワードスコア決定ユニット1360に与える。
[0087]次いで、最大キーワードスコア決定ユニット1360は、音声特徴の各々についての観測スコアと、それぞれ音声特徴に関連付けられた、フレームの持続時間とロケーションとを含むフレーム情報とを受け取る。加えて、最大キーワードスコア決定ユニット1360は、(図5に関して上記で説明したように)遷移スコアを含む状態情報と、持続時間の所定の範囲を含む持続時間情報とを受け取る。一実施形態では、遷移スコアは、非キーワード状態から単一のエントリ状態への遷移スコアを含む。代替的に、遷移スコアは、非キーワード状態から複数のエントリ状態の各々への遷移スコアを含み得る。
[0088]持続時間情報は、状態の各々について、持続時間の各々について決定された持続時間スコアをさらに含む。各状態についての所定の持続時間スコアは、それぞれ、状態が持続時間に入る確率値に関連して設定され得る。フレーム情報と持続時間の所定の範囲とに基づいた、受け取られた観測スコアと、遷移スコアと、持続時間スコアとを使用した計算により、最大キーワードスコア決定ユニット1360は、考えられる状態シーケンスについてのキーワードスコアを決定する。決定されたキーワードスコアの中で、最大キーワードスコア決定ユニット1360は、ターゲットキーワードを検出する際に使用するための最も大きいキーワードスコアを決定する。
[0089]最大キーワードスコア決定ユニット1360は、持続時間が制限された半マルコフモデル方式に従ってキーワードスコアを決定し得る。たとえば、考えられる状態シーケンスのうちの1つがある状態を含み、その持続時間がその状態に対する持続時間の所定の範囲内にない場合、最大キーワードスコア決定ユニット1360は、その状態シーケンスについてのキーワードスコアを決定しないことがある一方で、そのような状態を含まない他の状態シーケンスについてのキーワードスコアを決定することがある。この例では、最大キーワードスコア決定ユニット1360は、ビタビアルゴリズムなどの任意の適切な方法を使用することによって、決定されたキーワードスコアの中から最も大きいキーワードスコアを次のように選択し得る。
Figure 0006309615
ここで、tは現在の入力音声のフレームサイズを示し、sは現在の状態を表し、V(t,s)は時間フレーム1〜tのうちの1つから始まる最後の状態としての状態sを有するすべての考えられる状態シーケンスについての最も大きいキーワードスコアを示し、dは状態sの持続時間を表し、dmin(s)は状態sに対する持続時間の所定の範囲の中で状態sの最も小さい持続時間を表し、dmax(s)は状態sに対する持続時間の所定の範囲の中で状態sの最も大きい持続時間を表し、s’は状態sの前の状態を表し、T(s,s’)は前の状態s’から現在の状態sへの遷移スコアを示し、O(t,d,s)は状態sについてのフレームt−d+1からフレームtの時間フレームについての観測スコアを表し、D(d,s)は状態sの持続時間がdであるときのsについての持続時間スコアを示す。
[0090]SMM方式の下での式1に示すように、ターゲットキーワードについての最も大きいキーワードスコアは、各状態に対する持続時間の制限された範囲に基づいて計算される。そのような持続時間の制限された範囲を使用することによって、最大キーワードスコア決定ユニット1360は比較的低い計算複雑性で実装され得る。さらに、持続時間の制限された範囲は、ユーザの異なる発声速度(speaking speeds)を考慮してあらかじめ決定されるので、キーワード検出性能は大幅に劣化しない。
[0091]最も大きいキーワードスコアを決定した後、最大キーワードスコア決定ユニット1360は最も大きいキーワードスコアをキーワード検出ユニット1340に与える。最大キーワードスコア決定ユニット1360から最も大きいキーワードスコアを受け取ると、キーワード検出ユニット1340は、最も大きいキーワードスコアに基づいて、入力音声においてターゲットキーワードを検出する。たとえば、キーワード検出ユニット1340は、図5に関して上記で説明したように、ストレージユニット230からターゲットキーワードを検出するためのしきい値スコアを使用し得る。ターゲットキーワードを検出すると、キーワード検出ユニット1340は、機能またはアプリケーションをオンにするためのアクティベーション信号(「ON信号」)を生成し、これを与え、機能またはアプリケーションはターゲットキーワードに関連付けられる。
[0092]一実施形態では、状態の各々に対する持続時間の範囲を決定するために、スコア決定ユニット1330は、ターゲットキーワードに対する複数の基準入力音声を受け取り得る。基準入力音声の各々について、図11および図12に関して上記で説明したのと同様の方法で、スコア決定ユニット1330は基準状態シーケンスを決定し、基準状態シーケンスをバックトラックすることによって、基準状態シーケンスにおける状態の各々に関連付けられた持続時間も決定する。したがって、スコア決定ユニット1330は、基準状態シーケンスからの状態に対する決定された持続時間に基づいて(たとえば、決定された持続時間を平均することによって)、各状態に対する持続時間の範囲を決定し得る。次いで、このようにして決定された持続時間の範囲は、ストレージユニット230に記憶され得る。
[0093]図14は、一実施形態による、ターゲットキーワードに関連付けられた複数の状態「S」、「T」、「A」、「R」、「T」などの各々に対する持続時間の範囲に基づいて生成された、マルコフ連鎖モデルの下でのターゲットキーワードに対する複数の状態シーケンスのブロック図1400を示す。状態の各々に対する持続時間の範囲は、図13に関して上記で説明した方法で制限されるようにあらかじめ決定され得る。説明を簡単にするために、図1400の時点(たとえば、「T1」)と次の時点(たとえば、「T2」)との間の期間は10msであり、セグメント化された音声特徴は10×Nmsの持続時間を有し、ここでNは正整数であり、セグメント化された音声特徴の持続時間は入力音声の時間期間以下であると仮定され得る。
[0094]図示の実施形態では、前の状態から現在の状態への遷移ラインの横断時間(traverse times)は、状態の各々に対する所定の範囲における持続時間を示し得る。たとえば、時間T4および時間T5における状態「A」の場合、時間T2における前の状態「T」から時間T4および時間T5における現在の状態「A」への遷移ラインはそれぞれ、20msおよび30msで横断される。この場合、状態「A」の持続時間の所定の範囲は、状態シーケンスにおいて20msから30msである。したがって、状態「A」の場合、20msまたは30msのセグメント化された特徴についてのみ、観測スコアが決定され得、持続時間スコアがあらかじめ決定され得る。次いで、観測スコアおよびあらかじめ決定された持続時間スコアは、ターゲットキーワードを検出するためにキーワードスコアを決定し、次いでキーワードスコアの中から最も大きいキーワードスコアを決定するために使用され得る。したがって、ターゲットキーワードを検出する際に使用するためのキーワードスコアは、持続時間の制限された範囲に基づいて計算されるので、ターゲットキーワードを検出するための計算時間は、SMM方式の下で大幅に低減され得る。
[0095]図15は、一実施形態による、SMMの下で持続時間の所定の範囲に基づいて入力音声においてターゲットキーワードを検出するための、スコア決定ユニット1330によって実行される方法1500のフローチャートである。最初に、1510において、スコア決定ユニット1330は、可変時間フレームから抽出された音声特徴と、各フレームの持続時間とロケーションとについてのフレーム情報を受け取る。1520において、スコア決定ユニット1330は、複数の状態と各状態の確率モデルとについての状態情報と、ターゲットキーワードについて、考えられる複数の状態シーケンスにおける状態の各々から次の状態への遷移情報と、持続時間の所定の範囲と持続時間の各々について決定された持続時間スコアとについての持続時間情報とを受け取る。
[0096]音声特徴の各々について、1530において、スコア決定ユニット1330は、各状態の確率モデルに基づいて、状態の各々の観測スコアを決定する。1540において、遷移情報に基づいて、スコア決定ユニット1330は、考えられる状態シーケンスにおける状態の各々から次の状態への遷移スコアを取得する。1550において、スコア決定ユニット1330は、持続時間の所定の範囲と、持続時間の各々について決定された持続時間スコアとを持続時間情報から取得する。1560において、フレーム情報と持続時間の所定の範囲とに基づいた、受け取られた観測スコアと、遷移スコアと、持続時間スコアとを使用した計算により、スコア決定ユニット1330は、考えられる状態シーケンスについてのキーワードスコアを決定し、決定されたキーワードスコアの中から最も大きいキーワードスコアを選択する。
[0097]図16は、いくつかの実施形態による、機能を起動するために入力音声からターゲットキーワードを検出するための本開示の方法および装置が実装され得る、ワイヤレス通信システムにおけるモバイルデバイス1600のブロック図を示す。モバイルデバイス1600は、セルラーフォン、端末、ハンドセット、携帯情報端末(PDA)、ワイヤレスモデム、コードレスフォン、タブレットなどであり得る。ワイヤレス通信システムは、符号分割多元接続(CDMA)システム、モバイル通信用グローバルシステム(GSM(登録商標))システム、広帯域CDMA(W−CDMA(登録商標))システム、ロングタームエボリューション(LTE)システム、LTE Advancedシステムなどであり得る。
[0098]モバイルデバイス1600は、受信経路および送信経路を介して双方向通信を行うことが可能であり得る。受信経路上で、基地局によって送信された信号は、アンテナ1612によって受信され、受信機(RCVR)1614に与えられる。受信機1614は、受信信号を調整し、デジタル化し、さらなる処理のために調整およびデジタル化された信号をデジタルセクション1620に与える。送信経路上で、送信機(TMTR)は、デジタルセクション1620から送信されるべきデータを受信し、データを処理し、調整し、変調信号を生成し、変調信号はアンテナ1612を介して基地局に送信される。受信機1614および送信機1616は、CDMA、GSM、W−CDMA、LTE、LTE Advancedなどをサポートするトランシーバの一部である。
[0099]デジタルセクション1620は、たとえば、モデムプロセッサ1622、縮小命令セットコンピュータ/デジタル信号プロセッサ(RISC/DSP)1624、コントローラ/プロセッサ1626、内部メモリ1628、一般化オーディオエンコーダ1632、一般化オーディオデコーダ1634、グラフィックス/ディスプレイプロセッサ1636、および/または外部バスインターフェース(EBI)1638など、様々な処理、インターフェース、およびメモリユニットを含む。モデムプロセッサ1622は、データ送信および受信のための処理、たとえば、符号化、変調、復調、および復号を実行する。RISC/DSP1624は、モバイルデバイス1600のための一般的処理と特殊処理とを実行する。コントローラ/プロセッサ1626は、デジタルセクション1620内の様々な処理およびインターフェースユニットの動作を制御する。内部メモリ1628は、デジタルセクション1620内の様々なユニットのためのデータおよび/または命令を記憶する。
[00100]一般化オーディオエンコーダ1632は、オーディオソース1642、マイクロフォン1643などからの入力信号に対して符号化を実行する。一般化オーディオデコーダ1634は、コード化オーディオデータに対して復号を実行し、出力信号をスピーカー/ヘッドセット1644に与える。一般化オーディオエンコーダ1632および一般化オーディオデコーダ1634は、必ずしも、オーディオソース、マイクロフォン1643およびスピーカー/ヘッドセット1644とのインターフェースのために必要とされるとは限らず、したがって、モバイルデバイス1600に示されていないことに留意されたい。グラフィックス/ディスプレイプロセッサ1636は、ディスプレイユニット1646に提示されるグラフィックス、ビデオ、画像、およびテキストのための処理を実行する。EBI1638は、デジタルセクション1620とメインメモリ1648との間のデータの転送を可能にする。
[00101]デジタルセクション1620は、1つまたは複数のプロセッサ、DSP、マイクロプロセッサ、RISCなどを用いて実装される。デジタルセクション1620はまた、1つまたは複数の特定用途向け集積回路(ASIC)および/または何らかの他のタイプの集積回路(IC)上に作製される。
[00102]一般に、本明細書で説明する任意のデバイスは、ワイヤレスフォン、セルラーフォン、ラップトップコンピュータ、ワイヤレスマルチメディアデバイス、ワイヤレス通信パーソナルコンピュータ(PC)カード、PDA、外部または内部モデム、ワイヤレスチャネルを介して通信するデバイスなど、様々なタイプのデバイスを示す。デバイスは、アクセス端末(AT)、アクセスユニット、加入者ユニット、移動局、クライアントデバイス、モバイルユニット、モバイルフォン、モバイル、リモート局、リモート端末、リモートユニット、ユーザデバイス、ユーザ機器、ハンドヘルドデバイスなど、様々な名前を有し得る。本明細書で説明する任意のデバイスは、命令とデータとを記憶するためのメモリ、ならびにハードウェア、ソフトウェア、ファームウェア、またはそれらの組合せを有し得る。
以下に本願の出願当初の特許請求の範囲に記載された発明を付記する。
[C1]
ターゲットキーワードを検出するための方法であって、前記ターゲットキーワードが、冒頭の部分と複数の後続の部分とを含み、前記方法が、
電子デバイスにおいて、前記ターゲットキーワードの前記後続の部分のうちの1つから始まる入力音声を受け取ることと、
前記入力音声から音声特徴を抽出することと、
状態ネットワークを記述しているデータを取得することと、ここにおいて、前記状態ネットワークは、単一の開始状態と、複数のエントリ状態と、前記単一の開始状態から前記複数のエントリ状態の各々への遷移とを含む、
前記抽出された音声特徴と前記状態ネットワークとに基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することとを備える、方法。
[C2]
前記入力音声を受け取ることが、前記電子デバイスに関連付けられたデューティサイクルに基づいて入力音声ストリームを受け取ることを備える、C1に記載の方法。
[C3]
前記エントリ状態に対応するデータが、
前記電子デバイスのフルデューティサイクルに基づいて、前記ターゲットキーワードの前記冒頭の部分と前記複数の後続の部分とに対応する基準入力音声を受け取ることと、
前記基準入力音声に対する複数の基準状態シーケンスを決定することと、
前記基準状態シーケンスにおける複数の状態に対する状態時間期間を決定することと、
前記状態時間期間と前記フルデューティサイクルの非アクティブ期間とに基づいて、前記エントリ状態を決定することとによって前記電子デバイスに記憶される、C2に記載の方法。
[C4]
前記基準状態シーケンスにおける前記複数の状態に対する前記状態時間期間が、前記基準状態シーケンスをバックトラックすることによって決定される、C3に記載の方法。
[C5]
前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが、複数のキーワードスコアを決定することを備え、各キーワードスコアが、前記単一の開始状態から前記複数のエントリ状態のうちの1つへの遷移を含むそれぞれの状態シーケンスに対応する、C1に記載の方法。
[C6]
前記状態ネットワークが、複数の状態シーケンスを含み、複数の状態を含む各状態シーケンスが、前記単一の開始状態と、前記複数のエントリ状態のうちの1つと、1つまたは複数の後続の状態とを備える、C5に記載の方法。
[C7]
前記複数の状態シーケンスの各状態シーケンスが、隠れマルコフモデルと、前記状態シーケンスの前記状態についての遷移情報とに関連付けられる、C6に記載の方法。
[C8]
前記キーワードスコアを決定することが、
前記状態ネットワークに基づいて、前記抽出された音声特徴の各々についての前記状態の各々の観測スコアを決定することと、
前記状態ネットワークの遷移情報に基づいて、前記状態シーケンスの各々における前記状態の各々から次の状態への遷移スコアを取得することとを備え、
前記キーワードスコアが、前記観測スコアと前記遷移スコアとに基づいて決定される、C6に記載の方法。
[C9]
前記複数のキーワードスコアの中の最も大きいキーワードスコアが、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するために使用される、C5に記載の方法。
[C10]
前記最も大きいキーワードスコアがしきい値スコアよりも大きい場合、前記入力音声が前記ターゲットキーワードに対応すると決定される、C9に記載の方法。
[C11]
前記状態ネットワークが非キーワード状態シーケンスを含み、前記複数のキーワードスコアを決定することが、前記非キーワード状態シーケンスについての非キーワードスコアを決定することを備える、C5に記載の方法。
[C12]
前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが、
前記複数のキーワードスコアの中から最も大きいキーワードスコアを選択することと、
前記最も大きいキーワードスコアと前記非キーワードスコアとの間の差に基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することとをさらに備える、C11に記載の方法。
[C13]
前記差に基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが、
前記差に基づいて、信頼性値を決定することと、
前記信頼性値がしきい値信頼性値よりも大きい場合、前記入力音声が前記ターゲットキーワードに対応すると決定することとを備える、C12に記載の方法。
[C14]
ターゲットキーワードを検出するための方法であって、前記ターゲットキーワードが複数の部分を含み、前記方法が、
電子デバイスにおいて入力音声を受け取ることと、
前記入力音声から音声特徴を抽出することと、
前記ターゲットキーワードの前記複数の部分に関連付けられた状態情報を取得することと、前記状態情報は、前記ターゲットキーワードの前記部分に関連付けられた複数の状態の各状態に対する持続時間範囲を含む、
前記抽出された音声特徴と前記状態情報とに基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することとを備える、方法。
[C15]
前記音声特徴を抽出することが、
前記入力音声をフレームにセグメント化することと、各フレームは持続時間を有する、
前記フレームから前記音声特徴を抽出することとを備える、C14に記載の方法。
[C16]
前記複数の状態が半マルコフモデルに関連付けられる、C14に記載の方法。
[C17]
前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが、
前記音声特徴の各々について、前記状態情報に基づいて、前記複数の状態の各状態の観測スコアを決定することと、
前記音声特徴の各々について、前記状態情報に基づいて、前記複数の状態の各状態の持続時間スコアを取得することと、
遷移情報に基づいて、複数の状態シーケンスの各状態シーケンスにおける特定の状態から次の状態への遷移スコアを取得することと、
前記観測スコアと、前記持続時間スコアと、前記遷移スコアとに基づいて、前記複数の状態シーケンスの各状態シーケンスについてのキーワードスコアを決定することとを備える、C16に記載の方法。
[C18]
特定の状態シーケンスについての前記キーワードスコアを決定することが、前記状態シーケンスにおける状態の持続時間が前記状態に対する前記持続時間範囲内にあるかどうかを決定することを備える、C17に記載の方法。
[C19]
各状態に対する前記持続時間範囲が、
前記ターゲットキーワードに対する基準入力音声を受け取ることと、
前記基準入力音声に対する基準状態シーケンスを決定することと、
前記基準状態シーケンスにおける状態に対する状態時間期間を決定することと、
前記状態時間期間に基づいて前記持続時間範囲を決定することとによって前記電子デバイスに記憶される、C14に記載の方法。
[C20]
冒頭の部分と複数の後続の部分とを含むターゲットキーワードを検出するための電子デバイスであって、
前記ターゲットキーワードの前記後続の部分のうちの1つから始まる入力音声を受け取るように構成された音声センサと、
前記入力音声から音声特徴を抽出し、状態ネットワークを記述しているデータを取得し、前記抽出された音声特徴と前記状態ネットワークとに基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するように構成されたボイスアクティベーションユニットとを備え、
前記状態ネットワークが、単一の開始状態と、複数のエントリ状態と、前記単一の開始状態から前記複数のエントリ状態の各々への遷移とを含む、電子デバイス。
[C21]
前記ボイスアクティベーションユニットが、複数のキーワードスコアを決定することによって、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するように構成され、各キーワードスコアが、前記単一の開始状態から前記複数のエントリ状態のうちの1つへの遷移を含むそれぞれの状態シーケンスに対応する、C20に記載の電子デバイス。
[C22]
前記状態ネットワークが、複数の状態シーケンスを含み、複数の状態を含む各状態シーケンスが、前記単一の開始状態と、前記複数のエントリ状態のうちの1つと、1つまたは複数の後続の状態とを備える、C21に記載の電子デバイス。
[C23]
前記ボイスアクティベーションユニットが、
前記状態ネットワークに基づいて、前記抽出された音声特徴の各々についての前記状態の各々の観測スコアを決定することと、
前記状態ネットワークの遷移情報に基づいて、前記状態シーケンスの各々における前記状態の各々から次の状態への遷移スコアを取得することとによって、前記キーワードスコアを決定するように構成され、
前記キーワードスコアが、前記観測スコアと前記遷移スコアとに基づいて決定される、C22に記載の電子デバイス。
[C24]
前記複数のキーワードスコアの中の最も大きいキーワードスコアが、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するために使用され、前記最も大きいキーワードスコアがしきい値スコアよりも大きい場合、前記入力音声が前記ターゲットキーワードに対応すると決定される、C21に記載の電子デバイス。
[C25]
前記状態ネットワークが非キーワード状態シーケンスを含み、前記複数のキーワードスコアを決定することが、前記非キーワード状態シーケンスについての非キーワードスコアを決定することを備える、C21に記載の電子デバイス。
[C26]
前記ボイスアクティベーションユニットが、
前記複数のキーワードスコアの中から最も大きいキーワードスコアを選択することと、
前記最も大きいキーワードスコアと前記非キーワードスコアとの間の差に基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することとによって、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するように構成される、C25に記載の電子デバイス。
[C27]
複数の部分を含むターゲットキーワードを検出するための電子デバイスであって、
入力音声を受け取るように構成された音声センサと、
前記入力音声から音声特徴を抽出することと、前記ターゲットキーワードの前記複数の部分に関連付けられた状態情報を取得することと、前記状態情報は、前記ターゲットキーワードの前記部分に関連付けられた複数の状態の各状態に対する持続時間範囲を含む、前記音声特徴と前記状態情報とに基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することとを行うように構成されたボイスアクティベーションユニットとを備える、電子デバイス。
[C28]
前記ボイスアクティベーションユニットが、
前記入力音声をフレームにセグメント化するように構成されたセグメント化ユニットと、各フレームは持続時間を有する、
前記フレームから前記音声特徴を抽出するように構成された特徴抽出器とを備える、C27に記載の電子デバイス。
[C29]
前記ボイスアクティベーションユニットが、
前記音声特徴の各々について、前記状態情報に基づいて、前記複数の状態の各状態の観測スコアを決定することと、
前記音声特徴の各々について、前記状態情報に基づいて、前記複数の状態の各状態の持続時間スコアを取得することと、
遷移情報に基づいて、複数の状態シーケンスの各状態シーケンスにおける特定の状態から次の状態への遷移スコアを取得することと、
前記観測スコアと、前記持続時間スコアと、前記遷移スコアとに基づいて、前記複数の状態シーケンスの各状態シーケンスについてのキーワードスコアを決定することとによって、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するように構成される、C27に記載の電子デバイス。
[C30]
前記ボイスアクティベーションユニットが、前記状態シーケンスにおける状態の持続時間が前記状態に対する前記持続時間範囲内にあるかどうかを決定することによって、特定の状態シーケンスについての前記キーワードスコアを決定するように構成される、C29に記載の電子デバイス。

Claims (15)

  1. ターゲットキーワードを検出するための方法であって、前記ターゲットキーワードが、冒頭の部分と複数の後続の部分とを含み、前記方法が、
    電子デバイスにおいて、前記ターゲットキーワードの前記複数の後続の部分のうちの1つから始まる入力音声に基づいて入力音声ストリームを生成することと、前記入力音声ストリームは、デューティサイクルに従って時間期間の間に生成される、
    前記入力音声ストリームに基づいて前記入力音声に関連付けられた音声特徴を決定することと、
    状態ネットワークを記述しているデータを取得することと、ここにおいて、前記状態ネットワークは、開始状態と、複数のエントリ状態と、前記開始状態から前記複数のエントリ状態の各々の遷移とを含む
    前記音声特徴に基づいておよび前記データにさらに基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することと
    を備える、方法。
  2. 前記入力音声が前記ターゲットキーワードに対応すると決定することに応答して、
    前記電子デバイスのボイスアシスタントを起動することと、
    前記ボイスアシスタントを使用し、前記電子デバイスにおいてメッセージを生成することと、
    前記電子デバイスの1つまたは複数の機能の起動を示すユーザ入力を受け取ることと
    をさらに備える、請求項1に記載の方法。
  3. 前記複数のエントリ状態に対応するデータが、
    前記ターゲットキーワードの前記冒頭の部分と前記複数の後続の部分とに対応する基準入力音声を受け取ることと、
    前記基準入力音声に対する複数の基準状態シーケンスを決定することと、
    前記複数の基準状態シーケンスにおける複数の状態に対する状態時間期間を決定することと、
    前記複数のエントリ状態を決定することと
    によって前記電子デバイスに記憶され、
    前記複数の基準状態シーケンスにおける前記複数の状態に対する前記状態時間期間が、前記複数の基準状態シーケンスをバックトラックすることによって決定される、請求項1に記載の方法。
  4. 前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが、複数のキーワードスコアを決定することを備え、各キーワードスコアが、前記開始状態から前記複数のエントリ状態のうちの1つへの遷移を含むそれぞれの状態シーケンスに対応する、請求項1に記載の方法。
  5. 前記状態ネットワークが、複数の状態シーケンスを含み、各状態シーケンスが、前記開始状態と、前記複数のエントリ状態のうちの1つと、1つまたは複数の後続の状態と含む状態を備え、前記複数の状態シーケンスの各状態シーケンスが、隠れマルコフモデルと、前記状態シーケンスの前記複数の状態についての遷移情報とに関連付けられる、請求項4に記載の方法。
  6. 前記複数のキーワードスコアを決定することが、
    前記状態ネットワークに基づいて、前記音声特徴の各々についての前記状態の各々の観測スコアを決定することと、
    前記状態ネットワークの遷移情報に基づいて、前記複数の状態シーケンスの各々における前記状態の各々から次の状態への遷移スコアを取得することと
    を備え、
    前記複数のキーワードスコアが、前記観測スコアと前記遷移スコアとに基づいて決定される、請求項5に記載の方法。
  7. 前記複数のキーワードスコアの中の最も大きいキーワードスコアが、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するために使用され、前記最も大きいキーワードスコアがしきい値スコアよりも大きい場合、前記入力音声が、前記ターゲットキーワードに対応すると決定される、請求項4に記載の方法。
  8. 前記状態ネットワークが非キーワード状態シーケンスを含み、前記複数のキーワードスコアを決定することが、前記非キーワード状態シーケンスについての非キーワードスコアを決定することを備え、
    前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが、前記複数のキーワードスコアの中から最も大きいキーワードスコアを選択すること前記最も大きいキーワードスコアと前記非キーワードスコアとの間の差に基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することとをさらに備える
    前記差に基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定することが
    記差に基づいて、信頼性値を決定することと、
    前記信頼性値がしきい値信頼性値よりも大きい場合、前記入力音声が前記ターゲットキーワードに対応すると決定することと
    を備える、請求項4に記載の方法。
  9. 冒頭の部分と複数の後続の部分とを含むターゲットキーワードを検出するための電子デバイスであって、
    前記ターゲットキーワードの前記複数の後続の部分のうちの1つから始まる入力音声に基づいて入力音声ストリームを生成するように構成された音声センサと、前記音声センサは、デューティサイクルに従って時間期間中に前記入力音声ストリームを生成するようにさらに構成される、
    前記入力音声ストリームに基づいて前記入力音声に関連付けられた音声特徴を決定し、状態ネットワークを記述しているデータを取得し、前記音声特徴と前記データとに基づいて、前記入力音声が前記ターゲットキーワードに対応するかどうかを決定するように構成されたボイスアクティベーションユニットと
    を備え、
    前記状態ネットワークは、開始状態と、複数のエントリ状態と、前記開始状態から前記複数のエントリ状態の各々への遷移とを含む、電子デバイス。
  10. 前記デューティサイクルに基づいて、前記電子デバイスの音声センサを起動するためにアクティベーション信号を与えることと、
    前記デューティサイクルに基づいて、前記電子デバイスの前記音声センサを非起動するためにデアクティベーション信号を与えることと、
    をさらに備える、請求項1に記載の方法。
  11. 前記入力音声が前記ターゲットキーワードに対応すると決定することに応答して、前記電子デバイスのボイスアシスタントを起動するためにアクティベーション信号を与えることをさらに備える、請求項10に記載の方法。
  12. 前記時間期間は、前記デューティサイクルに関連付けられたアクティベーション時間間隔に対応し、前記アクティベーション信号は、前記アクティベーション時間間隔の間に与えられ、前記デアクティベーション信号は、前記デューティサイクルに関連付けられたデアクティベーション時間間隔の間に与えられ、前記冒頭の部分は、前記デアクティベーション時間間隔の間に話され、前記複数の後続の部分のうちの前記1つは、前記アクティベーション時間間隔の間に話される、請求項10に記載の方法。
  13. 前記デューティサイクルは、前記電子デバイスのデューティサイクル機能に関連付けられ、前記方法は、前記冒頭の部分がスピーチを含まないと決定することに応答して、前記デューティサイクル機能を起動するためにアクティベーション信号を与えることをさらに備える、請求項1に記載の方法。
  14. 前記時間期間は、1つまたは複数のアクティブ時間間隔を備え、前記ターゲットキーワードの前記複数の後続の部分は、前記1つまたは複数のアクティブ時間間隔の間にユーザによって話される、請求項1に記載の方法。
  15. 前記音声センサは、前記時間期間中に前記入力音声ストリームを生成するために前記入力音声を記録するように構成されたマイクロフォンを含み、前記音声センサは、前記マイクロフォンに結合され、前記入力音声ストリームの一部が音声強度しきい値を満たすかどうかを決定するように構成された音声検出器をさらに含み、前記電子デバイスは、前記音声検出器と前記ボイスアクティベーションユニットとに結合されたスピーチ検出器をさらに備える、請求項9に記載の電子デバイス。
JP2016512922A 2013-05-07 2014-04-24 ターゲットキーワードを検出するための方法および装置 Expired - Fee Related JP6309615B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361820498P 2013-05-07 2013-05-07
US61/820,498 2013-05-07
US201361859058P 2013-07-26 2013-07-26
US61/859,058 2013-07-26
US14/087,939 2013-11-22
US14/087,939 US20140337031A1 (en) 2013-05-07 2013-11-22 Method and apparatus for detecting a target keyword
PCT/US2014/035247 WO2014182460A2 (en) 2013-05-07 2014-04-24 Method and apparatus for detecting a target keyword

Publications (3)

Publication Number Publication Date
JP2016526178A JP2016526178A (ja) 2016-09-01
JP2016526178A5 JP2016526178A5 (ja) 2017-07-20
JP6309615B2 true JP6309615B2 (ja) 2018-04-11

Family

ID=51865436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016512922A Expired - Fee Related JP6309615B2 (ja) 2013-05-07 2014-04-24 ターゲットキーワードを検出するための方法および装置

Country Status (6)

Country Link
US (1) US20140337031A1 (ja)
EP (1) EP2994910B1 (ja)
JP (1) JP6309615B2 (ja)
KR (1) KR20160007527A (ja)
CN (1) CN105190746B (ja)
WO (1) WO2014182460A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9704486B2 (en) * 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9892729B2 (en) * 2013-05-07 2018-02-13 Qualcomm Incorporated Method and apparatus for controlling voice activation
US10770075B2 (en) * 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
CN106601238A (zh) * 2015-10-14 2017-04-26 阿里巴巴集团控股有限公司 一种应用操作的处理方法和装置
US9792907B2 (en) 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice
US9972313B2 (en) * 2016-03-01 2018-05-15 Intel Corporation Intermediate scoring and rejection loopback for improved key phrase detection
US10043521B2 (en) 2016-07-01 2018-08-07 Intel IP Corporation User defined key phrase detection by user dependent sequence modeling
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
JP6585022B2 (ja) 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
US20180144740A1 (en) * 2016-11-22 2018-05-24 Knowles Electronics, Llc Methods and systems for locating the end of the keyword in voice sensing
US10186265B1 (en) * 2016-12-06 2019-01-22 Amazon Technologies, Inc. Multi-layer keyword detection to avoid detection of keywords in output audio
US10083689B2 (en) * 2016-12-23 2018-09-25 Intel Corporation Linear scoring for low power wake on voice
US10276161B2 (en) * 2016-12-27 2019-04-30 Google Llc Contextual hotwords
JP6585112B2 (ja) * 2017-03-17 2019-10-02 株式会社東芝 音声キーワード検出装置および音声キーワード検出方法
US10593352B2 (en) * 2017-06-06 2020-03-17 Google Llc End of query detection
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
TWI682385B (zh) 2018-03-16 2020-01-11 緯創資通股份有限公司 語音服務控制裝置及其方法
US10714122B2 (en) 2018-06-06 2020-07-14 Intel Corporation Speech classification of audio for wake on voice
US10650807B2 (en) 2018-09-18 2020-05-12 Intel Corporation Method and system of neural network keyphrase detection
US11100923B2 (en) * 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11127394B2 (en) 2019-03-29 2021-09-21 Intel Corporation Method and system of high accuracy keyphrase detection for low resource devices
CN111091849B (zh) * 2020-03-03 2020-12-22 龙马智芯(珠海横琴)科技有限公司 鼾声识别的方法及装置、存储介质止鼾设备和处理器
US11721338B2 (en) * 2020-08-26 2023-08-08 International Business Machines Corporation Context-based dynamic tolerance of virtual assistant

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0511798A (ja) * 1990-09-07 1993-01-22 Toshiba Corp 音声認識装置
US5199077A (en) * 1991-09-19 1993-03-30 Xerox Corporation Wordspotting for voice editing and indexing
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
US5621859A (en) * 1994-01-19 1997-04-15 Bbn Corporation Single tree method for grammar directed, very large vocabulary speech recognizer
US5878164A (en) * 1994-01-21 1999-03-02 Lucent Technologies Inc. Interleaved segmental method for handwriting recognition
JP3726448B2 (ja) * 1997-03-12 2005-12-14 セイコーエプソン株式会社 認識対象音声検出方法およびその装置
JP3911865B2 (ja) * 1998-09-09 2007-05-09 セイコーエプソン株式会社 音声認識装置
DE10030369A1 (de) * 2000-06-21 2002-01-03 Volkswagen Ag Spracherkennungssystem
JP3975400B2 (ja) * 2003-08-20 2007-09-12 ソニー株式会社 監視システム、情報処理装置および方法、記録媒体、並びにプログラム
US8214362B1 (en) * 2007-09-07 2012-07-03 Google Inc. Intelligent identification of form field elements
KR20090107364A (ko) * 2008-04-08 2009-10-13 엘지전자 주식회사 이동 단말기 및 그 메뉴 제어방법
CN101894549A (zh) * 2010-06-24 2010-11-24 中国科学院声学研究所 一种语音识别应用领域中的置信度快速计算方法
US8990259B2 (en) * 2011-06-24 2015-03-24 Cavium, Inc. Anchored patterns
CN102426836B (zh) * 2011-08-25 2013-03-20 哈尔滨工业大学 基于分位数自适应裁剪的快速关键词检出方法
US9992745B2 (en) * 2011-11-01 2018-06-05 Qualcomm Incorporated Extraction and analysis of buffered audio data using multiple codec rates each greater than a low-power processor rate
US9015048B2 (en) * 2012-11-30 2015-04-21 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
US9240182B2 (en) * 2013-09-17 2016-01-19 Qualcomm Incorporated Method and apparatus for adjusting detection threshold for activating voice assistant function

Also Published As

Publication number Publication date
JP2016526178A (ja) 2016-09-01
EP2994910B1 (en) 2017-06-14
EP2994910A2 (en) 2016-03-16
CN105190746B (zh) 2019-03-15
WO2014182460A2 (en) 2014-11-13
CN105190746A (zh) 2015-12-23
KR20160007527A (ko) 2016-01-20
US20140337031A1 (en) 2014-11-13
WO2014182460A3 (en) 2014-12-31

Similar Documents

Publication Publication Date Title
JP6309615B2 (ja) ターゲットキーワードを検出するための方法および装置
EP2994911B1 (en) Adaptive audio frame processing for keyword detection
JP6301451B2 (ja) 音声アクティブ化を制御するための方法および装置
US10770075B2 (en) Method and apparatus for activating application by speech input
KR101981878B1 (ko) 스피치의 방향에 기초한 전자 디바이스의 제어
US9837068B2 (en) Sound sample verification for generating sound detection model
KR101986354B1 (ko) 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
US20150193199A1 (en) Tracking music in audio stream
WO2017154282A1 (ja) 音声処理装置および音声処理方法
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
US11195545B2 (en) Method and apparatus for detecting an end of an utterance
CN116153291A (zh) 一种语音识别方法及设备

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170329

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170608

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20170608

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20170905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170912

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171212

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180213

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180314

R150 Certificate of patent or registration of utility model

Ref document number: 6309615

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees