JP2016505888A - 発話認識電力管理 - Google Patents

発話認識電力管理 Download PDF

Info

Publication number
JP2016505888A
JP2016505888A JP2015547451A JP2015547451A JP2016505888A JP 2016505888 A JP2016505888 A JP 2016505888A JP 2015547451 A JP2015547451 A JP 2015547451A JP 2015547451 A JP2015547451 A JP 2015547451A JP 2016505888 A JP2016505888 A JP 2016505888A
Authority
JP
Japan
Prior art keywords
module
speech
voice input
utterance
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015547451A
Other languages
English (en)
Other versions
JP6200516B2 (ja
Inventor
ジョン バサイ ケネス
ジョン バサイ ケネス
エヴァン セッカー−ウォーカー ヒュー
エヴァン セッカー−ウォーカー ヒュー
デイヴィッド トニー
デイヴィッド トニー
クネーザー ラインハート
クネーザー ラインハート
ペンロッド アダムズ ジェフリー
ペンロッド アダムズ ジェフリー
ワイドナー サルヴァドール スタン
ワイドナー サルヴァドール スタン
クリシュナムルティ マヘシュ
クリシュナムルティ マヘシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Amazon Technologies Inc
Original Assignee
Amazon Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Amazon Technologies Inc filed Critical Amazon Technologies Inc
Publication of JP2016505888A publication Critical patent/JP2016505888A/ja
Application granted granted Critical
Publication of JP6200516B2 publication Critical patent/JP6200516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

コンピューティングデバイスのための電力消費が、1つ以上のキーワードによって管理され得る。例えば、コンピューティングデバイスによって取得された音声入力がキーワードを含む場合、コンピューティングデバイスのネットワークインターフェイスモジュールおよび/またはアプリケーション処理モジュールが起動されてもよい。音声入力は、その後、ネットワークインターフェイスモジュールを介して発話認識サーバなどの遠隔コンピューティングデバイスに送信されてもよい。あるいは、コンピューティングデバイスには、オンデバイス発話認識のために音声入力を処理するように構成された発話認識エンジンが提供されてもよい。

Description

コンピューティングデバイスは、発話認識機能を含むことができる。例えば、コンピューティングデバイスは、音響モデルおよび言語モデルを使用して、音声入力を保存して、発話を認識することが可能である。音響モデルは、発話の音響特性に基づいて、どの音声サブワード単位(例えば、音素など)が発話に対応するかに関する仮説を生成するために使用される。言語モデルは、その発話が話されている言語の語彙の特徴に基づいて、その音響モデルを使用して生成された仮説のうちのどれが、その発話の最も可能性のある音訳であるかを判定するために使用される。コンピューティングデバイスは、特定の発話認識アプリケーションのために認識された発話を処理することが可能な場合もある。例えば、有限文法または自然言語の処理技術が、発話を処理するために使用されてもよい。
本開示の付帯的な特徴の種々の態様およびその多くは、それらが添付の図面に関連して考慮されるとき、以下の詳細な記述に関してよりよく理解されるため、より容易に理解される。
実例的な電力管理サブシステムを図示する概略図である。 電力管理サブシステムを含む実例的なユーザコンピューティングデバイスを図示する概略図である。 図1の電力管理サブシステムによって実装されてもよい発話認識電力管理のための実例的なルーティンを図示するフロー図である。 分散型発話認識システムの実例的な動作を図示する状態図である。 分散型発話認識システムの実例的な動作を図示する状態図である。 分散型発話認識システムの実例的な動作を図示する状態図である。 電力管理サブシステムを含むユーザコンピューティングデバイスによって提供されることがある実例的なユーザインターフェイスを図示する絵図である。
発話認識に対するいくつかの現在のアプローチにおいて、発話認識機能は、分散型コンピュータ環境における1つ以上のコンピューティングデバイスに割り当てられている。これらのアプローチの特定の例では、第1のコンピューティングデバイスは、音声入力を保存するために構成されてもよいし、第2のコンピューティングデバイスに対するネットワークを通じて音声入力を送信してもよい。第2のコンピューティングデバイスは、音声入力上で発話認識を行い、音声入力に含まれる発話の音訳を生成してもよい。発話の音訳は、その後、ネットワークを通じて、第2のコンピューティングデバイスから第1のコンピューティングデバイスに戻されるように送信されてもよい。他の現在のアプローチにおいて、第1のコンピューティングデバイスは、音声入力を保存し、それ自身の上に音声入力を音訳するように構成されてもよい。
これらおよび他の現在のアプローチにおいて、第1のコンピューティングデバイスは、持続的なアクティブ状態にとどまるように構成されてもよい。このような持続的なアクティブ状態において、第1のコンピューティングデバイスは、第2のコンピューティングデバイスに対してネットワーク接続を持続的に、維持してもよい。第1のコンピューティングデバイスは、また、それ自身の発話認識機能を実装するために使用される任意のハードウェアに電力を供給し続けてもよい。これらのアプローチの欠点の1つはとりわけ、第1のコンピューティングデバイスが、持続的なアクティブ状態を維持するために、許容できない量のエネルギーを消費するかもしれないことである。このようなエネルギーの需要が、バッテリ電源に依存するモバイルコンピューティングデバイスにとって特に問題であることが分かることがある。さらに他の問題は、現在のアプローチに存在する。
したがって、本開示の態様は、発話認識のための電力管理に関する。コンピューティングデバイスには、コンピューティングデバイスのうちの1つ以上のモジュールを選択的に起動する、または停止する電力管理サブシステムが提供されてもよい。この起動は、本願において「キーワード」と称される場合もある、1つ以上の予め指定した話し言葉を含む音声入力に応答してもよい。起動されてもよい1つ以上の構成要素の起動を促進するキーワードは、本願において「ウェイクワード」と称されることがある一方、1つ以上の構成要素の停止を促進するキーワードは、本願において「スリープワード」と称されることがある。特定の例では、コンピューティングデバイスは、起動されたときに、エネルギーを消費して、コンピューティングデバイスに対し、発話認識サーバなどの第2のコンピューティングデバイス、または他のコンピューティングデバイスに対する接続性を提供する、選択的に起動されたネットワークインターフェイスモジュールを含んでもよい。電力管理サブシステムは、音声入力がウェイクワードを含むと決定するために、音声入力を処理してもよいし、音声入力がウェイクワードを含むという決定に応答して、ネットワークインターフェイスモジュールを起動してもよい。ネットワークインターフェイスモジュールが起動されるとき、電力管理サブシステムは、処理するために発話認識サーバに音声入力を送信させてもよい。
電力管理サブシステム自身が、1つ以上の選択的に起動されたモジュールを含んでもよい。いくつかの実施形態において、選択的に起動されたモジュールのうちの1つ以上は、低出力の、比較的、劣った機能性を有する停止状態から、高出力の、比較的、優れた機能性を有する起動状態に、またその逆に切り替えられることもある、(集積回路、デジタル信号プロセッサまたは他のタイプのプロセッサなどの)専用ハードウェアとして実装される。他の実施形態において、1つ以上のモジュールは、1つ以上の汎用プロセッサによって行われるコンピュータ実行可能コードを含むソフトウェアとして実装される。ソフトウェアモジュールは、ソフトウェアに含まれるコンピュータ実行可能コードを実行するように、または実行可能なように構成された汎用プロセッサを起動する(または停止する)ことによって、起動されてもよい(または停止されてもよい)。さらなる実施形態において、電力管理システムは、1つ以上のハードウェアモジュールおよび1つ以上のソフトウェアモジュールの両方を含む。
電力管理サブシステムはさらに、1つ以上の選択的に起動されるモジュールと通信する制御モジュールを含んでもよい。このような制御モジュールは、本願においては、「電力管理モジュール」と称されることがあり、上述のハードウェアまたはソフトウェアのうちのいずれかを含んでもよい。電力管理モジュールは、電力管理サブシステムのモジュールを起動または停止させてもよい。いくつかの実施形態において、電力管理モジュールは、コンピューティングデバイスに含まれる音声入力モジュールによって取得された特徴的な音声入力に少なくとも部分的に基づいて、1つ以上のモジュールを起動する、または停止する。例えば、電力管理サブシステムのモジュールは、1つ以上の値を決定することがあり、その値は、例えば、音声入力のエネルギーレベルまたは量、発話が音声入力に存在する可能性に対応するスコア、キーワードが発話に存在する可能性に対応するスコア、および他の値を含んでもよい。モジュールは、1つ以上の値を電力管理モジュールに伝達してもよく、電力管理モジュールは、それを起動させる別のモジュールと通信するか、あるいは、そこから1つ以上の値が受信されて、そのモジュールおよび/または他のモジュールを停止させるモジュールと通信するかのどちらかであってもよい。しかしながら、他の実施形態において、第1の選択的に起動されるモジュールは、第2の選択的に起動されるモジュールと直接通信して、それを起動してもよい。このような実施形態において、電力管理モジュールが存在する必要はない。さらなる実施形態において、電力管理サブシステムは、1つ以上のモジュールを提供されてもよく、ここで、1つ以上のモジュールのうちの少なくともいくつかは互いに通信し合うが、電力管理モジュールとは通信しない。
例示的な実装例では、電力管理サブシステムは、音声検出モジュールを含んでもよく、この音声検出モジュールは、コンピューティングデバイスによって取得される音声入力のエネルギーレベルまたは量を決定するように構成されてもよい。音声検出モジュールが持続的に音声入力について監視する一方、電力管理サブシステムの残りの構成要素は、(電力管理モジュール、あるいは異なるモジュールのどちらかによって)起動されるまで、低出力、非アクティブ状態のままでもよい。音声検出モジュールが、音声入力が閾値エネルギーレベルまたは量を満たすと決定した場合、発話検出モジュールは、音声入力が発話を含むかどうかを判定するために、起動されてもよい。発話検出モジュールが、音声入力が発話を含むと決定した場合、電力管理サブシステムに含まれる発話処理モジュールが起動されてもよい。発話処理モジュールは、発話がウェイクワードを含むかどうかを判定してもよいし、特定のユーザがウェイクワードを話すかどうかを判定するために、発話を随意的に分類してもよい。発話処理モジュールが、発話がウェイクワードを含むと決定した場合、アプリケーション処理モジュールが起動されてもよく、そのアプリケーション処理モジュールは、コンピューティングデバイスのメモリに記憶される発話認識アプリケーションモジュールを実装してもよい。発話認識アプリケーションは、2011年1月10日に出願され、2012年1月19日に公開された米国公開第2012/0016678号の「Intelligent Automated Assistant」に記載されるような、例えば、知的エージェントフロントエンドを含んでもよい。この特許出願の開示は、本願においては、その全体において参照することにより組み込まれる。選択的に起動されるネットワークインターフェイスモジュールはまた、上述のように起動されてもよく、音声入力は、処理するために遠隔コンピューティングデバイスに送信されてもよい。この例示的な実装例は、図3について以下にかなり詳細に検討される。あるいは、電力管理サブシステムは、ウェイクワードの検出に応答して、コンピューティングデバイスの任意のオンデバイス発話認識機能を実装する処理ユニットを起動してもよい。
コンピューティングデバイスのモジュールを選択的に起動することにより、電力管理サブシステムは、コンピューティングデバイスのエネルギー効率を有利に改善する場合がある。電力管理サブシステムはさらに、それ自身のモジュールを1つ以上、選択的に起動することにより、コンピューティングデバイスのエネルギー効率をさらに改善してもよい。このような実装例がバッテリ電源に依存するコンピューティングデバイスに関して特に有利である一方、そのために電力管理が望ましくあってもよいすべてのコンピューティングデバイスは、本開示の原則から利益を得ることが可能である。
図1に戻って、コンピューティングデバイスに含まれる場合がある、実例的な電力管理サブシステム100が示される。電力管理サブシステム100は、アナログ/デジタルコンバータ102、メモリバッファモジュール104、音声検出モジュール106、発話検出モジュール108、発話処理モジュール110、アプリケーション処理モジュール112、および電力管理モジュール120を含んでもよい。メモリバッファモジュール104は、音声検出モジュール106、発話検出モジュール108、発話処理モジュール110、アプリケーション処理モジュール112、およびネットワークインターフェイスモジュール206と通信してもよい。電力管理モジュール120は、同様に、音声検出モジュール106、発話検出モジュール108、発話処理モジュール110、アプリケーション処理モジュール112、およびネットワークインターフェイスモジュール206と通信してもよい。
アナログ/デジタルコンバータ102は、音声入力を音声入力モジュール208から受信してもよい。音声入力モジュール208は、図2についてさらに以下に詳細に検討される。アナログ/デジタルコンバータ102は、電力管理サブシステム100の他の構成要素によって処理するために、アナログ音声入力をデジタル音声入力に変換するように構成されてもよい。音声入力モジュール208がデジタル音声入力を取得する実施形態において(例えば、音声入力モジュール208は、デジタルマイクロフォンまたは他のデジタル音声入力デバイスを含む)、アナログ/デジタルコンバータ102は、随意的に、電力管理サブシステム100から除外されてもよい。このように、音声入力モジュール208は、音声入力を電力管理サブシステム100の他のモジュールに直接、提供してもよい。
メモリバッファモジュール104は、デジタル音声入力を記憶するように構成された1つ以上のメモリバッファを含んでもよい。音声入力モジュール208によって取得された(また、アナログの場合は、アナログ/デジタルコンバータ102によってデジタル形式に変換された)音声入力は、メモリバッファモジュール104に記録されてもよい。メモリバッファモジュール104に記録された音声入力は、本願においてさらに検討されるように、これらのモジュールによる処理のために、電力管理サブシステム100の他のモジュールによってアクセスされてもよい。
メモリバッファモジュール104の1つ以上のメモリバッファは、ハードウェアメモリバッファ、ソフトウェアメモリバッファ、または両方を含んでもよい。1つ以上のメモリバッファは、同一の容量、または異なる容量を有してもよい。メモリバッファモジュール104のメモリバッファは、他のどのモジュールが起動されるかに依存して、音声入力を記憶するように選択されてもよい。例えば、音声検出モジュール106がアクティブでさえあれば、音声入力は、比較的小さい容量のハードウェアメモリバッファに記憶されてもよい。しかしながら、発話検出モジュール108、発話処理モジュール110、アプリケーション処理モジュール112、および/またはネットワークインターフェイスモジュール206などの他のモジュールが起動される場合、音声入力は、比較的大きい容量のソフトウェアメモリバッファに記憶されてもよい。いくつかの実施形態において、メモリバッファモジュール104は、音声入力が、それが音声入力モジュール208によって取得される順序で、記録され上書きされてもよいリングバッファを含む。
音声検出モジュール106は、音声入力のエネルギーレベルを決定するために音声入力を処理する場合がある。いくつかの実施形態において、音声検出モジュール106は、取得された音声入力のエネルギーレベル(量、強度、振幅など)を決定するように構成され、かつ、音声入力のエネルギーレベルをエネルギーレベル閾値と比較するための低出力デジタル信号プロセッサ(または他のタイプのプロセッサ)を含む。エネルギーレベル閾値は、ユーザ入力に従って設定されてもよいし、あるいは、図3についてさらに以下に検討されるように、電力管理サブシステム100によって自動的に設定されてもよい。いくつかの実施形態において、音声検出モジュール106は、音声入力が少なくとも1つの閾値期間のための閾値を満たすエネルギーレベルを有すると決定するようにさらに構成される。このような実施形態において、比較的、発話を含みそうにない突然の雑音に対応することもある比較的短い期間の高エネルギー音声入力は無視されてもよく、電力管理サブシステム100の他の構成要素によって処理されていなくてもよい。
音声検出モジュール106が、取得された音声入力がエネルギーレベル閾値を満たすエネルギーレベルを有すると決定した場合、それは電力管理モジュール120と通信して、電力管理モジュール120が発話検出モジュール108を起動するように指示してもよい。あるいは、音声検出モジュール106は、エネルギーレベルを電力管理モジュール120に伝えてもよいし、電力管理モジュール120は、エネルギーレベルをエネルギーレベル閾値(また、随意的に閾値期間)と比較して、発話検出モジュール108を起動するかどうかを判定してもよい。別の代替手段において、音声検出モジュール106は、発話検出モジュール108と直接、通信してそれを起動してもよい。随意的に、電力管理モジュール120(または音声検出モジュール106)は、音声入力が閾値を満たすエネルギーレベルを有すると決定する音声検出モジュール106に応答して、音声入力モジュール208がそのサンプリングレート(フレームレートで計測されていてもビットレートで計測されていても)を増加させるように指示してもよい。
発話検出モジュール108は、音声入力を処理して、音声入力が発話を含むかどうか判定してもよい。いくつかの実施形態において、発話検出モジュール108は、音声入力が発話を含むかどうかを判定する1つ以上の技術を実装するように構成された低出力デジタル信号プロセッサ(または他のタイプのプロセッサ)を含む。いくつかの実施形態において、発話検出モジュール108は、音声区間検出(VAD)技術を適用する。このような技術は、音声入力の1つ以上のフレーム間のスペクトル傾斜、1つ以上のスペクトル帯における音声入力のエネルギーレベル、1つ以上のスペクトル帯における音声入力の信号対雑音比などの音声入力の種々の定量的な態様、または他の定量的な態様に基づいて、発話が音声入力に存在するかどうかを判定してもよい。他の実施形態において、発話検出モジュール108は、背景雑音から発話を区別するように構成された限定的な分類子を実装する。分類子は、線分類子、サポートベクターマシン、および決定木などの技術によって実装されてもよい。さらに他の実施形態において、発話検出モジュール108は、隠れモルコフモデル(HMM)またはガウス混合モデル(GMM)技術を適用して、音声入力を1つ以上の音響モデルと比較し、その音響モデルは、発話、(環境雑音または背景雑音などの)雑音、または無音に対応するモデルを含んでもよい。さらに他の技術は、発話が音声入力に存在するかどうかを判定するために使用されてもよい。
上述の技術のうちのいずれかを使用して、発話検出モジュール108は、値が、発話が実際に音声入力内に存在する可能性(本願で使用されるように、「可能性」は、一般的な使用、何かが起こり得るかどうか、または統計における使用について言及することもある)に対応するスコアまたは信頼水準を決定してもよい。スコアが閾値を満たす場合、発話検出モジュール108は、発話が音声入力内に存在すると決定してもよい。しかしながら、スコアが閾値を満たさない場合は、発話検出モジュール108は、発話が音声入力内に存在しないと決定してもよい。
発話検出モジュール108は、発話が音声入力内に存在するかどうかについてのその決定を電力管理モジュール120に伝達してもよい。発話が音声入力内に存在する場合、電力管理モジュール120は、発話処理モジュール110を起動してもよい(あるいは、発話検出モジュール108は、発話処理モジュール110と直接、通信してもよい)。発話が音声入力内に存在しない場合、電力管理モジュール120は、発話検出モジュール108を停止してもよい。あるいは、発話検出モジュール108は、スコアを電力管理モジュール120に伝達してもよく、そのとき、電力管理モジュール120は、発話処理モジュール110を起動するか、または発話検出モジュール108を停止するかを決定してもよい。
発話処理モジュール110は、キーワードが発話に含まれるかどうかを判定するために、音声入力を処理してもよい。いくつかの実施形態において、発話処理モジュール110は、ウェイクワードまたはスリープワードなどの発話内のキーワードを検出するように構成されたマイクロプロセッサを含む。発話処理モジュール110は、HMM技術、GMM技術、または他の発話認識技術を使用して、キーワードを検出するように構成されてもよい。
発話処理モジュール110は、たまたまキーワードを含む発話を、キーワードが1つ以上の他の音素または語の前または後ですぐに話されたかどうかを判定することによって、キーワードの熟考された発話から分離することが可能であってもよい。例えば、キーワードが「ten」である場合、発話処理モジュール110は、ユーザが単独で「ten」と言ったことを、たまたま、語「Tennessee」、語「forgotten」、語「stent」、または熟語「ten bucks」の一部としてユーザが「ten」と言ったことから区別することが可能であってもよい。
発話処理モジュール110は、発話が、電力管理サブシステム100が含まれるコンピューティングデバイスの特定のユーザに関連付けられているかどうか、または、発話が、いくつかの分類のうちでも特に、背景雑音、テレビからの音声、音楽、またはユーザ以外の人の発話に対応するかどうかを判定するようにさらに構成されてもよい。この機能性は、音声入力を分類するための技術のうちでも特に、線分類子、サポートベクターマシン、および決定木などの技術に実装されてもよい。
上述の技術のいずれかを使用して、発話処理モジュール110は、値が、キーワードが実際に発話内に存在する可能性に対応するスコアまたは信頼水準を決定してもよい。スコアが閾値を満たす場合、発話処理モジュール110は、キーワードが発話内に存在すると決定してもよい。しかしながら、スコアが閾値を満たさない場合は、発話処理モジュール110は、キーワードが発話内に存在しないと決定してもよい。
発話処理モジュール110は、キーワードが発話内に存在するかどうかについてのその決定を電力管理モジュール120に伝達してもよい。キーワードが発話内に存在し、キーワードがウェイクワードである場合、電力管理モジュール120は、アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206を起動してもよい(あるいは、発話処理モジュール110は、これらの他のモジュールと直接、通信してもよい)。キーワードが音声入力内に存在しない場合(またはキーワードがスリープワードである場合)、電力管理モジュール120は、発話処理モジュール110および発話検出モジュール108を停止してもよい。あるいは、発話処理モジュール110は、スコアを電力管理モジュール120に伝達してもよく、そのとき、電力管理モジュール120は、アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206を起動するか、または発話処理モジュール110および発話検出モジュール108を停止するかを決定してもよい。いくつかの実施形態において、発話処理モジュール110が、特定のユーザがキーワードを含む発話を発話すると決定した場合にのみ、これらの起動および/または停止が発生する。
アプリケーション処理モジュール112は、電力管理サブシステムが含まれるコンピューティングデバイスが提供された発話認識アプリケーションを実装するように構成されたマイクロプロセッサを含んでもよい。発話認識アプリケーションは、発話認識が所望であってもよい、口述アプリケーション、メッセージングアプリケーション、知的エージェントフロントエンドアプリケーション、またはいずれかの他のアプリケーションなどのいずれかのアプリケーションを含んでもよい。発話認識アプリケーションはまた、ネットワークを通じて、発話認識サーバなどの遠隔コンピューティングデバイスに送信するために、(例えば、発話を圧縮することによって)発話を初期化するように構成されてもよい。
いくつかの実施形態において、アプリケーション処理モジュール112は、発話認識アプリケーションを実装するための専用マイクロプロセッサを含む。他の実施形態において、アプリケーション処理モジュール112は、電力管理サブシステム100が含まれるコンピューティングデバイスが提供される他のソフトウェアを実装する場合もある、さらに以下に検討される、図2に示される処理ユニット202などの汎用マイクロプロセッサを含む。
ネットワークインターフェイスモジュール206は、起動時に、1つ以上の有線または無線ネットワークを通じて接続性を提供してもよい。起動時、ネットワークインターフェイスモジュール206は、メモリバッファモジュール104に記録された受信された音声入力を、ネットワークを通じて、発話認識サーバなどの遠隔コンピューティングデバイスに送信してもよい。遠隔コンピューティングデバイスは、認識結果(例えば、音訳または知的エージェントクエリーに対する応答)をネットワークインターフェイスモジュール206が含まれるコンピューティングデバイスに戻してもよく、その一方、ネットワークインターフェイスモジュール206は、受信された認識結果を、処理するためにアプリケーション処理モジュール112に提供してもよい。ネットワークインターフェイスモジュール206は、図2についてさらに以下に検討される。
電力管理サブシステム100のモジュールは、本開示の範囲から逸脱することなく、組み合わされてもよい、または再構成されてもよい。上述のいずれかのモジュールの機能性は、複数のモジュールの中に割り当てられてもよい、または異なるモジュールと組み合わされてもよい。上述のように、モジュールのうちのいずれか、またはそのすべてが、1つ以上の集積回路、1つ以上の汎用マイクロプロセッサ、または1つ以上の特別な目的のデジタル信号プロセッサまたは他の専用マイクロプロセシングハードウェアに具現化されてもよい。1つ以上のモジュールはまた、図2についてさらに以下に検討されるように、コンピューティングデバイスに含まれる処理ユニット202によって実装されるソフトウェアに具現化されてもよい。さらに、1つ以上のモジュールは、電力管理サブシステム100から全体的に除外されてもよい。
図2に戻って、電力管理サブシステム100が含まれてもよいユーザコンピューティングデバイス200が図示される。ユーザコンピューティングデバイス200は、処理ユニット202、非一時的コンピュータ可読媒体ドライブ204、ネットワークインターフェイスモジュール206、図1に示されるような電力管理サブシステム100、および音声入力モジュール208を含み、それらのすべては、コミュニケーションバスを経由して、相互に通信してもよい。ユーザコンピューティングデバイス200はまた、処理ユニット202などのユーザコンピューティングデバイス200の種々の構成要素に電力を供給することが可能な電源218、非一時的コンピュータ可読媒体ドライブ204、ネットワークインターフェイスモジュール206、図1に示されるような電力管理サブシステム100、および音声入力モジュール208も含む場合がある。
処理ユニット202は、ユーザインターフェイスモジュール212、オペレーティングシステム214、および発話認識アプリケーションモジュール216などの、そこに記憶された種々のソフトウェアモジュールを実装するために、メモリ210に伝達し、かつメモリ210から伝達されるように構成された1つ以上の汎用マイクロプロセッサを含んでもよい。処理ユニット202はまた、電力管理サブシステム100と通信してもよく、また、ソフトウェアに具現化される電力管理サブシステム100のいずれかのモジュールをさらに実装してもよい。したがって、処理ユニット202は、音声検出モジュール106、発話検出モジュール108、発話処理モジュール110、アプリケーション処理モジュール112、および電力管理モジュール120のうちのいずれか、またはすべてを実装するように構成されてもよい。さらに、処理ユニット202は、ユーザコンピューティングデバイス200を提供されてもよいオンデバイス自動発話認識機能を実装するように構成されてもよい。
メモリ210は概して、RAM、ROM、および/または他の持続的または非一時的コンピュータ可読記憶媒体を含む。ユーザインターフェイスモジュール212は、ユーザコンピューティングデバイス200(図示せず)のディスプレイを介して、ユーザインターフェイスを提示するように構成されてもよい。ユーザインターフェイスモジュール212は、マウス、キーボード、タッチパネル、キーパッドなどのユーザ入力デバイス(図示せず)を介して受信されたユーザ入力を処理するようにさらに構成されてもよい。ユーザインターフェイスモジュール212によって提示されたユーザインターフェイスは、ユーザに、ユーザコンピューティングデバイス200によって実装される電力管理サブシステム100の動作および/または他の動作をカスタマイズする機会を提供してもよい。ユーザインターフェイスの例は、図5についてさらに以下に検討される。メモリ210は、ユーザコンピューティングデバイス200の一般管理および動作において処理ユニット202が使用するためのコンピュータプログラム命令を提供するオペレーティングシステム214を付加的に記憶してもよい。メモリ210は、発話認識アプリケーションモジュール216の1つ以上の実施形態を実装するために、アプリケーション処理モジュール112および/または処理ユニット202が実行するコンピュータプログラム命令をさらに含み得る。上述のように、発話認識アプリケーションモジュール216は、書き取りアプリケーション、メッセージングアプリケーション、知的エージェントアプリケーションフロントエンド、または、有利に発話認識結果を使用できるいずれかの他のアプリケーションなどの発話認識結果を使用してもよい任意のアプリケーションであってもよい。いくつかの実施形態において、メモリ210は、処理ユニット202によって実装されてもよい自動発話認識エンジン(図示せず)をさらに含んでもよい。
非一時的コンピュータ可読媒体ドライブ204は、当分野で既知の任意の電子データストーレッジを含んでもよい。いくつかの実施形態において、非一時的コンピュータ可読媒体ドライブ204は、1つ以上のキーワードモデル(例えば、ウェイクワードモデルまたはスリープワードモデル)を記憶し、音声入力は、電力管理サブシステム100によってそれらのモデルと比較されてもよい。非一時的コンピュータ可読媒体ドライブ204はまた、ユーザコンピューティングデバイス200の任意のオンデバイス発話認識機能を実装するための1つ以上の音響モデルおよび/または言語モデルを記憶してもよい。言語モデルおよび音響モデルに関するさらなる情報は、2012年8月16日に出願された、米国特許出願第13/587,799号、発明の名称「DISCRIMINATIVE LANGUAGE MODEL PRUNING」および2012年8月22日に出願された、米国特許出願第13/592,157号、発明の名称「UNSUPERVISED ACOUSTIC MODEL TRAINING」に見出すことができる。これらの出願の両方の開示は、本願に、それらの全体において参照によって組み込まれる。
ネットワークインターフェイスモジュール206は、ユーザコンピューティングデバイス200に、図4A、図4B、および図4Cについてさらに以下に検討される、ネットワーク410などの1つ以上のネットワークに対する接続性を提供してもよい。このように、処理ユニット202および電力管理サブシステム100は、やはりさらに以下に検討されるように、命令および情報を、発話認識サーバ420などのネットワーク410を介して通信してもよい遠隔コンピューティングデバイスから受信してもよい。いくつかの実施形態において、ネットワークインターフェイスモジュール206は、ユーザコンピューティングデバイス200に、1つ以上の無線ネットワークを通じて接続性を提供する無線ネットワークインターフェイスを含む。
いくつかの実施形態において、ネットワークインターフェイスモジュール206が、選択的に起動される。ネットワークインターフェイスモジュール206が停止または「スリーピング」状態にある一方、電力を節約するために、制限された接続性または非接続性をネットワークまたはコンピュータシステムに提供してもよい。いくつかの実施形態において、ネットワークインターフェイスモジュール206は、初期設定で、停止状態にあり、電力管理サブシステム100からの信号に応答して起動するようになる。ネットワークインターフェイスモジュール206が起動状態にある一方、それは比較的大量の接続性をネットワークまたはコンピュータシステムに提供してもよく、その結果、ネットワークインターフェイスモジュール206は、ユーザコンピューティングデバイス200が、音声入力を遠隔コンピューティングデバイスに送ることを可能にする、および/またはキーワード確認、発話認識結果、または停止命令を、発話認識サーバ420などの遠隔コンピューティングデバイスから受信することを可能にする。
特に非限定的な例では、ネットワークインターフェイスモジュール206は、音声入力がウェイクワードを含むと決定する電力管理サブシステム100に応答して起動されてもよい。電力管理サブシステム100は、音声入力を、起動されるネットワークインターフェイスモジュール206を介して、(発話認識サーバ420などの)遠隔コンピューティングデバイスに送信させてもよい。随意的に、電力管理サブシステム100は、続いて受信される音声入力を遠隔コンピューティングデバイスに送信させる前に、遠隔コンピューティングデバイスから、ウェイクワードの確認を取得してもよい。電力管理サブシステム100は、遠隔コンピューティングデバイスから停止命令を受信することに応答して、エネルギーレベル閾値を満たす音声入力が取得されてから少なくとも所定の期間が過ぎたと決定することに応答して、またはスリープワードを含む音声入力を受信することに応答して、起動されたネットワークインターフェイスモジュール206を後で停止してもよい。
音声入力モジュール208は、アナログでもデジタルでも、マイクロフォンまたは一連のマイクロフォンなどの音声入力デバイスを含んでもよい。マイクロフォンまたは一連のマイクロフォンは、指向性マイクロフォンまたは指向性の一連のマイクロフォンとして実装されてもよい。いくつかの実施形態において、音声入力モジュール208は音声を受信し、実質的に図1について上述するように、その音声を、処理するために、電力管理サブシステム100に提供する。音声入力モジュール208はまた、音声を取得するためのサンプリングレート(フレームレート内でもビットレート内でも)を設定するために、電力管理サブシステム100から命令を受信してもよい。音声入力モジュール208は、音響エネルギーを電力管理サブシステム100によって処理するための電気信号に変換し得る1つ以上の圧電素子および/または微小電気機械システム(MEMS)も(またはその代わりに)含むことができる。音声入力モジュール208はさらに、増幅器、整流器、および所望の他の音声処理構成要素を提供されてもよい。
1つ以上の光検出器などの付加的な入力デバイス、位置検出器、画像取込装置などには、ユーザコンピューティングデバイス200が提供されてもよい。このような付加的な入力デバイスは、本開示の原則を曖昧にしないために図2に示されてはいない。いくつかの実施形態において、付加的な入力デバイスは、状態の発生または非発生を検出してもよい。このような状態に関する情報は、ユーザコンピューティングデバイス200の1つ以上の構成要素または電力管理サブシステム100が起動されるべきか停止されるべきかを判定するために、電力管理サブシステム100に提供されてもよい。1つの実施形態において、付加的な入力デバイスは、光レベルを検出するように構成された光検出器を含む。電力管理モジュール120は、光検出器によって検出される光レベルが閾値を満たさない場合にのみ起動されるかもしれないネットワークインターフェイスモジュール206の役割を果たすのみでもよい。別の実施形態において、付加的な入力デバイスは、顔認識機能を用いて設定されている画像取込装置を含む。この実施形態において、画像取込装置がユーザコンピューティングデバイス200と関連付けられているユーザの顔を認識した場合のみ、ネットワークインターフェイスモジュール206は起動されてもよい。入力デバイスを用いて発話認識機能を制御することについてのさらなる情報は、2003年7月31日に米国特許公開第2003/0144844号として公開された、2002年1月30日に出願された米国特許出願第10/058,730号、発明の名称「AUTOMATIC SPEECH RECOGNITION SYSTEM AND METHOD」において見出すことができ、その開示はその全体において参照によって本願に組み込まれる。発話認識機能を制御することについてのさらなる情報は、2012年12月4日に発行された、米国特許第8,326,636号、発明の名称「USING A PHYSICAl PHENOMENON DETECTOR TO CONTROL OPERATION OF A SPEECH RECOGNITION ENGINE」において見出すことができる。この特許の開示もまた、その全体において参照によって本願に組み込まれる。
マウス、キーボード、タッチスクリーン、キーパッドなどのユーザ入力デバイスを含んでもよいさらなる入力デバイスが提供されてもよい。同様に、ディスプレイ、スピーカー、ヘッドフォンなどの出力デバイスが提供されてもよい。特定の例では、(例えば、テキストから音声への変換を介する)音声形式または(例えば、ディスプレイを介する)視覚形式における発話認識結果を提示するように構成された1つ以上の出力デバイスは、ユーザコンピューティングデバイス200に含まれてもよい。このような入力および出力デバイスは当分野で周知であり、本願においてさらに詳細に検討される必要はなく、本開示の原則を曖昧にしないために図2に示されてはいない。
電源218は、ユーザコンピューティングデバイス200の種々の構成要素に電力を供給してもよい。電源218は、使い捨てまたは再充電可能バッテリまたはバッテリパックなどの無線または携帯電源を含んでもよい、または電気のコンセントに差し込まれるように構成された交流(AC)電源などの有線電源を含んでもよい。いくつかの実施形態において、電源218は、それが供給可能な電力レベル(例えば、電源218が電気のコンセントなどに差し込まれるかどうかにかかわらず、残留するバッテリ寿命のパーセント)を、電力管理サブシステム100に伝達する。いくつかの実施形態において、電力管理サブシステム100は、電源によって示された電力レベルに少なくとも部分的に基づいて、1つ以上のモジュールを選択的に起動する、または停止する。例えば、ユーザコンピューティングデバイス200が電気のコンセントに差し込まれる場合、電力管理サブシステム100は、ネットワークインターフェイスモジュール206を起動して、それを起動状態に維持してもよい。ユーザコンピューティングデバイス200がバッテリ電源で動く場合、電力管理サブシステム100は、上記のように、選択的に、ネットワークインターフェイスモジュール206を起動および停止してもよい。
図3に戻って、実例的なルーティン300が示され、ルーティン300において、音声入力を処理するために電力管理サブシステム100のモジュールが、選択的に起動されてもよい。実例的なルーティン300において後に起動されるモジュールが、比較的大きい処理要求および/または電力消費を有し得るため、実例的なルーティン300は、処理および/または電力消費の増大を表す。
音声入力モジュール208が音声入力について監視するため、実例的なルーティン300は、ブロック302で開始してもよい。音声入力モジュール208は、ブロック304で音声入力を受信してもよい。ブロック306で、受信された音声入力は、メモリバッファモジュール104に記録されてもよい。ブロック308で、音声検出モジュール106は、音声入力がエネルギーレベル閾値を満たすエネルギーレベルを有するかどうか(また、随意的に、音声入力が、少なくとも閾値期間、エネルギーレベル閾値を満たすエネルギーレベルを有するかどうか)を判定してもよい。音声入力のエネルギーレベルがエネルギーレベル閾値を満たさない場合、他の音声入力が受信されるまで、音声入力モジュール208は、ブロック310において、音声入力について監視し続けてもよい。
ブロック308に戻って、音声検出モジュール106が、音声入力が閾値を満たすエネルギーレベルを有すると決定した場合、電力管理モジュール120は、ブロック312で発話検出モジュール108を起動してもよい(あるいは、音声検出モジュール106が直接、発話検出モジュール108を起動してもよく、また、電力管理モジュール120は以下のブロックにおいても同様に除外されてもよい)。ブロック314で、実質的に図1について上述するように、発話検出モジュール108は、発話が、取得された音声入力内に存在しているかどうかを判定してもよい。発話検出モジュール108が、発話が音声入力内に存在しない(または存在している可能性が低い)と決定した場合、電力管理モジュール120は、ブロック316で発話検出モジュール108を停止してもよい。音声入力モジュール208はその後、別の音声入力が受信されるまで、ブロック310において、音声入力について監視してもよい。
ブロック314に戻って、発話検出モジュール108が、音声入力が発話を含むと決定した場合、電力管理モジュール120は、ブロック318で、発話処理モジュール110を起動してもよい。上述のように、発話処理モジュール110は、ブロック320で、ウェイクワードが発話内に存在するかどうかを判定してもよい。発話処理モジュール110が、ウェイクワードが発話中に存在しない(または、発話中に存在する可能性が低い)と決定した場合、発話処理モジュール110は、ブロック322で停止されてもよい。発話検出モジュール108はまた、ブロック316で停止されてもよい。音声入力デバイス208はその後、別の音声入力が受信されるまで、ブロック310において、音声入力について監視し続けてもよい。
ブロック320に戻って、いくつかの実施形態において、発話処理モジュール110が、ウェイクワードが発話内に存在すると決定した場合、実質的に図1について上述するように、発話処理モジュール110のユーザ401が、ブロック324において、随意的に、発話が特定のユーザと関連付けられているかどうか(例えば、ウェイクワードがユーザによって話されたかどうか)を決定する。音声が特定のユーザと関連付けられていない場合、発話処理モジュール110は、ブロック322で停止されてもよい。発話検出モジュール108はまた、ブロック316で停止されてもよい。音声入力デバイス208は、その後、別の音声入力が受信されるまで、ブロック310において音声入力について監視し続けてもよい。発話が特定のユーザと関連付けられている場合、実例的なルーティン300は、ブロック326に進んでもよい。他の実施形態において、ブロック324は除外されてもよく、実例的なルーティン300は、ウェイクワードが発話内に存在すると決定する発話処理モジュール110に応答して、直接、ブロック320からブロック326に進んでもよい。
ブロック326で、電力管理モジュール120は、図2に示される発話認識アプリケーションモジュール216を実装することが可能なアプリケーション処理モジュール112を起動してもよい。電力管理モジュール120はまた、ブロック328で、ネットワークインターフェイスモジュール206を起動してもよい。起動されたネットワークインターフェイスモジュール206を用いて、メモリバッファモジュール104に記録された音声入力は、ネットワークインターフェイスモジュール206を介して、ネットワークを通じて送信されてもよい。いくつかの実施形態において、ネットワークインターフェイスモジュール206がアクティブである一方、続いて取得される音声入力は、遠隔コンピューティングデバイスに送信されるために、音声入力モジュール208から直接、アプリケーション処理モジュール112および/またはネットワークインターフェイスモジュール206に提供される。しかしながら、他の実施形態において、発話検出モジュール108、発話処理モジュール110、およびアプリケーション処理モジュール112のうちのいずれか、またはすべては、ネットワークインターフェイスモジュール206に提供する前に音声入力を処理し、その音声入力はネットワーク410を通じて遠隔コンピューティングデバイスへ送信される。
図示されないいくつかの実施形態において、電力管理サブシステム100は、後続の認識用の音声入力を送信するために、遠隔コンピューティングデバイスが、ウェイクワードが第1の音声入力内に存在するという確認を戻すまで待機する。ウェイクワードの確認が、遠隔コンピューティングデバイスによって提供されない場合、または停止命令が、ネットワークインターフェイスモジュール206を介して受信される場合、電力管理サブシステム100のネットワークインターフェイスモジュール206および1つ以上のモジュールが停止されてもよい。
電力管理サブシステム100の動作の多くが、正確というよりむしろ確率的な決定を生成するため、実例的なルーティン300中に、エラーが起こることがある。場合によっては、電力管理サブシステム100の特定のモジュールは、1つ以上のモジュールを間違って起動させる「誤検出」を提供することがある。例えば、発話検出モジュール108は、ブロック314で、間違って発話が存在すると決定することがある、または発話処理モジュール110は、ブロック320で、発話がウェイクワードを含むと間違って決定することがある、またはブロック324で、発話がユーザに属すると決定することがある。電力管理サブシステム100のモジュールのうち適応閾値化および相互検証は、誤検出を減らすために有利に使用されてもよい。本願では適応閾値化の2つの例が検討されているが、他のタイプの適応閾値化も可能である。上述のように、発話検出モジュールは、ブロック314で、発話が音声入力内に存在すると決定してもよい。しかしながら、その優れた処理能力のため、発話検出モジュール108よりさらに正確に発話を認識する場合がある発話処理モジュール110は、実際には、発話が音声入力内に存在しないと決定してもよい。したがって、発話処理モジュール110は、今後の誤検出を減らすように、発話検出モジュール108に、発話が音声入力内に存在すると決定するためのそのスコア閾値を増やすように指示してもよい。同様に、(発話認識サーバ420などの)遠隔コンピューティングデバイスが発話認識機能を含む場合、たとえ、発話処理モジュール110が、ウェイクワードが存在していたと指示していたかもしれないとしても、遠隔コンピューティングデバイスは、ウェイクワードが発話に存在しないという指示をユーザコンピューティングデバイス200に送信してもよい。したがって、今後の誤検出を減らすように、ウェイクワードが発話内に存在すると決定するための発話処理モジュール110のスコア閾値は増えてもよい。さらに、図5についてさらに以下に記載されるように、ユーザが、誤検出を減らすために1つ以上のスコア閾値を増やすかもしれないように、ユーザインターフェイスが提供されてもよい。
場合によっては、たとえ、ユーザがウェイクワードを話したとしても、電力管理サブシステム100の構成要素が起動されないおよび/またはネットワークインターフェイスモジュール206が起動されないように、特定の構成要素は「検出漏れ」を提供することがある。例えば、発話検出モジュール108は、ブロック314で、発話が存在しないと間違って決定することがある、または発話処理モジュール110は、ブロック320で、発話がウェイクワードを含まないと間違って決定することがある、または、ブロック324で、発話がユーザに属さないと間違って決定することがある。検出漏れの可能性を減らすために、電力管理サブシステム100は、定期的に閾値スコアを低下させてもよく、例えば、ブロック314、320、および/または324において、閾値を満たすように要求されたスコアを低下させてもよい。上述のように、1つ以上の誤検出が取得されるまで、閾値は低下し続けてもよい。いったん、1つ以上の誤検出が取得されると、閾値はさらに低下しなくてもよい、または少し増加してもよい。さらに、図5についてさらに以下に記載されるように、そのため、ユーザインターフェイスが、ユーザが1つ以上のスコア閾値を減少させて検出漏れを減らせるように、提供されてもよい。
いくつかの実施形態では、ブロック314、320、または324のうちのいずれかで、否定的な結果が取得される場合、起動された構成要素のすべてが停止されるわけではない。例えば、ブロック320で、ウェイクワードが認識されていない場合、発話処理モジュール110は、ブロック322で停止されてもよいが、発話検出モジュール108は、起動されたままでもよい。付加的に、いくつかの実装例では、ブロックが飛ばされてもよい。いくつかの実施形態では、ブロック314または320のどちらかで閾値を満たすスコアは、1つ以上の後続のブロックを飛ばすように促す。例えば、ブロック320で、発話処理モジュール110が、非常に高い確信を持って、ウェイクワードが発話内に存在すると決定する場合、実例的なルーティン300は、ブロック326に直接飛んでもよい。
さらに、いくつかの実施形態では、ユーザコンピューティングデバイス200は、処理ユニット202によって実行されるように構成された自動発話認識エンジンを含んでもよい。このようなオンデバイス発話認識が著しく高い電力消費を有することもあるため、処理ユニット202は、ウェイクワードがユーザによって話されたと決定する発話処理モジュール110に応答して発話を認識するために、自動発話認識エンジンのみを実装してもよい。
図4A、図4B、および図4Cについて、分散型発話認識サービスの例示的な動作は、実例的な環境400に示される。環境400は、ユーザ401、上述のようなユーザコンピューティングデバイス200、ネットワーク410、発話認識サーバ420、およびデータストア430を含んでもよい。
ネットワーク410は、任意の有線ネットワーク、無線ネットワーク、またはそれらの組み合わせであってもよい。さらに、ネットワーク410は、パーソナルエリアネットワーク、ローカルエリアネットワーク、広域エリアネットワーク、ケーブルネットワーク、衛星ネットワーク、携帯電話ネットワーク、またはそれらの組み合わせであってもよい。インターネット、または他の前述のタイプの通信ネットワークのうちのいずれかを介する通信用のプロトコルおよびデバイスは、コンピュータ通信の分野の当業者にとって周知であるため、本願では詳細に記載する必要がない。
発話認識サーバ420は、概して、ネットワーク410を通じて通信可能な任意のコンピューティングデバイスであってもよい。いくつかの実施形態において、他の実装例も可能ではあるが、発話認識サーバ420は、1つ以上のサーバコンピューティングデバイスとして実装される。発話認識サーバ420は、ネットワーク410を通じて、音声入力をユーザコンピューティングデバイス200から受信することが可能であってもよい。この音声入力は、発話認識サーバ420の実装例に依存して、いくつかの方法で処理されてもよい。いくつかの実施形態において、発話認識サーバ420は、(例えば、音声入力を、ウェイクワードの既知のモデルと比較することによって)ウェイクワードが存在することを確認するために、ユーザコンピューティングデバイス200から受信された音声入力を処理し、その確認をユーザコンピューティングデバイス200に送信する。発話認識サーバ420は、既知の話者識別技術を用いて、ウェイクワードを話したユーザ401を識別するように、さらに構成されてもよい。
発話認識サーバ420は、音声入力から発話認識結果を決定するために、ユーザコンピューティングデバイス200から受信した音声入力を処理してもよい。例えば、音声入力は、知的エージェントのための、話された処理すべきクエリー、テキストに音訳される発話、または発話認識アプリケーションに適した他の音声を含んでもよい。発話認識サーバ420は、ネットワーク410を通じて、発話認識結果をユーザコンピューティングデバイス200に送信してもよい。分散型発話認識アプリケーションに関するさらなる情報は、2012年2月14日に発行された、米国特許第8,117,268号、発明の名称「Hosted voice recognition system for wireless devices」に見出すことができ、その開示は、本願に、その全体において参照によって組み込まれる。
発話認識サーバ420は、局地的か遠隔的かのどちらかで、データストア430と通信してもよい。データストア430は、ハードディスクドライブ、固体メモリ、および/または、発話認識サーバ420にアクセス可能な、任意の他のタイプの非一時的な、コンピュータ可読記憶媒体において具現化されてもよい。データストア430はまた、本開示の精神および範囲から逸脱することなく、当分野で知られているように、複数の記憶デバイスを横切って分配または区分されていてもよい。さらに、いくつかの実施形態では、データストア430は、ネットワークに基づく電子記憶サービスとして実装される。
データストア430は、ウェイクワードの1つ以上のモデルを含んでもよい。いくつかの実施形態では、ウェイクワードモデルはユーザ401に固有である一方、他の実施形態においては、ユーザコンピューティングデバイス200によって決定された、ウェイクワードを含む音声入力を受信する際、発話認識サーバは、音声入力を、データストア430に記憶されたウェイクワードの既知のモデルと比較してもよい。音声入力が既知のモデルと十分に類似している場合、発話認識サーバ420は、ウェイクワードの確認をユーザコンピューティングデバイス200に送信してもよく、その一方、ユーザコンピューティングデバイス200は、発話認識サーバ420によって処理されるべき音声入力をさらに取得してもよい。
データストア430はまた、発話認識で使用するための、1つ以上の音響および/または言語モデルも含んでもよい。これらのモデルは、具体的なモデル同様、汎用モデルを含んでもよい。モデルは、ユーザ401、ユーザコンピューティングデバイス200によって実装される発話認識アプリケーションおよび/または発話認識サーバ420に固有であってもよい、または他の具体的な目的を有してもよい。言語モデルおよび音響モデルに関するさらなる情報は、2012年8月16日に出願された、米国特許出願第13/587,799号、発明の名称「DISCRIMINATIVE LANGUAGE MODEL PRUNING」および2012年8月22日に出願された、米国特許出願第13/592,157号、発明の名称「UNSUPERVISED ACOUSTIC MODEL TRAINING」において見出すことができる。これらの出願の両方の開示は、上記の参照によって前もって組み込まれた。
データストア430は、発話認識サーバ420によって受信された音声入力内に含まれたクエリーに応答しているデータをさらに含んでもよい。発話認識サーバ420は、音声入力に含まれる発話を認識し、発話に含まれるクエリーを識別し、データストア430内の応答データを識別するためにクエリーを処理してもよい。発話認識サーバ420は、その後、ネットワーク410を介して、応答データを含む知的エージェント応答をユーザコンピューティングデバイス200に提供してもよい。さらなるデータは、データストア430に含まれてもよい。
上述のデバイスの多くが任意であってよく、環境400の実施形態がデバイスを組み合わせてもいいし、または組み合わせなくてもよいことが認識されるであろう。さらに、デバイスは、明確または別々のものである必要はない。デバイスはまた、環境400において再編成されてもよい。例えば、発話認識サーバ420は、1つの物理サーバコンピューティングデバイスとして表現されてもよいし、または、その代わりに、本願に記載された機能性を達成する複数の物理サーバに分かれてもよい。さらに、ユーザコンピューティングデバイス200は、発話認識サーバ420の発話認識機能性のうちのいくつか、またはすべてを有してもよい。
付加的に、いくつかの実施形態では、ユーザコンピューティングデバイス200および/または発話認識サーバ420が、ホストコンピュータ環境に実装されるもう1つの仮想マシンによって実行されてもよいことが留意されるべきである。ホストコンピュータ環境は、1つ以上の急速に準備され、発売されたコンピューティング資源を含んでもよく、そのコンピューティング資源は、コンピューティング、ネットワーキングおよび/または記憶デバイスを含んでもよい。ホストコンピュータ環境はまた、クラウドコンピュータ環境として言及されてもよい。ホストコンピュータ環境のコンピューティングデバイスのうちの1つ以上は、上述のように電力管理サブシステム100を含んでもよい。
特に図4Aを参照すると、それによってウェイクワードが確認されてもよい実例的な動作が示される場合がある。ユーザ401は、ウェイクワード502を話してもよい。実質的に図3について上述するように、ユーザコンピューティングデバイス200はユーザの発話を含んでもよい音声入力を取得してもよく(1)、ウェイクワード402が発話内に存在すると決定してもよい(2)。音声入力は、音声命令またはクエリーを含んでもよい。発話がウェイクワードを含むと決定することに応答して、ユーザコンピューティングデバイス200のアプリケーション処理モジュール112およびネットワークインターフェイスモジュール206が起動されてもよく(3)、音声入力が、ネットワーク410を通じて発話認識サーバ420に送信されてもよい(4)。発話認識サーバ420は、ウェイクワードが音声入力内に存在することを確認してもよく(5)確認を、ネットワーク410を通じてユーザコンピューティングデバイス200に送信してもよい(6)。
図4Bに戻ると、発話認識サーバ420からウェイクワードの確認を受信することに応答して、ユーザコンピューティングデバイス200は、処理するために発話認識サーバ420に提供される音声入力を取得し続けてもよい(7)。例えば、取得された音声入力は、発話認識サーバ420によって処理するための知的エージェントクエリー404を含んでもよい。あるいは、取得された音声入力は、(例えば、書き取り、ワードプロセッシング、またはアプリケーション処理モジュール112によって実行されるメッセージングアプリケーションとともに使用される)発話認識サーバ420によって音訳される発話を含んでもよい。ユーザコンピューティングデバイス200は、音声入力を、ネットワーク410を通じて発話認識サーバ420に送信してもよい(8)。随意的に、それに関して発話認識結果が生成される発話認識アプリケーションの識別子は、発話認識サーバ420に提供されてもよく、その結果、発話認識サーバ420は、特に、アプリケーション処理モジュール112によって実装される発話認識アプリケーションとともに使用される結果を生成してもよい。発話認識サーバ420は、音声入力に含まれる発話を認識してもよく(9)、そこから発話認識結果を生成してもよい(10)。発話認識結果は、例えば、音声の音訳、音声に含まれるクエリーに対する知的エージェント応答、または他の任意のタイプの結果を含んでもよい。これらの発話認識結果は、発話認識サーバ420から、ネットワーク410を通じてユーザコンピューティングデバイス200に送信されてもよい(11)。結果を受信することに応答して、アプリケーション処理モジュール112は、(テキストから音声への変換を介する)音声形式または(例えば、ユーザコンピューティングデバイス200のディスプレイを介する)視覚形式における結果を提示させてもよい(12)。
図4Cを参照して、ユーザコンピューティングデバイス200は、処理するために発話認識サーバ420に提供される音声入力を取得し続けてもよい(13)。ユーザコンピューティングデバイス200は、ネットワーク410を通じて音声入力を発話認識サーバ420に送信してもよい(14)。発話認識サーバは、音声入力に含まれる任意の発話を認識してもよい(15)。発話を認識することに応答して、発話認識サーバ420は、ユーザ401がもはや、ユーザコンピューティングデバイス200に話しかけていないことを決定して、任意の後続の発話認識を止めてもよい(16)。例えば、ユーザ401は、無方向の自然な言語発話406などの構造化命令またはクエリーに対応しない言葉を話してもよい。発話認識サーバ420はまた、発話が認識結果内で処理されるべきではなく、かつ、発話がユーザコンピューティングデバイス200に向けられていないことを決定するために、発話の速度、注意深さ、屈折、または明瞭性を分析してもよい。
他のタイプの音声入力はまた、後続の発話認識を止めるように発話認識サーバ420を促してもよい。あるいは、発話認識サーバ420は、受信された音声入力が発話を含まないことを決定してもよい。ユーザコンピューティングデバイス200に向けられた発話を含まない1つ以上の音声入力を受信することに応答して、発話認識サーバ420は、発話認識結果が生成されるべきではなく、発話認識が止まるべきであることを決定してもよい。さらに、音声入力は、ユーザ401によって選択されてもよい所定のスリープワードを含んでもよい。発話認識サーバ420がスリープワードを検出すると、発話認識サーバ420は、音声入力に対して発話認識を行うことを止めてもよい。さらに、発話認識サーバ420は、(例えば、ユーザコンピューティングデバイス200によって取得された複数の音声入力に対して話者識別を行うことによって)複数のユーザ401がユーザコンピューティングデバイス200の付近に存在すると決定してもよい。識別されたユーザ401の数(1つより大きいユーザ401の任意の数であってもよい)が閾値を満たす場合、発話認識サーバ420は、ユーザコンピューティングデバイス200によって取得された任意の音声入力が発話認識結果へと処理されることを目的としてはいないようであると決定してもよい。
ユーザ401の発話がユーザコンピューティングデバイス200に向けられていないと決定すること(または、後続の発話認識が、上述の他の理由のいずれかに関して行われるべきではないと決定すること)に応答して、発話認識サーバ420は、ネットワーク410を通じて、停止命令(17)をユーザコンピューティングデバイス200に送信してもよい。停止命令を受信することに応答して、ユーザコンピューティングデバイス200は、そのネットワークインターフェイスモジュール206およびアプリケーション処理モジュール112、発話処理モジュール110、および/または発話検出モジュール108などの電力管理サブシステム100の1つ以上の構成要素を停止してもよい(18)。他の状態もまた、発話認識サーバ420に、停止命令をユーザコンピューティングデバイス200に送信するように促してもよい。例えば、図4Aに戻って、発話認識サーバ420が、ウェイクワードが状態(1)で受信された音声入力に存在しないと決定すると、発話認識サーバ420は、停止命令をユーザコンピューティングデバイス200に送信してもよい。あるいは、発話認識サーバ420は、それが最後に、ユーザコンピューティングデバイス200からの発話を含む音声入力を受信してから時間の閾値量が経過したと決定してもよく、したがって停止命令をユーザコンピューティングデバイス200に送信してもよい。さらに他の基準が、停止命令をユーザコンピューティングデバイス200に送信するために、決定されてもよい。
図4Aに再び戻って、ウェイクワードを含むように決定される後続の音声入力を受信する際、ユーザコンピューティングデバイス200は、電力管理サブシステム100およびネットワークインターフェイスモジュール206の構成要素を起動してもよいし、音声入力を発話認識サーバ420に送信してもよい。本願に示される例示的な動作は、このように、それら自身を繰り返してもよい。
図4A、図4B、および図4Cに図示された例示的な動作は、実例的な目的のために提供される。1つ以上の状態は、本願に示された例示的な動作から除外されてもよい、または付加的な状態が付加されてもよい。特定の例では、ユーザコンピューティングデバイス200は、そのために発話認識結果が発話認識サーバ420によって生成される音声入力を送信する前に、発話認識サーバ420からウェイクワードの確認を取得する必要はない。付加的に、ユーザコンピューティングデバイス200は、アプリケーション処理モジュール112、発話処理モジュール110、または発話検出モジュール108などの、そのネットワークインターフェイスモジュール206および/またはその電力管理サブシステム100の構成要素の1つ以上を停止する前に、停止命令を取得する必要はない。むしろ、電力管理サブシステム100は、エネルギーレベル閾値を満たすエネルギーレベルを有する音声入力がユーザコンピューティングデバイス200によって取得されてから、(音声検出モジュール106を介して)少なくとも時間の閾値量が経過したと決定してもよい。あるいは、ユーザコンピューティングデバイス200は、発話を含む音声入力が取得されてから、(発話検出モジュール108を介して)少なくとも時間の閾値量が経過したと決定してもよい。時間の閾値量が経過したと決定することに応答して、電力管理サブシステム100は、ネットワークインターフェイスモジュール206を停止させてもよく、図3に関して上述されるように、それ自身の構成要素の1つ以上を停止してもよい。
さらに、電力管理サブシステム100は、図3において、どのようにウェイクワードが識別されているかに実質的に類似した方法で、ユーザ401によって選択され、話されたスリープワードを認識するように構成されてもよい。スリープワードが、電力管理サブシステム100によって(例えば、発話処理モジュール110によって)検出されると、ネットワークインターフェイスモジュール206および/または電力管理サブシステム100の構成要素の1つ以上が停止されてもよい。同様に、ユーザコンピューティングデバイス200がそれ自身のオンデバイス発話認識機能を含む場合、それらは、検出されつつあるスリープワードに応答して、停止されてもよい。
図5は、電力管理サブシステム100およびユーザコンピューティングデバイス200の動作をカスタマイズするために、ユーザコンピューティングデバイス200によって提供されてもよい実例的なユーザインターフェイス500を図示する。1つの実施形態において、ユーザインターフェイスモジュール212は、ユーザインターフェイス500を介して作成されたユーザ入力を処理し、それを電力管理サブシステム100に提供する。
エネルギーレベル閾値要素502は、図3のブロック308に示されるように、ユーザが、発話検出モジュール108が起動されるべき閾値エネルギーレベルを特定できるようにしてもよい。例えば、ユーザコンピューティングデバイス200が比較的、騒音の多い環境にある場合、またはユーザコンピューティングデバイス200が音声検出モジュール106によって決定されるかなりの数の「誤検出」を体験している場合、ユーザ401は、発話処理モジュール108が起動されるエネルギーレベル閾値を増加させたいと思うかもしれない。ユーザ401が比較的、静かな環境にある場合、またはユーザコンピューティングデバイス200がかなりの数の検出漏れを体験している場合、ユーザ401は、発話検出モジュール108が起動されるエネルギーレベル閾値を減少させたいと思うかもしれない。上述のように、エネルギーレベル閾値は、量の閾値、強度の閾値、振幅の閾値、または音声入力に関連する他の閾値に対応してもよい。
キーワード信頼性閾値要素504は、ユーザが、発話処理モジュール110が、キーワードが存在すると決定する閾値スコアを特定できるようにしてもよい。同様に、識別信頼性閾値要素は、ユーザが、発話処理モジュール110が、ユーザがキーワードを話したと決定する閾値スコアを特定できるようにしてもよい。1つの実施形態において、アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206は、ウェイクワードを認識する発話処理モジュール110に応答して起動される(例えば、発話処理モジュール110は、閾値を満たすスコアを決定し、そのスコアは、ウェイクワードが発話に含まれる可能性に対応する)。別の実施形態において、アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206は、ウェイクワードがユーザ401と関連付けられていると決定する発話処理モジュール110に応答して起動され、少なくとも閾値スコアが、ウェイクワードがユーザと関連付けられている可能性に対応する。さらなる実施形態では、アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206は、発話処理モジュール110に応答して起動され、その両方が、少なくとも閾値スコアを用いてウェイクワードを認識し、少なくとも閾値スコアを用いてウェイクワードがユーザ401と関連付けられていると決定する。ユーザ401が、電力管理サブシステム100の個々の構成要素のうちのいずれか、またはすべてを起動するための個々の閾値を設定できるようにするために、他の閾値要素が提供されてもよい。実質的に図3について上述したように、ユーザが実例的なルーティン300の1つ以上のブロックが飛ばされてもよいスコアを特定できるようにするために、さらなる閾値要素が提供されてもよい。
ユーザインターフェイス500は、1つ以上のタイマー要素508Aおよび508Bをさらに含んでもよい。各タイマー要素は、ネットワークインターフェイスモジュール206および/または電力管理サブシステム100の1つ以上の構成要素が自動的に停止される閾値時間間隔を設定するために使用されてもよい。タイマー要素508Aに関して、電力管理サブシステム100が、エネルギーレベル閾値を満たすエネルギーレベルを有する音声入力がユーザコンピューティングデバイス200によって取得されてから少なくとも閾値時間間隔が経過したと決定する場合、電力管理サブシステム100のアプリケーション処理モジュール112、発話処理モジュール110、および発話検出モジュール108に加えて、ネットワークインターフェイスモジュール206は、自動的に停止されてもよい。さらなるタイマー要素はまた、実質的に図4Cについて上述するように、その後、発話認識サーバ420が、停止命令を、ネットワークインターフェイスモジュール206および電力管理サブシステム100に自動的に送信する閾値時間間隔を設定するために使用されてもよい。他のモジュールのための電力管理サブシステム100のタイマー要素もまた、提供されてもよい。
引き続き図5に関して、ユーザ401は、ウェイクワードが、サーバ確認要素510を用いて発話認識サーバ420によって確認されるべきかどうかを選択し得る。いくつかの実施形態では、アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206は、ウェイクワードの確認が発話認識サーバ420から受信された場合に発話処理モジュール110がウェイクワードを検出した後にのみ、起動されたままになる。ユーザ401がウェイクワードのサーバ確認を要求した場合、ウェイクワードが確認されない限り、続いて取得された音声入力は発話認識サーバ420に送信されないかもしれない。しかしながら、上述のように、確認が要求される必要はない。ユーザ401がウェイクワードのサーバ確認を要求しない場合、ユーザコンピューティングデバイス200は、発話内のウェイクワードを検出するおよび/または発話がユーザ401と関連付けられていると決定する発話処理モジュール110の後に取得された1つ以上の音声入力を送信してもよい。
ユーザ401はまた、話者識別要素512のために話者識別が要求されるかどうかを選択してもよい。ユーザ401が話者識別を要求する場合、発話処理モジュール110および/または発話認識サーバ420は、ウェイクワードに対応する発話を含む音声入力がユーザ401と関連付けられているかどうかを判定するために使用されてもよい。アプリケーション処理モジュール112およびネットワークインターフェイスモジュール206は、ユーザ401が発話の話者であると決定する発話処理モジュール110に応答して起動されてもよい。同様に、ネットワークインターフェイスモジュール206は、ユーザ401が本当にウェイクワードの話者であるという確認を発話認識サーバ420から受信することに応答して起動状態を維持してもよい。しかしながら、ユーザ401が話者識別を要求しない場合、発話処理モジュール110も発話認識サーバ420も、話者を識別する必要はない。
ユーザインターフェイス500はまた、オンデバイス認識選択要素514も含んでもよく、ユーザ401は、ユーザコンピューティングデバイス200がそれ自身で発話認識結果を生成するかどうか、または音声入力が、発話認識結果へと処理するための発話認識サーバ420に経路指定されるかどうかを選択してもよい。ユーザコンピューティングデバイス200がオンデバイス発話認識機能を含まない場合、オンデバイス認識選択要素514は、随意的に、無効になるか、または灰色にされてもよい。さらに、処理ユニット202および/またはアプリケーション処理モジュール112によって実装されるようなオンデバイス発話認識機能が比較的大きな電力消費を要求する場合があるため、電源218が閾値電源レベル(例えば、充電パーセンテージ)を下回る場合、オンデバイス認識選択要素514は、自動的に非選択状態になってもよい(また、オンデバイス発話認識機能は自動的に無効になってもよい)。
ウェイクワードペイン516およびスリープワードペイン518は、ユーザインターフェイス要素を含んでもよく、この要素によって、ユーザ401はユーザ401によって話されたウェイクワードまたはスリープワードを記録し、かつ再生させてもよい。ユーザ401がウェイクワードまたはスリープワードを記録すると、ユーザの発話を含む音声入力が発話認識サーバ420に提供されてもいいように、ネットワークインターフェイスモジュール206が自動的に起動されてもよい。ユーザが、記録されたウェイクワードまたはスリープワードが発話認識サーバ420によって正確に理解されたかどうかを判定してもよいように、発話認識サーバ420は記録されたウェイクワードまたはスリープワードの音訳を戻してもよい。あるいは、ユーザ401がウェイクワードまたはスリープワードを記録するとき、ユーザコンピューティングデバイス200の任意のオンデバイス発話認識機能は、ユーザ401の記録された発話を音訳するために、起動されてもよい。話されたウェイクワードまたはスリープワードのスペクトル表現はまた、ユーザインターフェイス500によって提供されてもよい。随意的に、ウェイクワードペイン516およびスリープワードペイン518は、ウェイクワードまたはスリープワードについての提案を含んでもよいし、ユーザ401によって提供されたウェイクワードまたはスリープワードの質を示してもよく、この質は、ウェイクワードまたはスリープワードが誤検出または検出漏れを生じさせる可能性を反映していることがある。キーワードを提案することに関するさらなる情報は、2012年11月6日に出願された、米国特許出願第13/670,316号、発明の名称「WAKE WORD EVALUATION」に見出すことができる。この出願の開示は、本願においては、その全体において参照することにより組み込まれる。
種々の本開示の態様は、実例的な目的のためのハードウェア実装例として検討された。しかしながら、上述のように、電力管理サブシステム100は、処理ユニット202によって、部分的に、または全体的に実装されてもよい。例えば、電力管理サブシステム100の機能性のうちのいくつかまたはすべては、処理ユニット202によって実行されるソフトウェア命令として実装されてもよい。特に非限定的な例では、発話処理モジュール110、アプリケーション処理モジュール112、および電力管理モジュール120の機能性は、処理ユニット202よって実行されるソフトウェアとして実装されてもよい。したがって、処理ユニット202は、ウェイクワードを検出することに応答して、ネットワークインターフェイスモジュール206を選択的に起動するおよび/または停止するように構成されてもよい。さらなる実装例が可能である。
実施形態に依存して、本願に記載されたルーティンまたはアルゴリズムのうちのいずれかの所定の行為、イベント、または機能は、異なるシーケンスで行われ、付加され、融合され、または完全に放置されることが可能である(例えば、記載された動作またはイベントのすべてが、アルゴリズムの実践のために必要というわけではない)。さらに、所定の実施形態において、連続的よりむしろ、例えば、マルチスレッド処理、割り込み処理、または複数のプロセッサまたはプロセッサコアを通して、または他の並列アーキテクチャ上で、動作またはイベントが同時に行われ得る。
本願に開示された実施形態に関連した種々の実例的な論理ブロック、モジュール、ルーティン、およびアルゴリズムステップは、電子ハードウェア、コンピュータソフトウェア、またはその両方の組み合わせとして、実装され得る。ハードウェアおよびソフトウェアのこの互換性を明確に説明するために、種々の実例的な構成要素、ブロック、モジュール、およびステップは、概してそれらの機能性の観点から上述されている。このような機能性が、ハードウェアまたはソフトウェアとして実装されるかどうかは、全体のシステムに課される特定のアプリケーションおよび設計上の制約に依存する。記載された機能性は各特定のアプリケーションに関する様々な方法で実装され得るが、このような実装例の決定は、本開示の範囲から逸脱すると解釈されるべきではない。
とりわけ、「can」、「could」、「might」、「may」、「e.g.」などの条件文の言語は、特に具体的に述べられない限り、または特に使用された文脈内で理解されない限り、所定の実施形態は所定の特徴、要素および/またはステップを含むが、他の実施形態はそれらを含まないと伝えることを、概して目的としている。このように、このような条件文の言語は、特徴、要素および/またはステップが何らかの形で1つ以上の実施形態に要求されている、または1つ以上の実施形態が、著者入力またはプロンプティングとともに、あるいは無しで、これらの特徴、要素および/またはステップがいずれかの特定の実施形態に含まれるか、または行われるかを決定するための論理を必ずしも含むことを意味することを、一般的に目的とはしていない。「comprising」、「including」、「having」などの用語は同義語であり、オープンエンド形式で包括的に使用され、付加的な要素、特徴、行為、動作などを除外しない。また、用語「or」は、例えば、それが要素のリストをつなぐために使用されたときに、用語「or」が、リスト内の要素の1つ、いくつか、またはすべてを意味するように、その包括的な意味で使用される(またその排他的な意味では使用されない)。
語句「X、Y、およびZのうちの少なくとも1つ」などの接続文の言語は、特に別の具体的な記述がない限り、一般的に使用される文脈とともに、項目、用語などが、X、Y、またはZ、またはそれらの組み合わせのどちらかであってもよいことを伝えるように理解される。このように、このような接続文の言語は、概して、所定の実施形態が、Xの少なくとも1つ、Yの少なくとも1つ、およびZの少なくとも1つがそれぞれ、存在するように要求することを意味することは目的としていない。
上述の詳細な説明が、種々の実施形態に適用されるように、新規の特徴を示し、記載し、指摘している一方、種々の省略、置換、および説明されたデバイスまたはアルゴリズムの形式および詳細における変化が、本開示の精神から逸脱することなく理解され得る。いくつかの特徴が使用され得る、または他とは区別されて実践され得るため、認識され得るように、本願に記載された発明の所定の実施形態は、本願に記載された特徴および利点のすべてを提供するわけではない形式で具現化され得る。本願に開示された所定の発明の範囲は、前述の記載によるよりはむしろ、添付の請求の範囲によって示される。請求の範囲の意味および等価の範囲内にあるすべての変化は、それらの範囲内に包含されることになる。
付記:
付記1.
音声入力を受信するように構成された音声入力モジュールと、
音声入力モジュールと通信する音声検出モジュールであって、音声入力の量を決定し、かつ決定された量に少なくとも部分的に基づいて、発話検出モジュールを起動させるように構成された、音声検出モジュールと、
音声入力が発話を含む可能性を示す第1のスコアを決定し、かつスコアに少なくとも部分的に基づいて、ウェイクワード認識モジュールを起動させるように構成された発話検出モジュールと、
音声入力がウェイクワードを含む可能性を示す第2のスコアを決定するように構成されたウェイクワード認識モジュールと、
取得された音声入力の少なくとも一部を遠隔コンピューティングデバイスに送信するように構成されたネットワークインターフェイスモジュールと、を備える、システム。
付記2.
音声入力デバイスがマイクロフォンを備え、音声検出モジュールが、第1のデジタル信号プロセッサを備え、発話検出モジュールが、第2のデジタル信号プロセッサを備え、ウェイクワード認識モジュールが、マイクロプロセッサを備える、付記1に記載のシステム。
付記3.
発話検出モジュールが、隠れモルコフモデル、ガウス混合モデル、複数のスペクトル帯におけるエネルギー、または複数のスペクトル帯における信号対雑音比のうちの少なくとも1つを使用して、第1のスコアを判定するようにさらに構成され、
ウェイクワード認識モジュールが、アプリケーション処理モジュール、隠れモルコフモデル、およびガウス混合モデルのうちの少なくとも1つを使用して、第2のスコアを判定するようにさらに構成される、付記1に記載のシステム。
付記4.
ウェイクワード認識モジュールが、第1のスコアに少なくとも部分的に基づいて、音声検出モジュールを停止させるようにさらに構成され、
ウェイクワード認識モジュールが、第2のスコアに少なくとも部分的に基づいて、発話検出モジュールを停止させるようにさらに構成される、付記1に記載のシステム。
付記5.
第1のコンピューティングデバイスを動作させるコンピュータ実装方法であって、
音声入力を受信することと、
音声入力から1つ以上の値であって、
音声入力のエネルギーレベルを示す第1の値、または
音声入力が発話を含む可能性を示す第2の値のうちの少なくとも1つを含む、1つ以上の値を決定することと、
1つ以上の値に少なくとも部分的に基づいて、第1のコンピューティングデバイスの第1のモジュールを起動することと、
第1のモジュールによって動作を行うことと、を含み、動作が、
音声入力がウェイクワードを含むと決定すること、
発話認識結果を取得するために、音声入力の少なくとも一部に対して発話認識を行うこと、または
音声入力の少なくとも一部を第2のコンピューティングデバイスに送信させること、のうちの少なくとも1つを含む、方法。
付記6.
第1のモジュールが、低出力状態と高出力状態との間で切り替え可能なプロセッサを含み、
プロセッサが、それが高出力状態にあるときのみ、動作を行う、付記5に記載のコンピュータ実装方法。
付記7.
第1のモジュールを起動することが、プロセッサを、低出力状態から高出力状態に切り替えることを含む、付記6に記載のコンピュータ実装方法。
付記8.
第1のモジュールを停止することさらに含み、第1のモジュールを停止することが、プロセッサを高出力状態から低出力状態に切り替えることを含む、付記6に記載のコンピュータ実装方法。
付記9.
プロセッサが、デジタル信号プロセッサまたはマイクロプロセッサのうちの少なくとも1つを含む、付記6に記載のコンピュータ実装方法。
付記10.
第1のモジュールが、マイクロプロセッサによって実行されるように構成されたソフトウェアモジュールを含む、付記5に記載のコンピュータ実装方法。
付記11.
第1のモジュールを起動することが、マイクロプロセッサに、ソフトウェアモジュールを実行させることを含む、付記10に記載のコンピュータ実装方法。
付記12.
動作が、音声入力の少なくとも一部を第2のコンピューティングデバイスに送信させることを含み、第2のコンピューティングデバイスから発話認識結果を受信することをさらに含む、付記5に記載のコンピュータ実装方法。
付記13.
発話認識結果が、音声入力の少なくとも一部の音訳と、音声入力の少なくとも一部に含まれる知的エージェントクエリーに対する応答とのうちの少なくとも1つを含む、付記12に記載のコンピュータ実装方法。
付記14.
1つ以上の値に少なくとも部分的に基づいて、第1のコンピューティングデバイスの第2のモジュールであって、発話認識アプリケーションを実装するように構成された、第2のモジュールを起動することと、
発話認識アプリケーションを用いて、発話認識結果を処理することと、をさらに含む、付記12に記載のコンピュータ実装方法。
付記15.
第1のプロセッサであって、
音声入力のエネルギーレベルを示す第1の値、または音声入力が発話を含む可能性を示す第2の値のうちの少なくとも1つを含む、1つ以上の値を決定することと、
1つ以上の値に少なくとも部分的に基づいて、第2のプロセッサを起動させることと、を行うように構成された、第1のプロセッサと、
動作を行うように構成された第2のプロセッサであって、動作が、
音声入力がウェイクワードを含むと決定すること、
発話認識結果を取得するために、音声入力の少なくとも一部に対して発話認識を行うこと、または
音声入力の少なくとも一部を第2のデバイスに送信させること、のうちの少なくとも1つを含む、第2のプロセッサと、を備える、デバイス。
付記16.
第1のプロセッサが、デジタル信号プロセッサまたはマイクロプロセッサのうちの少なくとも1つを備える、付記15に記載のデバイス。
付記17.
第2のプロセッサが、デジタル信号プロセッサまたはマイクロプロセッサのうちの少なくとも1つを備える、付記15に記載のデバイス。
付記18.
音声入力を記憶するように構成されたメモリバッファモジュールをさらに含む、付記15に記載のデバイス。
付記19.
音声入力を記憶するように構成されたメモリバッファモジュールがリングバッファを含む、付記18に記載のデバイス。
付記20
第1のプロセッサと通信する音声入力モジュールをさらに含み、音声入力モジュールが音声入力を取得するように構成された、付記15に記載のデバイス。
付記21.
音声入力を取得するように構成された音声入力モジュールと、
音声入力モジュールと通信する第1のモジュールと、
第1のモジュールと通信する第2のモジュールと、を備える、システムであって、
第1のモジュールが、
音声入力に少なくとも部分的に基づいて1つ以上の値を決定するように、また、
1つ以上の値に少なくとも部分的に基づいて第2のモジュールを起動させるように構成され、
第2のモジュールが、発話認識を音声入力の少なくとも一部に対して行わすように構成される、システム。
付記22.
1つ以上の値が音声入力の量を含む、付記21に記載のシステム。
付記23.
少なくとも閾値期間、音声入力の量が量の閾値を満たす場合のみ、第2のモジュールが起動されることになる、付記22に記載のシステム。
付記24.
1つ以上の値が、音声入力が発話を含む可能性を含む、付記21に記載のシステム。
付記25.
1つ以上の値が、音声入力がウェイクワードを含む可能性を示すスコアを含む、付記21に記載のシステム。
付記26.
1つ以上の値が、ウェイクワードが、ウェイクワードと関連付けられているユーザによって話された可能性を示すスコアをさらに含む、付記25に記載のシステム。
付記27.
音声入力の少なくとも一部に関して発話認識結果を生成することによって、第2のモジュールが発話認識を音声入力の少なくとも一部に対して行わすように構成される、付記21に記載のシステム。
付記28.
音声入力を遠隔コンピューティングデバイスに送信させ、
音声入力の少なくとも一部に関して、発話認識結果を遠隔コンピューティングデバイスから受信することによって、
第2のモジュールが、発話認識を音声入力の少なくとも一部に対して行わすように構成される、付記21に記載のシステム。

Claims (15)

  1. 音声入力モジュールと、
    音声検出モジュールと、
    発話検出モジュールと、
    ウェイクワード認識モジュールと、
    ネットワークインターフェイスモジュールと、
    を備えるシステムであって、
    前記音声入力モジュールは、音声入力を受信するように構成され、
    前記音声検出モジュールは、前記音声入力モジュールと通信し、前記音声入力の量を決定し、前記決定された量に少なくとも部分的に基づいて、発話検出モジュールを起動させるように構成され、
    前記発話検出モジュールは、前記音声入力が発話を含む可能性を示す第1のスコアを決定し、前記スコアに少なくとも部分的に基づいて、前記ウェイクワード認識モジュールを起動させるように構成され、
    前記ウェイクワード認識モジュールは、前記音声入力がウェイクワードを含む可能性を示す第2のスコアを決定するように構成され、
    前記ネットワークインターフェイスモジュールは、前記取得された音声入力の少なくとも一部を遠隔コンピューティングデバイスに送信するように構成される、
    システム。
  2. 前記音声入力デバイスは、マイクロフォンを備え、
    前記音声検出モジュールは、第1のデジタル信号プロセッサを備え、
    前記発話検出モジュールは、第2のデジタル信号プロセッサを備え、
    前記ウェイクワード認識モジュールは、マイクロプロセッサを備える、
    請求項1に記載のシステム。
  3. 前記発話検出モジュールは、隠れモルコフモデル、ガウス混合モデル、複数のスペクトル帯におけるエネルギー、および、複数のスペクトル帯における信号対雑音比のうちの少なくとも1つを使用して、前記第1のスコアを判定するようにさらに構成され、
    前記ウェイクワード認識モジュールは、アプリケーション処理モジュール、隠れモルコフモデル、および、ガウス混合モデルのうちの少なくとも1つを使用して、前記第2のスコアを判定するようにさらに構成される、
    請求項1に記載のシステム。
  4. 前記ウェイクワード認識モジュールは、前記第1のスコアに少なくとも部分的に基づいて、前記音声検出モジュールを停止させるようにさらに構成され、
    前記ウェイクワード認識モジュールは、前記第2のスコアに少なくとも部分的に基づいて、前記発話検出モジュールを停止させるようにさらに構成される、
    請求項1に記載のシステム。
  5. 第1のコンピューティングデバイスを動作させるコンピュータ実装方法であって、
    音声入力を受信するステップと、
    前記音声入力から1つ以上の値であって、
    前記音声入力のエネルギーレベルを示す第1の値と、
    前記音声入力が発話を含む可能性を示す第2の値と、
    のうちの少なくとも1つを含む、1つ以上の値を決定するステップと、
    前記1つ以上の値に少なくとも部分的に基づいて、前記第1のコンピューティングデバイスの第1のモジュールを起動するステップと、
    前記第1のモジュールによって動作を行うステップと、
    を含み、
    前記動作は、
    前記音声入力がウェイクワードを含むと決定するステップと、
    発話認識結果を取得するために、前記音声入力の少なくとも一部に対して発話認識を行うステップと、
    前記音声入力の少なくとも一部を第2のコンピューティングデバイスに送信させるステップと、
    のうちの少なくとも1つを含む、
    方法。
  6. 前記第1のモジュールは、低出力状態と高出力状態との間で切り替え可能なプロセッサを含み、
    前記プロセッサは、高出力状態にあるときのみ、前記動作を行う、
    請求項5に記載のコンピュータ実装方法。
  7. 前記第1のモジュールを起動するステップは、前記プロセッサを、前記低出力状態から前記高出力状態に切り替えるステップを含む、
    請求項6に記載のコンピュータ実装方法。
  8. 前記第1のモジュールを停止するステップさらに含み、前記第1のモジュールを停止するステップは、前記プロセッサを前記高出力状態から前記低出力状態に切り替えるステップを含む、
    請求項6に記載のコンピュータ実装方法。
  9. 前記プロセッサは、デジタル信号プロセッサまたはマイクロプロセッサのうちの少なくとも1つを含む、
    請求項6に記載のコンピュータ実装方法。
  10. 前記動作は、
    前記音声入力の少なくとも一部を前記第2のコンピューティングデバイスに送信させるステップと、
    前記第2のコンピューティングデバイスから発話認識結果を受信するステップと、
    をさらに含む、
    請求項5に記載のコンピュータ実装方法。
  11. 前記1つ以上の値に少なくとも部分的に基づいて、前記第1のコンピューティングデバイスの第2のモジュールであって、発話認識アプリケーションを実装するように構成された第2のモジュールを起動するステップと、
    前記発話認識アプリケーションを用いて、前記発話認識結果を処理するステップと、
    をさらに含む、
    請求項10に記載のコンピュータ実装方法。
  12. 第1のプロセッサおよび第2のプロセッサを備えるデバイスであって、
    前記第1のプロセッサは、
    音声入力のエネルギーレベルを示す第1の値と、前記音声入力が発話を含む可能性を示す第2の値と、のうちの少なくとも1つを含む1つ以上の値を決定し、
    前記1つ以上の値に少なくとも部分的に基づいて、前記第2のプロセッサを起動させる、
    ように構成され、
    前記第2のプロセッサは、動作を行うように構成され、前記動作は、
    前記音声入力がウェイクワードを含むと決定するステップと、
    発話認識結果を取得するために、前記音声入力の少なくとも一部に対して発話認識を行うステップと、
    前記音声入力の少なくとも一部を第2のデバイスに送信させるステップと、
    のうちの少なくとも1つを含む、
    デバイス。
  13. 前記第1のプロセッサは、デジタル信号プロセッサまたはマイクロプロセッサのうちの少なくとも1つを含む、
    請求項12に記載のデバイス。
  14. 前記音声入力を記憶するように構成されたメモリバッファモジュールをさらに備える、
    請求項12に記載のデバイス。
  15. 前記第1のプロセッサと通信する音声入力モジュールをさらに備え、前記音声入力モジュールは、前記音声入力を取得するように構成される、
    請求項12に記載のデバイス。
JP2015547451A 2012-12-11 2013-12-09 発話認識電力管理 Active JP6200516B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/711,510 2012-12-11
US13/711,510 US9704486B2 (en) 2012-12-11 2012-12-11 Speech recognition power management
PCT/US2013/073913 WO2014093238A1 (en) 2012-12-11 2013-12-09 Speech recognition power management

Publications (2)

Publication Number Publication Date
JP2016505888A true JP2016505888A (ja) 2016-02-25
JP6200516B2 JP6200516B2 (ja) 2017-09-20

Family

ID=49841853

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015547451A Active JP6200516B2 (ja) 2012-12-11 2013-12-09 発話認識電力管理

Country Status (5)

Country Link
US (3) US9704486B2 (ja)
EP (1) EP2932500B1 (ja)
JP (1) JP6200516B2 (ja)
CN (1) CN105009204B (ja)
WO (1) WO2014093238A1 (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180118462A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
KR20180127102A (ko) * 2017-05-19 2018-11-28 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
KR20180127101A (ko) * 2017-05-19 2018-11-28 엘지전자 주식회사 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
KR20180130889A (ko) * 2017-05-30 2018-12-10 엘지전자 주식회사 음성 인식 서버 시스템의 동작 방법
CN109147770A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
JP2019091012A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報認識方法および装置
JP2019139211A (ja) * 2018-02-09 2019-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声ウェイクアップ方法及び装置
KR20200027554A (ko) * 2017-07-19 2020-03-12 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법 및 장치, 그리고 저장 매체
JP2020112778A (ja) * 2019-01-11 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話設備のウェイクアップ方法、装置、設備及び記憶媒体
JP2021119414A (ja) * 2016-10-19 2021-08-12 ソノズ インコーポレイテッド アービトレーションに基づく音声認識
KR20220151125A (ko) * 2017-12-06 2022-11-14 삼성전자주식회사 전자 장치 및 그의 제어 방법

Families Citing this family (287)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304450B2 (en) 2016-05-10 2019-05-28 Google Llc LED design language for visual affordance of voice user interfaces
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US10373615B2 (en) * 2012-10-30 2019-08-06 Google Technology Holdings LLC Voice control user interface during low power mode
US9584642B2 (en) * 2013-03-12 2017-02-28 Google Technology Holdings LLC Apparatus with adaptive acoustic echo control for speakerphone mode
US10381002B2 (en) * 2012-10-30 2019-08-13 Google Technology Holdings LLC Voice control user interface during low-power mode
US10304465B2 (en) * 2012-10-30 2019-05-28 Google Technology Holdings LLC Voice control user interface for low power mode
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US9653070B2 (en) * 2012-12-31 2017-05-16 Intel Corporation Flexible architecture for acoustic signal processing engine
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE102013022596B3 (de) * 2013-01-25 2020-02-27 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung mit Aktivierungswort am Satzanfang, innerhalb des Satzes oder am Satzende
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US20140244273A1 (en) * 2013-02-27 2014-08-28 Jean Laroche Voice-controlled communication connections
US20140278393A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Apparatus and Method for Power Efficient Signal Conditioning for a Voice Recognition System
US11393461B2 (en) 2013-03-12 2022-07-19 Cerence Operating Company Methods and apparatus for detecting a voice command
EP3709293A1 (en) * 2013-03-12 2020-09-16 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US9112984B2 (en) 2013-03-12 2015-08-18 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) * 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9467785B2 (en) 2013-03-28 2016-10-11 Knowles Electronics, Llc MEMS apparatus with increased back volume
US9503814B2 (en) 2013-04-10 2016-11-22 Knowles Electronics, Llc Differential outputs in multiple motor MEMS devices
US10515076B1 (en) 2013-04-12 2019-12-24 Google Llc Generating query answers from a user's history
US10157618B2 (en) 2013-05-02 2018-12-18 Xappmedia, Inc. Device, system, method, and computer-readable medium for providing interactive advertising
US20140343949A1 (en) * 2013-05-17 2014-11-20 Fortemedia, Inc. Smart microphone device
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9633655B1 (en) 2013-05-23 2017-04-25 Knowles Electronics, Llc Voice sensing and keyword analysis
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US20150031416A1 (en) 2013-07-23 2015-01-29 Motorola Mobility Llc Method and Device For Command Phrase Validation
US9386370B2 (en) 2013-09-04 2016-07-05 Knowles Electronics, Llc Slew rate control apparatus for digital microphones
US20150074524A1 (en) * 2013-09-10 2015-03-12 Lenovo (Singapore) Pte. Ltd. Management of virtual assistant action items
US9298244B2 (en) 2013-09-30 2016-03-29 Sonos, Inc. Communication routes based on low power operation
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US20150120296A1 (en) * 2013-10-29 2015-04-30 At&T Intellectual Property I, L.P. System and method for selecting network-based versus embedded speech processing
US8719039B1 (en) * 2013-12-05 2014-05-06 Google Inc. Promoting voice actions to hotwords
WO2015094369A1 (en) * 2013-12-20 2015-06-25 Intel Corporation Transition from low power always listening mode to high power speech recognition mode
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9697828B1 (en) * 2014-06-20 2017-07-04 Amazon Technologies, Inc. Keyword detection modeling using contextual and environmental information
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9257120B1 (en) 2014-07-18 2016-02-09 Google Inc. Speaker verification using co-location information
US20160049147A1 (en) * 2014-08-13 2016-02-18 Glen J. Anderson Distributed voice input processing based on power and sensing
US20160055847A1 (en) * 2014-08-19 2016-02-25 Nuance Communications, Inc. System and method for speech validation
US10318586B1 (en) 2014-08-19 2019-06-11 Google Llc Systems and methods for editing and replaying natural language queries
US9549273B2 (en) * 2014-08-28 2017-01-17 Qualcomm Incorporated Selective enabling of a component by a microphone circuit
US10789041B2 (en) * 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9831844B2 (en) 2014-09-19 2017-11-28 Knowles Electronics, Llc Digital microphone with adjustable gain control
US9318107B1 (en) 2014-10-09 2016-04-19 Google Inc. Hotword detection on multiple devices
US9812128B2 (en) * 2014-10-09 2017-11-07 Google Inc. Device leadership negotiation among voice interface devices
US9741344B2 (en) * 2014-10-20 2017-08-22 Vocalzoom Systems Ltd. System and method for operating devices using voice commands
US9699550B2 (en) * 2014-11-12 2017-07-04 Qualcomm Incorporated Reduced microphone power-up latency
KR20160056548A (ko) 2014-11-12 2016-05-20 삼성전자주식회사 질의 응답을 위한 디스플레이 장치 및 방법
US9712915B2 (en) 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
WO2016112113A1 (en) 2015-01-07 2016-07-14 Knowles Electronics, Llc Utilizing digital microphones for low power keyword detection and noise suppression
CN105845135A (zh) * 2015-01-12 2016-08-10 芋头科技(杭州)有限公司 一种机器人系统的声音识别系统及方法
WO2016118480A1 (en) 2015-01-21 2016-07-28 Knowles Electronics, Llc Low power voice trigger for acoustic apparatus and method
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
KR102346302B1 (ko) * 2015-02-16 2022-01-03 삼성전자 주식회사 전자 장치 및 음성 인식 기능 운용 방법
US9866938B2 (en) 2015-02-19 2018-01-09 Knowles Electronics, Llc Interface for microphone-to-microphone communications
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
BR112017021673B1 (pt) * 2015-04-10 2023-02-14 Honor Device Co., Ltd Método de controle de voz, meio não-transitório legível por computador e terminal
US10291973B2 (en) 2015-05-14 2019-05-14 Knowles Electronics, Llc Sensor device with ingress protection
US9883270B2 (en) 2015-05-14 2018-01-30 Knowles Electronics, Llc Microphone with coined area
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9734845B1 (en) * 2015-06-26 2017-08-15 Amazon Technologies, Inc. Mitigating effects of electronic audio sources in expression detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10045104B2 (en) 2015-08-24 2018-08-07 Knowles Electronics, Llc Audio calibration using a microphone
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US9875081B2 (en) * 2015-09-21 2018-01-23 Amazon Technologies, Inc. Device selection for providing a response
US9542941B1 (en) * 2015-10-01 2017-01-10 Lenovo (Singapore) Pte. Ltd. Situationally suspending wakeup word to enable voice command input
US10157039B2 (en) * 2015-10-05 2018-12-18 Motorola Mobility Llc Automatic capturing of multi-mode inputs in applications
US9978366B2 (en) 2015-10-09 2018-05-22 Xappmedia, Inc. Event-based speech interactive media player
US10621977B2 (en) * 2015-10-30 2020-04-14 Mcafee, Llc Trusted speech transcription
US9691378B1 (en) * 2015-11-05 2017-06-27 Amazon Technologies, Inc. Methods and devices for selectively ignoring captured audio data
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10651827B2 (en) * 2015-12-01 2020-05-12 Marvell Asia Pte, Ltd. Apparatus and method for activating circuits
EP3185244B1 (en) * 2015-12-22 2019-02-20 Nxp B.V. Voice activation system
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
EP3400662B1 (en) * 2016-01-05 2022-01-12 M.B.E.R. Telecommunication And High-Tech Ltd A system and method for detecting audio media content
CN105741838B (zh) * 2016-01-20 2019-10-15 百度在线网络技术(北京)有限公司 语音唤醒方法及装置
US10074364B1 (en) * 2016-02-02 2018-09-11 Amazon Technologies, Inc. Sound profile generation based on speech recognition results exceeding a threshold
US9894437B2 (en) 2016-02-09 2018-02-13 Knowles Electronics, Llc Microphone assembly with pulse density modulated signal
WO2017138934A1 (en) 2016-02-10 2017-08-17 Nuance Communications, Inc. Techniques for spatially selective wake-up word recognition and related systems and methods
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9811314B2 (en) 2016-02-22 2017-11-07 Sonos, Inc. Metadata exchange involving a networked playback system and a networked microphone system
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9820039B2 (en) 2016-02-22 2017-11-14 Sonos, Inc. Default playback devices
EP3757753A1 (en) 2016-05-13 2020-12-30 Google LLC Initiating by voice play of media content
US10783178B2 (en) 2016-05-17 2020-09-22 Google Llc Generating a personal database entry for a user based on natural language user interface input of the user and generating output based on the entry in response to further natural language user interface input of the user
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
WO2017217978A1 (en) * 2016-06-15 2017-12-21 Nuance Communications, Inc. Techniques for wake-up word recognition and related systems and methods
US10627887B2 (en) 2016-07-01 2020-04-21 Microsoft Technology Licensing, Llc Face detection circuit
US10499150B2 (en) 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
FR3054362B1 (fr) * 2016-07-22 2022-02-04 Dolphin Integration Sa Circuit et procede de reconnaissance de parole
US10257616B2 (en) 2016-07-22 2019-04-09 Knowles Electronics, Llc Digital microphone assembly with improved frequency response and noise characteristics
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
US9972320B2 (en) * 2016-08-24 2018-05-15 Google Llc Hotword detection on multiple devices
KR102596430B1 (ko) * 2016-08-31 2023-10-31 삼성전자주식회사 화자 인식에 기초한 음성 인식 방법 및 장치
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
CN106157950A (zh) * 2016-09-29 2016-11-23 合肥华凌股份有限公司 语音控制系统及其唤醒方法、唤醒装置和家电、协处理器
US9961642B2 (en) * 2016-09-30 2018-05-01 Intel Corporation Reduced power consuming mobile devices method and apparatus
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
CN110024281B (zh) 2016-10-28 2024-05-07 三星电子株式会社 换能器组件和方法
EP3637414B1 (en) 2016-11-07 2024-01-03 Google LLC Recorded media hotword trigger suppression
US11545146B2 (en) * 2016-11-10 2023-01-03 Cerence Operating Company Techniques for language independent wake-up word detection
KR102591413B1 (ko) * 2016-11-16 2023-10-19 엘지전자 주식회사 이동단말기 및 그 제어방법
US20180174574A1 (en) * 2016-12-19 2018-06-21 Knowles Electronics, Llc Methods and systems for reducing false alarms in keyword detection
US10559309B2 (en) 2016-12-22 2020-02-11 Google Llc Collaborative voice controlled devices
US10937421B2 (en) * 2016-12-23 2021-03-02 Spectrum Brands, Inc. Electronic faucet with smart features
CA3047984A1 (en) * 2016-12-23 2018-06-28 Spectrum Brands, Inc. Electronic faucet with smart features
US10726835B2 (en) * 2016-12-23 2020-07-28 Amazon Technologies, Inc. Voice activated modular controller
US10593328B1 (en) * 2016-12-27 2020-03-17 Amazon Technologies, Inc. Voice control of remote device
US10319375B2 (en) * 2016-12-28 2019-06-11 Amazon Technologies, Inc. Audio message extraction
WO2018126151A1 (en) 2016-12-30 2018-07-05 Knowles Electronics, Llc Microphone assembly with authentication
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
US10311876B2 (en) 2017-02-14 2019-06-04 Google Llc Server side hotwording
US9990926B1 (en) 2017-03-13 2018-06-05 Intel Corporation Passive enrollment method for speaker identification systems
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
KR102622356B1 (ko) 2017-04-20 2024-01-08 구글 엘엘씨 장치에 대한 다중 사용자 인증
KR20180118461A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치 및 음성 인식 방법
US10311870B2 (en) 2017-05-10 2019-06-04 Ecobee Inc. Computerized device with voice command input capability
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107105367B (zh) * 2017-05-24 2020-07-10 维沃移动通信有限公司 一种音频信号处理方法及终端
KR102371313B1 (ko) * 2017-05-29 2022-03-08 삼성전자주식회사 사용자 발화를 처리하는 전자 장치 및 그 전자 장치의 제어 방법
US11189273B2 (en) * 2017-06-29 2021-11-30 Amazon Technologies, Inc. Hands free always on near field wakeword solution
US10599377B2 (en) 2017-07-11 2020-03-24 Roku, Inc. Controlling visual indicators in an audio responsive electronic device, and capturing and providing audio using an API, by native and non-native computing devices and services
US10360909B2 (en) 2017-07-27 2019-07-23 Intel Corporation Natural machine conversing method and apparatus
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10204624B1 (en) * 2017-08-14 2019-02-12 Lenovo (Singapore) Pte. Ltd. False positive wake word
US10482904B1 (en) 2017-08-15 2019-11-19 Amazon Technologies, Inc. Context driven device arbitration
CN107483445A (zh) * 2017-08-23 2017-12-15 百度在线网络技术(北京)有限公司 一种静默声纹识别注册方法、装置、服务器和存储介质
US11062710B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Local and cloud speech recognition
US11062702B2 (en) 2017-08-28 2021-07-13 Roku, Inc. Media system with multiple digital assistants
US10796687B2 (en) * 2017-09-06 2020-10-06 Amazon Technologies, Inc. Voice-activated selective memory for voice-capturing devices
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US11025356B2 (en) 2017-09-08 2021-06-01 Knowles Electronics, Llc Clock synchronization in a master-slave communication system
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
WO2019067334A1 (en) 2017-09-29 2019-04-04 Knowles Electronics, Llc MULTICORDER AUDIO PROCESSOR WITH FLEXIBLE MEMORY ALLOCATION
CN107808670B (zh) 2017-10-25 2021-05-14 百度在线网络技术(北京)有限公司 语音数据处理方法、装置、设备及存储介质
CN107919130B (zh) * 2017-11-06 2021-12-17 百度在线网络技术(北京)有限公司 基于云端的语音处理方法和装置
US10482878B2 (en) 2017-11-29 2019-11-19 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10157611B1 (en) * 2017-11-29 2018-12-18 Nuance Communications, Inc. System and method for speech enhancement in multisource environments
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10601599B2 (en) * 2017-12-29 2020-03-24 Synaptics Incorporated Voice command processing in low power devices
WO2019152722A1 (en) 2018-01-31 2019-08-08 Sonos, Inc. Device designation of playback and network microphone device arrangements
US11145298B2 (en) 2018-02-13 2021-10-12 Roku, Inc. Trigger word detection with multiple digital assistants
CN108564951B (zh) * 2018-03-02 2021-05-25 云知声智能科技股份有限公司 智能降低语音控制设备误唤醒概率的方法
US10332543B1 (en) * 2018-03-12 2019-06-25 Cypress Semiconductor Corporation Systems and methods for capturing noise for pattern recognition processing
CN108428452B (zh) * 2018-03-14 2019-12-13 百度在线网络技术(北京)有限公司 终端支架和远场语音交互系统
CN108320749A (zh) * 2018-03-14 2018-07-24 百度在线网络技术(北京)有限公司 远场语音控制设备和远场语音控制系统
TWI682385B (zh) * 2018-03-16 2020-01-11 緯創資通股份有限公司 語音服務控制裝置及其方法
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
EP3553775B1 (en) * 2018-04-12 2020-11-25 Spotify AB Voice-based authentication
EP3564949A1 (en) 2018-04-23 2019-11-06 Spotify AB Activation trigger processing
US10580410B2 (en) 2018-04-27 2020-03-03 Sorenson Ip Holdings, Llc Transcription of communications
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11437029B2 (en) 2018-06-05 2022-09-06 Voicify, LLC Voice application platform
US10636425B2 (en) 2018-06-05 2020-04-28 Voicify, LLC Voice application platform
US10235999B1 (en) 2018-06-05 2019-03-19 Voicify, LLC Voice application platform
US10803865B2 (en) * 2018-06-05 2020-10-13 Voicify, LLC Voice application platform
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
CN108899044B (zh) * 2018-07-27 2020-06-26 苏州思必驰信息科技有限公司 语音信号处理方法及装置
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
KR102628211B1 (ko) * 2018-08-29 2024-01-23 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2020055923A1 (en) 2018-09-11 2020-03-19 Knowles Electronics, Llc Digital microphone with reduced processing noise
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
CN109243440B (zh) * 2018-09-19 2022-07-08 杨建朋 一种智能语音识别的强弱电转换联动互控系统
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) * 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
CN109377993A (zh) * 2018-10-12 2019-02-22 上海庆科信息技术有限公司 智能语音系统及其语音唤醒方法及智能语音设备
US10908880B2 (en) 2018-10-19 2021-02-02 Knowles Electronics, Llc Audio signal circuit with in-place bit-reversal
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
CN109410936A (zh) * 2018-11-14 2019-03-01 广东美的制冷设备有限公司 基于场景的空调设备语音控制方法和装置
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US20220068297A1 (en) * 2018-12-18 2022-03-03 Knowles Electronics, Llc Audio level estimator assisted false awake abatement systems and methods
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
KR20200084730A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
KR20200084727A (ko) * 2019-01-03 2020-07-13 삼성전자주식회사 전자 장치 및 이의 제어 방법
TWI713016B (zh) * 2019-01-03 2020-12-11 瑞昱半導體股份有限公司 語音偵測處理系統與語音偵測方法
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11776538B1 (en) * 2019-04-01 2023-10-03 Dialog Semiconductor B.V. Signal processing
US11132991B2 (en) * 2019-04-23 2021-09-28 Lg Electronics Inc. Method and apparatus for determining voice enable device
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11069353B1 (en) * 2019-05-06 2021-07-20 Amazon Technologies, Inc. Multilingual wakeword detection
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
CN112073862B (zh) * 2019-06-10 2023-03-31 美商楼氏电子有限公司 数字处理器、麦克风组件和对关键字进行检测的方法
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11659332B2 (en) 2019-07-30 2023-05-23 Dolby Laboratories Licensing Corporation Estimating user location in a system including smart audio devices
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US20230215438A1 (en) * 2020-05-27 2023-07-06 Google Llc Compensating for hardware disparities when determining whether to offload assistant-related processing tasks from certain client devices
US11514926B2 (en) * 2020-06-23 2022-11-29 Amazon Technologies, Inc. Low power mode for speech capture devices
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
CN112233681A (zh) * 2020-10-10 2021-01-15 北京百度网讯科技有限公司 一种误唤醒语料确定方法、装置、电子设备和存储介质
US20220139379A1 (en) * 2020-11-02 2022-05-05 Aondevices, Inc. Wake word method to prolong the conversational state between human and a machine in edge devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11688392B2 (en) * 2020-12-08 2023-06-27 Google Llc Freeze words
KR20220082577A (ko) * 2020-12-10 2022-06-17 삼성전자주식회사 전자장치 및 그의 제어방법
KR20220099831A (ko) * 2021-01-07 2022-07-14 삼성전자주식회사 전자 장치 및 전자 장치에서 사용자 발화 처리 방법
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
WO2023136835A1 (en) * 2022-01-14 2023-07-20 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11950056B2 (en) 2022-01-14 2024-04-02 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US20230306982A1 (en) 2022-01-14 2023-09-28 Chromatic Inc. System and method for enhancing speech of target speaker from audio signal in an ear-worn device using voice signatures
US11818547B2 (en) 2022-01-14 2023-11-14 Chromatic Inc. Method, apparatus and system for neural network hearing aid
US11832061B2 (en) 2022-01-14 2023-11-28 Chromatic Inc. Method, apparatus and system for neural network hearing aid
WO2023155607A1 (zh) * 2022-02-17 2023-08-24 海信视像科技股份有限公司 终端设备和语音唤醒方法
US11902747B1 (en) 2022-08-09 2024-02-13 Chromatic Inc. Hearing loss amplification that amplifies speech and noise subsignals differently

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312194A (ja) * 1997-03-12 1998-11-24 Seiko Epson Corp 認識対象音声検出方法およびその装置
JP2002156997A (ja) * 2000-11-21 2002-05-31 Sharp Corp 音声検出制御装置
JP2005145149A (ja) * 2003-11-12 2005-06-09 Honda Motor Co Ltd 音声認識型車載機器制御システム

Family Cites Families (119)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5263181A (en) * 1990-10-18 1993-11-16 Motorola, Inc. Remote transmitter for triggering a voice-operated radio
US5893065A (en) * 1994-08-05 1999-04-06 Nippon Steel Corporation Apparatus for compressing audio data
US7174299B2 (en) * 1995-08-18 2007-02-06 Canon Kabushiki Kaisha Speech recognition system, speech recognition apparatus, and speech recognition method
JP3674990B2 (ja) * 1995-08-21 2005-07-27 セイコーエプソン株式会社 音声認識対話装置および音声認識対話処理方法
US5712954A (en) * 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
US5799279A (en) * 1995-11-13 1998-08-25 Dragon Systems, Inc. Continuous speech recognition of text and commands
US6002762A (en) * 1996-09-30 1999-12-14 At&T Corp Method and apparatus for making nonintrusive noise and speech level measurements on voice calls
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
JP2000172283A (ja) * 1998-12-01 2000-06-23 Nec Corp 有音検出方式及び方法
JP2002540479A (ja) * 1999-03-26 2002-11-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ クライアントサーバ音声認識
US6408272B1 (en) * 1999-04-12 2002-06-18 General Magic, Inc. Distributed voice user interface
US6321194B1 (en) * 1999-04-27 2001-11-20 Brooktrout Technology, Inc. Voice detection in audio signals
US6868154B1 (en) * 1999-08-02 2005-03-15 Robert O. Stuart System and method for providing a service to a customer via a communication link
US6937977B2 (en) * 1999-10-05 2005-08-30 Fastmobile, Inc. Method and apparatus for processing an input speech signal during presentation of an output audio signal
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US6993119B1 (en) * 2000-08-09 2006-01-31 Bellsouth Intellectual Property Corporation Network and method for providing a flexible call forwarding telecommunications service with automatic speech recognition capability
US20020107726A1 (en) * 2000-12-22 2002-08-08 Torrance Andrew W. Collecting user responses over a network
EP1271470A1 (en) * 2001-06-25 2003-01-02 Alcatel Method and device for determining the voice quality degradation of a signal
US20030033143A1 (en) * 2001-08-13 2003-02-13 Hagai Aronowitz Decreasing noise sensitivity in speech processing under adverse conditions
US6985857B2 (en) * 2001-09-27 2006-01-10 Motorola, Inc. Method and apparatus for speech coding using training and quantizing
US6889191B2 (en) * 2001-12-03 2005-05-03 Scientific-Atlanta, Inc. Systems and methods for TV navigation with compressed voice-activated commands
TW200301460A (en) * 2001-12-17 2003-07-01 Asahi Chemicl Ind Voice recognition method, remote control, data terminal device, telephone communication terminal, and voice recognition device
US7219062B2 (en) 2002-01-30 2007-05-15 Koninklijke Philips Electronics N.V. Speech activity detection using acoustic and facial characteristics in an automatic speech recognition system
US7149412B2 (en) * 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
US20030212562A1 (en) * 2002-05-13 2003-11-13 General Motors Corporation Manual barge-in for server-based in-vehicle voice recognition systems
US20030216909A1 (en) 2002-05-14 2003-11-20 Davis Wallace K. Voice activity detection
FI114358B (fi) * 2002-05-29 2004-09-30 Nokia Corp Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
TWI225640B (en) * 2002-06-28 2004-12-21 Samsung Electronics Co Ltd Voice recognition device, observation probability calculating device, complex fast fourier transform calculation device and method, cache device, and method of controlling the cache device
EP1652173B1 (en) * 2002-06-28 2015-12-30 Chemtron Research LLC Method and system for processing speech
US7720683B1 (en) 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US20080249779A1 (en) * 2003-06-30 2008-10-09 Marcus Hennecke Speech dialog system
US20070005368A1 (en) * 2003-08-29 2007-01-04 Chutorash Richard J System and method of operating a speech recognition system in a vehicle
US7418392B1 (en) 2003-09-25 2008-08-26 Sensory, Inc. System and method for controlling the operation of a device by voice commands
EP1562180B1 (en) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Speech dialogue system and method for controlling an electronic device
US20050209858A1 (en) * 2004-03-16 2005-09-22 Robert Zak Apparatus and method for voice activated communication
US8014496B2 (en) * 2004-07-28 2011-09-06 Verizon Business Global Llc Systems and methods for providing network-based voice authentication
US7373248B2 (en) * 2004-09-10 2008-05-13 Atx Group, Inc. Systems and methods for off-board voice-automated vehicle navigation
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
GB2422279A (en) * 2004-09-29 2006-07-19 Fluency Voice Technology Ltd Determining Pattern End-Point in an Input Signal
JP4423327B2 (ja) * 2005-02-08 2010-03-03 日本電信電話株式会社 情報通信端末、情報通信システム、情報通信方法、情報通信プログラムおよびそれを記録した記録媒体
WO2006087799A1 (ja) * 2005-02-18 2006-08-24 Fujitsu Limited 音声認証システム
WO2007008798A2 (en) * 2005-07-07 2007-01-18 V-Enable, Inc. System and method for searching for network-based content in a multi-modal system using spoken keywords
US7962340B2 (en) * 2005-08-22 2011-06-14 Nuance Communications, Inc. Methods and apparatus for buffering data for use in accordance with a speech recognition system
PT1974476T (pt) * 2006-01-17 2017-03-21 ERICSSON TELEFON AB L M (publ) Método e disposição para redução do consumo de energia numa rede de comunicações móvel
JP2007220045A (ja) * 2006-02-20 2007-08-30 Toshiba Corp コミュニケーション支援装置、コミュニケーション支援方法およびコミュニケーション支援プログラム
CA2648617C (en) 2006-04-05 2017-12-12 Yap, Inc. Hosted voice recognition system for wireless devices
US8082510B2 (en) * 2006-04-26 2011-12-20 Cisco Technology, Inc. Method and system for inserting advertisements in unified messaging solutions
WO2007133677A2 (en) * 2006-05-12 2007-11-22 Waterfall Mobile, Inc. Messaging apparatus and method
US8234120B2 (en) * 2006-07-26 2012-07-31 Nuance Communications, Inc. Performing a safety analysis for user-defined voice commands to ensure that the voice commands do not cause speech recognition ambiguities
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4790024B2 (ja) * 2006-12-15 2011-10-12 三菱電機株式会社 音声認識装置
US20080172232A1 (en) * 2007-01-12 2008-07-17 Gurley Scott A Voice triggered emergency alert
JP2008236688A (ja) * 2007-03-23 2008-10-02 Hitachi Ltd テレビ放送受信装置
US8326636B2 (en) 2008-01-16 2012-12-04 Canyon Ip Holdings Llc Using a physical phenomenon detector to control operation of a speech recognition engine
JP4536747B2 (ja) * 2007-04-19 2010-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 広告選択システム、方法及びプログラム
GB2450886B (en) * 2007-07-10 2009-12-16 Motorola Inc Voice activity detector and a method of operation
US8031881B2 (en) * 2007-09-18 2011-10-04 Starkey Laboratories, Inc. Method and apparatus for microphone matching for wearable directional hearing device using wearer's own voice
US8145215B2 (en) * 2007-12-27 2012-03-27 Shoretel, Inc. Scanning for a wireless device
US10867123B2 (en) * 2009-11-09 2020-12-15 Microsoft Technology Licensing, Llc Social browsing
US8290141B2 (en) * 2008-04-18 2012-10-16 Freescale Semiconductor, Inc. Techniques for comfort noise generation in a communication system
WO2010008685A2 (en) * 2008-05-28 2010-01-21 Aptima, Inc. Systems and methods for analyzing entity profiles
US7933777B2 (en) * 2008-08-29 2011-04-26 Multimodal Technologies, Inc. Hybrid speech recognition
KR101519104B1 (ko) * 2008-10-30 2015-05-11 삼성전자 주식회사 목적음 검출 장치 및 방법
EP2211336B1 (en) * 2009-01-23 2014-10-08 Harman Becker Automotive Systems GmbH Improved speech input using navigation information
JP5691191B2 (ja) * 2009-02-19 2015-04-01 ヤマハ株式会社 マスキング音生成装置、マスキングシステム、マスキング音生成方法、およびプログラム
KR101041039B1 (ko) * 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
US9646603B2 (en) * 2009-02-27 2017-05-09 Longsand Limited Various apparatus and methods for a speech recognition system
KR101581883B1 (ko) 2009-04-30 2016-01-11 삼성전자주식회사 모션 정보를 이용하는 음성 검출 장치 및 방법
JP4809454B2 (ja) * 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
US20100306285A1 (en) * 2009-05-28 2010-12-02 Arcsight, Inc. Specifying a Parser Using a Properties File
WO2011047886A1 (en) * 2009-10-21 2011-04-28 Dolby International Ab Apparatus and method for generating a high frequency audio signal using adaptive oversampling
US20110102157A1 (en) * 2009-11-05 2011-05-05 Nokia Corporation Wake-Up For Wireless Devices Based On Requested Data
CN102117614B (zh) * 2010-01-05 2013-01-02 索尼爱立信移动通讯有限公司 个性化文本语音合成和个性化语音特征提取
US8265610B1 (en) * 2010-03-01 2012-09-11 Sprint Communications Company L.P. Sponsored keyword usage in voice communication
US20110276326A1 (en) * 2010-05-06 2011-11-10 Motorola, Inc. Method and system for operational improvements in dispatch console systems in a multi-source environment
KR101008996B1 (ko) * 2010-05-17 2011-01-17 주식회사 네오브이 음성안내문을 활용한 순차적 웹사이트 이동 시스템
US20110288860A1 (en) * 2010-05-20 2011-11-24 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for processing of speech signals using head-mounted microphone pair
KR101010211B1 (ko) * 2010-06-08 2011-01-21 유재혁 가변 프로토콜을 이용한 엘리베이터 및 이의 제어 방법
US8762144B2 (en) * 2010-07-21 2014-06-24 Samsung Electronics Co., Ltd. Method and apparatus for voice activity detection
JP5071536B2 (ja) * 2010-08-31 2012-11-14 株式会社デンソー 情報提供装置、及び、情報提供システム
IL210898A (en) * 2011-01-27 2014-09-30 Verint Systems Ltd A system and method for selectively monitoring mobile communication terminals based on speech expressions
JP5039214B2 (ja) * 2011-02-17 2012-10-03 株式会社東芝 音声認識操作装置及び音声認識操作方法
TWI425502B (zh) * 2011-03-15 2014-02-01 Mstar Semiconductor Inc 音訊的時間伸縮方法與相關裝置
JP5824829B2 (ja) * 2011-03-15 2015-12-02 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
FR2974655B1 (fr) * 2011-04-26 2013-12-20 Parrot Combine audio micro/casque comprenant des moyens de debruitage d'un signal de parole proche, notamment pour un systeme de telephonie "mains libres".
US9418661B2 (en) * 2011-05-12 2016-08-16 Johnson Controls Technology Company Vehicle voice recognition systems and methods
JP2013042356A (ja) * 2011-08-16 2013-02-28 Sony Corp 画像処理装置および方法、並びにプログラム
JP2013046151A (ja) * 2011-08-23 2013-03-04 Ricoh Co Ltd プロジェクタ、投影システム及び情報検索表示方法
US8660847B2 (en) * 2011-09-02 2014-02-25 Microsoft Corporation Integrated local and cloud based speech recognition
US20130066633A1 (en) * 2011-09-09 2013-03-14 Verisign, Inc. Providing Audio-Activated Resource Access for User Devices
US8798995B1 (en) * 2011-09-23 2014-08-05 Amazon Technologies, Inc. Key word determinations from voice data
US20130085753A1 (en) * 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
US8452597B2 (en) * 2011-09-30 2013-05-28 Google Inc. Systems and methods for continual speech recognition and detection in mobile computing devices
WO2013058728A1 (en) * 2011-10-17 2013-04-25 Nuance Communications, Inc. Speech signal enhancement using visual information
US8183997B1 (en) * 2011-11-14 2012-05-22 Google Inc. Displaying sound indications on a wearable computing system
US8666751B2 (en) * 2011-11-17 2014-03-04 Microsoft Corporation Audio pattern matching for device activation
EP2783365B1 (en) * 2011-11-21 2018-02-21 Robert Bosch GmbH Method and system for adapting grammars in hybrid speech recognition engines for enhancing local speech recognition performance
US9564131B2 (en) * 2011-12-07 2017-02-07 Qualcomm Incorporated Low power integrated circuit to analyze a digitized audio stream
US8818810B2 (en) * 2011-12-29 2014-08-26 Robert Bosch Gmbh Speaker verification in a health monitoring system
US8825020B2 (en) * 2012-01-12 2014-09-02 Sensory, Incorporated Information access and device control using mobile phones and audio in the home environment
US9117449B2 (en) * 2012-04-26 2015-08-25 Nuance Communications, Inc. Embedded system for construction of small footprint speech recognition with user-definable constraints
US8676579B2 (en) * 2012-04-30 2014-03-18 Blackberry Limited Dual microphone voice authentication for mobile device
US9984155B2 (en) * 2012-06-07 2018-05-29 Google Llc Inline discussions in search results around real-time clusterings
US9142215B2 (en) * 2012-06-15 2015-09-22 Cypress Semiconductor Corporation Power-efficient voice activation
US9576572B2 (en) * 2012-06-18 2017-02-21 Telefonaktiebolaget Lm Ericsson (Publ) Methods and nodes for enabling and producing input to an application
US20140006825A1 (en) * 2012-06-30 2014-01-02 David Shenhav Systems and methods to wake up a device from a power conservation state
TWI474317B (zh) * 2012-07-06 2015-02-21 Realtek Semiconductor Corp 訊號處理裝置以及訊號處理方法
CN104769668B (zh) * 2012-10-04 2018-10-30 纽昂斯通讯公司 改进的用于asr的混合控制器
US20140114567A1 (en) * 2012-10-18 2014-04-24 Research In Motion Limited Generating an elevation model using mobile devices
US9646610B2 (en) * 2012-10-30 2017-05-09 Motorola Solutions, Inc. Method and apparatus for activating a particular wireless communication device to accept speech and/or voice commands using identification data consisting of speech, voice, image recognition
US9734151B2 (en) * 2012-10-31 2017-08-15 Tivo Solutions Inc. Method and system for voice based media search
US9569059B2 (en) * 2012-11-01 2017-02-14 Blackberry Limited Reference-point-based static-scale mapping application
US9159319B1 (en) * 2012-12-03 2015-10-13 Amazon Technologies, Inc. Keyword spotting with competitor models
US9704486B2 (en) 2012-12-11 2017-07-11 Amazon Technologies, Inc. Speech recognition power management
US20140337031A1 (en) * 2013-05-07 2014-11-13 Qualcomm Incorporated Method and apparatus for detecting a target keyword
WO2015039222A1 (en) * 2013-09-19 2015-03-26 Sysomos L.P. Systems and methods for actively composing content for use in continuous social communication
US10042894B2 (en) * 2013-10-31 2018-08-07 Microsoft Technology Licensing, Llc Temporal-based professional similarity

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10312194A (ja) * 1997-03-12 1998-11-24 Seiko Epson Corp 認識対象音声検出方法およびその装置
JP2002156997A (ja) * 2000-11-21 2002-05-31 Sharp Corp 音声検出制御装置
JP2005145149A (ja) * 2003-11-12 2005-06-09 Honda Motor Co Ltd 音声認識型車載機器制御システム

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7108084B2 (ja) 2016-10-19 2022-07-27 ソノズ インコーポレイテッド アービトレーションに基づく音声認識
JP2021119414A (ja) * 2016-10-19 2021-08-12 ソノズ インコーポレイテッド アービトレーションに基づく音声認識
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
US11183173B2 (en) 2017-04-21 2021-11-23 Lg Electronics Inc. Artificial intelligence voice recognition apparatus and voice recognition system
KR20180118462A (ko) * 2017-04-21 2018-10-31 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
US10657953B2 (en) 2017-04-21 2020-05-19 Lg Electronics Inc. Artificial intelligence voice recognition apparatus and voice recognition
KR102112564B1 (ko) * 2017-05-19 2020-06-04 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
KR20180127102A (ko) * 2017-05-19 2018-11-28 엘지전자 주식회사 홈 어플라이언스 및 그 동작 방법
KR102112565B1 (ko) * 2017-05-19 2020-05-19 엘지전자 주식회사 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
KR20180127101A (ko) * 2017-05-19 2018-11-28 엘지전자 주식회사 홈 어플라이언스 및 음성 인식 서버 시스템의 동작 방법
KR101976427B1 (ko) * 2017-05-30 2019-05-09 엘지전자 주식회사 음성 인식 서버 시스템의 동작 방법
KR20180130889A (ko) * 2017-05-30 2018-12-10 엘지전자 주식회사 음성 인식 서버 시스템의 동작 방법
US11011177B2 (en) 2017-06-16 2021-05-18 Alibaba Group Holding Limited Voice identification feature optimization and dynamic registration methods, client, and server
CN109147770B (zh) * 2017-06-16 2023-07-28 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
CN109147770A (zh) * 2017-06-16 2019-01-04 阿里巴巴集团控股有限公司 声音识别特征的优化、动态注册方法、客户端和服务器
JP2020523643A (ja) * 2017-06-16 2020-08-06 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited 声識別特徴最適化および動的登録方法、クライアント、ならびにサーバ
JP2020527754A (ja) * 2017-07-19 2020-09-10 テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド 音声認識方法及び装置、並びに記憶媒体
KR102354275B1 (ko) * 2017-07-19 2022-01-21 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법 및 장치, 그리고 저장 매체
US11244672B2 (en) 2017-07-19 2022-02-08 Tencent Technology (Shenzhen) Company Limited Speech recognition method and apparatus, and storage medium
KR20200027554A (ko) * 2017-07-19 2020-03-12 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 음성 인식 방법 및 장치, 그리고 저장 매체
JP2019091012A (ja) * 2017-11-15 2019-06-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 情報認識方法および装置
KR20220151125A (ko) * 2017-12-06 2022-11-14 삼성전자주식회사 전자 장치 및 그의 제어 방법
KR102516728B1 (ko) 2017-12-06 2023-03-31 삼성전자주식회사 전자 장치 및 그의 제어 방법
JP2019139211A (ja) * 2018-02-09 2019-08-22 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声ウェイクアップ方法及び装置
US11322138B2 (en) 2018-02-09 2022-05-03 Baidu Online Network Technology (Beijing) Co., Ltd. Voice awakening method and device
JP2020112778A (ja) * 2019-01-11 2020-07-27 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド 音声対話設備のウェイクアップ方法、装置、設備及び記憶媒体

Also Published As

Publication number Publication date
US20180096689A1 (en) 2018-04-05
US10325598B2 (en) 2019-06-18
US20200043499A1 (en) 2020-02-06
CN105009204A (zh) 2015-10-28
WO2014093238A1 (en) 2014-06-19
JP6200516B2 (ja) 2017-09-20
EP2932500B1 (en) 2017-02-15
US9704486B2 (en) 2017-07-11
US20140163978A1 (en) 2014-06-12
EP2932500A1 (en) 2015-10-21
US11322152B2 (en) 2022-05-03
CN105009204B (zh) 2019-11-19

Similar Documents

Publication Publication Date Title
JP6200516B2 (ja) 発話認識電力管理
US11676600B2 (en) Methods and apparatus for detecting a voice command
US10332524B2 (en) Speech recognition wake-up of a handheld portable electronic device
US9940936B2 (en) Methods and apparatus for detecting a voice command
US11756563B1 (en) Multi-path calculations for device energy levels
US9361885B2 (en) Methods and apparatus for detecting a voice command
US10699702B2 (en) System and method for personalization of acoustic models for automatic speech recognition
EP2946383B1 (en) Methods and apparatus for detecting a voice command
US9526127B1 (en) Affecting the behavior of a user device based on a user's gaze
US10880833B2 (en) Smart listening modes supporting quasi always-on listening
KR20230104712A (ko) 개인화된 네거티브에 기초한 핫워드 인식 적응
JP2023553994A (ja) ホットワード特性に基づいた自動音声認識パラメータの適応

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160822

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170213

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170511

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170626

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170825

R150 Certificate of patent or registration of utility model

Ref document number: 6200516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250