JP2022529783A

JP2022529783A - 発話認識エンジンのための入力の識別

Info

Publication number: JP2022529783A
Application number: JP2021562002A
Authority: JP
Inventors: アンソニーロバートシーダー，; トゥシャーアローラ，
Original assignee: Magic Leap Inc
Current assignee: Magic Leap Inc
Priority date: 2019-04-19
Filing date: 2020-04-16
Publication date: 2022-06-24
Also published as: EP3956883A1; WO2020214844A1; CN113994424A; EP3956883A4; US20200335128A1

Abstract

信号を発話認識エンジンに提示する方法が、開示される。本方法の実施例によると、オーディオ信号が、ユーザから受信される。オーディオ信号の一部が、識別され、その部分は、第１の時間と、第２の時間とを有する。オーディオ信号内の一部内の一時停止、すなわち、第２の時間を構成する、一時停止が、識別される。一時停止がオーディオ信号の発声の完了を示すかどうかが、決定される。一時停止が発声の完了を示すことの決定に従って、オーディオ信号の一部は、入力として、発話認識エンジンに提示される。一時停止が発声の完了を示さないことの決定に従って、オーディオ信号の一部は、入力として、発話認識エンジンに提示されない。

Description

（関連出願の相互参照）
本願は、３５Ｕ．Ｓ．Ｃ．§１１９（ｅ）下、その内容が、あらゆる目的のために、参照することによってその全体として本明細書に組み込まれる、２０１９年４月１９日に出願された、米国仮特許出願６２／８３６，５９３号の利点を主張する。

本開示は、概して、発話信号を処理するためのシステムおよび方法に関し、特に、発話認識エンジンへの提示のために、発話信号を処理するためのシステムおよび方法に関する。

発話認識のためのシステムは、典型的には、１つ以上のマイクロホンを介して、人間の発話を表すオーディオ入力を受信し、オーディオ入力を処理し、そのオーディオ入力に対応する、単語、論理構造、または他の出力を決定することをタスクとして課される。例えば、自動発話認識（ＡＳＲ）システムは、オーディオ入力信号に対応する人間の発話に基づいて、テキスト出力を生成し得、自然言語処理（ＮＬＰ）ツールは、その人間の発話の意味に対応する、論理構造またはコンピュータデータを生成し得る。いくつかのＡＳＲシステムは、事前に記録された大規模な発話の集積上で動作し得るが（実施例として、前日にマイクロホンによって記録された発話の記述された書き起こし記録を作成するタスクを課される、システム）、いくつかのＡＳＲシステムは、リアルタイムで提供される発話入力に応答しなければならない。リアルタイム発話処理は、ＡＳＲシステムに、一意のセットの課題を提示する。例えば、ＡＳＲシステムは、典型的には、入力のモノリシックブロックとしてではなく、意味を伝える、一連の個々の単語または語句（「発声」）として、発話を処理する。

発声が開始および終了するときを識別することは、ＡＳＲシステムが、ユーザの入力発話を正確に処理し、所望の結果を提供するために不可欠であり得る。実施例として、天気予報サービスと通信する、リアルタイム「音声アシスタント」ＡＳＲシステムを検討すると、ＡＳＲシステムは、天気について尋ねるユーザからの発話入力（例えば、「Ｗｈａｔ’ｓｔｈｅｃｕｒｒｅｎｔｗｅａｔｈｅｒ？」）を受信し、発話入力を構造化されたクエリ（例えば、具体的日付および時間における、かつ具体的場所における、過去、現在、または予測される将来的天気を示す、データに関するクエリ）に変換し、構造化されたクエリを天気予報サービスに提示し、サービスからのクエリ結果を受信し、クエリ結果をユーザに提示し得る。ユーザは、ＡＳＲシステムが、その完全な質問（質問の個々の断片ではなく）を処理し、即座に正確な応答を提供することを予期する。ユーザはさらに、ＡＳＲシステムが、具体的固定フォーマットに準拠する必要のない、自然に発話されたコマンドを処理するであろうことを予期する。本例示的システムでは、リアルタイムで、ユーザの完全な質問を識別し、質問を処理し、タイムリーな様式において、理想的には、ユーザが質問を尋ね終えるとすぐに、正確な応答を生産することが、ＡＳＲの義務となる。

本例示的システムでは、応答の正確度は、ＡＳＲシステムが、ユーザの質問（発声）が完了したことを決定するときに依存し得る。例えば、ユーザが、「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒｔｏｍｏｒｒｏｗ？」と尋ね得る。ＡＳＲシステムが、「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒ」の後に発声が完了したと早まって決定する場合、天気サービスへのその対応するクエリは、修飾語「ｔｏｍｏｒｒｏｗ」を省略し、結果として生じる応答は、したがって、不正確なものとなるであろう（ユーザの所望の日付／時間を反映させないであろう）。逆に言えば、ＡＳＲシステムが、より保守的アプローチをとり、発声を処理する前に、数秒にわたって待機し、発声全体が完了したことを確認する場合、ユーザは、ＡＳＲシステムがそのコマンドに十分に応答していないと見なし得る。（加えて、ある場合には、そのような長待機周期は、発声内の非関連追随発話を含むことによって、不正確性を作成する場合がある。）

ＡＳＲシステムは、即座に、かつリアルタイムで、話者の発声が完了したときを決定する本問題に悩まされている。いくつかのシステムでは、発声の終点を決定するために、固定されたタイムアウト周期が採用されており、発話入力に続いて、発話が、タイムアウト周期の持続時間（例えば、７５０ｍｓ）にわたって受信されない場合、その発話入力は、発声の終了であると見なされ得る。しかしながら、固定されるタイムアウト周期ソリューションは、不完全であって、例えば、ユーザが、質問を明確に話すために一時停止する、ユーザが、一時的に中断される、またはユーザの発話が、別様に訥弁である（例えば、不安、発話障害、環境による注意散漫、認知負荷等に起因して）状況では、タイムアウト周期は、ユーザの発声が完了する前に満了し得る。また、逆に言えば、いったんユーザの発声が、完了すると、応答は、少なくともタイムアウト周期の持続時間（その間にＡＳＲシステムがさらなる入力が受信されないことを確認する）だけ遅延され、ユーザは、その持続時間にわたって、付加的発話入力（例えば、新しい発声に属する）を提供することができない。そのような相互作用は、ＡＳＲシステムの有用性を限定し、否応なく、ユーザが、別の人間ではなく、機械と通信していることを際立たせ得る。

ＡＳＲシステムが、より直感的アプローチを採用し、ユーザが発声を提供することを終了したときを決定することが望ましい。通常の対面相互作用、および度合いは低いが、電話相互作用では、人々は、種々のコンテキストキューを使用して、別の人物が話すことを終了したときを理解する。例えば、話者が、一時停止すると、人々は、話者が、発話を終了したか、または単に、単一の思考の途中で一時停止したかどうかのインジケーションに関して、話者の韻律、顔の表情、眼視線、癖、ジェスチャ、および姿勢を評価する。ＡＳＲシステムは、類似キューを使用して、ユーザの発声が開始および終了した箇所を識別してもよい。下記に説明されるように、いくつかの実施例では、ＡＳＲシステムは、そのようなコンテキストキューをマイクロホン入力から識別することができ、いくつかの実施例では、１つ以上のセンサ（例えば、ウェアラブルシステムの一部として）と通信する、ＡＳＲシステムは、話者についての付加的発話キューをそれらのセンサの出力から集め、そのようなキューを使用して、従来のソリューションと関連付けられる、上記に説明されるような問題を伴わずに、発声境界を識別することができる。

図１は、本開示の実施例による、例示的ウェアラブルシステムを図示する。

図２は、本開示の実施例による、例示的ウェアラブルシステムと併用され得る、例示的ハンドヘルドコントローラを図示する。

図３は、本開示の実施例による、例示的ウェアラブルシステムと併用され得る、例示的補助ユニットを図示する。

図４は、本開示の１つ以上の実施例による、例示的ウェアラブルシステムのための例示的機能ブロック図を図示する。

図５は、本開示の１つ以上の実施例による、例示的ＡＳＲシステムへの入力のための例示的オーディオ波形を図示する。

図６は、本開示の１つ以上の実施例による、ＡＳＲシステムを使用して音響発話信号を処理する実施例のフローチャートを図示する。

図７は、本開示の１つ以上の実施例による、ＡＳＲシステムを使用して音響発話信号を処理する実施例のフローチャートを図示する。

図８Ａ－８Ｂは、本開示の１つ以上の実施例による、入力発話信号内の一時停止を検出する実施例のフローチャートを図示する。図８Ａ－８Ｂは、本開示の１つ以上の実施例による、入力発話信号内の一時停止を検出する実施例のフローチャートを図示する。

図９Ａ－９Ｂは、本開示の１つ以上の実施例による、入力発声が完了したかどうかを決定する実施例のフローチャートを図示する。図９Ａ－９Ｂは、本開示の１つ以上の実施例による、入力発声が完了したかどうかを決定する実施例のフローチャートを図示する。

図１０は、本開示の１つ以上の実施例による、入力データを分類し、その入力データと関連付けられる確率を決定する実施例のフローチャートを図示する。

実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面が、参照される。他の実施例も、使用され得、構造変更が、開示される実施例の範囲から逸脱することなく、行われ得ることを理解されたい。

例示的ウェアラブルシステム

図１は、ユーザの頭部上に装着されるように構成される、例示的ウェアラブル頭部デバイス１００を図示する。ウェアラブル頭部デバイス１００は、頭部デバイス（例えば、ウェアラブル頭部デバイス１００）、ハンドヘルドコントローラ（例えば、下記に説明されるハンドヘルドコントローラ２００）、および／または補助ユニット（例えば、下記に説明される補助ユニット３００）等の１つ以上のコンポーネントを備える、より広範なウェアラブルシステムの一部であってもよい。いくつかの実施例では、ウェアラブル頭部デバイス１００は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス１００は、ディスプレイ１１０Ａおよび１１０Ｂ（左および右透過性ディスプレイと、直交瞳拡大（ＯＰＥ）格子セット１１２Ａ／１１２Ｂおよび射出瞳拡大（ＥＰＥ）格子セット１１４Ａ／１１４Ｂ等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る）等の１つ以上のディスプレイと、スピーカ１２０Ａおよび１２０Ｂ（それぞれ、つるアーム１２２Ａおよび１２２Ｂ上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る）等の左および右音響構造と、赤外線センサ、加速度計、ＧＰＳユニット、慣性測定ユニット（ＩＭＵ、例えば、ＩＭＵ１２６）、音響センサ（例えば、マイクロホン１５０）等の１つ以上のセンサと、直交コイル電磁受信機（例えば、左つるアーム１２２Ａに搭載されるように示される受信機１２７）と、ユーザから離れるように配向される、左および右カメラ（例えば、深度（飛行時間）カメラ１３０Ａおよび１３０Ｂ）と、ユーザに向かって配向される、左および右眼カメラ（例えば、ユーザの眼移動を検出するため）（例えば、眼カメラ１２８Ａおよび１２８Ｂ）とを備えることができる。しかしながら、ウェアラブル頭部デバイス１００は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、ユーザの音声によって発生されるオーディオ信号を検出するように構成される、１つ以上のマイクロホン１５０を組み込んでもよく、そのようなマイクロホンは、ユーザの口に隣接してウェアラブル頭部デバイス内に位置付けられてもよい。いくつかの実施例では、ウェアラブル頭部デバイス１００は、他のウェアラブルシステムを含む、他のデバイスおよびシステムと通信するために、ネットワーキング特徴（例えば、Ｗｉ－Ｆｉ能力）を組み込んでもよい。ウェアラブル頭部デバイス１００はさらに、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス（例えば、ボタン、タッチパッド）等のコンポーネントを含んでもよい、または１つ以上のそのようなコンポーネントを備えるハンドヘルドコントローラ（例えば、ハンドヘルドコントローラ２００）または補助ユニット（例えば、補助ユニット３００）に結合されてもよい。いくつかの実施例では、センサは、ユーザの環境に対する頭部搭載型ユニットの座標のセットを出力するように構成されてもよく、入力をプロセッサに提供し、同時位置特定およびマッピング（ＳＬＡＭ）プロシージャおよび／またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、ウェアラブル頭部デバイス１００は、下記にさらに説明されるように、ハンドヘルドコントローラ２００および／または補助ユニット３００に結合されてもよい。

図２は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント２００を図示する。いくつかの実施例では、ハンドヘルドコントローラ２００は、ウェアラブルヘッドデバイス１００および／または下記に説明される補助ユニット３００と有線または無線通信してもよい。いくつかの実施例では、ハンドヘルドコントローラ２００は、ユーザによって保持されるべきハンドル部分２２０と、上面２１０に沿って配置される１つ以上のボタン２４０とを含む。いくつかの実施例では、ハンドヘルドコントローラ２００は、光学追跡標的として使用するために構成されてもよく、例えば、ウェアラブル頭部デバイス１００のセンサ（例えば、カメラまたは他の光学センサ）は、ハンドヘルドコントローラ２００の位置および／または配向を検出するように構成されることができ、これは、転じて、ハンドヘルドコントローラ２００を保持するユーザの手の位置および／または配向を示し得る。いくつかの実施例では、ハンドヘルドコントローラ２００は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上記に説明されるもの等の１つ以上の入力デバイスを含んでもよい。いくつかの実施例では、ハンドヘルドコントローラ２００は、１つ以上のセンサ（例えば、ウェアラブル頭部デバイス１００に関して上記に説明されるセンサまたは追跡コンポーネントのうちのいずれか）を含む。いくつかの実施例では、センサは、ウェアラブル頭部デバイス１００に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ２００の位置または配向を検出することができる。いくつかの実施例では、センサは、ハンドヘルドコントローラ２００のハンドル部分２２０内に位置付けられてもよい、および／またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ２００は、例えば、ボタン２４０の押下状態、またはハンドヘルドコントローラ２００の位置、配向、および／または運動（例えば、ＩＭＵを介して）に対応する、１つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス１００のプロセッサへの、補助ユニット３００への、またはウェアラブルシステムの別のコンポーネントへの入力として使用されてもよい。いくつかの実施例では、ハンドヘルドコントローラ２００は、音（例えば、ユーザの発話、環境音）を検出し、ある場合には、検出された音に対応する信号をプロセッサ（例えば、ウェアラブル頭部デバイス１００のプロセッサ）に提供するために、１つ以上のマイクロホンを含むことができる。

図３は、例示的ウェアラブルシステムの例示的補助ユニット３００を図示する。いくつかの実施例では、補助ユニット３００は、ウェアラブル頭部デバイス１００および／またはハンドヘルドコントローラ２００と有線または無線通信してもよい。補助ユニット３００は、ウェアラブル頭部デバイス１００および／またはハンドヘルドコントローラ２００（ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および／またはウェアラブル頭部デバイス１００またはハンドヘルドコントローラ２００の他のコンポーネントを含む）等のウェアラブルシステムの１つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの実施例では、補助ユニット３００は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、１つ以上の入力デバイス、および／または上記に説明されるもの等の１つ以上のセンサを含んでもよい。いくつかの実施例では、補助ユニット３００は、補助ユニットをユーザに取り付けるためのクリップ３１０（例えば、ユーザによって装着されるベルト）を含む。ウェアラブルシステムの１つ以上のコンポーネントを格納するために補助ユニット３００を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、（例えば、ウェアラブル頭部デバイス１００内に格納される場合）ユーザの頭部に搭載される、または（例えば、ハンドヘルドコントローラ２００内に格納される場合）ユーザの手によって担持されるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部の上に担持されることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。

図４は、上記に説明される、例示的ウェアラブル頭部デバイス１００と、ハンドヘルドコントローラ２００と、補助ユニット３００とを含み得る等、例示的ウェアラブルシステム４００に対応し得る、例示的機能ブロック図を示す。いくつかの実施例では、ウェアラブルシステム４００は、仮想現実、拡張現実、または複合現実用途のために使用され得る。図４に示されるように、ウェアラブルシステム４００は、ここでは「トーテム」と称される（および上記に説明されるハンドヘルドコントローラ２００に対応し得る）例示的ハンドヘルドコントローラ４００Ｂを含むことができ、ハンドヘルドコントローラ４００Ｂは、トーテム／ヘッドギヤ６自由度（６ＤＯＦ）トーテムサブシステム４０４Ａを含むことができる。ウェアラブルシステム４００はまた、（上記に説明されるウェアラブルヘッドギヤデバイス１００に対応し得る）例示的ウェアラブル頭部デバイス４００Ａを含むことができ、ウェアラブル頭部デバイス４００Ａは、トーテム／ヘッドギヤ６ＤＯＦヘッドギヤサブシステム４０４Ｂを含む。実施例では、６ＤＯＦトーテムサブシステム４０４Ａおよび６ＤＯＦヘッドギヤサブシステム４０４Ｂは、協働し、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６つの座標（例えば、３つの平行移動方向におけるオフセットおよび３つの軸に沿った回転）を決定する。６自由度は、ウェアラブル頭部デバイス４００Ａの座標系に対して表されてもよい。３つの平行移動オフセットは、そのような座標系内におけるＸ、Ｙ、およびＺオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンス、ベクトル、回転行列、四元数、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス４００Ａ内に含まれる１つ以上の深度カメラ４４４（および／または１つ以上の非深度カメラ）および／または１つ以上の光学標的（例えば、上記に説明されるようなハンドヘルドコントローラ２００のボタン２４０またはハンドヘルドコントローラ内に含まれる専用光学標的）は、６ＤＯＦ追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ４００Ｂは、上記に説明されるようなカメラを含むことができ、ヘッドギヤ４００Ａは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス４００Ａおよびハンドヘルドコントローラ４００Ｂは、それぞれ、３つの直交して配向されるソレノイドのセットを含み、これは、３つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれの中で受信される３つの区別可能な信号の相対的大きさを測定することによって、ウェアラブル頭部デバイス４００Ａに対するハンドヘルドコントローラ４００Ｂの６ＤＯＦが、決定されてもよい。いくつかの実施例では、６ＤＯＦトーテムサブシステム４０４Ａは、改良された正確度および／またはハンドヘルドコントローラ４００Ｂの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット（ＩＭＵ）を含むことができる。

拡張現実または複合現実用途を伴ういくつかの実施例では、座標をローカル座標空間（例えば、ウェアラブル頭部デバイス４００Ａに対して固定される座標空間）から慣性座標空間に、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ウェアラブル頭部デバイス４００Ａのディスプレイが、ディスプレイ上の固定位置および配向において（例えば、ウェアラブル頭部デバイス４００Ａのディスプレイにおける同一の位置において）ではなく、仮想オブジェクトを実環境に対する予期される位置および配向において提示する（例えば、ウェアラブル頭部デバイス４００Ａの位置および配向にかかわらず、前方に向いた実椅子に着座している仮想人物）ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する（かつ、例えば、ウェアラブル頭部デバイス４００Ａが、偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない）という錯覚を維持することができる。いくつかの実施例では、座標空間の間の補償変換が、慣性または環境座標系に対するウェアラブル頭部デバイス４００Ａの変換を決定するために、（例えば、同時位置特定およびマッピング（ＳＬＡＭ）および／またはビジュアルオドメトリプロシージャを使用して）深度カメラ４４４からの画像を処理することによって決定されることができる。図４に示される実施例では、深度カメラ４４４は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６に結合されることができ、画像をブロック４０６に提供することができる。ＳＬＡＭ／ビジュアルオドメトリブロック４０６実装は、本画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ウェアラブル頭部デバイス４００ＡのＩＭＵ４０９から取得される。ＩＭＵ４０９からの情報は、ＳＬＡＭ／ビジュアルオドメトリブロック４０６からの情報と統合され、改良された正確度および／またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。

いくつかの実施例では、深度カメラ４４４は、ウェアラブル頭部デバイス４００Ａのプロセッサ内に実装され得る、手のジェスチャトラッカ４１１に、３Ｄ画像を供給することができる。手のジェスチャトラッカ４１１は、例えば、深度カメラ４４４から受信された３Ｄ画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。

いくつかの実施例では、１つ以上のプロセッサ４１６は、ヘッドギヤサブシステム４０４Ｂ、ＩＭＵ４０９、ＳＬＡＭ／ビジュアルオドメトリブロック４０６、深度カメラ４４４、マイクロホン４５０、および／または手のジェスチャトラッカ４１１からのデータを受信するように構成されてもよい。プロセッサ４１６はまた、制御信号を６ＤＯＦトーテムシステム４０４Ａに送信し、それから受信することができる。プロセッサ４１６は、ハンドヘルドコントローラ４００Ｂがテザリングされない実施例等では、無線で、６ＤＯＦトーテムシステム４０４Ａに結合されてもよい。プロセッサ４１６はさらに、視聴覚コンテンツメモリ４１８、グラフィカル処理ユニット（ＧＰＵ）４２０、および／またはデジタル信号プロセッサ（ＤＳＰ）オーディオ空間化装置４２２等の付加的コンポーネントと通信してもよい。ＤＳＰオーディオ空間化装置４２２は、頭部関連伝達関数（ＨＲＴＦ）メモリ４２５に結合されてもよい。ＧＰＵ４２０は、画像毎に変調された光４２４の左源に結合される、左チャネル出力と、画像毎に変調された光４２６の右源に結合される、右チャネル出力とを含むことができる。ＧＰＵ４２０は、立体視画像データを画像毎に変調された光４２４、４２６の源に出力することができる。ＤＳＰオーディオ空間化装置４２２は、オーディオを左スピーカ４１２および／または右スピーカ４１４に出力することができる。ＤＳＰオーディオ空間化装置４２２は、プロセッサ４１９から、ユーザから仮想音源（例えば、ハンドヘルドコントローラ４００Ｂを介して、ユーザによって移動され得る）への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、ＤＳＰオーディオ空間化装置４２２は、対応するＨＲＴＦを決定することができる（例えば、ＨＲＴＦにアクセスすることによって、または複数のＨＲＴＦを補間することによって）。ＤＳＰオーディオ空間化装置４２２は、次いで、決定されたＨＲＴＦを仮想オブジェクトによって発生された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。

図４に示されるもの等のいくつかの実施例では、プロセッサ４１６、ＧＰＵ４２０、ＤＳＰオーディオ空間化装置４２２、ＨＲＴＦメモリ４２５、およびオーディオ／視覚的コンテンツメモリ４１８のうちの１つ以上のものは、補助ユニット４００Ｃ（上記に説明される補助ユニット３００に対応し得る）内に含まれてもよい。補助ユニット４００Ｃは、バッテリ４２７を含み、そのコンポーネントを給電する、および／または電力をウェアラブル頭部デバイス４００Ａおよび／またはハンドヘルドコントローラ４００Ｂに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス４００Ａのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。

図４は、例示的ウェアラブルシステム４００の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット４００Ｃと関連付けられているような図４に提示される要素は、代わりに、ウェアラブル頭部デバイス４００Ａまたはハンドヘルドコントローラ４００Ｂと関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ４００Ｂまたは補助ユニット４００Ｃを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるものである。

発話認識システム

発話認識システムは、一般に、人間の発話（源信号）に対応する入力オーディオ信号を受け取り、入力オーディオ信号を処理および分析し、分析の結果として、人間の発話に対応する出力を生産し得る、発話認識エンジンを備える。自動発話認識（ＡＳＲ）システムの場合、例えば、発話認識エンジンの出力は、人間の発話のテキスト書き起こし記録であり得る。自然言語処理システムの場合、出力は、人間の発話によって示される１つ以上のコマンドまたは命令、または人間の発話の意味論的意味のある表現（例えば、論理表現またはデータ構造）であり得る。必ずしも発話を「認識」しないものを含む、他のタイプの発話認識システム（例えば、自動翻訳システム）も、検討され、本開示の範囲内である。さらに、本明細書で使用されるように、発話認識エンジンは、自動発話認識エンジン、自然言語理解エンジン、および他の好適なコンポーネントのうちの１つ以上のものを含むことができる。

ＡＳＲシステムは、多種多様な製品および用途、すなわち、従来の電話システム、自動化された音声メッセージングシステム、音声アシスタント（独立型およびスマートフォンベースの音声アシスタントを含む）、車両および航空機、デスクトップおよびドキュメント処理ソフトウェア、データエントリ、家電、医療デバイス、言語翻訳ソフトウェア、クローズドキャプションシステム、およびその他に見出される。ＡＳＲシステムの利点は、それらが、ユーザが、キーボードまたはタッチパネル等の従来のコンピュータ入力デバイスの代わりに、マイクロホンに提示されるような自然発話された言語を使用して、入力をコンピュータシステムに提供することを可能にし得ることである。故に、発話認識システムは、特に、従来の入力デバイス（例えば、キーボード）が利用不可能または非実践的であり得る、環境において有用であり得る。さらに、ユーザが直感的音声ベースの入力を提供することを可能にすることによって、発話認識エンジンは、没入感を高めることができる。したがって、ＡＳＲは、ウェアラブルシステムのための、特に、ユーザ没入が主要目標であって、その存在が没入感を損なわせ得る、従来のコンピュータ入力デバイスの使用を限定することが望ましくあり得る、ウェアラブルシステムの仮想現実、拡張現実、および／または複合現実用途のための、自然な適合であり得る。

入力発話境界の識別

ＡＳＲシステムの有効性は、正確な入力データを発話認識エンジンに即座に提示するその能力によって限定され得る。正確な入力データを提示することは、入力の個々のシーケンスが開始および終了するときを正しく識別することを要求し得る。いくつかのＡＳＲシステムは、即座に、かつリアルタイムで、話者の発声が完了したときを決定することに悩まされる。本開示は、入力として発話処理システムに提示される発声の終点を正確に識別することによって、発話処理システムの正確度を改良するためのシステムおよび方法を対象とする。発声が終了する箇所を迅速かつ正確に決定することは、発話処理システムが、リアルタイムで、すなわち、入力オーディオ信号全体が事前に把握され得ない、入力オーディオのライブストリームに応答して、正しい結果を即座に送達することを有効にする。

図５は、１つ以上のマイクロホンによって検出され、入力としてＡＳＲシステムに提示され得るような例示的オーディオ波形５００を図示する。波形５００は、ユーザが発話する、例示的発声「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒｔｏｍｏｒｒｏｗｉｎＭｏｓｃｏｗ？」を表し、その発声を入力として受信するＡＳＲシステムが、天気サービスにクエリし、Ｍｏｓｃｏｗに関する明日の天気予報で応答するであろう意図を伴う。ＡＳＲシステムの応答の速度および正確度は、ＡＳＲシステムがユーザの発声の終点であると決定する箇所に依存するであろう。例示的波形５００は、初期時間ｔ_０から開始する。ＡＳＲシステムが、発声が、語句「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒ」後かつ単語「ｔｏｍｏｒｒｏｗ」の前に該当する、時間ｔ_１で終了すると早まって決定する場合、入力発声（すなわち、時間ｔ_０と時間ｔ_１との間に該当する入力発話）は、「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒ」であると決定されるであろう。本入力発声は、ユーザによって追加される修飾語（すなわち、「ｔｏｍｏｒｒｏｗ」および「ｉｎＭｏｓｃｏｗ」）を欠いているであろうため、本発声に対するＡＳＲシステムの応答は、ユーザの予期に合致しないであろう。例えば、本システムは、ユーザの現在の場所（Ｍｏｓｃｏｗではない）における現在の天気（明日の天気ではない）を返す場合がある。同様に、ＡＳＲシステムが、発声が、語句「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒｔｏｍｏｒｒｏｗ」の後かつ語句「ｉｎＭｏｓｃｏｗ」の前に該当する、時間ｔ_２で終了すると決定する場合、入力発声（すなわち、時間ｔ_０と時間ｔ_２との間に該当する入力発話）は、「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒｔｏｍｏｒｒｏｗ」であると決定され、結果として生じる応答は、再び、ユーザの予期（Ｍｏｓｃｏｗにおける明日の天気）に合致しないであろう。理想的ＡＳＲシステムは、発声の終了が、入力クエリ全体の完了直後に該当し、入力発声を「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒｉｎＭｏｓｃｏｗ」として正しく識別するであろう、時間ｔ_３にあると決定し得る。

理想的ＡＳＲシステムはまた、入力発声に属しない、入力信号の後続部分を含まないであろう。例えば、ＡＳＲシステムが、発声が時間ｔ_４で終了すると決定する場合、入力発声は、正しい入力発話（すなわち、「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒｉｎＭｏｓｃｏｗ」）の全てを含むであろうが、また、無関係な情報（ｔ_３とｔ_４との間の入力発話信号の部分）も含むであろう。本無関係な情報は、エラーを入力発声の中に導入し得、さらに、ＡＳＲシステムの応答を遅延させ（すなわち、少なくともｔ_３とｔ_４との間の信号の処理時間の間隔だけ）、ユーザによって知覚される応答性の欠如をもたらすであろう。

いくつかのＡＳＲシステムは、入力発声の終点を正しくなく識別し得る。例えば、入力として例示的波形５００を提示されると、いくつかのＡＳＲシステムは、ｔ_３ではなく、ｔ_１、ｔ_２、またはｔ_４として発声の終了を正しくなく識別し得る。

図６は、ＡＳＲシステムによって実行され得る、例示的プロセス６００を図示する。例示的プロセス６００は、タイムアウトインターバルを使用して、入力発声が完了したときを決定する、すなわち、入力発話がタイムアウトインターバルを超える時間量にわたって受信されなかったとき、発声は、完了したと見なされ、処理するために、ＡＳＲエンジンに提示される。図に示されるように、入力発話は、段階６１０において、１つ以上のマイクロホン６０２からリアルタイムで検出される。段階６２０では、プロセス６００は、入力発話が依然として受信されているかどうかを決定する。該当する場合、入力発声は、継続中と見なされ、プロセス６００は、段階６１０に戻り、入力発話の検出を継続する。該当しない場合、プロセス６００は、タイムアウトインターバル６３２が経過したかどうかクエリする。該当しない場合、プロセス６００は、段階６１０に戻り、該当する場合、発声は、完了と見なされる（段階６４０）。段階６５０では、プロセス６００は、次いで、処理するために、発声（または発声のいくつかの表現）をＡＳＲエンジン６６０に提示する。ＡＳＲエンジン６６０は、入力発声の発話／テキスト表現を生成することができる。自然言語理解（ＮＬＵ）エンジン６６５は、表現に基づいて、付加的処理を実施することができる。例えば、ＮＬＵエンジン６６５は、ＡＳＲエンジン６６０から出力された発話／テキスト表現の意味論表現を生成し、入力発声が天気予報のための要求を表すことを決定し、入力発声から生成された構造化されたクエリを使用して、天気予報サービスにクエリし、応答を天気予報サービスから受信することができる。いくつかの実施形態では、プロセス６００は、（例えば、ＡＳＲエンジン６６０によって）処理するために、発声（または発声のいくつかの表現）をストリーミングしてもよい。いくつかの実施形態では、ＡＳＲエンジン６６０は、インクリメント結果を返す、または出力してもよい。いくつかの実施形態では、ＮＬＵエンジン６６５は、発声の完了後、処理するために、出力をＡＳＲエンジン６６０から受信してもよい。段階６７０では、プロセス６００は、応答をＮＬＵエンジン６６５から受信し、段階６８０では、応答をユーザに提示することができる（例えば、出力スピーカに結合される、テキスト／発話エンジンを介して）。

上記のプロセス６００は、段階６３０および６４０において、単純タイムアウトインターバルを使用して入力発声を結論付けることによって、プロセス６００が、ユーザが発話している発声を完了する前に発声を早まって結論付け得るため、エラーを受けやすくあり得る。上記に説明される波形５００を参照すると、これは、ｔ_３ではなく、時間ｔ_１またはｔ_２における入力発声終了をもたらし得る。これは、ユーザが非発話の間隙を単一発声の２つの単語の間に不注意に挿入するときに起き得る（例えば、例示的波形５００における「ｗｅａｔｈｅｒ」と「ｔｏｍｏｒｒｏｗ」との間または「ｔｏｍｏｒｒｏｗ」と「ｉｎＭｏｓｃｏｗ」との間の一時停止）。これらの間隙が、タイムアウトインターバル６３２の長さを超える場合、プロセス６００は、ユーザが依然としてその発声を完了していない場合でも、入力発声が完了したと早まって決定し得る。（本状況は、特に、ユーザが、その質問を明確に話すために、付加的時間を必要とし得る、複雑な入力クエリに関して、または発話障害を伴うユーザ、またはマイクロホンまたはＡＳＲシステムと相互作用するときに不安を被り得る者において、一般的であり得る。）

本問題は、本インターバルの持続時間とＡＳＲシステムの知覚される応答性との間にトレードオフが存在するため、単に、タイムアウトインターバル６３２の長さを増加させることによって、完全に解決可能ではあり得ない。すなわち、タイムアウトインターバル６３２が、任意の可能性として考えられる発声間入力間隙を超える、すなわち、プロセス６００が入力発声を早まって遮らないように防止するように、増加され得る場合でも、ＡＳＲシステムは、発声が完了したと決定する前に、その延長されたタイムアウトインターバルの持続時間を待機する。本遅延は、特に、聴取者が、迅速および直感的に、話者が発話を終了したときを理解する、対面人間相互作用と比較して、遅延を非応答性として知覚し得る、ユーザを苛立たせ得る。いくつかの実施形態では、遅延は、ユーザがＡＳＲシステムを非応答性であると知覚し、再び、発話を開始する（例えば、初期入力を再反復する）とき、クロストークにつながり得、これは、エラーの連鎖をもたらし得る。

図７は、プロセス６００が可能であるより即座かつ正確に入力発声を識別し得る、例示的プロセス７００（例えば、ＡＳＲシステムによって実行され得る）を図示する。プロセス７００では、下記に説明されるように、入力発話内の一時停止が、検出され、次いで、一時停止が現在の発声の完了を表す可能性が高いかどうか（その場合、発声は、完了され、ＡＳＲエンジンおよびＮＬＵエンジンに提示されることができる）、または一時停止が現在の発声が継続中であることを示すかどうか（その場合、ＡＳＲシステムは、現在の発声の検出を継続するはずである）を示すコンテキストキューに関して分析され得る。

プロセス７００では、ユーザによって提示されるオーディオ入力は、段階７１０において、１つ以上のマイクロホン６０２から検出される。（いくつかの実施例では、オーディオ入力は、ストリーミングデータとして、またはマイクロホン出力の代わりに、またはそれに加え、１つ以上のデータファイルとして、受信されることができる。）本オーディオ入力は、プロセス７００によるアクセスのために、入力バッファまたは他のメモリ内に記憶されることができる。段階７２０では、プロセス７００は、ユーザが、入力発話を提示する間、一時停止したかどうかを決定することができる（例えば、下記にさらに詳細に説明されるように、入力バッファおよび／またはセンサデータに基づいて）。一時停止が、検出されない場合、ユーザの現在の発声が継続中であることを示し、プロセスは、段階７１０に戻り、オーディオ入力の検出を継続し得る。一時停止が、段階７２０において検出される場合、プロセス７００は、段階７３０において、一時停止が現在の発声の完了（現在の発声の継続ではなく）を示す尤度を決定し得る。例えば、段階７２０は、一時停止が現在の発声が完了したことを示す尤度を表す、数値としての信頼度値を決定することができる。本決定は、下記にさらに詳細に説明されるように、入力バッファのコンテンツおよび／またはセンサデータに基づいて行われることができる。

段階７３２では、プロセス７００は、段階７３０において、検出された一時停止が現在の発声の完了を示すかどうかの決定を評価することができる。一時停止が現在の発声の完了を示すことの十分な信頼度を伴って（例えば、閾値を超える、信頼度レベルを伴って）決定された場合、プロセス７００は、発声を結論付けることに進み（段階７４０）、発声をＡＳＲエンジン（７６０）に提示し（段階７５０）、応答をＮＬＵエンジン（７６５）から受信し（段階７７０）、応答をユーザに提示する（段階７８０）ことができる。これらのステップは、それぞれ、プロセス６００に関して上記に説明される、段階６４０、段階６５０、ＡＳＲエンジン６６０、ＮＬＵエンジン６６５、段階６７０、および段階６８０に対応し得る。

プロセス７００が、一時停止が、現在の発声が完了されたことを示す可能性が高くない（例えば、決定された信頼度レベルが閾値を満たさない）ことを決定する場合、プロセス７００は、段階７３２において、それに応答して、種々のアクションを行うことができる。いくつかの実施例では、プロセス７００は、段階７２０に関して本明細書に説明されるような一時停止が検出されたかどうかを決定するために使用されるパラメータを調節またはリセットすることができる（段階７３４）。例えば、プロセス７００は、段階７３４において、入力発話内の一時停止を検出するために段階７２０において使用されるタイムアウトインターバルを増加またはリセットさせることができる。これは、プロセス７００が、より多くの時間が、ユーザが現在の発声を完了することを意図するかどうかを決定するために必要とされることを決定する場合に有益であり得る。いくつかの実施例では、プロセス７００は、ユーザに、付加的入力に関するプロンプト（例えば、発話を終了したかどうかを示すことをユーザに求める、視覚的および／または可聴プロンプト）等、プロンプトを提示することができる（段階７３６）。これは、現在の発声が完了されたかどうかが曖昧である状況において、例えば、プロセス７００が、閾値未満であるが、それに近い、信頼度値を返す場合、有益であり得る。いくつかの実施例では、一時停止が、現在の発声が完了されたことを示さないことの検出に応じて、プロセス７００は、現在の発声と第２の発声を組み合わせることができる（段階７３８）。例えば、一時停止に先行する発声は、発話認識エンジン（例えば、ＡＳＲエンジンおよび／またはＮＬＵエンジン）への組み合わせられた発声の提示のために、一時停止に続く第２の発声と連結され得る。いくつかの実施例では、プロセス７００は、段階７３４、７３６、または７３８に関して説明されるような任意の付加的アクションを行わずに、段階７１０に戻り、入力発話の検出を継続し得る。本挙動は、段階７３０が、現在の発声が完了したことを結論付けるために要求される閾値をはるかに下回る、信頼度値を返す場合に好ましくあり得る。

図８Ａは、図７に関して上記に説明されるようなプロセス７００の段階７２０を実装するための例示的プロセスのフローチャートを図示する。図中では、オーディオ入力データ８１０（例えば、入力バッファ内に記憶される発話入力信号）が、入力内の一時停止の存在を決定するために評価されることができる。段階８２０では、プロセスは、入力信号の１つ以上の性質の値が、タイムアウトインターバルを超えるある時間周期にわたって、閾値を上回るまたは下回るかどうかを決定し得る。いくつかの実施例では、入力信号の振幅が、タイムアウトインターバルを超えるある時間周期にわたって、閾値振幅レベルを下回ったかどうかが、決定されてもよい。該当する場合、これは、図６に関して上記に説明されるように、ユーザの入力発話内の一時停止を示し得る（段階８６０）。いくつかの実施形態では、タイムアウトインターバルの長さは、性質に応じて、変動し得る。いくつかの実施例では、スペクトル分析が、発話信号を他の周囲または入射音と明確に異なるものとして識別することができ、分析の出力が、タイムアウトインターバルを超えるある時間周期にわたって、１つ以上の閾値を上回ったまたは下回ったかどうかが、決定されてもよい。

しかしながら、段階８２０において、タイムアウトインターバル８２２が経過していないことが決定される場合でも、プロセスは、オーディオ入力データ８１０を検査し、発話データが、入力発話内の一時停止を示す、口頭キュー（相対的沈黙以外）を含むかどうかを決定することができる（段階８３０）。これらの口頭キューは、ユーザの韻律の特性（例えば、リズム、イントネーション、声色、音量）、後続単語の存在、終了単語または語句（例えば、口頭要求を完了するときの「ｔｈａｎｋｙｏｕ」）の存在、および同等物を含むことができる。これらの口頭キューは、タイムアウトインターバルがまだ経過していない場合でも、現在の発声が完了したことを示し得る。段階８４０では、プロセスは、任意のそのような口頭キューが存在するかどうかと、該当する場合、それらが入力発話が一時停止した（段階８６０）または一時停止していない（段階８５０）ことを示すかどうかとを評価することができる。ある場合には、段階８４０は、段階８３０において生成された信頼度レベルを閾値に対して比較することによって、本決定を行うことができる。口頭キューの存在を評価し、発声が完了されたことを示すことによって、タイムアウトインターバルの満了前でも、プロセスは、処理するために（例えば、ＡＳＲエンジンおよび／またはＮＬＵエンジンによって）発声を提示する前にタイムアウトインターバルの完了を待機することから生じ得る、上記に説明されるような非応答性の知覚を回避することができる。

図８Ｂは、その中でセンサ入力データ８４４が、上記に説明されるようなオーディオ入力データ８１０の代わりに、またはそれと併せて使用される、プロセス７００の段階７２０を実装するための例示的プロセスのフローチャートを図示する。いくつかの実施例では、上記に説明されるように、センサデータ８４４は、図１における例示的ウェアラブル頭部デバイス１００に関して上記に説明されるようなセンサからのデータに対応し得る。上記に説明されるように、そのようなウェアラブルシステムは、ウェアラブルシステムのユーザおよび／または環境についての入力を提供し得る、１つ以上のセンサを含むことができる。例えば、ウェアラブル頭部デバイス１００は、カメラ（例えば、図４に説明されるカメラ４４４）を含み、環境に対応する視覚的信号を出力することができる。いくつかの実施例では、カメラは、現在、ウェアラブルシステムのユーザの正面にあるものを示す、頭部搭載型ユニット上の前向きに向いたカメラであることができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、ＬＩＤＡＲユニット、レーダユニット、および／または音響センサを含むことができ、これは、ユーザの環境の物理的幾何学形状（例えば、壁、物理的オブジェクト）に対応する信号を出力することができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、ＧＰＳユニットを含むことができ、これは、ウェアラブルシステムの現在の場所に対応する地理的座標を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、加速度計、ジャイロスコープ、および／または慣性測定ユニット（ＩＭＵ）を含み、ウェアラブル頭部デバイス１００の配向を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、温度または圧力センサ等の環境センサを含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス１００は、虹彩カメラ、指紋センサ、ユーザの眼の移動または眼の視線を測点するための眼追跡センサ（例えば、電気眼球図記録（ＥＯＧ）センサ）、またはユーザのバイタルサインを測定するためのセンサ等のバイオメトリックセンサを含むことができる。ウェアラブル頭部デバイス１００が、頭部搭載型ユニットを含む、実施例では、そのような配向は、ユーザの頭部の配向（さらに言うと、ユーザの口およびユーザの発話の方向）に対応し得る。他の好適なセンサも、含まれることができ、センサ入力データ８４４を提供することができる。さらに、いくつかの実施例では、ウェアラブルシステムのもの以外のセンサも、必要に応じて、利用されることができる。例えば、発話認識システムのマイクロホンと関連付けられるセンサ（例えば、ＧＰＳ、ＩＭＵ）が、ユーザと発話認識システムとの間の相対的距離および配向を決定するためにウェアラブルシステムのセンサと併用され得る。

段階８４２では、プロセス８００は、センサ入力データ８４４を検査し、センサデータが、入力発話内の一時停止を示す、非口頭キューを含むかどうかを決定することができる。これらの非口頭キューは、例えば、ユーザの眼視線、頭部姿勢、ジェスチャ、バイタルサイン（例えば、呼吸パターン、心拍数）、および顔の表情の特性を含むことができる。これらの非口頭キューは、タイムアウトインターバルが、まだ経過していない場合でも、かつ図８Ａに関して上記に説明されるような口頭キューの不在下でも、現在の発声が完了したことを示し得る。例えば、ユーザの発話内の一時停止は、ユーザの眼視線標的の変化、ユーザの頭部姿勢の変化、ユーザによって実施されるジェスチャ、ユーザのバイタルサイン（例えば、呼吸パターン、心拍数）の変化、ユーザの顔の表情の変化、マイクロホンから離れるような移動または回転の変化、センサ入力データ８４４によって示されるユーザの姿勢または他の物理的特性の変化、配向の変化、および／または前述の特性のうちの任意の１つ以上のものの変化率と対応し得る。段階８４６では、プロセスは、任意のそのような非口頭キューが存在するかどうかと、該当する場合、それらが入力発話が一時停止した（段階８６０）または一時停止していない（段階８５０）ことを示すかどうかとを評価することができる。ある場合には、段階８４６は、段階８４２において生成された信頼度レベルを閾値に対して比較することによって、本決定を行うことができる。上記のように、非口頭キューの存在を評価し、発声が完了したことを示すことによって、タイムアウトインターバルの満了前でも、プロセスは、発声を発話認識エンジンに提示する前にタイムアウトインターバルの完了を待機することから生じ得る、上記に説明されるような非応答性の知覚を回避することができる。図８Ｂは、別個の段階（すなわち、段階８４０および８４６）において分析される口頭キューおよび非口頭キューを示すが、いくつかの実施例は、単一段階において、口頭キューおよび非口頭キューを組み合わせて分析することができる。

図９Ａは、図７に関して上記に説明されるようなプロセス７００の段階７３０を実装するための例示的プロセスのフローチャートを図示する。段階７３０では、プロセス７００は、上記に説明されるような段階７２０において識別された一時停止に関して、一時停止が現在の発声の完了に対応する可能性が高いかどうかを決定する。図９Ａでは、オーディオ入力データ９１０（例えば、上記に説明される８１０に対応し得る、入力バッファ内に記憶される発話信号）が、段階９２０において評価され、オーディオ入力データ内の介在音の存在を決定し得る。介在音は、現在の発声がまだ完了していない（ユーザが思考の途中である場合等）ことを示し得る、入力オーディオ内に存在する単語、語句、音節、または他の有声化であってもよい。例えば、介在音は、躊躇音（例えば、「ｕｍ」、「ｕｈ」）、伸長音節（例えば、語句「Ｉ’ｍｇｏｉｎｇｔｏ」の最後における伸長された「ｔｏ（ｏｏｏ）」）、反復（例えば、「ａｎｄ，ａｎｄ，ａｎｄ．．．」）、後続つなぎ語（例えば、「ｌｉｋｅ」、「Ｉｍｅａｎ」）、および／またはユーザが現在の発声に属する付加的入力オーディオを提供する可能性が高いことの他のインジケーションを含むことができる。そのような介在音は、個々のユーザ、特定の言語、または口頭入力のタイプ（例えば、質問、宣言的陳述）に特有であり得る。下記に説明されるように、種々の分類子が、介在音を識別するために採用されることができる。

段階９３０では、プロセスは、任意のそのような介在音が段階９２０において検出されたかどうかを決定し得る。該当しない場合、プロセスは、現在の発声が完了されたと結論付けることができる（段階９７０）。介在音が、存在する場合、プロセスは、段階９４０において、介在音が現在の発声が継続中であることを示すかどうかを評価することができる。例えば、躊躇音の存在は、ユーザが完全な発声を明確に話すプロセス中であることを示し得る（例えば、「Ｗｈａｔ’ｓｔｈｅｗｅａｔｈｅｒ．．．ｕｈ．．．ｔｏｍｏｒｒｏｗ」におけるように）。同様に、伸長音節、反復、つなぎ語、および他の介在音も、現在の発声がまだ完了していないことを示し得る。いくつかの実施例では、段階９４０は、介在音が存在し、現在の発声が完了したかどうかを示す、尤度を示す、信頼度値を生成することができる。

段階９５０では、段階９４０において、現在の発声が継続中であることが決定される場合、プロセスは、現在の発声が完了されていないと結論付けることができる（段階９６０）。図７に関して上記に説明されるように、これは、プロセスがそれに応答して種々のアクションを実施することをもたらし得る。例えば、プロセス７００は、その間に、一時停止を検出し、現在の発声が完了したかどうかを示す付加的入力に関してユーザにプロンプトし、および／または現在の発声と第２の発声を組み合わせる、またはアクションを全く行わない、タイムアウトインターバルを延長することができる（例えば、８２２）。いくつかの実施例では、実施されるアクション（該当する場合）は、段階９４０において生成された信頼度値に依存し得る。例えば、発声がまだ完了されていないことの高信頼度値に応答して、プロセス７００は、任意のさらなるアクションを行わずに、単に、段階７１０に戻り、オーディオ入力の検出を継続してもよく、中信頼度値（例えば、現在の発声が完了したかどうかに関して不確実性を示す）に応答して、プロセス７００は、付加的入力に関してユーザに明示的にプロンプトしてもよい（段階７３６）。同様に、段階９４０において、現在の発声が完了されたことが決定される場合、プロセスは、それを示すことができ（段階９７０）、プロセスは、発声を上記に説明されるような発話認識システムに提示するように進むことができる。

図９Ｂは、その中でセンサ入力データ９４２が、上記に説明されるようなオーディオ入力データ９１０の代わりに、またはそれと併せて使用される、例示的プロセス７００の段階７３０を実装するための例示的プロセスのフローチャートを図示する。センサ入力データ９４２は、上記に説明されるセンサ入力データ８４４に対応し得る。例えば、センサ入力データ９４２は、図１における例示的ウェアラブル頭部デバイス１００に関して上記に説明されるようなセンサによって出力されることができる。上記に説明されるように、そのようなセンサは、１つ以上のカメラ（例えば、ＲＧＢカメラ、深度カメラ）、ＬＩＤＡＲユニット、レーダユニット、音響センサ、ＧＰＳユニット、加速度計、ジャイロスコープ、ＩＭＵ、環境センサ、バイオメトリックセンサ（例えば、虹彩カメラ、指紋センサ、眼追跡センサ、および／またはユーザのバイタルサインを測定するためのセンサ）を含むことができる。他の好適なセンサも、含まれることができ、センサ入力データ９４２を提供することができる。さらに、いくつかの実施例では、ウェアラブルシステムのもの以外のセンサも、必要に応じて、利用されることができる。例えば、上記に説明されるように、発話認識システムのマイクロホンと関連付けられるセンサ（例えば、ＧＰＳ、ＩＭＵ）が、ユーザと発話認識システムとの間の相対的距離および配向を決定するためにウェアラブルシステムのセンサと併用され得る。

図９Ｂに関して、センサ入力データ９４２は、段階９４４において、センサデータが現在の発声が継続中であることを示すかどうか、または現在の発声が完了されたかどうかを決定するために評価され得る。例えば、発声の完了（または非完了）は、ユーザの眼視線標的の変化、ユーザの頭部姿勢の変化、ユーザによって実施されるジェスチャ、ユーザのバイタルサイン（例えば、呼吸パターン、心拍数）の変化、ユーザの顔の表情の変化、マイクロホンから離れるような移動または回転の変化、センサ入力データ９４４によって示されるユーザの姿勢または他の物理的特性の変化、配向の変化、および／または前述の特性のうちの任意の１つ以上のものの変化率と対応し得る。いくつかの実施例では、段階９４４は、それを用いて現在の発声が完了された尤度を示す、信頼度レベルを生成してもよい。段階９４４において行われる決定（例えば、信頼度レベルと閾値の比較によって）に基づいて、段階９５０におけるプロセスは、発声が完了された（段階９７０）または完了されていない（段階９６０）ことのいずれかを示し得る。

上記に説明されるプロセス７００では、入力データ（例えば、オーディオデータ、センサデータ）は、１つ以上の段階において、データが発話認識エンジン（例えば、ＡＳＲエンジンおよび／またはＮＬＵエンジン）に提示される方法に対するその有意性に関して評価されることができる。例えば、プロセス７２０の段階８３０では、上記に説明されるように、オーディオ入力データは、データが、現在の発声が完了したことの口頭キューを含むかどうかを決定するために評価され得る。段階８４２では、上記に説明されるように、センサデータは、現在の発声が完了したことの非口頭キュー（例えば、顔の表情の変化）に関して評価され得る。段階９２０では、上記に説明されるように、オーディオ入力データは、介在音の存在を識別するために評価され得、段階９４０では、それらの介在音が現在の発声が継続中であることを示すかどうかが評価され得る。また、段階９４４では、上記に説明されるように、センサ入力データは、センサ入力データが現在の発声が継続中であることを示すかどうかを決定するために評価され得る。

いくつかの実施例では、上記に説明されるように使用されるオーディオ入力データおよび／またはセンサ入力データは、データを表す、１つ以上の分類子をもたらす、１つ以上のパラメータに従って分類されることができる。これらの分類子は、そのデータの有意性（例えば、データと関連付けられる確率）を評価するために使用されることができる（例えば、例示的プロセス７００によって）。図１０は、入力データ１０１０を分類し、その入力データと関連付けられる着目確率を決定するための例示的プロセス１０００を図示する。本明細書で使用されるように、着目確率は、例示的プロセス７００に関して上記に説明される確率、オーディオ入力データおよび／またはセンサ入力データが入力発話内の一時停止を示す確率、一時停止が発声の完了を示す確率、および／または介在音の存在が発声が継続中であることを示す確率、または別の好適な確率に対応し得る。図１０に関して、本決定は、単独で、またはセンサ入力データ１０２０と組み合わせて、オーディオ入力データ１０１６を使用して、実施されることができる。入力データ１０１０に関する確率値を決定するステップは、入力データ１０１０の「分類」と称され得、本決定（例えば、１０７４）を実施するためのモジュールまたはプロセスは、「分類子」と称され得る。

図１０に示される例示的プロセスでは、入力データ１０１０（例えば、オーディオ入力データ１０１６および／またはセンサ入力データ１０２０）は、（例えば、データベースからの）発話／センサデータ１０２９と併用され、入力データ１０１０に関する１つ以上の着目確率を決定することができる。いくつかの実施例では、オーディオ入力データ１０１６および／またはセンサ入力データ１０２０は、段階１０７５において、発話／センサデータ１０２９に基づいて、発話セグメントの分類を促進するために、１つ以上のパラメータに従って、パラメータ化／特性評価されることができる。入力データ１０１０のフーリエ変換は、入力データ１０１０のスペクトル表現（例えば、オーディオ入力データ１０１６および／またはセンサ入力データ１０２０内の種々の周波数パラメータの相対的分布率を示す周波数の関数）を提供するために実施されることができる。例えば、本プロセスは、ユーザの発話、位置、眼視線、および／または身体移動の振幅または成分周波数のレベル（または変化）を識別することができる。これらの値は、上記に説明されるようなユーザの発話内の一時停止、介在音の存在、またはユーザの発声の完了を示すことができる。いくつかの実施例では、ユーザの特性、例えば、ユーザの年齢、性別、および／または母語が、パラメータとして使用され、入力データ１０１０を特性評価することができる。その中で入力データ１０１０が、入力データの着目確率を決定するために使用されるそのようなパラメータを用いてパラメータ化され得る、他の方法も、当業者に明白となるであろう。

実施例の段階１０７６では、確率値１０７８が、入力データ１０１０の着目確率に関して決定される。いくつかの実施例では、確率値１０７８は、発話／センサデータ１０２９を含む、データベースが、データベース内の発話および／またはセンサデータの要素に関して、それらの要素が入力発話に対応するかどうか識別する場合等、発話／センサデータ１０２９を使用して決定されることができる。いくつかの実施例では、オーディオ入力データ１０１６は、発話セグメントに対応する、オーディオ波形のセットを含むことができ、波形毎に、対応する発話セグメントが一時停止または介在音を示すかどうかを示すことができる。いくつかの実施例では、オーディオ波形の代わりに、またはそれに加え、オーディオ入力データ１０１６は、発話セグメントに対応する、オーディオパラメータを含むことができる。オーディオ入力データ１０１６は、例えば、オーディオ入力データ１０１６のオーディオ波形と発話／センサデータ１０２９の類似波形を比較することによって、またはオーディオ入力データ１０１６のパラメータ（段階１０７５において特性評価され得るような）と発話／センサデータ１０２９の類似パラメータを比較することによって、発話／センサデータ１０２９の発話セグメントと比較されることができる。そのような比較に基づいて、確率値１０７８は、オーディオ入力データ１０１６に関して決定されることができる。

類似技法も、センサ入力データ１０２０に対して適用されることができる。例えば、センサ入力データ１０２０は、未加工センサデータのシーケンスを含むことができ、未加工センサデータに関して、そのデータが、一時停止または発声の完了または継続を示すかどうかを示すことができる。同様に、センサ入力データ１０２０は、センサデータに対応する、センサ入力パラメータを含むことができる。センサ入力データ１０２０は、オーディオ入力データ１０１６に関して上記に説明されるように、発話／センサデータ１０２９の要素と比較されることができる。

入力データ１０１０に基づいて確率１０７８を決定するための技法は、当業者に熟知されているであろう。例えば、いくつかの実施例では、最近傍補間が、段階１０７６において使用され、入力データ１０１０の要素とＮ次元空間内の類似データ要素を比較し（Ｎ次元は、例えば、上記に説明されるオーディオパラメータ、オーディオ波形データ、センサパラメータ、または未加工センサデータを備えることができる）、入力データ１０１０の要素とＮ次元空間内のその近傍系との間の相対的距離に基づいて、確率値１０７８を決定することができる。別の実施例として、サポートベクトルマシンが、段階１０７６において使用され、発話／センサデータベース１０２９に基づいて、発声が完了したことを示すか、または発声が完了していないことを示すかのいずれかとして、入力データ１０１０の要素を分類するための基礎を決定し、その基礎に従って、入力データ１０１０を分類する（例えば、入力データ１０１０が、完了された発声、一時停止、または介在音の存在を示す、確率値１０７８を決定する）ことができる。入力データ１０１０および／または発話／センサデータ１０２９を分析し、入力データ１０１０と発話／センサデータ１０２９を比較し、および／または確率１０７８を決定するために、発話／センサデータ１０２９に基づいて、入力データ１０１０を分類するために他の好適な技法も、明白となるであろう。本開示は、任意の特定の技法または技法の組み合わせに限定されない。

いくつかの実施例では、機械学習技法が、単独で、または本明細書に説明される他の技法と組み合わせて使用され、確率値１０７８を決定することができる。例えば、ニューラルネットワークが、発話／センサデータ１０２９上で訓練され、入力データ１０１０に適用され、その入力データに関する確率値１０７８を決定し得る。別の実施例として、遺伝的アルゴリズムが、発話／センサデータ１０２９に基づいて、入力データ１０１０に対応する確率値１０７８を決定するための関数を決定するために使用されることができる。当業者に熟知されているであろう、他の好適な機械学習技法も、明白となるであろう。本開示は、任意の特定の技法または技法の組み合わせに限定されない。

いくつかの実施例では、発話／センサデータ１０２９が、種々のユーザに関する発話データおよび／またはセンサデータのセットを記録し、そのデータの要素に関して、ユーザが、発声を完了した、その発話を一時停止した、または介在音を提供しているかどうかを識別することによって生成されることができる。例えば、人々のグループと相互作用している、ユーザが、ユーザの発話が記録される際、同一部屋内に存在する発話認識システムを用いて、観察され得、ユーザに関するセンサデータ（例えば、ユーザによって装着されるウェアラブルシステムによって出力される）もまた、記録され得る。観察者は、記録されたデータの領域毎に、データのその領域が、一時停止、介在音の提供、または発声の完了に対応するかどうかを識別し得る。本情報は、ユーザが発話しているコンテキストを観察することによって、観察者に明白となり得、一般に、人間（機械と異なり）にとって、ユーザの観察に基づいて、ユーザが発声を完了したかどうかを決定することは容易かつ直感的である。本プロセスは、十分に大規模かつ多様な発話／センサデータのセットが生成されるまで、複数のユーザに関して繰り返されることができる。

上記に説明されるシステムおよび方法に関して、システムおよび方法の要素は、必要に応じて、１つ以上のコンピュータプロセッサ（例えば、ＣＰＵまたはＤＳＰ）によって実装されることができる。本開示は、これらの要素を実装するために使用される、コンピュータプロセッサを含む、コンピュータハードウェアの任意の特定の構成に限定されない。ある場合には、複数のコンピュータシステムが、上記に説明されるシステムおよび方法を実装するために採用されることができる。例えば、第１のコンピュータプロセッサ（例えば、マイクロホンに結合される、ウェアラブルデバイスのプロセッサ）は、入力マイクロホン信号を受信し、それらの信号の初期処理（例えば、上記に説明されるような信号調整および／またはセグメント化）を実施するために利用されることができる。第２の（おそらく、より算出上強力な）プロセッサは、次いで、それらの信号の発話セグメントと関連付けられる確率値を決定する等、より算出上集約的である処理を実施するために利用されることができる。クラウドサーバ等の別のコンピュータデバイスは、それに対して入力信号が最終的には提供される、発話認識エンジンをホストすることができる。他の好適な構成も、明白となり、本開示の範囲内である。

開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、１つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付される請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるものである。

Claims

方法であって、
頭部装着型デバイスのマイクロホンを介して、オーディオ信号を受信することであって、前記オーディオ信号は、音声アクティビティを備える、ことと、
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することと、
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えることの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することと、
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応することの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示することと
を含む、方法。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示しないことをさらに含む、請求項１に記載の方法。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えないことの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定しないことをさらに含む、請求項１に記載の方法。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号の振幅が所定の時間周期にわたって閾値を下回るかどうかを決定することを含む、請求項１に記載の方法。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記オーディオ信号が前記音声アクティビティの終点に対応する第２の一時停止を備えるかどうかを決定することをさらに含む、請求項４に記載の方法。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記ユーザに、発話をプロンプトすることをさらに含む、請求項４に記載の方法。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号が前記音声アクティビティの終点に対応する１つ以上の口頭キューを備えるかどうかを決定することを含む、請求項１に記載の方法。
前記１つ以上の口頭キューは、前記ユーザの韻律の特性を備える、請求項７に記載の方法。
前記１つ以上の口頭キューは、終了語句を備える、請求項７に記載の方法。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、非口頭センサデータを評価することを含む、請求項１に記載の方法。
前記非口頭センサデータは、前記ユーザの視線を示す、請求項１０に記載の方法。
前記非口頭センサデータは、前記ユーザの顔の表情を示す、請求項１０に記載の方法。
前記非口頭センサデータは、前記ユーザの心拍数を示す、請求項１０に記載の方法。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、１つ以上の介在音を識別することを含む、請求項１に記載の方法。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、非口頭センサデータを評価することを含む、請求項１に記載の方法。
システムであって、
頭部装着型デバイスのマイクロホンと、
１つ以上のプロセッサであって、前記１つ以上のプロセッサは、
前記頭部装着型デバイスのマイクロホンを介して、オーディオ信号を受信することであって、前記オーディオ信号は、音声アクティビティを備える、ことと、
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することと、
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えることの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することと、
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応することの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示することと
を含む方法を実行するように構成される、１つ以上のプロセッサと
を備える、システム。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示しないことをさらに含む、請求項１６に記載のシステム。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えないことの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定しないことをさらに含む、請求項１６に記載のシステム。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号の振幅が所定の時間周期にわたって閾値を下回るかどうかを決定することを含む、請求項１６に記載のシステム。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記オーディオ信号が前記音声アクティビティの終点に対応する第２の一時停止を備えるかどうかを決定することをさらに含む、請求項１９に記載のシステム。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記ユーザに、発話をプロンプトすることをさらに含む、請求項１９に記載のシステム。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号が前記音声アクティビティの終点に対応する１つ以上の口頭キューを備えるかどうかを決定することを含む、請求項１６に記載のシステム。
前記１つ以上の口頭キューは、前記ユーザの韻律の特性を備える、請求項２２に記載のシステム。
前記１つ以上の口頭キューは、終了語句を備える、請求項２２に記載のシステム。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、非口頭センサデータを評価することを含む、請求項１６に記載のシステム。
前記非口頭センサデータは、前記ユーザの視線を示す、請求項２５に記載のシステム。
前記非口頭センサデータは、前記ユーザの顔の表情を示す、請求項２５に記載のシステム。
前記非口頭センサデータは、前記ユーザの心拍数を示す、請求項２５に記載のシステム。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、１つ以上の介在音を識別することを含む、請求項１６に記載のシステム。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、非口頭センサデータを評価することを含む、請求項１６に記載のシステム。
非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、１つ以上の命令を記憶しており、前記命令は、電子デバイスの１つ以上のプロセッサによって実行されると、前記デバイスに、
頭部装着型デバイスのマイクロホンを介して、オーディオ信号を受信することであって、前記オーディオ信号は、音声アクティビティを備える、ことと、
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することと、
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えることの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することと、
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応することの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示することと
を含む方法を実施させる、非一過性コンピュータ可読媒体。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示しないことをさらに含む、請求項３１に記載の非一過性コンピュータ可読媒体。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えないことの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定しないことをさらに含む、請求項３１に記載の非一過性コンピュータ可読媒体。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号の振幅が所定の時間周期にわたって閾値を下回るかどうかを決定することを含む、請求項３１に記載の非一過性コンピュータ可読媒体。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記オーディオ信号が前記音声アクティビティの終点に対応する第２の一時停止を備えるかどうかを決定することをさらに含む、請求項３４に記載の非一過性コンピュータ可読媒体。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記ユーザに、発話をプロンプトすることをさらに含む、請求項３４に記載の非一過性コンピュータ可読媒体。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号が前記音声アクティビティの終点に対応する１つ以上の口頭キューを備えるかどうかを決定することを含む、請求項３１に記載の非一過性コンピュータ可読媒体。
前記１つ以上の口頭キューは、前記ユーザの韻律の特性を備える、請求項３７に記載の非一過性コンピュータ可読媒体。
前記１つ以上の口頭キューは、終了語句を備える、請求項３７に記載の非一過性コンピュータ可読媒体。
前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、非口頭センサデータを評価することを含む、請求項３１に記載の非一過性コンピュータ可読媒体。
前記非口頭センサデータは、前記ユーザの視線を示す、請求項４０に記載の非一過性コンピュータ可読媒体。
前記非口頭センサデータは、前記ユーザの顔の表情を示す、請求項４０に記載の非一過性コンピュータ可読媒体。
前記非口頭センサデータは、前記ユーザの心拍数を示す、請求項４０に記載の非一過性コンピュータ可読媒体。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、１つ以上の介在音を識別することを含む、請求項３１に記載の非一過性コンピュータ可読媒体。
前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、非口頭センサデータを評価することを含む、請求項３１に記載の非一過性コンピュータ可読媒体。