JP2022529783A - 発話認識エンジンのための入力の識別 - Google Patents

発話認識エンジンのための入力の識別 Download PDF

Info

Publication number
JP2022529783A
JP2022529783A JP2021562002A JP2021562002A JP2022529783A JP 2022529783 A JP2022529783 A JP 2022529783A JP 2021562002 A JP2021562002 A JP 2021562002A JP 2021562002 A JP2021562002 A JP 2021562002A JP 2022529783 A JP2022529783 A JP 2022529783A
Authority
JP
Japan
Prior art keywords
voice activity
pause
user
audio signal
determining whether
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021562002A
Other languages
English (en)
Other versions
JPWO2020214844A5 (ja
Inventor
アンソニー ロバート シーダー,
トゥシャー アローラ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Magic Leap Inc
Original Assignee
Magic Leap Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Magic Leap Inc filed Critical Magic Leap Inc
Publication of JP2022529783A publication Critical patent/JP2022529783A/ja
Publication of JPWO2020214844A5 publication Critical patent/JPWO2020214844A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

信号を発話認識エンジンに提示する方法が、開示される。本方法の実施例によると、オーディオ信号が、ユーザから受信される。オーディオ信号の一部が、識別され、その部分は、第1の時間と、第2の時間とを有する。オーディオ信号内の一部内の一時停止、すなわち、第2の時間を構成する、一時停止が、識別される。一時停止がオーディオ信号の発声の完了を示すかどうかが、決定される。一時停止が発声の完了を示すことの決定に従って、オーディオ信号の一部は、入力として、発話認識エンジンに提示される。一時停止が発声の完了を示さないことの決定に従って、オーディオ信号の一部は、入力として、発話認識エンジンに提示されない。

Description

(関連出願の相互参照)
本願は、35U.S.C.§119(e)下、その内容が、あらゆる目的のために、参照することによってその全体として本明細書に組み込まれる、2019年4月19日に出願された、米国仮特許出願62/836,593号の利点を主張する。
本開示は、概して、発話信号を処理するためのシステムおよび方法に関し、特に、発話認識エンジンへの提示のために、発話信号を処理するためのシステムおよび方法に関する。
発話認識のためのシステムは、典型的には、1つ以上のマイクロホンを介して、人間の発話を表すオーディオ入力を受信し、オーディオ入力を処理し、そのオーディオ入力に対応する、単語、論理構造、または他の出力を決定することをタスクとして課される。例えば、自動発話認識(ASR)システムは、オーディオ入力信号に対応する人間の発話に基づいて、テキスト出力を生成し得、自然言語処理(NLP)ツールは、その人間の発話の意味に対応する、論理構造またはコンピュータデータを生成し得る。いくつかのASRシステムは、事前に記録された大規模な発話の集積上で動作し得るが(実施例として、前日にマイクロホンによって記録された発話の記述された書き起こし記録を作成するタスクを課される、システム)、いくつかのASRシステムは、リアルタイムで提供される発話入力に応答しなければならない。リアルタイム発話処理は、ASRシステムに、一意のセットの課題を提示する。例えば、ASRシステムは、典型的には、入力のモノリシックブロックとしてではなく、意味を伝える、一連の個々の単語または語句(「発声」)として、発話を処理する。
発声が開始および終了するときを識別することは、ASRシステムが、ユーザの入力発話を正確に処理し、所望の結果を提供するために不可欠であり得る。実施例として、天気予報サービスと通信する、リアルタイム「音声アシスタント」ASRシステムを検討すると、ASRシステムは、天気について尋ねるユーザからの発話入力(例えば、「What’s the current weather?」)を受信し、発話入力を構造化されたクエリ(例えば、具体的日付および時間における、かつ具体的場所における、過去、現在、または予測される将来的天気を示す、データに関するクエリ)に変換し、構造化されたクエリを天気予報サービスに提示し、サービスからのクエリ結果を受信し、クエリ結果をユーザに提示し得る。ユーザは、ASRシステムが、その完全な質問(質問の個々の断片ではなく)を処理し、即座に正確な応答を提供することを予期する。ユーザはさらに、ASRシステムが、具体的固定フォーマットに準拠する必要のない、自然に発話されたコマンドを処理するであろうことを予期する。本例示的システムでは、リアルタイムで、ユーザの完全な質問を識別し、質問を処理し、タイムリーな様式において、理想的には、ユーザが質問を尋ね終えるとすぐに、正確な応答を生産することが、ASRの義務となる。
本例示的システムでは、応答の正確度は、ASRシステムが、ユーザの質問(発声)が完了したことを決定するときに依存し得る。例えば、ユーザが、「What’s the weather tomorrow?」と尋ね得る。ASRシステムが、「What’s the weather」の後に発声が完了したと早まって決定する場合、天気サービスへのその対応するクエリは、修飾語「tomorrow」を省略し、結果として生じる応答は、したがって、不正確なものとなるであろう(ユーザの所望の日付/時間を反映させないであろう)。逆に言えば、ASRシステムが、より保守的アプローチをとり、発声を処理する前に、数秒にわたって待機し、発声全体が完了したことを確認する場合、ユーザは、ASRシステムがそのコマンドに十分に応答していないと見なし得る。(加えて、ある場合には、そのような長待機周期は、発声内の非関連追随発話を含むことによって、不正確性を作成する場合がある。)
ASRシステムは、即座に、かつリアルタイムで、話者の発声が完了したときを決定する本問題に悩まされている。いくつかのシステムでは、発声の終点を決定するために、固定されたタイムアウト周期が採用されており、発話入力に続いて、発話が、タイムアウト周期の持続時間(例えば、750ms)にわたって受信されない場合、その発話入力は、発声の終了であると見なされ得る。しかしながら、固定されるタイムアウト周期ソリューションは、不完全であって、例えば、ユーザが、質問を明確に話すために一時停止する、ユーザが、一時的に中断される、またはユーザの発話が、別様に訥弁である(例えば、不安、発話障害、環境による注意散漫、認知負荷等に起因して)状況では、タイムアウト周期は、ユーザの発声が完了する前に満了し得る。また、逆に言えば、いったんユーザの発声が、完了すると、応答は、少なくともタイムアウト周期の持続時間(その間にASRシステムがさらなる入力が受信されないことを確認する)だけ遅延され、ユーザは、その持続時間にわたって、付加的発話入力(例えば、新しい発声に属する)を提供することができない。そのような相互作用は、ASRシステムの有用性を限定し、否応なく、ユーザが、別の人間ではなく、機械と通信していることを際立たせ得る。
ASRシステムが、より直感的アプローチを採用し、ユーザが発声を提供することを終了したときを決定することが望ましい。通常の対面相互作用、および度合いは低いが、電話相互作用では、人々は、種々のコンテキストキューを使用して、別の人物が話すことを終了したときを理解する。例えば、話者が、一時停止すると、人々は、話者が、発話を終了したか、または単に、単一の思考の途中で一時停止したかどうかのインジケーションに関して、話者の韻律、顔の表情、眼視線、癖、ジェスチャ、および姿勢を評価する。ASRシステムは、類似キューを使用して、ユーザの発声が開始および終了した箇所を識別してもよい。下記に説明されるように、いくつかの実施例では、ASRシステムは、そのようなコンテキストキューをマイクロホン入力から識別することができ、いくつかの実施例では、1つ以上のセンサ(例えば、ウェアラブルシステムの一部として)と通信する、ASRシステムは、話者についての付加的発話キューをそれらのセンサの出力から集め、そのようなキューを使用して、従来のソリューションと関連付けられる、上記に説明されるような問題を伴わずに、発声境界を識別することができる。
信号を発話認識エンジンに提示する方法が、開示される。本方法の実施例によると、オーディオ信号が、ユーザから受信される。オーディオ信号の一部が、識別され、その部分は、第1の時間と、第2の時間とを有する。オーディオ信号内の一部内の一時停止、すなわち、第2の時間を構成する、一時停止が、識別される。一時停止がオーディオ信号の発声の完了を示すかどうかが、決定される。一時停止が発声の完了を示すことの決定に従って、オーディオ信号の一部は、入力として、発話認識エンジンに提示される。一時停止が発声の完了を示さないことの決定に従って、オーディオ信号の一部は、入力として、発話認識エンジンに提示されない。
図1は、本開示の実施例による、例示的ウェアラブルシステムを図示する。
図2は、本開示の実施例による、例示的ウェアラブルシステムと併用され得る、例示的ハンドヘルドコントローラを図示する。
図3は、本開示の実施例による、例示的ウェアラブルシステムと併用され得る、例示的補助ユニットを図示する。
図4は、本開示の1つ以上の実施例による、例示的ウェアラブルシステムのための例示的機能ブロック図を図示する。
図5は、本開示の1つ以上の実施例による、例示的ASRシステムへの入力のための例示的オーディオ波形を図示する。
図6は、本開示の1つ以上の実施例による、ASRシステムを使用して音響発話信号を処理する実施例のフローチャートを図示する。
図7は、本開示の1つ以上の実施例による、ASRシステムを使用して音響発話信号を処理する実施例のフローチャートを図示する。
図8A-8Bは、本開示の1つ以上の実施例による、入力発話信号内の一時停止を検出する実施例のフローチャートを図示する。 図8A-8Bは、本開示の1つ以上の実施例による、入力発話信号内の一時停止を検出する実施例のフローチャートを図示する。
図9A-9Bは、本開示の1つ以上の実施例による、入力発声が完了したかどうかを決定する実施例のフローチャートを図示する。 図9A-9Bは、本開示の1つ以上の実施例による、入力発声が完了したかどうかを決定する実施例のフローチャートを図示する。
図10は、本開示の1つ以上の実施例による、入力データを分類し、その入力データと関連付けられる確率を決定する実施例のフローチャートを図示する。
実施例の以下の説明では、本明細書の一部を形成し、例証として、実践され得る具体的実施例が示される、付随の図面が、参照される。他の実施例も、使用され得、構造変更が、開示される実施例の範囲から逸脱することなく、行われ得ることを理解されたい。
例示的ウェアラブルシステム
図1は、ユーザの頭部上に装着されるように構成される、例示的ウェアラブル頭部デバイス100を図示する。ウェアラブル頭部デバイス100は、頭部デバイス(例えば、ウェアラブル頭部デバイス100)、ハンドヘルドコントローラ(例えば、下記に説明されるハンドヘルドコントローラ200)、および/または補助ユニット(例えば、下記に説明される補助ユニット300)等の1つ以上のコンポーネントを備える、より広範なウェアラブルシステムの一部であってもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、仮想現実、拡張現実、または複合現実システムまたは用途のために使用されることができる。ウェアラブル頭部デバイス100は、ディスプレイ110Aおよび110B(左および右透過性ディスプレイと、直交瞳拡大(OPE)格子セット112A/112Bおよび射出瞳拡大(EPE)格子セット114A/114B等、ディスプレイからユーザの眼に光を結合するための関連付けられるコンポーネントとを備え得る)等の1つ以上のディスプレイと、スピーカ120Aおよび120B(それぞれ、つるアーム122Aおよび122B上に搭載され、ユーザの左および右耳に隣接して位置付けられ得る)等の左および右音響構造と、赤外線センサ、加速度計、GPSユニット、慣性測定ユニット(IMU、例えば、IMU126)、音響センサ(例えば、マイクロホン150)等の1つ以上のセンサと、直交コイル電磁受信機(例えば、左つるアーム122Aに搭載されるように示される受信機127)と、ユーザから離れるように配向される、左および右カメラ(例えば、深度(飛行時間)カメラ130Aおよび130B)と、ユーザに向かって配向される、左および右眼カメラ(例えば、ユーザの眼移動を検出するため)(例えば、眼カメラ128Aおよび128B)とを備えることができる。しかしながら、ウェアラブル頭部デバイス100は、本発明の範囲から逸脱することなく、任意の好適なディスプレイ技術およびセンサまたは他のコンポーネントの任意の好適な数、タイプ、または組み合わせを組み込むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、ユーザの音声によって発生されるオーディオ信号を検出するように構成される、1つ以上のマイクロホン150を組み込んでもよく、そのようなマイクロホンは、ユーザの口に隣接してウェアラブル頭部デバイス内に位置付けられてもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、他のウェアラブルシステムを含む、他のデバイスおよびシステムと通信するために、ネットワーキング特徴(例えば、Wi-Fi能力)を組み込んでもよい。ウェアラブル頭部デバイス100はさらに、バッテリ、プロセッサ、メモリ、記憶ユニット、または種々の入力デバイス(例えば、ボタン、タッチパッド)等のコンポーネントを含んでもよい、または1つ以上のそのようなコンポーネントを備えるハンドヘルドコントローラ(例えば、ハンドヘルドコントローラ200)または補助ユニット(例えば、補助ユニット300)に結合されてもよい。いくつかの実施例では、センサは、ユーザの環境に対する頭部搭載型ユニットの座標のセットを出力するように構成されてもよく、入力をプロセッサに提供し、同時位置特定およびマッピング(SLAM)プロシージャおよび/またはビジュアルオドメトリアルゴリズムを実施してもよい。いくつかの実施例では、ウェアラブル頭部デバイス100は、下記にさらに説明されるように、ハンドヘルドコントローラ200および/または補助ユニット300に結合されてもよい。
図2は、例示的ウェアラブルシステムの例示的モバイルハンドヘルドコントローラコンポーネント200を図示する。いくつかの実施例では、ハンドヘルドコントローラ200は、ウェアラブルヘッドデバイス100および/または下記に説明される補助ユニット300と有線または無線通信してもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、ユーザによって保持されるべきハンドル部分220と、上面210に沿って配置される1つ以上のボタン240とを含む。いくつかの実施例では、ハンドヘルドコントローラ200は、光学追跡標的として使用するために構成されてもよく、例えば、ウェアラブル頭部デバイス100のセンサ(例えば、カメラまたは他の光学センサ)は、ハンドヘルドコントローラ200の位置および/または配向を検出するように構成されることができ、これは、転じて、ハンドヘルドコントローラ200を保持するユーザの手の位置および/または配向を示し得る。いくつかの実施例では、ハンドヘルドコントローラ200は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、または上記に説明されるもの等の1つ以上の入力デバイスを含んでもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、1つ以上のセンサ(例えば、ウェアラブル頭部デバイス100に関して上記に説明されるセンサまたは追跡コンポーネントのうちのいずれか)を含む。いくつかの実施例では、センサは、ウェアラブル頭部デバイス100に対する、またはウェアラブルシステムの別のコンポーネントに対するハンドヘルドコントローラ200の位置または配向を検出することができる。いくつかの実施例では、センサは、ハンドヘルドコントローラ200のハンドル部分220内に位置付けられてもよい、および/またはハンドヘルドコントローラに機械的に結合されてもよい。ハンドヘルドコントローラ200は、例えば、ボタン240の押下状態、またはハンドヘルドコントローラ200の位置、配向、および/または運動(例えば、IMUを介して)に対応する、1つ以上の出力信号を提供するように構成されることができる。そのような出力信号は、ウェアラブル頭部デバイス100のプロセッサへの、補助ユニット300への、またはウェアラブルシステムの別のコンポーネントへの入力として使用されてもよい。いくつかの実施例では、ハンドヘルドコントローラ200は、音(例えば、ユーザの発話、環境音)を検出し、ある場合には、検出された音に対応する信号をプロセッサ(例えば、ウェアラブル頭部デバイス100のプロセッサ)に提供するために、1つ以上のマイクロホンを含むことができる。
図3は、例示的ウェアラブルシステムの例示的補助ユニット300を図示する。いくつかの実施例では、補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200と有線または無線通信してもよい。補助ユニット300は、ウェアラブル頭部デバイス100および/またはハンドヘルドコントローラ200(ディスプレイ、センサ、音響構造、プロセッサ、マイクロホン、および/またはウェアラブル頭部デバイス100またはハンドヘルドコントローラ200の他のコンポーネントを含む)等のウェアラブルシステムの1つ以上のコンポーネントを動作させるためのエネルギーを提供するために、バッテリを含むことができる。いくつかの実施例では、補助ユニット300は、プロセッサ、メモリ、記憶ユニット、ディスプレイ、1つ以上の入力デバイス、および/または上記に説明されるもの等の1つ以上のセンサを含んでもよい。いくつかの実施例では、補助ユニット300は、補助ユニットをユーザに取り付けるためのクリップ310(例えば、ユーザによって装着されるベルト)を含む。ウェアラブルシステムの1つ以上のコンポーネントを格納するために補助ユニット300を使用する利点は、そのように行うことが、大きいまたは重いコンポーネントが、(例えば、ウェアラブル頭部デバイス100内に格納される場合)ユーザの頭部に搭載される、または(例えば、ハンドヘルドコントローラ200内に格納される場合)ユーザの手によって担持されるのではなく、大きく重い物体を支持するために比較的に良好に適しているユーザの腰部、胸部、または背部の上に担持されることを可能にし得ることである。これは、バッテリ等の比較的に重いまたは嵩張るコンポーネントに関して特に有利であり得る。
図4は、上記に説明される、例示的ウェアラブル頭部デバイス100と、ハンドヘルドコントローラ200と、補助ユニット300とを含み得る等、例示的ウェアラブルシステム400に対応し得る、例示的機能ブロック図を示す。いくつかの実施例では、ウェアラブルシステム400は、仮想現実、拡張現実、または複合現実用途のために使用され得る。図4に示されるように、ウェアラブルシステム400は、ここでは「トーテム」と称される(および上記に説明されるハンドヘルドコントローラ200に対応し得る)例示的ハンドヘルドコントローラ400Bを含むことができ、ハンドヘルドコントローラ400Bは、トーテム/ヘッドギヤ6自由度(6DOF)トーテムサブシステム404Aを含むことができる。ウェアラブルシステム400はまた、(上記に説明されるウェアラブルヘッドギヤデバイス100に対応し得る)例示的ウェアラブル頭部デバイス400Aを含むことができ、ウェアラブル頭部デバイス400Aは、トーテム/ヘッドギヤ6DOFヘッドギヤサブシステム404Bを含む。実施例では、6DOFトーテムサブシステム404Aおよび6DOFヘッドギヤサブシステム404Bは、協働し、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6つの座標(例えば、3つの平行移動方向におけるオフセットおよび3つの軸に沿った回転)を決定する。6自由度は、ウェアラブル頭部デバイス400Aの座標系に対して表されてもよい。3つの平行移動オフセットは、そのような座標系内におけるX、Y、およびZオフセット、平行移動行列、またはある他の表現として表されてもよい。回転自由度は、ヨー、ピッチ、およびロール回転のシーケンス、ベクトル、回転行列、四元数、またはある他の表現として表されてもよい。いくつかの実施例では、ウェアラブル頭部デバイス400A内に含まれる1つ以上の深度カメラ444(および/または1つ以上の非深度カメラ)および/または1つ以上の光学標的(例えば、上記に説明されるようなハンドヘルドコントローラ200のボタン240またはハンドヘルドコントローラ内に含まれる専用光学標的)は、6DOF追跡のために使用されることができる。いくつかの実施例では、ハンドヘルドコントローラ400Bは、上記に説明されるようなカメラを含むことができ、ヘッドギヤ400Aは、カメラと併せた光学追跡のための光学標的を含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス400Aおよびハンドヘルドコントローラ400Bは、それぞれ、3つの直交して配向されるソレノイドのセットを含み、これは、3つの区別可能な信号を無線で送信および受信するために使用される。受信するために使用される、コイルのそれぞれの中で受信される3つの区別可能な信号の相対的大きさを測定することによって、ウェアラブル頭部デバイス400Aに対するハンドヘルドコントローラ400Bの6DOFが、決定されてもよい。いくつかの実施例では、6DOFトーテムサブシステム404Aは、改良された正確度および/またはハンドヘルドコントローラ400Bの高速移動に関するよりタイムリーな情報を提供するために有用である、慣性測定ユニット(IMU)を含むことができる。
拡張現実または複合現実用途を伴ういくつかの実施例では、座標をローカル座標空間(例えば、ウェアラブル頭部デバイス400Aに対して固定される座標空間)から慣性座標空間に、または環境座標空間に変換することが、望ましくあり得る。例えば、そのような変換は、ウェアラブル頭部デバイス400Aのディスプレイが、ディスプレイ上の固定位置および配向において(例えば、ウェアラブル頭部デバイス400Aのディスプレイにおける同一の位置において)ではなく、仮想オブジェクトを実環境に対する予期される位置および配向において提示する(例えば、ウェアラブル頭部デバイス400Aの位置および配向にかかわらず、前方に向いた実椅子に着座している仮想人物)ために必要であり得る。これは、仮想オブジェクトが、実環境内に存在する(かつ、例えば、ウェアラブル頭部デバイス400Aが、偏移および回転するにつれて、実環境内に不自然に位置付けられて現れない)という錯覚を維持することができる。いくつかの実施例では、座標空間の間の補償変換が、慣性または環境座標系に対するウェアラブル頭部デバイス400Aの変換を決定するために、(例えば、同時位置特定およびマッピング(SLAM)および/またはビジュアルオドメトリプロシージャを使用して)深度カメラ444からの画像を処理することによって決定されることができる。図4に示される実施例では、深度カメラ444は、SLAM/ビジュアルオドメトリブロック406に結合されることができ、画像をブロック406に提供することができる。SLAM/ビジュアルオドメトリブロック406実装は、本画像を処理し、次いで、頭部座標空間と実座標空間との間の変換を識別するために使用され得る、ユーザの頭部の位置および配向を決定するように構成される、プロセッサを含むことができる。同様に、いくつかの実施例では、ユーザの頭部姿勢および場所に関する情報の付加的源が、ウェアラブル頭部デバイス400AのIMU409から取得される。IMU409からの情報は、SLAM/ビジュアルオドメトリブロック406からの情報と統合され、改良された正確度および/またはユーザの頭部姿勢および位置の高速調節に関するよりタイムリーな情報を提供することができる。
いくつかの実施例では、深度カメラ444は、ウェアラブル頭部デバイス400Aのプロセッサ内に実装され得る、手のジェスチャトラッカ411に、3D画像を供給することができる。手のジェスチャトラッカ411は、例えば、深度カメラ444から受信された3D画像を手のジェスチャを表す記憶されたパターンに合致させることによって、ユーザの手のジェスチャを識別することができる。ユーザの手のジェスチャを識別する他の好適な技法も、明白となるであろう。
いくつかの実施例では、1つ以上のプロセッサ416は、ヘッドギヤサブシステム404B、IMU409、SLAM/ビジュアルオドメトリブロック406、深度カメラ444、マイクロホン450、および/または手のジェスチャトラッカ411からのデータを受信するように構成されてもよい。プロセッサ416はまた、制御信号を6DOFトーテムシステム404Aに送信し、それから受信することができる。プロセッサ416は、ハンドヘルドコントローラ400Bがテザリングされない実施例等では、無線で、6DOFトーテムシステム404Aに結合されてもよい。プロセッサ416はさらに、視聴覚コンテンツメモリ418、グラフィカル処理ユニット(GPU)420、および/またはデジタル信号プロセッサ(DSP)オーディオ空間化装置422等の付加的コンポーネントと通信してもよい。DSPオーディオ空間化装置422は、頭部関連伝達関数(HRTF)メモリ425に結合されてもよい。GPU420は、画像毎に変調された光424の左源に結合される、左チャネル出力と、画像毎に変調された光426の右源に結合される、右チャネル出力とを含むことができる。GPU420は、立体視画像データを画像毎に変調された光424、426の源に出力することができる。DSPオーディオ空間化装置422は、オーディオを左スピーカ412および/または右スピーカ414に出力することができる。DSPオーディオ空間化装置422は、プロセッサ419から、ユーザから仮想音源(例えば、ハンドヘルドコントローラ400Bを介して、ユーザによって移動され得る)への方向ベクトルを示す入力を受信することができる。方向ベクトルに基づいて、DSPオーディオ空間化装置422は、対応するHRTFを決定することができる(例えば、HRTFにアクセスすることによって、または複数のHRTFを補間することによって)。DSPオーディオ空間化装置422は、次いで、決定されたHRTFを仮想オブジェクトによって発生された仮想音に対応するオーディオ信号等のオーディオ信号に適用することができる。これは、複合現実環境内の仮想音に対するユーザの相対的位置および配向を組み込むことによって、すなわち、その仮想音が、実環境内の実音である場合に聞こえるであろうもののユーザの予期に合致する仮想音を提示することによって、仮想音の信憑性および現実性を向上させることができる。
図4に示されるもの等のいくつかの実施例では、プロセッサ416、GPU420、DSPオーディオ空間化装置422、HRTFメモリ425、およびオーディオ/視覚的コンテンツメモリ418のうちの1つ以上のものは、補助ユニット400C(上記に説明される補助ユニット300に対応し得る)内に含まれてもよい。補助ユニット400Cは、バッテリ427を含み、そのコンポーネントを給電する、および/または電力をウェアラブル頭部デバイス400Aおよび/またはハンドヘルドコントローラ400Bに供給してもよい。そのようなコンポーネントを、ユーザの腰部に搭載され得る、補助ユニット内に含むことは、ウェアラブル頭部デバイス400Aのサイズおよび重量を限定することができ、これは、ひいては、ユーザの頭部および頸部の疲労を低減させることができる。
図4は、例示的ウェアラブルシステム400の種々のコンポーネントに対応する要素を提示するが、これらのコンポーネントの種々の他の好適な配列も、当業者に明白となるであろう。例えば、補助ユニット400Cと関連付けられているような図4に提示される要素は、代わりに、ウェアラブル頭部デバイス400Aまたはハンドヘルドコントローラ400Bと関連付けられ得る。さらに、いくつかのウェアラブルシステムは、ハンドヘルドコントローラ400Bまたは補助ユニット400Cを完全に無くしてもよい。そのような変更および修正は、開示される実施例の範囲内に含まれるものとして理解されるものである。
発話認識システム
発話認識システムは、一般に、人間の発話(源信号)に対応する入力オーディオ信号を受け取り、入力オーディオ信号を処理および分析し、分析の結果として、人間の発話に対応する出力を生産し得る、発話認識エンジンを備える。自動発話認識(ASR)システムの場合、例えば、発話認識エンジンの出力は、人間の発話のテキスト書き起こし記録であり得る。自然言語処理システムの場合、出力は、人間の発話によって示される1つ以上のコマンドまたは命令、または人間の発話の意味論的意味のある表現(例えば、論理表現またはデータ構造)であり得る。必ずしも発話を「認識」しないものを含む、他のタイプの発話認識システム(例えば、自動翻訳システム)も、検討され、本開示の範囲内である。さらに、本明細書で使用されるように、発話認識エンジンは、自動発話認識エンジン、自然言語理解エンジン、および他の好適なコンポーネントのうちの1つ以上のものを含むことができる。
ASRシステムは、多種多様な製品および用途、すなわち、従来の電話システム、自動化された音声メッセージングシステム、音声アシスタント(独立型およびスマートフォンベースの音声アシスタントを含む)、車両および航空機、デスクトップおよびドキュメント処理ソフトウェア、データエントリ、家電、医療デバイス、言語翻訳ソフトウェア、クローズドキャプションシステム、およびその他に見出される。ASRシステムの利点は、それらが、ユーザが、キーボードまたはタッチパネル等の従来のコンピュータ入力デバイスの代わりに、マイクロホンに提示されるような自然発話された言語を使用して、入力をコンピュータシステムに提供することを可能にし得ることである。故に、発話認識システムは、特に、従来の入力デバイス(例えば、キーボード)が利用不可能または非実践的であり得る、環境において有用であり得る。さらに、ユーザが直感的音声ベースの入力を提供することを可能にすることによって、発話認識エンジンは、没入感を高めることができる。したがって、ASRは、ウェアラブルシステムのための、特に、ユーザ没入が主要目標であって、その存在が没入感を損なわせ得る、従来のコンピュータ入力デバイスの使用を限定することが望ましくあり得る、ウェアラブルシステムの仮想現実、拡張現実、および/または複合現実用途のための、自然な適合であり得る。
入力発話境界の識別
ASRシステムの有効性は、正確な入力データを発話認識エンジンに即座に提示するその能力によって限定され得る。正確な入力データを提示することは、入力の個々のシーケンスが開始および終了するときを正しく識別することを要求し得る。いくつかのASRシステムは、即座に、かつリアルタイムで、話者の発声が完了したときを決定することに悩まされる。本開示は、入力として発話処理システムに提示される発声の終点を正確に識別することによって、発話処理システムの正確度を改良するためのシステムおよび方法を対象とする。発声が終了する箇所を迅速かつ正確に決定することは、発話処理システムが、リアルタイムで、すなわち、入力オーディオ信号全体が事前に把握され得ない、入力オーディオのライブストリームに応答して、正しい結果を即座に送達することを有効にする。
図5は、1つ以上のマイクロホンによって検出され、入力としてASRシステムに提示され得るような例示的オーディオ波形500を図示する。波形500は、ユーザが発話する、例示的発声「What’s the weather tomorrow in Moscow?」を表し、その発声を入力として受信するASRシステムが、天気サービスにクエリし、Moscowに関する明日の天気予報で応答するであろう意図を伴う。ASRシステムの応答の速度および正確度は、ASRシステムがユーザの発声の終点であると決定する箇所に依存するであろう。例示的波形500は、初期時間tから開始する。ASRシステムが、発声が、語句「What’s the weather」後かつ単語「tomorrow」の前に該当する、時間tで終了すると早まって決定する場合、入力発声(すなわち、時間tと時間tとの間に該当する入力発話)は、「What’s the weather」であると決定されるであろう。本入力発声は、ユーザによって追加される修飾語(すなわち、「tomorrow」および「in Moscow」)を欠いているであろうため、本発声に対するASRシステムの応答は、ユーザの予期に合致しないであろう。例えば、本システムは、ユーザの現在の場所(Moscowではない)における現在の天気(明日の天気ではない)を返す場合がある。同様に、ASRシステムが、発声が、語句「What’s the weather tomorrow」の後かつ語句「in Moscow」の前に該当する、時間tで終了すると決定する場合、入力発声(すなわち、時間tと時間tとの間に該当する入力発話)は、「What’s the weather tomorrow」であると決定され、結果として生じる応答は、再び、ユーザの予期(Moscowにおける明日の天気)に合致しないであろう。理想的ASRシステムは、発声の終了が、入力クエリ全体の完了直後に該当し、入力発声を「What’s the weather in Moscow」として正しく識別するであろう、時間tにあると決定し得る。
理想的ASRシステムはまた、入力発声に属しない、入力信号の後続部分を含まないであろう。例えば、ASRシステムが、発声が時間tで終了すると決定する場合、入力発声は、正しい入力発話(すなわち、「What’s the weather in Moscow」)の全てを含むであろうが、また、無関係な情報(tとtとの間の入力発話信号の部分)も含むであろう。本無関係な情報は、エラーを入力発声の中に導入し得、さらに、ASRシステムの応答を遅延させ(すなわち、少なくともtとtとの間の信号の処理時間の間隔だけ)、ユーザによって知覚される応答性の欠如をもたらすであろう。
いくつかのASRシステムは、入力発声の終点を正しくなく識別し得る。例えば、入力として例示的波形500を提示されると、いくつかのASRシステムは、tではなく、t、t、またはtとして発声の終了を正しくなく識別し得る。
図6は、ASRシステムによって実行され得る、例示的プロセス600を図示する。例示的プロセス600は、タイムアウトインターバルを使用して、入力発声が完了したときを決定する、すなわち、入力発話がタイムアウトインターバルを超える時間量にわたって受信されなかったとき、発声は、完了したと見なされ、処理するために、ASRエンジンに提示される。図に示されるように、入力発話は、段階610において、1つ以上のマイクロホン602からリアルタイムで検出される。段階620では、プロセス600は、入力発話が依然として受信されているかどうかを決定する。該当する場合、入力発声は、継続中と見なされ、プロセス600は、段階610に戻り、入力発話の検出を継続する。該当しない場合、プロセス600は、タイムアウトインターバル632が経過したかどうかクエリする。該当しない場合、プロセス600は、段階610に戻り、該当する場合、発声は、完了と見なされる(段階640)。段階650では、プロセス600は、次いで、処理するために、発声(または発声のいくつかの表現)をASRエンジン660に提示する。ASRエンジン660は、入力発声の発話/テキスト表現を生成することができる。自然言語理解(NLU)エンジン665は、表現に基づいて、付加的処理を実施することができる。例えば、NLUエンジン665は、ASRエンジン660から出力された発話/テキスト表現の意味論表現を生成し、入力発声が天気予報のための要求を表すことを決定し、入力発声から生成された構造化されたクエリを使用して、天気予報サービスにクエリし、応答を天気予報サービスから受信することができる。いくつかの実施形態では、プロセス600は、(例えば、ASRエンジン660によって)処理するために、発声(または発声のいくつかの表現)をストリーミングしてもよい。いくつかの実施形態では、ASRエンジン660は、インクリメント結果を返す、または出力してもよい。いくつかの実施形態では、NLUエンジン665は、発声の完了後、処理するために、出力をASRエンジン660から受信してもよい。段階670では、プロセス600は、応答をNLUエンジン665から受信し、段階680では、応答をユーザに提示することができる(例えば、出力スピーカに結合される、テキスト/発話エンジンを介して)。
上記のプロセス600は、段階630および640において、単純タイムアウトインターバルを使用して入力発声を結論付けることによって、プロセス600が、ユーザが発話している発声を完了する前に発声を早まって結論付け得るため、エラーを受けやすくあり得る。上記に説明される波形500を参照すると、これは、tではなく、時間tまたはtにおける入力発声終了をもたらし得る。これは、ユーザが非発話の間隙を単一発声の2つの単語の間に不注意に挿入するときに起き得る(例えば、例示的波形500における「weather」と「tomorrow」との間または「tomorrow」と「in Moscow」との間の一時停止)。これらの間隙が、タイムアウトインターバル632の長さを超える場合、プロセス600は、ユーザが依然としてその発声を完了していない場合でも、入力発声が完了したと早まって決定し得る。(本状況は、特に、ユーザが、その質問を明確に話すために、付加的時間を必要とし得る、複雑な入力クエリに関して、または発話障害を伴うユーザ、またはマイクロホンまたはASRシステムと相互作用するときに不安を被り得る者において、一般的であり得る。)
本問題は、本インターバルの持続時間とASRシステムの知覚される応答性との間にトレードオフが存在するため、単に、タイムアウトインターバル632の長さを増加させることによって、完全に解決可能ではあり得ない。すなわち、タイムアウトインターバル632が、任意の可能性として考えられる発声間入力間隙を超える、すなわち、プロセス600が入力発声を早まって遮らないように防止するように、増加され得る場合でも、ASRシステムは、発声が完了したと決定する前に、その延長されたタイムアウトインターバルの持続時間を待機する。本遅延は、特に、聴取者が、迅速および直感的に、話者が発話を終了したときを理解する、対面人間相互作用と比較して、遅延を非応答性として知覚し得る、ユーザを苛立たせ得る。いくつかの実施形態では、遅延は、ユーザがASRシステムを非応答性であると知覚し、再び、発話を開始する(例えば、初期入力を再反復する)とき、クロストークにつながり得、これは、エラーの連鎖をもたらし得る。
図7は、プロセス600が可能であるより即座かつ正確に入力発声を識別し得る、例示的プロセス700(例えば、ASRシステムによって実行され得る)を図示する。プロセス700では、下記に説明されるように、入力発話内の一時停止が、検出され、次いで、一時停止が現在の発声の完了を表す可能性が高いかどうか(その場合、発声は、完了され、ASRエンジンおよびNLUエンジンに提示されることができる)、または一時停止が現在の発声が継続中であることを示すかどうか(その場合、ASRシステムは、現在の発声の検出を継続するはずである)を示すコンテキストキューに関して分析され得る。
プロセス700では、ユーザによって提示されるオーディオ入力は、段階710において、1つ以上のマイクロホン602から検出される。(いくつかの実施例では、オーディオ入力は、ストリーミングデータとして、またはマイクロホン出力の代わりに、またはそれに加え、1つ以上のデータファイルとして、受信されることができる。)本オーディオ入力は、プロセス700によるアクセスのために、入力バッファまたは他のメモリ内に記憶されることができる。段階720では、プロセス700は、ユーザが、入力発話を提示する間、一時停止したかどうかを決定することができる(例えば、下記にさらに詳細に説明されるように、入力バッファおよび/またはセンサデータに基づいて)。一時停止が、検出されない場合、ユーザの現在の発声が継続中であることを示し、プロセスは、段階710に戻り、オーディオ入力の検出を継続し得る。一時停止が、段階720において検出される場合、プロセス700は、段階730において、一時停止が現在の発声の完了(現在の発声の継続ではなく)を示す尤度を決定し得る。例えば、段階720は、一時停止が現在の発声が完了したことを示す尤度を表す、数値としての信頼度値を決定することができる。本決定は、下記にさらに詳細に説明されるように、入力バッファのコンテンツおよび/またはセンサデータに基づいて行われることができる。
段階732では、プロセス700は、段階730において、検出された一時停止が現在の発声の完了を示すかどうかの決定を評価することができる。一時停止が現在の発声の完了を示すことの十分な信頼度を伴って(例えば、閾値を超える、信頼度レベルを伴って)決定された場合、プロセス700は、発声を結論付けることに進み(段階740)、発声をASRエンジン(760)に提示し(段階750)、応答をNLUエンジン(765)から受信し(段階770)、応答をユーザに提示する(段階780)ことができる。これらのステップは、それぞれ、プロセス600に関して上記に説明される、段階640、段階650、ASRエンジン660、NLUエンジン665、段階670、および段階680に対応し得る。
プロセス700が、一時停止が、現在の発声が完了されたことを示す可能性が高くない(例えば、決定された信頼度レベルが閾値を満たさない)ことを決定する場合、プロセス700は、段階732において、それに応答して、種々のアクションを行うことができる。いくつかの実施例では、プロセス700は、段階720に関して本明細書に説明されるような一時停止が検出されたかどうかを決定するために使用されるパラメータを調節またはリセットすることができる(段階734)。例えば、プロセス700は、段階734において、入力発話内の一時停止を検出するために段階720において使用されるタイムアウトインターバルを増加またはリセットさせることができる。これは、プロセス700が、より多くの時間が、ユーザが現在の発声を完了することを意図するかどうかを決定するために必要とされることを決定する場合に有益であり得る。いくつかの実施例では、プロセス700は、ユーザに、付加的入力に関するプロンプト(例えば、発話を終了したかどうかを示すことをユーザに求める、視覚的および/または可聴プロンプト)等、プロンプトを提示することができる(段階736)。これは、現在の発声が完了されたかどうかが曖昧である状況において、例えば、プロセス700が、閾値未満であるが、それに近い、信頼度値を返す場合、有益であり得る。いくつかの実施例では、一時停止が、現在の発声が完了されたことを示さないことの検出に応じて、プロセス700は、現在の発声と第2の発声を組み合わせることができる(段階738)。例えば、一時停止に先行する発声は、発話認識エンジン(例えば、ASRエンジンおよび/またはNLUエンジン)への組み合わせられた発声の提示のために、一時停止に続く第2の発声と連結され得る。いくつかの実施例では、プロセス700は、段階734、736、または738に関して説明されるような任意の付加的アクションを行わずに、段階710に戻り、入力発話の検出を継続し得る。本挙動は、段階730が、現在の発声が完了したことを結論付けるために要求される閾値をはるかに下回る、信頼度値を返す場合に好ましくあり得る。
図8Aは、図7に関して上記に説明されるようなプロセス700の段階720を実装するための例示的プロセスのフローチャートを図示する。図中では、オーディオ入力データ810(例えば、入力バッファ内に記憶される発話入力信号)が、入力内の一時停止の存在を決定するために評価されることができる。段階820では、プロセスは、入力信号の1つ以上の性質の値が、タイムアウトインターバルを超えるある時間周期にわたって、閾値を上回るまたは下回るかどうかを決定し得る。いくつかの実施例では、入力信号の振幅が、タイムアウトインターバルを超えるある時間周期にわたって、閾値振幅レベルを下回ったかどうかが、決定されてもよい。該当する場合、これは、図6に関して上記に説明されるように、ユーザの入力発話内の一時停止を示し得る(段階860)。いくつかの実施形態では、タイムアウトインターバルの長さは、性質に応じて、変動し得る。いくつかの実施例では、スペクトル分析が、発話信号を他の周囲または入射音と明確に異なるものとして識別することができ、分析の出力が、タイムアウトインターバルを超えるある時間周期にわたって、1つ以上の閾値を上回ったまたは下回ったかどうかが、決定されてもよい。
しかしながら、段階820において、タイムアウトインターバル822が経過していないことが決定される場合でも、プロセスは、オーディオ入力データ810を検査し、発話データが、入力発話内の一時停止を示す、口頭キュー(相対的沈黙以外)を含むかどうかを決定することができる(段階830)。これらの口頭キューは、ユーザの韻律の特性(例えば、リズム、イントネーション、声色、音量)、後続単語の存在、終了単語または語句(例えば、口頭要求を完了するときの「thank you」)の存在、および同等物を含むことができる。これらの口頭キューは、タイムアウトインターバルがまだ経過していない場合でも、現在の発声が完了したことを示し得る。段階840では、プロセスは、任意のそのような口頭キューが存在するかどうかと、該当する場合、それらが入力発話が一時停止した(段階860)または一時停止していない(段階850)ことを示すかどうかとを評価することができる。ある場合には、段階840は、段階830において生成された信頼度レベルを閾値に対して比較することによって、本決定を行うことができる。口頭キューの存在を評価し、発声が完了されたことを示すことによって、タイムアウトインターバルの満了前でも、プロセスは、処理するために(例えば、ASRエンジンおよび/またはNLUエンジンによって)発声を提示する前にタイムアウトインターバルの完了を待機することから生じ得る、上記に説明されるような非応答性の知覚を回避することができる。
図8Bは、その中でセンサ入力データ844が、上記に説明されるようなオーディオ入力データ810の代わりに、またはそれと併せて使用される、プロセス700の段階720を実装するための例示的プロセスのフローチャートを図示する。いくつかの実施例では、上記に説明されるように、センサデータ844は、図1における例示的ウェアラブル頭部デバイス100に関して上記に説明されるようなセンサからのデータに対応し得る。上記に説明されるように、そのようなウェアラブルシステムは、ウェアラブルシステムのユーザおよび/または環境についての入力を提供し得る、1つ以上のセンサを含むことができる。例えば、ウェアラブル頭部デバイス100は、カメラ(例えば、図4に説明されるカメラ444)を含み、環境に対応する視覚的信号を出力することができる。いくつかの実施例では、カメラは、現在、ウェアラブルシステムのユーザの正面にあるものを示す、頭部搭載型ユニット上の前向きに向いたカメラであることができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、LIDARユニット、レーダユニット、および/または音響センサを含むことができ、これは、ユーザの環境の物理的幾何学形状(例えば、壁、物理的オブジェクト)に対応する信号を出力することができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、GPSユニットを含むことができ、これは、ウェアラブルシステムの現在の場所に対応する地理的座標を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、加速度計、ジャイロスコープ、および/または慣性測定ユニット(IMU)を含み、ウェアラブル頭部デバイス100の配向を示すことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、温度または圧力センサ等の環境センサを含むことができる。いくつかの実施例では、ウェアラブル頭部デバイス100は、虹彩カメラ、指紋センサ、ユーザの眼の移動または眼の視線を測点するための眼追跡センサ(例えば、電気眼球図記録(EOG)センサ)、またはユーザのバイタルサインを測定するためのセンサ等のバイオメトリックセンサを含むことができる。ウェアラブル頭部デバイス100が、頭部搭載型ユニットを含む、実施例では、そのような配向は、ユーザの頭部の配向(さらに言うと、ユーザの口およびユーザの発話の方向)に対応し得る。他の好適なセンサも、含まれることができ、センサ入力データ844を提供することができる。さらに、いくつかの実施例では、ウェアラブルシステムのもの以外のセンサも、必要に応じて、利用されることができる。例えば、発話認識システムのマイクロホンと関連付けられるセンサ(例えば、GPS、IMU)が、ユーザと発話認識システムとの間の相対的距離および配向を決定するためにウェアラブルシステムのセンサと併用され得る。
段階842では、プロセス800は、センサ入力データ844を検査し、センサデータが、入力発話内の一時停止を示す、非口頭キューを含むかどうかを決定することができる。これらの非口頭キューは、例えば、ユーザの眼視線、頭部姿勢、ジェスチャ、バイタルサイン(例えば、呼吸パターン、心拍数)、および顔の表情の特性を含むことができる。これらの非口頭キューは、タイムアウトインターバルが、まだ経過していない場合でも、かつ図8Aに関して上記に説明されるような口頭キューの不在下でも、現在の発声が完了したことを示し得る。例えば、ユーザの発話内の一時停止は、ユーザの眼視線標的の変化、ユーザの頭部姿勢の変化、ユーザによって実施されるジェスチャ、ユーザのバイタルサイン(例えば、呼吸パターン、心拍数)の変化、ユーザの顔の表情の変化、マイクロホンから離れるような移動または回転の変化、センサ入力データ844によって示されるユーザの姿勢または他の物理的特性の変化、配向の変化、および/または前述の特性のうちの任意の1つ以上のものの変化率と対応し得る。段階846では、プロセスは、任意のそのような非口頭キューが存在するかどうかと、該当する場合、それらが入力発話が一時停止した(段階860)または一時停止していない(段階850)ことを示すかどうかとを評価することができる。ある場合には、段階846は、段階842において生成された信頼度レベルを閾値に対して比較することによって、本決定を行うことができる。上記のように、非口頭キューの存在を評価し、発声が完了したことを示すことによって、タイムアウトインターバルの満了前でも、プロセスは、発声を発話認識エンジンに提示する前にタイムアウトインターバルの完了を待機することから生じ得る、上記に説明されるような非応答性の知覚を回避することができる。図8Bは、別個の段階(すなわち、段階840および846)において分析される口頭キューおよび非口頭キューを示すが、いくつかの実施例は、単一段階において、口頭キューおよび非口頭キューを組み合わせて分析することができる。
図9Aは、図7に関して上記に説明されるようなプロセス700の段階730を実装するための例示的プロセスのフローチャートを図示する。段階730では、プロセス700は、上記に説明されるような段階720において識別された一時停止に関して、一時停止が現在の発声の完了に対応する可能性が高いかどうかを決定する。図9Aでは、オーディオ入力データ910(例えば、上記に説明される810に対応し得る、入力バッファ内に記憶される発話信号)が、段階920において評価され、オーディオ入力データ内の介在音の存在を決定し得る。介在音は、現在の発声がまだ完了していない(ユーザが思考の途中である場合等)ことを示し得る、入力オーディオ内に存在する単語、語句、音節、または他の有声化であってもよい。例えば、介在音は、躊躇音(例えば、「um」、「uh」)、伸長音節(例えば、語句「I’m going to」の最後における伸長された「to(ooo)」)、反復(例えば、「and, and, and...」)、後続つなぎ語(例えば、「like」、「I mean」)、および/またはユーザが現在の発声に属する付加的入力オーディオを提供する可能性が高いことの他のインジケーションを含むことができる。そのような介在音は、個々のユーザ、特定の言語、または口頭入力のタイプ(例えば、質問、宣言的陳述)に特有であり得る。下記に説明されるように、種々の分類子が、介在音を識別するために採用されることができる。
段階930では、プロセスは、任意のそのような介在音が段階920において検出されたかどうかを決定し得る。該当しない場合、プロセスは、現在の発声が完了されたと結論付けることができる(段階970)。介在音が、存在する場合、プロセスは、段階940において、介在音が現在の発声が継続中であることを示すかどうかを評価することができる。例えば、躊躇音の存在は、ユーザが完全な発声を明確に話すプロセス中であることを示し得る(例えば、「What’s the weather...uh...tomorrow」におけるように)。同様に、伸長音節、反復、つなぎ語、および他の介在音も、現在の発声がまだ完了していないことを示し得る。いくつかの実施例では、段階940は、介在音が存在し、現在の発声が完了したかどうかを示す、尤度を示す、信頼度値を生成することができる。
段階950では、段階940において、現在の発声が継続中であることが決定される場合、プロセスは、現在の発声が完了されていないと結論付けることができる(段階960)。図7に関して上記に説明されるように、これは、プロセスがそれに応答して種々のアクションを実施することをもたらし得る。例えば、プロセス700は、その間に、一時停止を検出し、現在の発声が完了したかどうかを示す付加的入力に関してユーザにプロンプトし、および/または現在の発声と第2の発声を組み合わせる、またはアクションを全く行わない、タイムアウトインターバルを延長することができる(例えば、822)。いくつかの実施例では、実施されるアクション(該当する場合)は、段階940において生成された信頼度値に依存し得る。例えば、発声がまだ完了されていないことの高信頼度値に応答して、プロセス700は、任意のさらなるアクションを行わずに、単に、段階710に戻り、オーディオ入力の検出を継続してもよく、中信頼度値(例えば、現在の発声が完了したかどうかに関して不確実性を示す)に応答して、プロセス700は、付加的入力に関してユーザに明示的にプロンプトしてもよい(段階736)。同様に、段階940において、現在の発声が完了されたことが決定される場合、プロセスは、それを示すことができ(段階970)、プロセスは、発声を上記に説明されるような発話認識システムに提示するように進むことができる。
図9Bは、その中でセンサ入力データ942が、上記に説明されるようなオーディオ入力データ910の代わりに、またはそれと併せて使用される、例示的プロセス700の段階730を実装するための例示的プロセスのフローチャートを図示する。センサ入力データ942は、上記に説明されるセンサ入力データ844に対応し得る。例えば、センサ入力データ942は、図1における例示的ウェアラブル頭部デバイス100に関して上記に説明されるようなセンサによって出力されることができる。上記に説明されるように、そのようなセンサは、1つ以上のカメラ(例えば、RGBカメラ、深度カメラ)、LIDARユニット、レーダユニット、音響センサ、GPSユニット、加速度計、ジャイロスコープ、IMU、環境センサ、バイオメトリックセンサ(例えば、虹彩カメラ、指紋センサ、眼追跡センサ、および/またはユーザのバイタルサインを測定するためのセンサ)を含むことができる。他の好適なセンサも、含まれることができ、センサ入力データ942を提供することができる。さらに、いくつかの実施例では、ウェアラブルシステムのもの以外のセンサも、必要に応じて、利用されることができる。例えば、上記に説明されるように、発話認識システムのマイクロホンと関連付けられるセンサ(例えば、GPS、IMU)が、ユーザと発話認識システムとの間の相対的距離および配向を決定するためにウェアラブルシステムのセンサと併用され得る。
図9Bに関して、センサ入力データ942は、段階944において、センサデータが現在の発声が継続中であることを示すかどうか、または現在の発声が完了されたかどうかを決定するために評価され得る。例えば、発声の完了(または非完了)は、ユーザの眼視線標的の変化、ユーザの頭部姿勢の変化、ユーザによって実施されるジェスチャ、ユーザのバイタルサイン(例えば、呼吸パターン、心拍数)の変化、ユーザの顔の表情の変化、マイクロホンから離れるような移動または回転の変化、センサ入力データ944によって示されるユーザの姿勢または他の物理的特性の変化、配向の変化、および/または前述の特性のうちの任意の1つ以上のものの変化率と対応し得る。いくつかの実施例では、段階944は、それを用いて現在の発声が完了された尤度を示す、信頼度レベルを生成してもよい。段階944において行われる決定(例えば、信頼度レベルと閾値の比較によって)に基づいて、段階950におけるプロセスは、発声が完了された(段階970)または完了されていない(段階960)ことのいずれかを示し得る。
上記に説明されるプロセス700では、入力データ(例えば、オーディオデータ、センサデータ)は、1つ以上の段階において、データが発話認識エンジン(例えば、ASRエンジンおよび/またはNLUエンジン)に提示される方法に対するその有意性に関して評価されることができる。例えば、プロセス720の段階830では、上記に説明されるように、オーディオ入力データは、データが、現在の発声が完了したことの口頭キューを含むかどうかを決定するために評価され得る。段階842では、上記に説明されるように、センサデータは、現在の発声が完了したことの非口頭キュー(例えば、顔の表情の変化)に関して評価され得る。段階920では、上記に説明されるように、オーディオ入力データは、介在音の存在を識別するために評価され得、段階940では、それらの介在音が現在の発声が継続中であることを示すかどうかが評価され得る。また、段階944では、上記に説明されるように、センサ入力データは、センサ入力データが現在の発声が継続中であることを示すかどうかを決定するために評価され得る。
いくつかの実施例では、上記に説明されるように使用されるオーディオ入力データおよび/またはセンサ入力データは、データを表す、1つ以上の分類子をもたらす、1つ以上のパラメータに従って分類されることができる。これらの分類子は、そのデータの有意性(例えば、データと関連付けられる確率)を評価するために使用されることができる(例えば、例示的プロセス700によって)。図10は、入力データ1010を分類し、その入力データと関連付けられる着目確率を決定するための例示的プロセス1000を図示する。本明細書で使用されるように、着目確率は、例示的プロセス700に関して上記に説明される確率、オーディオ入力データおよび/またはセンサ入力データが入力発話内の一時停止を示す確率、一時停止が発声の完了を示す確率、および/または介在音の存在が発声が継続中であることを示す確率、または別の好適な確率に対応し得る。図10に関して、本決定は、単独で、またはセンサ入力データ1020と組み合わせて、オーディオ入力データ1016を使用して、実施されることができる。入力データ1010に関する確率値を決定するステップは、入力データ1010の「分類」と称され得、本決定(例えば、1074)を実施するためのモジュールまたはプロセスは、「分類子」と称され得る。
図10に示される例示的プロセスでは、入力データ1010(例えば、オーディオ入力データ1016および/またはセンサ入力データ1020)は、(例えば、データベースからの)発話/センサデータ1029と併用され、入力データ1010に関する1つ以上の着目確率を決定することができる。いくつかの実施例では、オーディオ入力データ1016および/またはセンサ入力データ1020は、段階1075において、発話/センサデータ1029に基づいて、発話セグメントの分類を促進するために、1つ以上のパラメータに従って、パラメータ化/特性評価されることができる。入力データ1010のフーリエ変換は、入力データ1010のスペクトル表現(例えば、オーディオ入力データ1016および/またはセンサ入力データ1020内の種々の周波数パラメータの相対的分布率を示す周波数の関数)を提供するために実施されることができる。例えば、本プロセスは、ユーザの発話、位置、眼視線、および/または身体移動の振幅または成分周波数のレベル(または変化)を識別することができる。これらの値は、上記に説明されるようなユーザの発話内の一時停止、介在音の存在、またはユーザの発声の完了を示すことができる。いくつかの実施例では、ユーザの特性、例えば、ユーザの年齢、性別、および/または母語が、パラメータとして使用され、入力データ1010を特性評価することができる。その中で入力データ1010が、入力データの着目確率を決定するために使用されるそのようなパラメータを用いてパラメータ化され得る、他の方法も、当業者に明白となるであろう。
実施例の段階1076では、確率値1078が、入力データ1010の着目確率に関して決定される。いくつかの実施例では、確率値1078は、発話/センサデータ1029を含む、データベースが、データベース内の発話および/またはセンサデータの要素に関して、それらの要素が入力発話に対応するかどうか識別する場合等、発話/センサデータ1029を使用して決定されることができる。いくつかの実施例では、オーディオ入力データ1016は、発話セグメントに対応する、オーディオ波形のセットを含むことができ、波形毎に、対応する発話セグメントが一時停止または介在音を示すかどうかを示すことができる。いくつかの実施例では、オーディオ波形の代わりに、またはそれに加え、オーディオ入力データ1016は、発話セグメントに対応する、オーディオパラメータを含むことができる。オーディオ入力データ1016は、例えば、オーディオ入力データ1016のオーディオ波形と発話/センサデータ1029の類似波形を比較することによって、またはオーディオ入力データ1016のパラメータ(段階1075において特性評価され得るような)と発話/センサデータ1029の類似パラメータを比較することによって、発話/センサデータ1029の発話セグメントと比較されることができる。そのような比較に基づいて、確率値1078は、オーディオ入力データ1016に関して決定されることができる。
類似技法も、センサ入力データ1020に対して適用されることができる。例えば、センサ入力データ1020は、未加工センサデータのシーケンスを含むことができ、未加工センサデータに関して、そのデータが、一時停止または発声の完了または継続を示すかどうかを示すことができる。同様に、センサ入力データ1020は、センサデータに対応する、センサ入力パラメータを含むことができる。センサ入力データ1020は、オーディオ入力データ1016に関して上記に説明されるように、発話/センサデータ1029の要素と比較されることができる。
入力データ1010に基づいて確率1078を決定するための技法は、当業者に熟知されているであろう。例えば、いくつかの実施例では、最近傍補間が、段階1076において使用され、入力データ1010の要素とN次元空間内の類似データ要素を比較し(N次元は、例えば、上記に説明されるオーディオパラメータ、オーディオ波形データ、センサパラメータ、または未加工センサデータを備えることができる)、入力データ1010の要素とN次元空間内のその近傍系との間の相対的距離に基づいて、確率値1078を決定することができる。別の実施例として、サポートベクトルマシンが、段階1076において使用され、発話/センサデータベース1029に基づいて、発声が完了したことを示すか、または発声が完了していないことを示すかのいずれかとして、入力データ1010の要素を分類するための基礎を決定し、その基礎に従って、入力データ1010を分類する(例えば、入力データ1010が、完了された発声、一時停止、または介在音の存在を示す、確率値1078を決定する)ことができる。入力データ1010および/または発話/センサデータ1029を分析し、入力データ1010と発話/センサデータ1029を比較し、および/または確率1078を決定するために、発話/センサデータ1029に基づいて、入力データ1010を分類するために他の好適な技法も、明白となるであろう。本開示は、任意の特定の技法または技法の組み合わせに限定されない。
いくつかの実施例では、機械学習技法が、単独で、または本明細書に説明される他の技法と組み合わせて使用され、確率値1078を決定することができる。例えば、ニューラルネットワークが、発話/センサデータ1029上で訓練され、入力データ1010に適用され、その入力データに関する確率値1078を決定し得る。別の実施例として、遺伝的アルゴリズムが、発話/センサデータ1029に基づいて、入力データ1010に対応する確率値1078を決定するための関数を決定するために使用されることができる。当業者に熟知されているであろう、他の好適な機械学習技法も、明白となるであろう。本開示は、任意の特定の技法または技法の組み合わせに限定されない。
いくつかの実施例では、発話/センサデータ1029が、種々のユーザに関する発話データおよび/またはセンサデータのセットを記録し、そのデータの要素に関して、ユーザが、発声を完了した、その発話を一時停止した、または介在音を提供しているかどうかを識別することによって生成されることができる。例えば、人々のグループと相互作用している、ユーザが、ユーザの発話が記録される際、同一部屋内に存在する発話認識システムを用いて、観察され得、ユーザに関するセンサデータ(例えば、ユーザによって装着されるウェアラブルシステムによって出力される)もまた、記録され得る。観察者は、記録されたデータの領域毎に、データのその領域が、一時停止、介在音の提供、または発声の完了に対応するかどうかを識別し得る。本情報は、ユーザが発話しているコンテキストを観察することによって、観察者に明白となり得、一般に、人間(機械と異なり)にとって、ユーザの観察に基づいて、ユーザが発声を完了したかどうかを決定することは容易かつ直感的である。本プロセスは、十分に大規模かつ多様な発話/センサデータのセットが生成されるまで、複数のユーザに関して繰り返されることができる。
上記に説明されるシステムおよび方法に関して、システムおよび方法の要素は、必要に応じて、1つ以上のコンピュータプロセッサ(例えば、CPUまたはDSP)によって実装されることができる。本開示は、これらの要素を実装するために使用される、コンピュータプロセッサを含む、コンピュータハードウェアの任意の特定の構成に限定されない。ある場合には、複数のコンピュータシステムが、上記に説明されるシステムおよび方法を実装するために採用されることができる。例えば、第1のコンピュータプロセッサ(例えば、マイクロホンに結合される、ウェアラブルデバイスのプロセッサ)は、入力マイクロホン信号を受信し、それらの信号の初期処理(例えば、上記に説明されるような信号調整および/またはセグメント化)を実施するために利用されることができる。第2の(おそらく、より算出上強力な)プロセッサは、次いで、それらの信号の発話セグメントと関連付けられる確率値を決定する等、より算出上集約的である処理を実施するために利用されることができる。クラウドサーバ等の別のコンピュータデバイスは、それに対して入力信号が最終的には提供される、発話認識エンジンをホストすることができる。他の好適な構成も、明白となり、本開示の範囲内である。
開示される実施例は、付随の図面を参照して完全に説明されたが、種々の変更および修正が、当業者に明白となるであろうことに留意されたい。例えば、1つ以上の実装の要素は、組み合わせられ、削除され、修正され、または補完され、さらなる実装を形成してもよい。そのような変更および修正は、添付される請求項によって定義されるような開示される実施例の範囲内に含まれるものとして理解されるものである。

Claims (45)

  1. 方法であって、
    頭部装着型デバイスのマイクロホンを介して、オーディオ信号を受信することであって、前記オーディオ信号は、音声アクティビティを備える、ことと、
    前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することと、
    前記オーディオ信号が前記音声アクティビティ内に一時停止を備えることの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することと、
    前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応することの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示することと
    を含む、方法。
  2. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示しないことをさらに含む、請求項1に記載の方法。
  3. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えないことの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定しないことをさらに含む、請求項1に記載の方法。
  4. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号の振幅が所定の時間周期にわたって閾値を下回るかどうかを決定することを含む、請求項1に記載の方法。
  5. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記オーディオ信号が前記音声アクティビティの終点に対応する第2の一時停止を備えるかどうかを決定することをさらに含む、請求項4に記載の方法。
  6. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記ユーザに、発話をプロンプトすることをさらに含む、請求項4に記載の方法。
  7. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号が前記音声アクティビティの終点に対応する1つ以上の口頭キューを備えるかどうかを決定することを含む、請求項1に記載の方法。
  8. 前記1つ以上の口頭キューは、前記ユーザの韻律の特性を備える、請求項7に記載の方法。
  9. 前記1つ以上の口頭キューは、終了語句を備える、請求項7に記載の方法。
  10. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、非口頭センサデータを評価することを含む、請求項1に記載の方法。
  11. 前記非口頭センサデータは、前記ユーザの視線を示す、請求項10に記載の方法。
  12. 前記非口頭センサデータは、前記ユーザの顔の表情を示す、請求項10に記載の方法。
  13. 前記非口頭センサデータは、前記ユーザの心拍数を示す、請求項10に記載の方法。
  14. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、1つ以上の介在音を識別することを含む、請求項1に記載の方法。
  15. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、非口頭センサデータを評価することを含む、請求項1に記載の方法。
  16. システムであって、
    頭部装着型デバイスのマイクロホンと、
    1つ以上のプロセッサであって、前記1つ以上のプロセッサは、
    前記頭部装着型デバイスのマイクロホンを介して、オーディオ信号を受信することであって、前記オーディオ信号は、音声アクティビティを備える、ことと、
    前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することと、
    前記オーディオ信号が前記音声アクティビティ内に一時停止を備えることの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することと、
    前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応することの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示することと
    を含む方法を実行するように構成される、1つ以上のプロセッサと
    を備える、システム。
  17. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示しないことをさらに含む、請求項16に記載のシステム。
  18. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えないことの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定しないことをさらに含む、請求項16に記載のシステム。
  19. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号の振幅が所定の時間周期にわたって閾値を下回るかどうかを決定することを含む、請求項16に記載のシステム。
  20. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記オーディオ信号が前記音声アクティビティの終点に対応する第2の一時停止を備えるかどうかを決定することをさらに含む、請求項19に記載のシステム。
  21. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記ユーザに、発話をプロンプトすることをさらに含む、請求項19に記載のシステム。
  22. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号が前記音声アクティビティの終点に対応する1つ以上の口頭キューを備えるかどうかを決定することを含む、請求項16に記載のシステム。
  23. 前記1つ以上の口頭キューは、前記ユーザの韻律の特性を備える、請求項22に記載のシステム。
  24. 前記1つ以上の口頭キューは、終了語句を備える、請求項22に記載のシステム。
  25. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、非口頭センサデータを評価することを含む、請求項16に記載のシステム。
  26. 前記非口頭センサデータは、前記ユーザの視線を示す、請求項25に記載のシステム。
  27. 前記非口頭センサデータは、前記ユーザの顔の表情を示す、請求項25に記載のシステム。
  28. 前記非口頭センサデータは、前記ユーザの心拍数を示す、請求項25に記載のシステム。
  29. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、1つ以上の介在音を識別することを含む、請求項16に記載のシステム。
  30. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、非口頭センサデータを評価することを含む、請求項16に記載のシステム。
  31. 非一過性コンピュータ可読媒体であって、前記非一過性コンピュータ可読媒体は、1つ以上の命令を記憶しており、前記命令は、電子デバイスの1つ以上のプロセッサによって実行されると、前記デバイスに、
    頭部装着型デバイスのマイクロホンを介して、オーディオ信号を受信することであって、前記オーディオ信号は、音声アクティビティを備える、ことと、
    前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することと、
    前記オーディオ信号が前記音声アクティビティ内に一時停止を備えることの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することと、
    前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応することの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示することと
    を含む方法を実施させる、非一過性コンピュータ可読媒体。
  32. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記音声アクティビティに基づいて、応答をユーザに提示しないことをさらに含む、請求項31に記載の非一過性コンピュータ可読媒体。
  33. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えないことの決定に応答して、前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定しないことをさらに含む、請求項31に記載の非一過性コンピュータ可読媒体。
  34. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号の振幅が所定の時間周期にわたって閾値を下回るかどうかを決定することを含む、請求項31に記載の非一過性コンピュータ可読媒体。
  35. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記オーディオ信号が前記音声アクティビティの終点に対応する第2の一時停止を備えるかどうかを決定することをさらに含む、請求項34に記載の非一過性コンピュータ可読媒体。
  36. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応しないことの決定に応答して、前記ユーザに、発話をプロンプトすることをさらに含む、請求項34に記載の非一過性コンピュータ可読媒体。
  37. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、前記オーディオ信号が前記音声アクティビティの終点に対応する1つ以上の口頭キューを備えるかどうかを決定することを含む、請求項31に記載の非一過性コンピュータ可読媒体。
  38. 前記1つ以上の口頭キューは、前記ユーザの韻律の特性を備える、請求項37に記載の非一過性コンピュータ可読媒体。
  39. 前記1つ以上の口頭キューは、終了語句を備える、請求項37に記載の非一過性コンピュータ可読媒体。
  40. 前記オーディオ信号が前記音声アクティビティ内に一時停止を備えるかどうかを決定することは、非口頭センサデータを評価することを含む、請求項31に記載の非一過性コンピュータ可読媒体。
  41. 前記非口頭センサデータは、前記ユーザの視線を示す、請求項40に記載の非一過性コンピュータ可読媒体。
  42. 前記非口頭センサデータは、前記ユーザの顔の表情を示す、請求項40に記載の非一過性コンピュータ可読媒体。
  43. 前記非口頭センサデータは、前記ユーザの心拍数を示す、請求項40に記載の非一過性コンピュータ可読媒体。
  44. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、1つ以上の介在音を識別することを含む、請求項31に記載の非一過性コンピュータ可読媒体。
  45. 前記音声アクティビティ内の一時停止が前記音声アクティビティの終点に対応するかどうかを決定することは、非口頭センサデータを評価することを含む、請求項31に記載の非一過性コンピュータ可読媒体。
JP2021562002A 2019-04-19 2020-04-16 発話認識エンジンのための入力の識別 Pending JP2022529783A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962836593P 2019-04-19 2019-04-19
US62/836,593 2019-04-19
PCT/US2020/028570 WO2020214844A1 (en) 2019-04-19 2020-04-16 Identifying input for speech recognition engine

Publications (2)

Publication Number Publication Date
JP2022529783A true JP2022529783A (ja) 2022-06-24
JPWO2020214844A5 JPWO2020214844A5 (ja) 2023-04-24

Family

ID=72830867

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021562002A Pending JP2022529783A (ja) 2019-04-19 2020-04-16 発話認識エンジンのための入力の識別

Country Status (5)

Country Link
US (1) US20200335128A1 (ja)
EP (1) EP3956883A4 (ja)
JP (1) JP2022529783A (ja)
CN (1) CN113994424A (ja)
WO (1) WO2020214844A1 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
EP3811360A4 (en) 2018-06-21 2021-11-24 Magic Leap, Inc. PORTABLE SYSTEM VOICE PROCESSING
US11587563B2 (en) 2019-03-01 2023-02-21 Magic Leap, Inc. Determining input for speech processing engine
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11749265B2 (en) * 2019-10-04 2023-09-05 Disney Enterprises, Inc. Techniques for incremental computer-based natural language understanding
US11096006B1 (en) * 2019-11-04 2021-08-17 Facebook Technologies, Llc Dynamic speech directivity reproduction
EP4099318A4 (en) * 2020-01-31 2023-05-10 Sony Group Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
US11984124B2 (en) * 2020-11-13 2024-05-14 Apple Inc. Speculative task flow execution
JP7331025B2 (ja) * 2021-02-05 2023-08-22 Necパーソナルコンピュータ株式会社 学習支援システム、学習支援方法、及びプログラム
US12020703B2 (en) * 2021-08-17 2024-06-25 Google Llc Enabling natural conversations with soft endpointing for an automated assistant
CN114898755B (zh) * 2022-07-14 2023-01-17 科大讯飞股份有限公司 语音处理方法及相关装置、电子设备、存储介质
CN117351993B (zh) * 2023-12-04 2024-02-13 方图智能(深圳)科技集团股份有限公司 一种基于音频分发的音频传输质量评价方法及系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9930731D0 (en) * 1999-12-22 2000-02-16 Ibm Voice processing apparatus
US7607097B2 (en) * 2003-09-25 2009-10-20 International Business Machines Corporation Translating emotion to braille, emoticons and other special symbols
JP4906379B2 (ja) * 2006-03-22 2012-03-28 富士通株式会社 音声認識装置、音声認識方法、及びコンピュータプログラム
US20080124690A1 (en) * 2006-11-28 2008-05-29 Attune Interactive, Inc. Training system using an interactive prompt character
US9583108B2 (en) * 2011-12-08 2017-02-28 Forrest S. Baker III Trust Voice detection for automated communication system
CN107211058B (zh) * 2015-02-03 2020-06-16 杜比实验室特许公司 基于会话动态的会议分段
US10186254B2 (en) * 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
US20160379638A1 (en) * 2015-06-26 2016-12-29 Amazon Technologies, Inc. Input speech quality matching
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
US10269341B2 (en) * 2015-10-19 2019-04-23 Google Llc Speech endpointing
US10289205B1 (en) * 2015-11-24 2019-05-14 Google Llc Behind the ear gesture control for a head mountable device
WO2017108138A1 (en) * 2015-12-23 2017-06-29 Intel Corporation Biometric information for dialog system
KR20180055661A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 전자 장치 및 그 제어 방법
WO2018163648A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話システム、対話方法、対話装置、およびプログラム
US10460728B2 (en) * 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms
EP3486900A1 (en) * 2017-11-16 2019-05-22 Softbank Robotics Europe System and method for dialog session management
EP3901740A1 (en) * 2018-10-15 2021-10-27 Orcam Technologies Ltd. Hearing aid systems and methods

Also Published As

Publication number Publication date
EP3956883A1 (en) 2022-02-23
WO2020214844A1 (en) 2020-10-22
CN113994424A (zh) 2022-01-28
EP3956883A4 (en) 2022-12-21
US20200335128A1 (en) 2020-10-22

Similar Documents

Publication Publication Date Title
US20200335128A1 (en) Identifying input for speech recognition engine
US11854550B2 (en) Determining input for speech processing engine
EP3791390B1 (en) Voice identification enrollment
US10847162B2 (en) Multi-modal speech localization
JP7419270B2 (ja) ウェアラブルシステム発話処理
US8762144B2 (en) Method and apparatus for voice activity detection
US20230410835A1 (en) Voice onset detection
CN102903362A (zh) 集成的本地和基于云的语音识别
US20230386461A1 (en) Voice user interface using non-linguistic input
US12014738B2 (en) Arbitrating between multiple potentially-responsive electronic devices
EP4139816B1 (en) Voice shortcut detection with speaker verification
CN110874137A (zh) 一种交互方法以及装置
WO2020125038A1 (zh) 语音控制方法及装置
WO2019026617A1 (ja) 情報処理装置、及び情報処理方法
CN115088033A (zh) 代表对话中的人参与者生成的合成语音音频数据
WO2016206647A1 (zh) 用于控制机器装置产生动作的系统
CN115700877A (zh) 音频特征检测技术
US11657814B2 (en) Techniques for dynamic auditory phrase completion
Lin et al. Nonverbal acoustic communication in human-computer interaction

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230414

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230414

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240430

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240502