JP7038210B2 - 対話セッション管理用のシステム及び方法 - Google Patents

対話セッション管理用のシステム及び方法 Download PDF

Info

Publication number
JP7038210B2
JP7038210B2 JP2020526946A JP2020526946A JP7038210B2 JP 7038210 B2 JP7038210 B2 JP 7038210B2 JP 2020526946 A JP2020526946 A JP 2020526946A JP 2020526946 A JP2020526946 A JP 2020526946A JP 7038210 B2 JP7038210 B2 JP 7038210B2
Authority
JP
Japan
Prior art keywords
interlocutor
human interlocutor
human
dialogue
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020526946A
Other languages
English (en)
Other versions
JP2021503625A (ja
Inventor
ビラック,ミリアム
シャムー,マリーヌ
リム,アンジェリカ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aldebaran SAS
Original Assignee
SoftBank Robotics Europe SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SoftBank Robotics Europe SAS filed Critical SoftBank Robotics Europe SAS
Publication of JP2021503625A publication Critical patent/JP2021503625A/ja
Application granted granted Critical
Publication of JP7038210B2 publication Critical patent/JP7038210B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Description

本発明は、音声ユーザーインターフェイス及び会話エージェントに関し、更に詳しくは、会話のやり取りセッションにおける対話の制御の譲渡に関する。
過去50年程度において発生した情報技術革命は、多くの人間の活動が、いまや、情報技術システムの、且つ、特に、コンピュータの、操作を伴っており、且つ、多くの場合には、これを中心として展開している、ことを意味するようになっている。パンチカードから、キーボード、マウス駆動型のグラフィカルユーザーインターフェイス、及び最近ではマルチタッチ型のタッチスクリーンインターフェイスまで、これらのやり取りをサポートするインターフェイスの特性は、これらのシステムの処理及び電気通信能力に伴って、継続的に進化しており、ユーザーに表示される情報の豊富さ及びアクセス性も増大し、且つ、やり取りの精度及び容易性も改善されている。但し、このような動作は、システム的には、対象の装置との間の手作業によるやり取りに基づいた状態に留まっている。
発話処理は、近年、Pepperなどの対話型ロボット及びAmazon Alexa、OK Google、Siri、及びCortanaなどの音声インターフェイスが市場に登場することにより、大きく前進している。但し、ロボットは、依然として、人間が行うほどに自然に会話するためには、改善を必要としている。例えば、課題の1つは、発話を通じてロボットとやり取りするべく、ユーザーが非常に固有の方式によって発話しなければならない、という点にある。ユーザーは、躊躇や休止を伴うことなしに、好ましくは、「ウーン(umm)」や「ああ(ah)」を伴うことなしに、明瞭に発話しなければならない。残念ながら、人間は、平均で4.4秒ごとに、これらの種類の訥弁を放出し、これにより、例えば、自身が思考する時間を許容するべく、休止していることを研究が示している。これらのケースにおいては、発話システムは、人間が発話を終了していると仮定する可能性があり、且つ、完了してはいない概念を突然中断又は処理する可能性があろう。この中断の問題への対処を試みるべく、様々な方式が存在している。現在の音声サービスの多くは、ユーザーのコマンドが完了したかどうかを検出するべく、自動的な発話認識及び自然言語理解に依存しており、これにより、中断の問題を部分的に解決している。但し、このケースにおいて、ユーザーの入力が複数の文から構成されている場合には、最初の文のみが処理されることになり、この場合には、増分的な対話方式が有用でありうる。その他のシステムは、発話のターンを終了させるべく、ボタンの使用のみを許容している。積極的な対話システムにおいて、この問題を回避するための別の方法は、「赤と青、どちらの色が好きですか?」などの、特定の、オープンエンド型ではない質問をする、というものである。通常、「完全」な一連の文を一息に発話し、これにより、自身のコミュニケーションスタイルを機械の制約に対して準拠させることにより、自身をシステムに適合させているのは、人間である。
1960年代終盤から、人間の会話の分析の一部分として、話者の交替(turn-taking)が研究されている。これは、発話者が、それぞれ、発話を継続する、或いは、自身の発話のターンを終了する、際に、「保持」又は「放棄」されうる、会話フロア(conversational floor)などの概念を含む。別の重要な概念は、一人の発話者の発話が、現時点において発話している人物のものとオーバーラップしている際の、「オーバーラップ」のものである。その文化又は地域に応じて、オーバーラップは、会話の際に、それなりの頻度において発生しうる。いくつかのオーバーラップは、例えば、「あは(uh huh)」などの、対話者の発話又はバックチャネルの継続として、協調性を有する。その一方で、いくつかのオーバーラップは、競合性を有しており、本発明者らは、本明細書においては、これらを中断と呼称している。発話のターンを奪取し、且つ、トピックを変更することは、力、優越、及び脅威の表示と関連付けられうる。従って、人間の発話者を支配するものとして知覚されないように、ロボット及びAIは、これらのオーバーラップを回避することが重要になりうるであろう。「あー(uh)」又は「うーん(umm)」などの、挿入された休止又は挿入語(filler)は、自然な会話において頻繁であり、且つ、思考及び/又は発話を継続する所望を通知している。言語学の分野における一般的なコンセンサスは、これらは、誤りではなく、言語及び会話の正常な部分である、というものである。又、これとの関連において、単語又はフレーズの間には、1つの発話のターン内の発話の分割単位を分離する沈黙の休止も存在している。
自動化されたシステム内において対話者が会話フロアを譲渡する瞬間の効果的な識別は、中断、反復、及びこれらに類似したものの発生を低減する、という観点において、人間対話者と自動化されたシステムの間のコミュニケーションの流暢さ及び効率を改善するべく、重要である。
本発明によれば、第1の態様において、機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法が提供されており、方法は、人間対話者からの発声の際に人間対話者の第1発話特性に基づいて第1意図インジケータをキャプチャするステップと、人間対話者からの発声の終了を検出するステップと、を有する。人間対話者からの発声の終了が判定された際に、対話者の身体運動に基づいて第2意図インジケータがキャプチャされる。次いで、一緒に取得された第1意図インジケータ及び第2意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかが判定され、且つ、一緒に取得された第1意図インジケータ及び第2意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有していると判定された際には、人間対話者に応答している。
第1の態様の一変形においては、方法は、人間対話者からの発声の終了が判定された際に、対話者の第2発話特性に基づいて第3意図インジケータをキャプチャする更なるステップを有する。一緒に取得された第1意図インジケータ及び第2意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップは、一緒に取得された第1意図インジケータ及び第2意図インジケータ及び第3意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップを有する。
第1の態様の更なる一変形においては、第2意図インジケータは、人間対話者の注視の向きの判定、対話の焦点との関係における人間対話者の物理的近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における人間対話者の規定された身体部分の向きの検出、のうちの1つ又は複数を有する。
第1の態様の更なる一変形においては、人間対話者の注視の向きの判定は、人間対話者の注視が対話の焦点に戻っている、という判定を有する。
第1の態様の更なる一変形においては、第1意図インジケータ又は第3意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの1つ又は複数を有する。
第1の態様の更なる一変形においては、第1意図インジケータは、主に、発声の終了に向かう発話特性に基づいている。
第1の態様の更なる一変形においては、発声は、発声内の休止の持続時間が、既定された閾値持続時間を超過していることが検出されたケースにおいてのみ、終了したものと判定されている。
第1の態様の更なる一変形においては、人間対話者の第2意図インジケータをキャプチャするステップは、既定された持続時間にわたって実行されている。
第1の態様の更なる一変形において、第1意図インジケータ及び第2意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップにおいて、第1意図インジケータ及び第2意図インジケータが共に人間対話者による対話の制御の譲渡と一貫性を有してはいないと判定された際には、方法は、人間対話者からの発声の終了を検出するステップに戻る。
本発明によれば、第2の態様において、人間対話者との間の対話における注入用の資料(material)の処理のためのシステムが提供されており、システムは、人間対話者からの発声を担持するコミュニケーションチャネルの一表現を受け取る入力と、資料を担持するコミュニケーションチャネルの一表現を伝達する出力と、発声の終了を検出するべく表現を処理するように適合されたプロセッサと、を有する。プロセッサは、人間対話者からの発声の終了が判定されたケースにおいては、人間対話者の第1発話特性に基づいて第1意図インジケータをキャプチャするように、且つ、人間対話者の身体運動に基づいて第2意図インジケータをキャプチャするように、且つ、1つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうか判定するように、更に適合されており、且つ、1つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有していると判定されたケースにおいては、人間対話者に対する応答を開始している。
第2の態様の更なる一変形においては、システムは、人間対話者によって知覚可能である焦点と、焦点との関係における人間対話者の身体運動の一側面を第2意図インジケータとして判定する能力を有する検出器と、を有する。
第2の態様の更なる一変形においては、第2意図インジケータは、人間対話者の注視の向きの判定、対話の焦点との関係における人間対話者の物理的近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における人間対話者の規定された身体部分の向きの検出、のうちの1つ又は複数を有しており、且つ、システムは、ビデオ入力トランスデューサと、人間対話者の注視の向きを判定するように適合された注視トラッカと、を更に有する。
第2の態様の更なる一変形においては、第1意図インジケータ又は第3意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの1つ又は複数を有する。
本発明によれば、第3の態様において、第1の態様のステップを実装するように適合された命令を有するコンピュータプログラムが提供されている。
以下、次の添付図面を参照し、本発明の上述の及びその他の利点について説明することとする。
人間対話者との対話における注入用の資料が処理されるシナリオを提示する。 図1aのシナリオの第1代替肢を提示する。 図1aのシナリオの第2代替肢を提示する。 図1aのシナリオの第3代替肢を提示する。 対話の様々なステージにおいて計測されうる、対応する注視方向データを示す。 一実施形態による、機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法を示す。 図3の実施形態の一変形による、機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法を示す。 一実施形態による、機械との間の対話において人間対話者による発話ターンの譲渡を検出するシステムを提示する。 本発明の実施形態の実装に適した一般的な演算システムを示す。 一実施形態を構成するように適合可能なロボットを示す。 一実施形態を構成するように適合可能なスマートフォン装置を示す。
図1a、図1b、及び図1cは、人間対話者との間の対話における注入用の資料が処理される、シナリオの各ステージを提示している。具体的には、ロボット120は、人間対話者110との対話に参加している。ロボットのプロセッサは、対話に対する寄与を準備し、且つ、これを会話に注入するための適切な瞬間の識別を追及している。
図1aは、人間対話者との対話における注入用の資料が処理されるシナリオを提示している。テキストの吹き出し111aにおいて示されているように、人間対話者は、「facilis est et expedita distinctio………………….uhh」という発声を放出している。ロボット122には、マイクロフォン124が提供されており、これを利用して、例えば、適宜、アナログ-デジタル変換、フィルタリング、及びその他の事前処理により、発声をキャプチャすることができると共に、理可能な形態においてレンダリングすることができる。本発明の実施形態によれば、この発声は、それぞれの発声の末尾を識別することを目的として、継続的に処理することができる。発声の末尾は、連続的な発話セグメントの末尾と一致するものと見なすことができる。発声は、発声内の休止の持続時間が既定の閾値持続時間を超過していると検出されたケースにおいてのみ、終了したものと判定される。閾値持続時間は、任意の適切な値を有しうる。例えば、閾値持続時間は、50ms~400msであってよい。英語発話者の場合には、約200msの最小休止持続時間が良好な結果を提供することが見出されている。閾値持続時間は、対話者の発話特性の関数として動的に判定することができる。閾値持続時間は、使用される言語、アクセントに起因した地域的な変動、及びこれらに類似したもの、発話者の成熟度及び能力、などのような、コンテキスト要因を参照して設定することができる。
又、エネルギー強度閾値が定義されてもよく、この場合には、この閾値未満の音響入力レベルは、休止期間に属するものとして見なされる。エネルギー強度レベルは、適宜、対話者の音声レベル、対話者と焦点及び/又はマイクロフォンの間において予測又は検出された距離、バックグラウンドノイズレベル、及びその他の要因の関数として動的に定義することができる。
図1aにおいて示されているように、発声は、沈黙の期間130を伴って終了しており、この結果、プロセッサ121は、発声の終了を識別することができる。
オーディオ処理の分野においては、挿入された休止の検出について、多くの研究が既に実施されている。挿入された休止は、1999年のMasataka Goto、Katunobu Itou、及びSatoru Hayamizuによる文献「A Real-time Filled Pause Detection System for Spontaneous Speech Recognition. In Proceedings of Eurospeech 1999. 227-230」において説明されているように、日本語における発話の基本周波数及びスペクトルエンベロープを追跡することにより、リアルタイムで検出することができる。更に最近においては、2013年の「Detection of nonverbal vocalizations using Gaussian Mixture Models: looking for fillers and laughter in conversational speech. (2013)」という名称の文献において、Teun F Krikke及びKhiet P Truongによって提示されているように、笑い声及び挿入された休止などの発話信号を検出するべく、Interspeech 2013 SVCデータセットを使用することができる。
従って、発声111aが終了したものと判定することができる一方で、挿入語発話の形態における第1意図インジケータが発声の末尾に向かって発生したと判定することもできる。
従って、第1意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの1つ又は複数を有することができる。具体的には、発声の末尾における降下するピッチは、会話フロアを放棄するユーザーの意図のインジケータとして解釈することができる一方で、フラットなピッチは、発話者がフロアを維持することを所望している、という信号である。構文的に又は概念的に完了している発声の提示は、会話フロアを放棄するユーザーの意図のインジケータとして取得することができる。所与の単語又は音節は、発話ターンの末尾において、相対的に低速で発音される場合がある。いくつかのこのような意図インジケータを並行して使用することができる。第1意図インジケータは、これらの要因のうちのいくつか又はすべてのものの任意の組合せを有することができる。
挿入語の存在は、第1意図インジケータを構成するものと解釈されてもよく、この第1意図インジケータは、対話者の第1発話特性に基づいたものである。具体的には、発声の末尾における挿入語の存在は、人間対話者が会話フロアを譲渡することを意図してはいないことのインジケータとして解釈することができる。例えば、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、或いは、発声の意味成分などの、対話者の発話特性に基づいた、多くのその他のこのような第1意図インジケータを考慮することができることを理解されたい。
特定の実施形態においては、このような第1意図インジケータの検出のために、発声の末尾における(但し、発声の際の)既定の持続時間の時間ウィンドウ131を評価することができる。
図1aに示されているように、対話者110の注視112は、ロボットの顔に対応する焦点領域123から離れるように、下方に、且つ、右側に、導かれていることに留意されたい。この事実は、ロボットの「眼」の位置におけるビデオカメラに基づいて、図示のようにロボットビデオシステムと一体化された、注視追跡システムにより、検出することができる。
人間の間における会話においては、注視は、発話ターンの末尾を通知するための方法として識別されている。「Conversational gaze aversion for humanlike robots. In Proceedings of the 2014 ACM/IEEE international conference on Human-robot interaction. ACM, 25-32」という名称の、Sean Andrist、Xiang Zhi Tan、Michael Gleicher、及びBilge Mutluによる、2014年の文献及び「Speaking and listening with the eyes: gaze signalling during dyadic interactions. PloS one 10, 8 (2015), e0136905」という名称の、Simon Ho、Tom Foulsham、及びAlan Kingstoneによる、2015年の文献において記述されているように、人間は、通常、思考中においては、見上げるか、一側部を見るか、又は見下げる、ことになり、次いで、彼らが発話を終了した際には、その対話者に自身の注視を戻すことになる。会話中の注視に関する十分な検討については、[Federico Rossano. 2012. Gaze in Conversation. In The Handbook of Conversation Analysis, Jack Sidnell and Tanya Stivers (Eds.). John Wiley and Sons, Ltd, Chichester, UK, Chapter 15, 308-329]において見出すことができる。
人々は、その他の人間に話しかける際には、自身のターンを主張するべく、発声の開始時点においてアイコンタクトを中断し、且つ、回答の準備に合焦する、傾向を有する。その応答の末尾においては、発話者は、しばしば、自身がその回答を終了しており、且つ、会話フロアを引き継ぐように自身が聴取者を誘引している、ことを通知するべく、聴取者を見詰めている。
図2は、対話の異なるステージにおいて計測されうる、対応する注視方向データを示している。
応答は、ヨー及びピッチ値だけの、注視方向における上昇によって伴われる思考フェーズ201により、開始している。中間フェーズ202は、時々のピッチ値の変化を伴う人間の口頭による回答である。末尾において、参加者は、ロボットを振り向き、これにより、ロボットのために、会話フロアを手放している203。これは、話者交替方式の基礎として使用されてもよく―注視検出器は、例えば、発声の末尾の後などの、最も適切な時点においてのみ、注視情報を追跡することができる。一般に、音声ユーザーインターフェイス又は会話エージェントの場合には、発声の末尾の後の1.5秒の期間が、この判定のための有効なウィンドウを構成することが見出されている。図2から理解されるように、対話者の注視方向は、この期間において相当に変化しうる。従って、第2意図インジケータは、計測期間にわたる平均値又はスムージング済みの値に基づいたものであってもよい。従って、発話発声の末尾の後の注視方向が、対話者が会話フロアを維持又は放棄するべく試みているかどうかを弁別しているものとして見なすことができる。要すれば、このシステムは、人間がロボットを見ていたかどうかを算出することができる。推定された注視方向を参照すれば、その内側においては対話者がロボットを見ていると見なされうると共に、その外側においては対話者が自身の注視を逸らしていると表現されうる、閾値として、±0.15ラジアンの角度を使用することができる。注視方向閾値は、特定の対話者の振る舞いに基づいて動的に判定することができる。又、これは、対話者と焦点の間の検出又は計測された距離並びに/或いは焦点のサイズを考慮することもできる。
従って、注視方向は、対話者の身体運動に基づいた第2意図インジケータを構成するものとして解釈することができる。具体的には、人間対話者の注視がロボットの「注視と遭遇する」べく、戻っていなかった、という判定は、人間対話者が会話フロアを譲渡することを意図してはいない、というインジケータとして解釈することができる。ロボットの「注視と遭遇する」ことは、人間対話者の注視が、任意に定義された任意の領域に導かれることに対応しうることを理解されたい。この領域は、顔の、或いは、ロボット上の眼の、表現に対応していてもよく、或いは、ディスプレイ又はその他の焦点に対応していてもよい。図1において提示されているように、ビデオ入力をロボットに提供していると共にその注視追跡機能をサポートしている、ビデオカメラは、人間の顔内の眼に似たような方式によって位置しているが、すべての実施形態において、このようにする必要はない。
従って、人間対話者の注視の向きの判定は、人間対話者の注視が対話の焦点に戻っているという判定を有することができる。
様々なシステムが、眼の運動を追跡するべく、使用されており、これらは、この機能を実装するべく適合させることができる。ヘッドマウント型の、テーブルに基づいた、又はリモート型の、システムを含む、任意のこのようなシステムを使用することができる。これらの装置は、一般に、赤外線放出源の瞳孔/角膜の反射から注視位置を演算するべく、ビデオカメラ及び処理ソフトウェアを使用している。テーブル装置に伴うデータ精度を増大させるべく、顎をテーブル上において固定することにより、頭の運動を制限することができる。又、システム精度を保証するべく、較正プロセスも一般的である。較正プロセスは、通常、観察しているシーンの異なる場所内のいくつかの地点を表示するステップから構成されており、眼追跡ソフトウェアが、瞳孔の位置及び頭部の場所を処理する変換を演算することになる。テーブルに基づいた眼トラッカは、通常、双眼型であり、且つ、従って、眼の発散を算出することが可能であると共に、リアルタイムでスクリーンに適用されるx-yピクセルにおける注視交点(GIP:Gaze Intersection Point)の未加工座標を出力することができる。この特徴は、HMI用の入力としての注視位置の統合を許容している。次いで、ユーザーとやり取りするべく、対象のエリア(AOI)が定義される。注視がAOIと遭遇した際に、イベントが生成され、且つ、特定の情報片が送信されることになる。AOIがある程度の自由度を有するインターフェイスの要素(例えば、スクロールバー)である際には、これは、動的なAOI(dAOI)について話していることになる。dAOIの追跡は、静的なものとの比較において、相対的に困難である。
いくつかの実施形態においては、注視方向は、単に、瞬間的な注視点である、即ち、入力が受け取られる瞬間においてユーザーが見ていると眼追跡システムが見なした、なんらかの地点である、と解釈することができる。特定の実施形態においては、ユーザーの注意点の判定は、既定の持続期間にわたるユーザーの注視点の重み付けされた平均を判定するステップを伴っていてもよく―更なる実施形態については、後述する。
例えば、対話の焦点との関係における人間対話者の物理的な近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における頭の角度などの人間対話者の規定された身体部分の向きの検出、又は人間対話者の眼の開放程度などの、対話者の身体運動に基づいた、多くのその他のこのような意図インジケータを考慮することができることを理解されたい。
具体的には、発話者は、自身のターンを主張するべく、且つ、回答の準備に合焦するべく、自身の注視を逸らせる、或いは、自身の頭を傾斜させる、傾向を有する一方において、自身の応答の末尾においては、発話者は、しばしば、自身が自身の回答を終了した、且つ、会話フロアを引き継ぐように自身が聴取者を誘引している、ことを通知するべく、聴取者を見詰めている。人々は、応答を開始する際には、自身の上半身によってロボットに接近する、且つ、発話ターンの末尾においては、自身の初期位置に戻るように運動する、傾向を有する。従って、頭の角度は、第2意図インジケータの成分を構成することができる。
自身の発話ターンの末尾において、人々は、ロボットの回答に集中するべく、自身の耳をロボットに向かって回転させる。従って、頭の向きは、第2意図インジケータの成分を構成することができる。
発話ターンの末尾は、しばしば、手のジェスチャの末尾によって伴われている。従って、特徴的な手の運動は、第2意図インジケータの成分を構成することができる。
人々は、聴取した後に、発話する際には、相対的に静止状態となる傾向を有する。従って、一般的な対話者の運動レベルが第2意図インジケータの成分を構成することができる。
顔の動作単位は、第2意図インジケータの成分を構成することができる。例えば、眼を細めることは、ユーザーの思考の振る舞いとして解釈することが可能であり、これは、ユーザーがフロアを維持することを所望していることを通知している。
図1aのシナリオにおいては、人間対話者が自身の発声の末尾において挿入語を含んでいた、という事実、並びに、ユーザーの注視がロボットの顔に対応する焦点領域から逸れた状態に留まっている、という事実、は、対話者がフロアを譲渡することを意図してはいないことと一貫性を有するものとして解釈することができると共に、対話者がフロアを譲渡することを意図してはいないと結論付けることができる。
図1bは、図1aのシナリオの第1代替肢を提示している。
図1bは、テキストの吹き出し111bに示されているように、人間対話者が「facilis est et expedita distinctio…………」という発声を発音していることを除いて、図1aと同一である。即ち、時間ウィンドウ131内において、挿入語が明白ではない。これに基づいて、人間対話者が自身の発声の末尾において挿入語を含んではいなかった、という事実は、対話者がフロアを保持することを意図してはいなかった、ことを通知するものとして解釈されうる一方において、ユーザーの注視がロボットの顔に対応する焦点領域から逸れた状態において留まっているという事実は、ユーザーが、実際には、フロアを譲渡することを意図してはいない、ことのインジケータとして解釈されてもよく、従って、対話者は、フロアを譲渡することを意図してはいない、と結論付けることができる。
図1cは、図1aのシナリオの第2代替肢を提示している。
図1cは、人間対話者110の注視112cが、図示のように、ロボット120の顔と関連する焦点領域123と一致している、ということを除いて、図1aと同一である。
これに基づいて、人間対話者が自身の発声の末尾において挿入語を含んでいた、という事実は、対話者がフロアを保持することを意図していた、ことを通知するものとして解釈されうる一方において、人間対話者の注視がロボットの顔に対応する焦点領域に戻っている、という事実は、彼らがフロアを譲渡することを意図していることのインジケータとして解釈されてもよく、従って、対話者がフロアを譲渡することを意図してはいないと結論付けることができる。
図1dは、図1aのシナリオの第3代替肢を提示している。
図1dは、テキストの吹き出し111bに示されているように、人間対話者が「facilis est et expedita distinctio…………」という発声を発音していることを除いて、図1aと同一である。即ち、時間ウィンドウ131においては、挿入語が明白ではない。更には、人間対話者110の注視112cは、図示のように、ロボット120の顔と関連する焦点領域123と一致している。
これに基づいて、人間対話者が自身の発声の末尾において挿入語を含んではいなかったという事実は、対話者がフロアを譲渡することを意図していたことを通知するものとして解釈することができると共に、人間対話者の注視がロボットの顔に対応する焦点領域に戻っているという事実は、共に、人間対話者による対話の制御の譲渡と一貫性を有するものとして解釈されてもよく、従って、対話者は、フロアを譲渡することを意図していると結論付けすることができる。
図1a、図1b、図1c、及び図1dにおいて探求された様々なシナリオに基づいて、人間対話者との対話における注入用の資料の機械処理の方法を提供することができる。
図3は、一実施形態による機械インターフェイスとの対話において人間対話者による発話ターンの譲渡を検出する方法を示している。
図示のように、方法は、対話者の第1発話特性に基づいた第1意図インジケータが、例えば、上述の図1a、図1b、図1c、及び図1dを参照して記述されているように、人間対話者からの発声の際にキャプチャされる、ステップ305に進む前に、ステップ300において始まっている。ステップ310において、発声が終了したかどうかが判定されており、且つ、発声が終了してはいないケースにおいては、方法は、ステップ305に戻る。発声が終了しているとステップ310において判定されたケースにおいては、方法は、対話者の身体運動に基づいた第2意図インジケータがキャプチャされる、ステップ315に進む。
人間対話者の第2意図インジケータのキャプチャは、既定の持続時間にわたって、或いは、十分な計測値が取得される時点まで、或いは、必要な程度の収束又は信頼性が実現される時点まで、或いは、その他の方法により、実行することができる。
次いで、方法は、一緒に取得された第1意図インジケータ及び第2意図インジケータが、人間対話者による対話の制御の譲渡と一貫性を有しているかどうかが判定される、ステップ320に進む。ステップ320において、一緒に取得された第1意図インジケータ及び第2意図インジケータが前記人間対話者による対話の制御の譲渡と一貫性を有していると判定された場合には、方法は、資料が対話内に注入されうる、ステップ325に進む。第1意図インジケータ及び第2意図インジケータが共に人間対話者による対話の制御の譲渡と一貫性を有してはいないと判定された場合には、方法は、人間対話者からの発声の終了を検出する、ステップ305に戻り、人間対話者からの発声の終了の検出には、本実施形態においては、ステップ305を介して到達されている。
図1a、図1b、図1c、及び図1dに伴って記述されているように、第1意図インジケータと第2意図インジケータの両方が、ロボットが会話フロアを引き継ぐように、人間対話者が会話フロアの制御の譲渡を所望している、ことに対応していなければならない、2値方式が示唆されている。いくつかの実施形態においては、第1意図インジケータ又は第2意図インジケータのいずれか又は両方は、非2値型であってもよいことを理解されたい。
一緒に取得された第1意図インジケータ及び第2意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有していると判定されたケースにおいては、方法は、システムが人間対話者に応答するステップ325に進む。この応答は、現在の反復における対話者の発声及び/又は任意の以前の発声のみならず、任意の外部刺激、に基づいて生成されてもよく、或いは、対話者発声とは完全に独立したものであってもよい。応答は、発話、並びに/或いは、システムが実行する能力を有しうる任意のその他のアクション、の形態を有しうる。資料は、対話者が会話フロアを譲渡したという判定の際に、即座に注入される必要はなく、且つ、実際に、場合によっては、その時点において定義されなくてもよい。特定の実施形態においては、対話者のコメントを処理する、且つ、応答を実行する前にその結果として資料を生成する、更なるステップが存在していてもよい。
上述のステップは、その論理的な重要性を変更することなしに変更されうることを理解されたい。例えば、いくつかの実施形態においては、到来したオーディオは、バッファ処理されてもよく、且つ、オーディオは、第1意図インジケータの存在を判定するべく、評価されてもよく、この処理は、発声の末尾がステップ310において検出されたら、バッファ処理されたデータに基づいて、以前に遡って実行されてもよい。これは、必ずしも、図3のフローチャートの再構築を示唆するものではなく、その理由は、第1意図インジケータが、依然として、いくつかのケースにおいては、その評価が後から実行される場合にも、それがバッファされる時点においてキャプチャされるものと見なされうるからである。いくつかの実施形態においては、第1意図インジケータをキャプチャするステップは、第1意図インジケータを抽出するべくオーディオデータを評価するサブステップを有していてもよく、このサブステップは、発声の末尾がステップ310において検出される前又は後に、発生しうる。
一方においては、対話者の第1発話特性に基づいた第1意図インジケータの、且つ、他方においては、対話者の身体運動に基づいた第2意図インジケータの、組み合わせられた検討は、会話フロアの譲渡との関係における人間対話者の真の意図を判定することにおいて特に効果的であることが見出されている。これは、ロボットからの応答の欠如にも拘らず、人間対話者による反復の相対的に少ない発生、ロボットによる人間対話者の不適当な中断の相対的に少ない発生、並びに、対応する方式により、人間対話者からの相対的に長い発声、に結び付く傾向を有する。発声の末尾における第1発話特性に基づいた第1意図インジケータを検出する、且つ、発声が終了したと見なされた後の身体運動に基づいた第2意図インジケータを考慮する、構造化された方式は、プロセッサ、メモリ、エネルギー、及びその他のシステムリソースに対する需要を制約しつつ、これらの利益を生成している。
図4は、図3の実施形態の一変形による機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法を示している。
図3に示されているように、発声の終了がステップ310において検出されたら、方法は、上述のステップ315と並行して、更なるステップ417に進む。ステップ417においては、対話者の第2発話特性に基づいた第3意図インジケータがキャプチャされている。ステップ417から、方法は、第3意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかが判定される、ステップ418に進む。
第3意図インジケータは、発声の末尾の後の人間対話者からの任意の発話の検出を有することができる。従って、第2意図インジケータを検出するステップは、人間対話者からの更なる発声を検出するステップを更に有していてもよく、且つ、この場合には、任意のこのような更なる発声が検出されることにより、人間対話者からの発声の終了を検出するステップに戻るが、これには、本実施形態においては、ステップ305を介して到達されている。
このような新しい発話は、第1及び第2意図インジケータによって示唆されているその明白な意図とは無関係に、人間対話者によるステージの回復を通知するものとして解釈することができる。
従って、ステップ418において、第3意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有してはいないと判定された場合には、方法は、ステップ305に戻る。さもなければ、方法は、図3との関係において記述されているように、ステップ320に進む。
ステップ320及び418は、一緒に取得された第1意図インジケータ及び第2意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップが、一緒に取得された第1意図インジケータ及び第2意図インジケータ及び第3意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップを更に有する、単一のステップにおいて、組み合わせることができることを理解されたい。
従って、第3意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの1つ又は複数を有することができる。
図5は、一実施形態による、機械との間の対話において人間対話者による発話ターンの譲渡を検出するシステムを提示している。
図示のように、システム520は、人間対話者110からの発声を担持するコミュニケーションチャネルの表現524を受け取る入力526と、資料を担持するコミュニケーションチャネルの表現を伝達する出力525と、発声の終了を検出するべく表現を処理するように適合されたプロセッサ521と、を有する。
プロセッサ521は、人間対話者110からの発声の終了が判定されたケースにおいては、対話者の第1発話特性に基づいた第1意図インジケータ及び対話者の身体運動に基づいた第2意図インジケータをキャプチャするように、且つ、1つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するように、且つ、1つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているケースにおいては、例えば、図3又は図4との関係において、例えば、上述されたように、対話者に応答するように、更に適合されている。
特定の任意選択の変形によれば、図5のシステムは、対話者110によって知覚可能である焦点529と、焦点との関係における対話者の身体運動の一側面を第2意図インジケータとして判定する能力を有する検出器522と、を有することができる。例として、検出器522は、上述のように、ビデオカメラ122を有することができる。
図5のシステムの特定の任意選択の変形によれば、第2意図インジケータは、人間対話者の注視の向きの判定、対話の焦点との関係における人間対話者の物理的近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における人間対話者の規定された身体部分の向きの検出、のうちの1つ又は複数を有することができる。システムは、ビデオ入力トランスデューサ522と、人間対話者の注視の向きを判定するように適合された注視トラッカと、を更に有することができる。このような注視トラッカは、スタンドアロンシステムとして、或いは、上述のように、ビデオカメラなどの既存のシステムからのデータ使用することにより、実装することができる。このデータに対する注視追跡処理は、ハードウェアにより、又はソフトウェアにより、或いは、これら2つの組合せにより、実行することができる。
図5のシステムの特定の任意選択の変形によれば、第1意図インジケータ又は第3意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの1つ又は複数を有することができる。
図1a、図1b、図1c、及び図1dは、ビデオカメラ122、マイクロフォン124、ラウドスピーカ125、プロセッサ121、及び焦点エリア123などの、言及されている様々な動作自在のシステムを内蔵する、ロボット120との関係において記述されているが、本発明の実施形態は、動作自在の要素の任意の適切な分散の形態を有しうることを理解されたい。いくつかの実施形態においては、焦点は、ある程度まで、ヒト型ロボットの顔に似たものであってよい。例えば、これは、眼を表す2つの地点を有することができる。これは、これに加えて、口又は鼻の表現を有することもできる。いくつかのケースにおいては、これらの特徴は、個々の顔面特徴の機能に(眼がビデオ入力に、口がオーディオトランスデューサに、などのように)対応しうる、或いは、対応しえない、機能的コンポーネントと一致していてもよく、或いは、その代わりに、いくつかの又はすべての要素において、単なるグラフィカルな表現であってもよい。表現は、それなりに、人間の顔のようなものであってよく、且つ、いくつかのケースにおいては、これに加えて、肌の色合いや手触りなどのような特徴を表すこともできる。表現は、動物、空想上の生物、又は機械的なエンティティを表しうる。表現は、全体的に又は部分的に、グラフィカルディスプレイ上において提示されてもよい。その一方で、焦点エリアは、任意の自由裁量による可視特徴を有することもできよう。例えば、これは、単に、壁上のスポット、格子、窓、或いは、例えば、仮想又は拡張現実を介してデジタル手段によって識別可能でありうる領域を有することができる。同様に、焦点エリアは、物理的空間内において定義される必要はなく、3次元のコンピュータ生成された空間内においてのみ存在しうる。
この焦点エリアとの関係において、ビデオカメラ122、マイクロフォン124、ラウドスピーカ125などのその他の要素を任意の場所において配置することができる。複数のビデオカメラ、マイクロフォン、又はラウドスピーカが提供されてもよく、且つ、これらは、対話者との関係において最良に位置しているいずれかのものの関数として独立的に動作してもよく、或いは、最適な結果を実現するべく、特定のタイプの装置のそれぞれの例のうちのいくつか又はすべてとの間における信号を一緒に処理することができる。例えば、バックグラウンドノイズ及びこれに類似したものを排除するように、空間内において分散されうる、複数のマイクロフォンからの信号を一緒に処理することができる。
以上においては、対話者の身体運動に基づいた第2意図インジケータは、ビデオ入力122を介してキャプチャされるものとして提示されているが、対象の身体運動の特性に応じて、その他のセンサが提供されてもよい。検出対象の身体運動に応じて、例えば、LIDAR、音響、赤外線、又は任意のその他の適切なセンサを提供することができる。
第1意図インジケータ及び/又は第2意図インジケータ及び/又は第3意図インジケータは、複数の個々の入力に基づいて生成することができることを理解されたい。第1意図インジケータ及び/又は第3意図インジケータは、以上において提示されているもののいずれかを含む適切な発話特性の任意の組合せに基づいて生成することができると共に、第2意図インジケータは、以上において提示されているもののいずれかを含む適切な身体運動特性の任意の組合せに基づいて生成することができる。
特定の実施形態によれば、ロボット又はその他の会話エージェントは、既定された時間ウィンドウ内における、発声の末尾における挿入語発話の導入などの特定の発話特性の欠如、並びに、発声の末尾の後の、ロボットの顔などの、変換の焦点に対話者がその注視を戻すことなどの、特徴的な物理的振る舞いの存在、を検出することにより、人間対話者が会話フロアを譲渡したかどうかを判定している。この特性の組合せが検出された場合には、ロボットは、会話フロアが自由な状態にあり、且つ、応答が適切でありうる、と判定することができる。この結果、例えば、音声又はテキストを介した会話応答をトリガすることができる。
開示されている方法は、全体的にハードウェアの実施形態(例えば、FPGA)、全体的にソフトウェアの実施形態(例えば、本発明に従ってシステムを制御するためのもの)、或いは、ハードウェア及びソフトウェア要素の両方を含む一実施形態の形態を有することができる。ソフトウェア実施形態は、ファームウェア、レジデントソフトウェア、マイクロコードなどを含んでいるが、これらに限定されるものではない。本発明は、コンピュータ又は命令実行システムにより、或いは、これとの関係において、使用される、プログラムコードを提供するコンピュータ使用可能又はコンピュータ可読媒体からアクセス可能なコンピュータプログラムプロダクトの形態を有することができる。
コンピュータ使用可能物又はコンピュータ可読物は、命令実行システム、装置、又は機器により、或いは、これらとの関連において、使用される、プログラムを収容、保存、通信、伝播、又は搬送しうる、任意の装置であってよい。媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム(或いは、装置又は機器)、或いは、伝播媒体であってよい。
いくつかの実施形態においては、本明細書において記述されている方法及びプロセスは、ユーザー装置により、全体的に又は部分的に、実装することができる。これらの方法及びプロセスは、コンピュータアプリケーションプログラム又はサービス、アプリケーションプログラミングインターフェイス(API)、ライブラリ、及び/又はその他のコンピュータプログラムプロダクト、或いは、このようなエンティティの任意の組合せによって実装することができる。
ユーザー装置は、スマートフォン又はタブレットなどのモバイル装置、コンピュータ、或いは、ロボット又はその他の接続された装置などの処理能力を有する任意のその他の装置であってよい。
図6は、本発明の実施形態の実装に適した一般的な演算システムを示している。
図6に示されているように、システムは、論理装置601と、ストレージ装置602と、を含む。システムは、任意選択により、表示サブシステム611、入力サブシステム612、613、614、通信サブシステム620、及び/又は図示されていないその他のコンポーネントを含むことができる。
論理装置901は、命令を実行するように構成された1つ又は複数の物理的装置を含む。例えば、論理装置601は、1つ又は複数のアプリケーション、サービス、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、又はその他の論理的構造物の一部分である、命令を実行するように構成することができる。このような命令は、タスクを実行するべく、データタイプを実装するべく、1つ又は複数のコンポーネントの状態を変換するべく、技術的効果を実現するべく、或いは、その他の方法で望ましい結果に到達するべく、実装することができる。
論理装置601は、ソフトウェア命令を実行するように構成された1つ又は複数のプロセッサを含みうる。これに加えて、又はこの代わりに、論理装置は、ハードウェア又はファームウェア命令を実行するように構成された1つ又は複数のハードウェア又はファームウェア論理装置を含みうる。論理装置のプロセッサは、シングルコア又はマルチコアであってもよく、且つ/又は、その上部において実行される命令は、逐次型、並行型、及び/又は分散型の、処理のために構成することができる。論理装置601の個々のコンポーネントは、任意選択により、調整された処理のために、離れたところにおいて配置及び/又は構成されうる、2つ以上の別個の装置の間において分散させることができる。論理装置601の各側面は、クラウド演算構成において構成された、リモートアクセス可能な、ネットワーク化された、演算装置により、仮想化及び実行することができる。
ストレージ装置602は、本明細書において記述されている方法及びプロセスを実装するべく、論理装置によって実行可能な命令を保持するように構成された1つ又は複数の物理的装置を含む。このような方法及びプロセスが実行された際に、ストレージ装置602の状態は、例えば、異なるデータを保持するように、変換されてもよい。
ストレージ装置602は、着脱自在の且つ/又は組込み型の装置を含みうる。ストレージ装置602は、例えば、光メモリ(例えば、CD、DVD、HD-DVD、Blu-Rayディスクなど)、半導体メモリ(例えば、RAM、EPROM、EEPROMなど)、及び/又は磁気メモリ(例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、MRAMなど)を含む1つ又は複数のタイプのストレージ装置を有することができる。ストレージ装置は、揮発性の、不揮発性の、動的な、静的な、読取り/書込みの、読み出し専用の、ランダムアクセスの、シーケンシャルアクセスの、場所アドレス指定可能な、ファイルアドレス指定可能な、且つ/又は、コンテンツアドレス指定可能な、装置を含みうる。
特定の構成においては、システムは、論理装置601と更なるシステムコンポーネントの間の通信をサポートするように適合されたインターフェイス603を有することができる。例えば、更なるシステムコンポーネントは、着脱自在の且つ/又は組込み型の拡張ストレージ装置を有しうる。拡張ストレージ装置は、例えば、光メモリ632(例えば、CD、DVD、HD-DVD、Blu-Rayディスクなど)、半導体メモリ633(例えば、RAM、EPROM、EEPROM、FLASHなど)、及び/又は、磁気メモリ631(例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、MRAMなど)を含む1つ又は複数のタイプのストレージ装置を有することができる。このような拡張ストレージ装置は、揮発性の、不揮発性の、動的な、静的な、読取り/書込みの、読み出し専用の、ランダムアクセスの、シーケンシャルアクセスの、場所アドレス指定可能な、ファイルアドレス指定可能な、且つ/又は、コンテンツアドレス指定可能な、装置を含みうる。
ストレージ装置は、1つ又は複数の物理的装置を含み、且つ、伝播信号自体を排除している、ことを理解されたい。但し、本明細書において記述されている命令の態様は、この代わりに、ストレージ上において保存される代わりに、通信媒体(例えば、電磁信号や光信号など)によって伝播させることもできる。
論理装置601及びストレージ装置602の態様は、1つ又は複数のハードウェア論理コンポーネントとして1つに統合することができる。このようなハードウェア論理コンポーネントは、例えば、フィールドプログラム可能なゲートアレイ(FPGA)、プログラム及び用途固有の集積回路(PASIC/ASIC)、プログラム及びプリケーション固有の標準製品(PSSP/ASSP)、システムオンチップ(SOC)、及び複合プログラム可能論理装置(CPLD)を含みうる。
「プログラム」という用語は、特定の機能を実行するように実装された演算システムの態様を記述するべく、使用することができる。いくつかのケースにおいては、プログラムは、ストレージ装置によって保持された機械可読命令を実行する論理装置を介してインスタンス生成することができる。同一のアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、API、関数などから、異なるモジュールをインスタンス生成することができることを理解されたい。同様に、異なるアプリケーション、サービス、コードブロック、オブジェクト、ルーチン、API、関数などにより、同一のプログラムをインスタンス生成することもできる。「プログラム」という用語は、実行可能ファイル、データファイル、ライブラリ、ドライバ、スクリプト、データベースレコードなどの個別のもの又は群を包含しうる。
システムは、上述のように、要素122、522に対応しうる眼追跡ハードウェアを有する。このハードウェアは、システムの一体的なコンポーネント又は周辺機器であってよい。その機能は、論理装置601又はその他のものの上部において稼働するソフトウェアにより、サポート又は改善することができる。
具体的には、図6のシステムは、本発明の実施形態を実装するべく、使用することができる。
例えば、図3又は図4との関係において記述されているステップを実装するプログラムは、ストレージ装置602内において保存することができると共に、論理装置601によって実行することができる。人間対話者から受け取られたデータ、対話に注入されるべきデータ、運動データ及び/又はユーザー注視方向は、ストレージ602或いは拡張ストレージ装置632、633、又は631内において保存することができる。論理装置601は、ユーザー注視方向を判定するべく、カメラ616又は眼追跡システム660から受け取られたデータを使用することができると共に、ディスプレイ611は、対話用の、且つ/又は、焦点としての、出力の機能を提供することができる。
従って、本発明は、コンピュータプログラムの形態において実施することができる。
本明細書において使用されている「サービス」は、複数のユーザーセッションに跨って稼働可能なアプリケーションプログラムであることを理解されたい。サービスは、1つ又は複数のシステムコンポーネント、プログラム、及び/又はその他のサービスにとって利用可能であってよい。いくつかの実装形態においては、サービスは、1つ又は複数のサーバー演算装置上において稼働することができる。
含まれている際には、表示サブシステム611は、ストレージ装置によって保持されているデータの視覚的表現を提示するべく、使用することができる。この視覚的表現は、グラフィカルユーザーインターフェイス(GUI)の形態を有することできる。本明細書において記述されている方法及びプロセスが、ストレージ装置602によって保持されているデータを変更し、且つ、従って、ストレージ装置602の状態を変換するのに伴って、同様に、基礎をなすデータの変化を視覚的に表すように、表示サブシステム611の状態を変換することもできる。表示サブシステム611は、任意のタイプの技術を視覚的に利用した1つ又は複数の表示装置を含みうる。このような表示装置は、共有エンクロージャ内において、論理装置及び/又はストレージ装置と組み合わせられてもよく、或いは、このような表示装置は、周辺表示装置であってもよい。
含まれている際には、入力サブシステムは、キーボード612、マウス611、タッチスクリーン611、又はゲームコントローラ、ボタン、フットスイッチなど(図示されてはいない)のような1つ又は複数のユーザー入力装置を有していてもよく、或いは、これらとインターフェイスしていてもよい。いくつかの実施形態においては、入力サブシステムは、選択された自然ユーザー入力(NUI)コンポーネントを有していてもよく、或いは、これとインターフェイスしていてもよい。このようなコンポーネントは、統合されていてもよく、或いは、周辺に位置していてもよく、且つ、入力アクションの変換及び/又は処理は、オンボード状態又はオフボード状態において処理することができる。例示用のNUIコンポーネントは、発話及び/又は音声認識用のマイクロフォン、マシンビジョン及び/又はジェスチャ認識用の赤外線、カラー、立体、及び/又はデプスカメラ、モーション検出及び/又は意図認識用のヘッドトラッカ、眼トラッカ660、加速度計、及び/又はジャイロスコープ、のみならず、脳の活動を評価する電界検知コンポーネントを含みうる。
含まれている際には、通信サブシステム620は、1つ又は複数のその他の演算装置と演算システムを通信自在に結合するように構成することができる。例えば、通信モジュールは、例えば、パーソナルエリアネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネットを含む任意のサイズのネットワークを介して、例えば、リモートサーバー676上においてホスティングされたリモートサービスに演算装置を通信自在に結合することができる。通信サブシステムは、1つ又は複数の異なる通信プロトコルに適合した有線及び/又は無線通信装置を含みうる。非限定的な例として、通信サブシステムは、無線電話ネットワーク674或いは有線又は無線ローカル又はワイドエリアネットワークを介した通信のために構成することができる。いくつかの実施形態においては、通信サブシステムは、演算システムがインターネット675などのネットワークを介してその他の装置との間においてメッセージを送受信することを許容することができる。これに加えて、通信サブシステムは、受動型装置(NFCやRFIDなど)との間における近距離誘導通信621をサポートすることもできる。
図6のシステムは、広範囲の様々なタイプの情報処理システムを反映することを意図したものである。図6との関係において記述されているサブシステム及び特徴の多くは、本発明の実装のために必須のものではなく、且つ、本発明による可能なシステムを反映するべく含まれている、ことを理解されたい。システムアーキテクチャは幅広に変化し、且つ、図6の様々なサブシステムの間の関係は、概略的なものに過ぎず、且つ、システムの役割のレイアウト及び配分の観点において変化する可能性が大きい、ことを理解されたい。実際に、システムは、図6との関係において記述されている様々な特徴及びサブシステムの異なるサブセットを内蔵する可能性が大きいことを理解されたい。
図7及び図8は、本発明による更なる例示用装置を開示している。又、当業者は、本発明に従って動作するシステムが将来においても利用されうることを理解するであろう。
図7は、一実施形態を構成するべく適合可能なロボットを示している。図7に示されているように、ロボットは、上述のように、要素601、602、603、611、620、631、633、614、615、616、660、及び621を有する。これは、携帯電話ネットワーク674又はインターネット675を介してサーバー676との通信状態にあってもよい。又、専用ネットワーク又はWi-Fiなどの代替通信メカニズムを使用することができる。その一方において、要素612、613、632、621、617、6は、省略することもできる。ヒト型ロボットとして示されているが、ロボットは、同様に、ロボット芝刈り機、真空掃除機、或いは、任意のタイプの家庭、社会、又は産業ロボットであってもよい。
図8は、一実施形態を構成するべく適合可能なスマートフォン装置を示している。図8に示されているように、スマートフォン装置は、上述のように、要素601、602、603、620、任意選択の近距離通信インターフェイス621、フラッシュメモリ633、並びに、要素614、615、616、640、及び611を内蔵している。これは、ネットワーク675を介した電話ネットワーク674及びサーバー676との通信状態にある。又、専用ネットワーク又はWi-Fiなどの代替通信メカニズムを使用することもできる。又、この図において開示されている特徴は、同様に、タブレット装置内において含むこともできる。
本発明の実施形態は、例えば、ネットワークスピーカ装置や車両などの上部のインテリジェントなパーソナルアシスタントインターフェイスなどの、自由人間発話の解析が必要とされている、無数の更なるコンテキストに適合可能であることを理解されたい。
要素のすべてが同一の場所において提供される必要はなく―例えば、オーディオ入力及び出力要素、人間対話者の運動を検出しうる要素、並びに、任意選択により、焦点は、人間対話者にローカルな状態において提供することができる一方で、その他の機能のうちの任意のものをリモート実装することもできることを理解されたい。
本明細書において記述されている構成及び/又は方式は、その特性が例示を目的としており、且つ、特定の実施形態又は例は、限定の意味において解釈されてはならず、その理由は、多数の変形が可能であるからであることを理解されたい。本明細書において記述されている特定のルーチン又は方法は、任意の数の処理方式のうちの1つ又は複数を表しうる。従って、図示及び/又は記述されている様々な行為は、図示及び/又は記述されているシーケンスにおいて、その他のシーケンスにおいて、並行して、実行されてもよく、或いは、省略されてもよい。同様に、上述のプロセスの順序を変更することもできる。
本開示の主題は、本明細書において開示されている様々なプロセス、システム、及び構成、並びに、その他の特徴、機能、行為、及び/又はプロパティ、のみならず、これらの任意の且つすべての均等物の、すべての新規の且つ非明白な組合せ及びサブ組合せを含む。

Claims (8)

  1. 機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法であって、
    前記機械インターフェイスが、前記人間対話者からの発声のに前記人間対話者の第1発話特性に基づいて第1意図インジケータをキャプチャするステップと、
    前記機械インターフェイスが、前記人間対話者からの前記発声の終了を検出するステップと、
    前記人間対話者からの発声の前記終了が判定された際に、前記機械インターフェイスが、前記人間対話者の身体運動に基づいて第2意図インジケータをキャプチャするステップと、
    前記第1意図インジケータが、前記人間対話者からの挿入語音響の検出、前記人間対話者からの音響のピッチにおける降下の検出、又は前記発声の終了前の既定の持続時間の時間ウィンドウの間にキャプチャされる、前記発声の既定の意味成分を有し、かつ、前記第2意図インジケータが、前記人間対話者の注視が前記対話の焦点に戻っているという判定を有する場合に、前記機械インターフェイスが、一緒に取得された前記第1意図インジケータ及び前記第2意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有している判定するステップと、
    一緒に取得された前記第1意図インジケータ及び前記第2意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定された際に、前記機械インターフェイスが前記人間対話者に応答するステップと、
    を有する方法。
  2. 前記人間対話者からの発声の前記終了が判定された際に、前記人間対話者から何らかの発話が前記発声の末尾の後に検出されたかどうかを判定し、このような何らかのさらなる発話が検出された場合に、前記人間対話者からの前記発声の終了を検出する前記ステップに戻る、更なるステップを有する請求項1に記載の方法。
  3. 発声は、前記発声内の休止の持続時間が既定の閾値持続時間を超過していると検出されたケースにおいてのみ、終了していると判定される請求項1または2に記載の方法。
  4. 前記人間対話者の前記第2意図インジケータをキャプチャする前記ステップが既定の持続時間にわたって実行されている請求項1乃至のいずれか1項に記載の方法。
  5. 前記第1意図インジケータ及び前記第2意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有しているかどうかを判定する前記ステップにおいて、前記第1意図インジケータ及び前記第2意図インジケータが共に前記人間対話者による前記対話の制御の譲渡と一貫性を有してはいないと判定された際に、前記方法は、前記人間対話者からの発声の前記終了を検出する前記ステップに戻る請求項1乃至のいずれか1項に記載の方法。
  6. 人間対話者との間の対話において人間対話者による発話ターンの譲渡を検出するシステムであって、
    前記人間対話者からの発声を運ぶコミュニケーションチャネルの表現を受け取る入力と、
    対話における注入用の資料を運ぶコミュニケーションチャネルの表現を伝達する出力と、
    前記発声の終了を検出するべく前記表現を処理するように適合されたプロセッサと、
    を有し、
    前記プロセッサは、前記人間対話者からの発声の間に前記人間対話者の第1発話特性に基づいて第1意図インジケータをキャプチャし、前記人間対話者からの発声の前記終了が判定された場合に、前記対話者の身体運動に基づいて第2意図インジケータをキャプチャするように、且つ、前記第1意図インジケータが、前記人間対話者からの挿入語音響の検出、前記人間対話者からの音響のピッチにおける降下の検出、又は前記発声の終了前の既定の持続時間の時間ウィンドウの間にキャプチャされる、前記発声の既定の意味成分を有し、また、前記第2意図インジケータが、前記人間対話者の注視が前記対話の焦点に戻っているという判定を有する場合に、前記1つ又は複数の意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有している判定するように、更に適合されており、且つ、
    前記1つ又は複数の意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定された場合に、前記人間対話者に対する応答を開始する、システム。
  7. 前記システムは、目に見える焦点と、前記人間対話者の注視が前記対話の前記焦点に戻っていることを判定できる検出器と、を有する請求項に記載のシステム。
  8. 請求項1乃至のいずれか1項に記載の前記ステップを実装するように適合された命令を有するコンピュータプログラム。
JP2020526946A 2017-11-16 2018-11-15 対話セッション管理用のシステム及び方法 Active JP7038210B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP17306593.9A EP3486900A1 (en) 2017-11-16 2017-11-16 System and method for dialog session management
EP17306593.9 2017-11-16
PCT/EP2018/081442 WO2019096935A1 (en) 2017-11-16 2018-11-15 System and method for dialog session management

Publications (2)

Publication Number Publication Date
JP2021503625A JP2021503625A (ja) 2021-02-12
JP7038210B2 true JP7038210B2 (ja) 2022-03-17

Family

ID=60473456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020526946A Active JP7038210B2 (ja) 2017-11-16 2018-11-15 対話セッション管理用のシステム及び方法

Country Status (8)

Country Link
US (1) US20210056966A1 (ja)
EP (1) EP3486900A1 (ja)
JP (1) JP7038210B2 (ja)
KR (1) KR20200090772A (ja)
CN (1) CN111512362A (ja)
AU (1) AU2018367187A1 (ja)
CA (1) CA3082597A1 (ja)
WO (1) WO2019096935A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019246562A1 (en) 2018-06-21 2019-12-26 Magic Leap, Inc. Wearable system speech processing
EP3931827A4 (en) 2019-03-01 2022-11-02 Magic Leap, Inc. INPUT DETERMINATION FOR A VOICE PROCESSING ENGINE
US20220180871A1 (en) * 2019-03-20 2022-06-09 Sony Group Corporation Information processing device, information processing method, and program
JP2022529783A (ja) * 2019-04-19 2022-06-24 マジック リープ, インコーポレイテッド 発話認識エンジンのための入力の識別
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands
KR20210148580A (ko) 2020-06-01 2021-12-08 엘지전자 주식회사 서버 및 이를 포함하는 시스템
KR20220021221A (ko) * 2020-08-13 2022-02-22 (주)인포마크 Ai 음성 인식 학습기를 이용한 외국어 학습 시스템 및 방법
US11049497B1 (en) * 2020-10-26 2021-06-29 Cresta Intelligence Inc. Contemporaneous machine-learning analysis of audio streams
CN116508016A (zh) 2021-01-29 2023-07-28 三星电子株式会社 确定聊天机器人保持会话的时间的电子设备及其操作方法
US11115353B1 (en) 2021-03-09 2021-09-07 Drift.com, Inc. Conversational bot interaction with utterance ranking

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (ja) 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2004206704A (ja) 2002-12-11 2004-07-22 Samsung Sdi Co Ltd ユーザとエージェント間の対話管理方法及び装置
JP2005196134A (ja) 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2015004928A (ja) 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2015152868A (ja) 2014-02-18 2015-08-24 シャープ株式会社 情報処理装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6199043B1 (en) * 1997-06-24 2001-03-06 International Business Machines Corporation Conversation management in speech recognition interfaces
US6721706B1 (en) * 2000-10-30 2004-04-13 Koninklijke Philips Electronics N.V. Environment-responsive user interface/entertainment device that simulates personal interaction
US8301436B2 (en) * 2003-05-29 2012-10-30 Microsoft Corporation Semantic object synchronous understanding for highly interactive interface
US9823742B2 (en) * 2012-05-18 2017-11-21 Microsoft Technology Licensing, Llc Interaction and management of devices using gaze detection
US9374448B2 (en) * 2012-05-27 2016-06-21 Qualcomm Incorporated Systems and methods for managing concurrent audio messages
US8843369B1 (en) * 2013-12-27 2014-09-23 Google Inc. Speech endpointing based on voice profile
US10394330B2 (en) * 2014-03-10 2019-08-27 Qualcomm Incorporated Devices and methods for facilitating wireless communications based on implicit user cues
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004513445A (ja) 2000-10-30 2004-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 個人のインタラクションをシミュレートし、ユーザの情緒状態及び/又は性格に反応するユーザインタフェース/エンタテインメントデバイス
JP2004206704A (ja) 2002-12-11 2004-07-22 Samsung Sdi Co Ltd ユーザとエージェント間の対話管理方法及び装置
JP2005196134A (ja) 2003-12-12 2005-07-21 Toyota Central Res & Dev Lab Inc 音声対話システム及び方法並びに音声対話プログラム
JP2015004928A (ja) 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2015152868A (ja) 2014-02-18 2015-08-24 シャープ株式会社 情報処理装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
BILAC, Miriam et al.,"Gaze and Filled Pause Detection for Smooth Human-Robot Conversations",Proc. of the 2017 IEEE-RAS 17th International Conference on Humanoid Robotics,2017年11月,pp.297-304
Iwan de Kok, et al.,"Multimodal End-of-Turn Prediction in Multi-Party Meetings",Proc. of the 2009 International Conference on Multimodal Interfaces,2009年11月02日,pp.91-98
SUGIYAMA, Takaaki et al.,"Estimating Response Obligation in Multi-Party Human-Robot Dialogues",Proc. of the 2015 IEEE-RAS 15th International Conference on Humanoid Robots,2015年11月,pp.166-172
杉山貴昭 他,"多人数対話におけるロボットの応答義務の推定",人工知能学会全国大会(第29回)論文集,2015年05月29日,pp.1-4

Also Published As

Publication number Publication date
EP3486900A1 (en) 2019-05-22
CN111512362A (zh) 2020-08-07
KR20200090772A (ko) 2020-07-29
WO2019096935A1 (en) 2019-05-23
AU2018367187A1 (en) 2020-07-02
JP2021503625A (ja) 2021-02-12
CA3082597A1 (en) 2019-05-23
US20210056966A1 (en) 2021-02-25

Similar Documents

Publication Publication Date Title
JP7038210B2 (ja) 対話セッション管理用のシステム及び方法
KR102541718B1 (ko) 키 문구 사용자 인식의 증강
US10891952B2 (en) Speech recognition
CN102903362B (zh) 集成的本地和基于云的语音识别
US10192550B2 (en) Conversational software agent
US20170256261A1 (en) Speech Recognition
WO2017151415A1 (en) Speech recognition
TWI777229B (zh) 互動對象的驅動方法、裝置、顯示設備、電子設備以及電腦可讀儲存介質
JP6891601B2 (ja) ロボットの制御プログラム、ロボット装置、及びロボットの制御方法
JP2004234631A (ja) ユーザと対話型実体エージェントとの間の対話を管理するシステムおよび対話型実体エージェントによるユーザとの対話を管理する方法
CN112711331A (zh) 机器人交互方法、装置、存储设备和电子设备
JP2023120130A (ja) 抽出質問応答を利用する会話型aiプラットフォーム
KR102134860B1 (ko) 인공지능 스피커 및 이의 비언어적 요소 기반 동작 활성화 방법
JP2022054447A (ja) ウェアラブルコンピューティングデバイスの音声インターフェースのための方法、システムおよびコンピュータプログラム製品(ウェアラブルコンピューティングデバイス音声インターフェース)
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
CN117765952A (zh) 人机交互的方法、装置和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210706

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220301

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220307

R150 Certificate of patent or registration of utility model

Ref document number: 7038210

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150