JP7038210B2

JP7038210B2 - 対話セッション管理用のシステム及び方法

Info

Publication number: JP7038210B2
Application number: JP2020526946A
Authority: JP
Inventors: ビラック，ミリアム; シャムー，マリーヌ; リム，アンジェリカ
Original assignee: SoftBank Robotics Europe SAS
Current assignee: Aldebaran SAS
Priority date: 2017-11-16
Filing date: 2018-11-15
Publication date: 2022-03-17
Anticipated expiration: 2038-11-15
Also published as: EP3486900A1; CN111512362A; KR20200090772A; WO2019096935A1; AU2018367187A1; JP2021503625A; CA3082597A1; US20210056966A1

Description

本発明は、音声ユーザーインターフェイス及び会話エージェントに関し、更に詳しくは、会話のやり取りセッションにおける対話の制御の譲渡に関する。

過去５０年程度において発生した情報技術革命は、多くの人間の活動が、いまや、情報技術システムの、且つ、特に、コンピュータの、操作を伴っており、且つ、多くの場合には、これを中心として展開している、ことを意味するようになっている。パンチカードから、キーボード、マウス駆動型のグラフィカルユーザーインターフェイス、及び最近ではマルチタッチ型のタッチスクリーンインターフェイスまで、これらのやり取りをサポートするインターフェイスの特性は、これらのシステムの処理及び電気通信能力に伴って、継続的に進化しており、ユーザーに表示される情報の豊富さ及びアクセス性も増大し、且つ、やり取りの精度及び容易性も改善されている。但し、このような動作は、システム的には、対象の装置との間の手作業によるやり取りに基づいた状態に留まっている。

発話処理は、近年、Ｐｅｐｐｅｒなどの対話型ロボット及びＡｍａｚｏｎＡｌｅｘａ、ＯＫＧｏｏｇｌｅ、Ｓｉｒｉ、及びＣｏｒｔａｎａなどの音声インターフェイスが市場に登場することにより、大きく前進している。但し、ロボットは、依然として、人間が行うほどに自然に会話するためには、改善を必要としている。例えば、課題の１つは、発話を通じてロボットとやり取りするべく、ユーザーが非常に固有の方式によって発話しなければならない、という点にある。ユーザーは、躊躇や休止を伴うことなしに、好ましくは、「ウーン（ｕｍｍ）」や「ああ（ａｈ）」を伴うことなしに、明瞭に発話しなければならない。残念ながら、人間は、平均で４．４秒ごとに、これらの種類の訥弁を放出し、これにより、例えば、自身が思考する時間を許容するべく、休止していることを研究が示している。これらのケースにおいては、発話システムは、人間が発話を終了していると仮定する可能性があり、且つ、完了してはいない概念を突然中断又は処理する可能性があろう。この中断の問題への対処を試みるべく、様々な方式が存在している。現在の音声サービスの多くは、ユーザーのコマンドが完了したかどうかを検出するべく、自動的な発話認識及び自然言語理解に依存しており、これにより、中断の問題を部分的に解決している。但し、このケースにおいて、ユーザーの入力が複数の文から構成されている場合には、最初の文のみが処理されることになり、この場合には、増分的な対話方式が有用でありうる。その他のシステムは、発話のターンを終了させるべく、ボタンの使用のみを許容している。積極的な対話システムにおいて、この問題を回避するための別の方法は、「赤と青、どちらの色が好きですか？」などの、特定の、オープンエンド型ではない質問をする、というものである。通常、「完全」な一連の文を一息に発話し、これにより、自身のコミュニケーションスタイルを機械の制約に対して準拠させることにより、自身をシステムに適合させているのは、人間である。

１９６０年代終盤から、人間の会話の分析の一部分として、話者の交替（ｔｕｒｎ－ｔａｋｉｎｇ）が研究されている。これは、発話者が、それぞれ、発話を継続する、或いは、自身の発話のターンを終了する、際に、「保持」又は「放棄」されうる、会話フロア（ｃｏｎｖｅｒｓａｔｉｏｎａｌｆｌｏｏｒ）などの概念を含む。別の重要な概念は、一人の発話者の発話が、現時点において発話している人物のものとオーバーラップしている際の、「オーバーラップ」のものである。その文化又は地域に応じて、オーバーラップは、会話の際に、それなりの頻度において発生しうる。いくつかのオーバーラップは、例えば、「あは（ｕｈｈｕｈ）」などの、対話者の発話又はバックチャネルの継続として、協調性を有する。その一方で、いくつかのオーバーラップは、競合性を有しており、本発明者らは、本明細書においては、これらを中断と呼称している。発話のターンを奪取し、且つ、トピックを変更することは、力、優越、及び脅威の表示と関連付けられうる。従って、人間の発話者を支配するものとして知覚されないように、ロボット及びＡＩは、これらのオーバーラップを回避することが重要になりうるであろう。「あー（ｕｈ）」又は「うーん（ｕｍｍ）」などの、挿入された休止又は挿入語（ｆｉｌｌｅｒ）は、自然な会話において頻繁であり、且つ、思考及び／又は発話を継続する所望を通知している。言語学の分野における一般的なコンセンサスは、これらは、誤りではなく、言語及び会話の正常な部分である、というものである。又、これとの関連において、単語又はフレーズの間には、１つの発話のターン内の発話の分割単位を分離する沈黙の休止も存在している。

自動化されたシステム内において対話者が会話フロアを譲渡する瞬間の効果的な識別は、中断、反復、及びこれらに類似したものの発生を低減する、という観点において、人間対話者と自動化されたシステムの間のコミュニケーションの流暢さ及び効率を改善するべく、重要である。

本発明によれば、第１の態様において、機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法が提供されており、方法は、人間対話者からの発声の際に人間対話者の第１発話特性に基づいて第１意図インジケータをキャプチャするステップと、人間対話者からの発声の終了を検出するステップと、を有する。人間対話者からの発声の終了が判定された際に、対話者の身体運動に基づいて第２意図インジケータがキャプチャされる。次いで、一緒に取得された第１意図インジケータ及び第２意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかが判定され、且つ、一緒に取得された第１意図インジケータ及び第２意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有していると判定された際には、人間対話者に応答している。

第１の態様の一変形においては、方法は、人間対話者からの発声の終了が判定された際に、対話者の第２発話特性に基づいて第３意図インジケータをキャプチャする更なるステップを有する。一緒に取得された第１意図インジケータ及び第２意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップは、一緒に取得された第１意図インジケータ及び第２意図インジケータ及び第３意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップを有する。

第１の態様の更なる一変形においては、第２意図インジケータは、人間対話者の注視の向きの判定、対話の焦点との関係における人間対話者の物理的近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における人間対話者の規定された身体部分の向きの検出、のうちの１つ又は複数を有する。

第１の態様の更なる一変形においては、人間対話者の注視の向きの判定は、人間対話者の注視が対話の焦点に戻っている、という判定を有する。

第１の態様の更なる一変形においては、第１意図インジケータ又は第３意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの１つ又は複数を有する。

第１の態様の更なる一変形においては、第１意図インジケータは、主に、発声の終了に向かう発話特性に基づいている。

第１の態様の更なる一変形においては、発声は、発声内の休止の持続時間が、既定された閾値持続時間を超過していることが検出されたケースにおいてのみ、終了したものと判定されている。

第１の態様の更なる一変形においては、人間対話者の第２意図インジケータをキャプチャするステップは、既定された持続時間にわたって実行されている。

第１の態様の更なる一変形において、第１意図インジケータ及び第２意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップにおいて、第１意図インジケータ及び第２意図インジケータが共に人間対話者による対話の制御の譲渡と一貫性を有してはいないと判定された際には、方法は、人間対話者からの発声の終了を検出するステップに戻る。

本発明によれば、第２の態様において、人間対話者との間の対話における注入用の資料（ｍａｔｅｒｉａｌ）の処理のためのシステムが提供されており、システムは、人間対話者からの発声を担持するコミュニケーションチャネルの一表現を受け取る入力と、資料を担持するコミュニケーションチャネルの一表現を伝達する出力と、発声の終了を検出するべく表現を処理するように適合されたプロセッサと、を有する。プロセッサは、人間対話者からの発声の終了が判定されたケースにおいては、人間対話者の第１発話特性に基づいて第１意図インジケータをキャプチャするように、且つ、人間対話者の身体運動に基づいて第２意図インジケータをキャプチャするように、且つ、１つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうか判定するように、更に適合されており、且つ、１つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有していると判定されたケースにおいては、人間対話者に対する応答を開始している。

第２の態様の更なる一変形においては、システムは、人間対話者によって知覚可能である焦点と、焦点との関係における人間対話者の身体運動の一側面を第２意図インジケータとして判定する能力を有する検出器と、を有する。

第２の態様の更なる一変形においては、第２意図インジケータは、人間対話者の注視の向きの判定、対話の焦点との関係における人間対話者の物理的近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における人間対話者の規定された身体部分の向きの検出、のうちの１つ又は複数を有しており、且つ、システムは、ビデオ入力トランスデューサと、人間対話者の注視の向きを判定するように適合された注視トラッカと、を更に有する。

第２の態様の更なる一変形においては、第１意図インジケータ又は第３意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの１つ又は複数を有する。

本発明によれば、第３の態様において、第１の態様のステップを実装するように適合された命令を有するコンピュータプログラムが提供されている。

以下、次の添付図面を参照し、本発明の上述の及びその他の利点について説明することとする。

人間対話者との対話における注入用の資料が処理されるシナリオを提示する。図１ａのシナリオの第１代替肢を提示する。図１ａのシナリオの第２代替肢を提示する。図１ａのシナリオの第３代替肢を提示する。対話の様々なステージにおいて計測されうる、対応する注視方向データを示す。一実施形態による、機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法を示す。図３の実施形態の一変形による、機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法を示す。一実施形態による、機械との間の対話において人間対話者による発話ターンの譲渡を検出するシステムを提示する。本発明の実施形態の実装に適した一般的な演算システムを示す。一実施形態を構成するように適合可能なロボットを示す。一実施形態を構成するように適合可能なスマートフォン装置を示す。

図１ａ、図１ｂ、及び図１ｃは、人間対話者との間の対話における注入用の資料が処理される、シナリオの各ステージを提示している。具体的には、ロボット１２０は、人間対話者１１０との対話に参加している。ロボットのプロセッサは、対話に対する寄与を準備し、且つ、これを会話に注入するための適切な瞬間の識別を追及している。

図１ａは、人間対話者との対話における注入用の資料が処理されるシナリオを提示している。テキストの吹き出し１１１ａにおいて示されているように、人間対話者は、「ｆａｃｉｌｉｓｅｓｔｅｔｅｘｐｅｄｉｔａｄｉｓｔｉｎｃｔｉｏ…………………．ｕｈｈ」という発声を放出している。ロボット１２２には、マイクロフォン１２４が提供されており、これを利用して、例えば、適宜、アナログ－デジタル変換、フィルタリング、及びその他の事前処理により、発声をキャプチャすることができると共に、理可能な形態においてレンダリングすることができる。本発明の実施形態によれば、この発声は、それぞれの発声の末尾を識別することを目的として、継続的に処理することができる。発声の末尾は、連続的な発話セグメントの末尾と一致するものと見なすことができる。発声は、発声内の休止の持続時間が既定の閾値持続時間を超過していると検出されたケースにおいてのみ、終了したものと判定される。閾値持続時間は、任意の適切な値を有しうる。例えば、閾値持続時間は、５０ｍｓ～４００ｍｓであってよい。英語発話者の場合には、約２００ｍｓの最小休止持続時間が良好な結果を提供することが見出されている。閾値持続時間は、対話者の発話特性の関数として動的に判定することができる。閾値持続時間は、使用される言語、アクセントに起因した地域的な変動、及びこれらに類似したもの、発話者の成熟度及び能力、などのような、コンテキスト要因を参照して設定することができる。

又、エネルギー強度閾値が定義されてもよく、この場合には、この閾値未満の音響入力レベルは、休止期間に属するものとして見なされる。エネルギー強度レベルは、適宜、対話者の音声レベル、対話者と焦点及び／又はマイクロフォンの間において予測又は検出された距離、バックグラウンドノイズレベル、及びその他の要因の関数として動的に定義することができる。

図１ａにおいて示されているように、発声は、沈黙の期間１３０を伴って終了しており、この結果、プロセッサ１２１は、発声の終了を識別することができる。

オーディオ処理の分野においては、挿入された休止の検出について、多くの研究が既に実施されている。挿入された休止は、１９９９年のＭａｓａｔａｋａＧｏｔｏ、ＫａｔｕｎｏｂｕＩｔｏｕ、及びＳａｔｏｒｕＨａｙａｍｉｚｕによる文献「ＡＲｅａｌ－ｔｉｍｅＦｉｌｌｅｄＰａｕｓｅＤｅｔｅｃｔｉｏｎＳｙｓｔｅｍｆｏｒＳｐｏｎｔａｎｅｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＥｕｒｏｓｐｅｅｃｈ１９９９．２２７－２３０」において説明されているように、日本語における発話の基本周波数及びスペクトルエンベロープを追跡することにより、リアルタイムで検出することができる。更に最近においては、２０１３年の「ＤｅｔｅｃｔｉｏｎｏｆｎｏｎｖｅｒｂａｌｖｏｃａｌｉｚａｔｉｏｎｓｕｓｉｎｇＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌｓ：ｌｏｏｋｉｎｇｆｏｒｆｉｌｌｅｒｓａｎｄｌａｕｇｈｔｅｒｉｎｃｏｎｖｅｒｓａｔｉｏｎａｌｓｐｅｅｃｈ．（２０１３）」という名称の文献において、ＴｅｕｎＦＫｒｉｋｋｅ及びＫｈｉｅｔＰＴｒｕｏｎｇによって提示されているように、笑い声及び挿入された休止などの発話信号を検出するべく、Ｉｎｔｅｒｓｐｅｅｃｈ２０１３ＳＶＣデータセットを使用することができる。

従って、発声１１１ａが終了したものと判定することができる一方で、挿入語発話の形態における第１意図インジケータが発声の末尾に向かって発生したと判定することもできる。

従って、第１意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの１つ又は複数を有することができる。具体的には、発声の末尾における降下するピッチは、会話フロアを放棄するユーザーの意図のインジケータとして解釈することができる一方で、フラットなピッチは、発話者がフロアを維持することを所望している、という信号である。構文的に又は概念的に完了している発声の提示は、会話フロアを放棄するユーザーの意図のインジケータとして取得することができる。所与の単語又は音節は、発話ターンの末尾において、相対的に低速で発音される場合がある。いくつかのこのような意図インジケータを並行して使用することができる。第１意図インジケータは、これらの要因のうちのいくつか又はすべてのものの任意の組合せを有することができる。

挿入語の存在は、第１意図インジケータを構成するものと解釈されてもよく、この第１意図インジケータは、対話者の第１発話特性に基づいたものである。具体的には、発声の末尾における挿入語の存在は、人間対話者が会話フロアを譲渡することを意図してはいないことのインジケータとして解釈することができる。例えば、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、或いは、発声の意味成分などの、対話者の発話特性に基づいた、多くのその他のこのような第１意図インジケータを考慮することができることを理解されたい。

特定の実施形態においては、このような第１意図インジケータの検出のために、発声の末尾における（但し、発声の際の）既定の持続時間の時間ウィンドウ１３１を評価することができる。

図１ａに示されているように、対話者１１０の注視１１２は、ロボットの顔に対応する焦点領域１２３から離れるように、下方に、且つ、右側に、導かれていることに留意されたい。この事実は、ロボットの「眼」の位置におけるビデオカメラに基づいて、図示のようにロボットビデオシステムと一体化された、注視追跡システムにより、検出することができる。

人間の間における会話においては、注視は、発話ターンの末尾を通知するための方法として識別されている。「Ｃｏｎｖｅｒｓａｔｉｏｎａｌｇａｚｅａｖｅｒｓｉｏｎｆｏｒｈｕｍａｎｌｉｋｅｒｏｂｏｔｓ．ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１４ＡＣＭ／ＩＥＥＥｉｎｔｅｒｎａｔｉｏｎａｌｃｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎ－ｒｏｂｏｔｉｎｔｅｒａｃｔｉｏｎ．ＡＣＭ，２５－３２」という名称の、ＳｅａｎＡｎｄｒｉｓｔ、ＸｉａｎｇＺｈｉＴａｎ、ＭｉｃｈａｅｌＧｌｅｉｃｈｅｒ、及びＢｉｌｇｅＭｕｔｌｕによる、２０１４年の文献及び「Ｓｐｅａｋｉｎｇａｎｄｌｉｓｔｅｎｉｎｇｗｉｔｈｔｈｅｅｙｅｓ：ｇａｚｅｓｉｇｎａｌｌｉｎｇｄｕｒｉｎｇｄｙａｄｉｃｉｎｔｅｒａｃｔｉｏｎｓ．ＰｌｏＳｏｎｅ１０，８（２０１５），ｅ０１３６９０５」という名称の、ＳｉｍｏｎＨｏ、ＴｏｍＦｏｕｌｓｈａｍ、及びＡｌａｎＫｉｎｇｓｔｏｎｅによる、２０１５年の文献において記述されているように、人間は、通常、思考中においては、見上げるか、一側部を見るか、又は見下げる、ことになり、次いで、彼らが発話を終了した際には、その対話者に自身の注視を戻すことになる。会話中の注視に関する十分な検討については、［ＦｅｄｅｒｉｃｏＲｏｓｓａｎｏ．２０１２．ＧａｚｅｉｎＣｏｎｖｅｒｓａｔｉｏｎ．ＩｎＴｈｅＨａｎｄｂｏｏｋｏｆＣｏｎｖｅｒｓａｔｉｏｎＡｎａｌｙｓｉｓ，ＪａｃｋＳｉｄｎｅｌｌａｎｄＴａｎｙａＳｔｉｖｅｒｓ（Ｅｄｓ．）．ＪｏｈｎＷｉｌｅｙａｎｄＳｏｎｓ，Ｌｔｄ，Ｃｈｉｃｈｅｓｔｅｒ，ＵＫ，Ｃｈａｐｔｅｒ１５，３０８－３２９］において見出すことができる。

人々は、その他の人間に話しかける際には、自身のターンを主張するべく、発声の開始時点においてアイコンタクトを中断し、且つ、回答の準備に合焦する、傾向を有する。その応答の末尾においては、発話者は、しばしば、自身がその回答を終了しており、且つ、会話フロアを引き継ぐように自身が聴取者を誘引している、ことを通知するべく、聴取者を見詰めている。

図２は、対話の異なるステージにおいて計測されうる、対応する注視方向データを示している。

応答は、ヨー及びピッチ値だけの、注視方向における上昇によって伴われる思考フェーズ２０１により、開始している。中間フェーズ２０２は、時々のピッチ値の変化を伴う人間の口頭による回答である。末尾において、参加者は、ロボットを振り向き、これにより、ロボットのために、会話フロアを手放している２０３。これは、話者交替方式の基礎として使用されてもよく―注視検出器は、例えば、発声の末尾の後などの、最も適切な時点においてのみ、注視情報を追跡することができる。一般に、音声ユーザーインターフェイス又は会話エージェントの場合には、発声の末尾の後の１．５秒の期間が、この判定のための有効なウィンドウを構成することが見出されている。図２から理解されるように、対話者の注視方向は、この期間において相当に変化しうる。従って、第２意図インジケータは、計測期間にわたる平均値又はスムージング済みの値に基づいたものであってもよい。従って、発話発声の末尾の後の注視方向が、対話者が会話フロアを維持又は放棄するべく試みているかどうかを弁別しているものとして見なすことができる。要すれば、このシステムは、人間がロボットを見ていたかどうかを算出することができる。推定された注視方向を参照すれば、その内側においては対話者がロボットを見ていると見なされうると共に、その外側においては対話者が自身の注視を逸らしていると表現されうる、閾値として、±０．１５ラジアンの角度を使用することができる。注視方向閾値は、特定の対話者の振る舞いに基づいて動的に判定することができる。又、これは、対話者と焦点の間の検出又は計測された距離並びに／或いは焦点のサイズを考慮することもできる。

従って、注視方向は、対話者の身体運動に基づいた第２意図インジケータを構成するものとして解釈することができる。具体的には、人間対話者の注視がロボットの「注視と遭遇する」べく、戻っていなかった、という判定は、人間対話者が会話フロアを譲渡することを意図してはいない、というインジケータとして解釈することができる。ロボットの「注視と遭遇する」ことは、人間対話者の注視が、任意に定義された任意の領域に導かれることに対応しうることを理解されたい。この領域は、顔の、或いは、ロボット上の眼の、表現に対応していてもよく、或いは、ディスプレイ又はその他の焦点に対応していてもよい。図１において提示されているように、ビデオ入力をロボットに提供していると共にその注視追跡機能をサポートしている、ビデオカメラは、人間の顔内の眼に似たような方式によって位置しているが、すべての実施形態において、このようにする必要はない。

従って、人間対話者の注視の向きの判定は、人間対話者の注視が対話の焦点に戻っているという判定を有することができる。

様々なシステムが、眼の運動を追跡するべく、使用されており、これらは、この機能を実装するべく適合させることができる。ヘッドマウント型の、テーブルに基づいた、又はリモート型の、システムを含む、任意のこのようなシステムを使用することができる。これらの装置は、一般に、赤外線放出源の瞳孔／角膜の反射から注視位置を演算するべく、ビデオカメラ及び処理ソフトウェアを使用している。テーブル装置に伴うデータ精度を増大させるべく、顎をテーブル上において固定することにより、頭の運動を制限することができる。又、システム精度を保証するべく、較正プロセスも一般的である。較正プロセスは、通常、観察しているシーンの異なる場所内のいくつかの地点を表示するステップから構成されており、眼追跡ソフトウェアが、瞳孔の位置及び頭部の場所を処理する変換を演算することになる。テーブルに基づいた眼トラッカは、通常、双眼型であり、且つ、従って、眼の発散を算出することが可能であると共に、リアルタイムでスクリーンに適用されるｘ－ｙピクセルにおける注視交点（ＧＩＰ：ＧａｚｅＩｎｔｅｒｓｅｃｔｉｏｎＰｏｉｎｔ）の未加工座標を出力することができる。この特徴は、ＨＭＩ用の入力としての注視位置の統合を許容している。次いで、ユーザーとやり取りするべく、対象のエリア（ＡＯＩ）が定義される。注視がＡＯＩと遭遇した際に、イベントが生成され、且つ、特定の情報片が送信されることになる。ＡＯＩがある程度の自由度を有するインターフェイスの要素（例えば、スクロールバー）である際には、これは、動的なＡＯＩ（ｄＡＯＩ）について話していることになる。ｄＡＯＩの追跡は、静的なものとの比較において、相対的に困難である。

いくつかの実施形態においては、注視方向は、単に、瞬間的な注視点である、即ち、入力が受け取られる瞬間においてユーザーが見ていると眼追跡システムが見なした、なんらかの地点である、と解釈することができる。特定の実施形態においては、ユーザーの注意点の判定は、既定の持続期間にわたるユーザーの注視点の重み付けされた平均を判定するステップを伴っていてもよく―更なる実施形態については、後述する。

例えば、対話の焦点との関係における人間対話者の物理的な近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における頭の角度などの人間対話者の規定された身体部分の向きの検出、又は人間対話者の眼の開放程度などの、対話者の身体運動に基づいた、多くのその他のこのような意図インジケータを考慮することができることを理解されたい。

具体的には、発話者は、自身のターンを主張するべく、且つ、回答の準備に合焦するべく、自身の注視を逸らせる、或いは、自身の頭を傾斜させる、傾向を有する一方において、自身の応答の末尾においては、発話者は、しばしば、自身が自身の回答を終了した、且つ、会話フロアを引き継ぐように自身が聴取者を誘引している、ことを通知するべく、聴取者を見詰めている。人々は、応答を開始する際には、自身の上半身によってロボットに接近する、且つ、発話ターンの末尾においては、自身の初期位置に戻るように運動する、傾向を有する。従って、頭の角度は、第２意図インジケータの成分を構成することができる。

自身の発話ターンの末尾において、人々は、ロボットの回答に集中するべく、自身の耳をロボットに向かって回転させる。従って、頭の向きは、第２意図インジケータの成分を構成することができる。

発話ターンの末尾は、しばしば、手のジェスチャの末尾によって伴われている。従って、特徴的な手の運動は、第２意図インジケータの成分を構成することができる。

人々は、聴取した後に、発話する際には、相対的に静止状態となる傾向を有する。従って、一般的な対話者の運動レベルが第２意図インジケータの成分を構成することができる。

顔の動作単位は、第２意図インジケータの成分を構成することができる。例えば、眼を細めることは、ユーザーの思考の振る舞いとして解釈することが可能であり、これは、ユーザーがフロアを維持することを所望していることを通知している。

図１ａのシナリオにおいては、人間対話者が自身の発声の末尾において挿入語を含んでいた、という事実、並びに、ユーザーの注視がロボットの顔に対応する焦点領域から逸れた状態に留まっている、という事実、は、対話者がフロアを譲渡することを意図してはいないことと一貫性を有するものとして解釈することができると共に、対話者がフロアを譲渡することを意図してはいないと結論付けることができる。

図１ｂは、図１ａのシナリオの第１代替肢を提示している。

図１ｂは、テキストの吹き出し１１１ｂに示されているように、人間対話者が「ｆａｃｉｌｉｓｅｓｔｅｔｅｘｐｅｄｉｔａｄｉｓｔｉｎｃｔｉｏ…………」という発声を発音していることを除いて、図１ａと同一である。即ち、時間ウィンドウ１３１内において、挿入語が明白ではない。これに基づいて、人間対話者が自身の発声の末尾において挿入語を含んではいなかった、という事実は、対話者がフロアを保持することを意図してはいなかった、ことを通知するものとして解釈されうる一方において、ユーザーの注視がロボットの顔に対応する焦点領域から逸れた状態において留まっているという事実は、ユーザーが、実際には、フロアを譲渡することを意図してはいない、ことのインジケータとして解釈されてもよく、従って、対話者は、フロアを譲渡することを意図してはいない、と結論付けることができる。

図１ｃは、図１ａのシナリオの第２代替肢を提示している。

図１ｃは、人間対話者１１０の注視１１２ｃが、図示のように、ロボット１２０の顔と関連する焦点領域１２３と一致している、ということを除いて、図１ａと同一である。

これに基づいて、人間対話者が自身の発声の末尾において挿入語を含んでいた、という事実は、対話者がフロアを保持することを意図していた、ことを通知するものとして解釈されうる一方において、人間対話者の注視がロボットの顔に対応する焦点領域に戻っている、という事実は、彼らがフロアを譲渡することを意図していることのインジケータとして解釈されてもよく、従って、対話者がフロアを譲渡することを意図してはいないと結論付けることができる。

図１ｄは、図１ａのシナリオの第３代替肢を提示している。

図１ｄは、テキストの吹き出し１１１ｂに示されているように、人間対話者が「ｆａｃｉｌｉｓｅｓｔｅｔｅｘｐｅｄｉｔａｄｉｓｔｉｎｃｔｉｏ…………」という発声を発音していることを除いて、図１ａと同一である。即ち、時間ウィンドウ１３１においては、挿入語が明白ではない。更には、人間対話者１１０の注視１１２ｃは、図示のように、ロボット１２０の顔と関連する焦点領域１２３と一致している。

これに基づいて、人間対話者が自身の発声の末尾において挿入語を含んではいなかったという事実は、対話者がフロアを譲渡することを意図していたことを通知するものとして解釈することができると共に、人間対話者の注視がロボットの顔に対応する焦点領域に戻っているという事実は、共に、人間対話者による対話の制御の譲渡と一貫性を有するものとして解釈されてもよく、従って、対話者は、フロアを譲渡することを意図していると結論付けすることができる。

図１ａ、図１ｂ、図１ｃ、及び図１ｄにおいて探求された様々なシナリオに基づいて、人間対話者との対話における注入用の資料の機械処理の方法を提供することができる。

図３は、一実施形態による機械インターフェイスとの対話において人間対話者による発話ターンの譲渡を検出する方法を示している。

図示のように、方法は、対話者の第１発話特性に基づいた第１意図インジケータが、例えば、上述の図１ａ、図１ｂ、図１ｃ、及び図１ｄを参照して記述されているように、人間対話者からの発声の際にキャプチャされる、ステップ３０５に進む前に、ステップ３００において始まっている。ステップ３１０において、発声が終了したかどうかが判定されており、且つ、発声が終了してはいないケースにおいては、方法は、ステップ３０５に戻る。発声が終了しているとステップ３１０において判定されたケースにおいては、方法は、対話者の身体運動に基づいた第２意図インジケータがキャプチャされる、ステップ３１５に進む。

人間対話者の第２意図インジケータのキャプチャは、既定の持続時間にわたって、或いは、十分な計測値が取得される時点まで、或いは、必要な程度の収束又は信頼性が実現される時点まで、或いは、その他の方法により、実行することができる。

次いで、方法は、一緒に取得された第１意図インジケータ及び第２意図インジケータが、人間対話者による対話の制御の譲渡と一貫性を有しているかどうかが判定される、ステップ３２０に進む。ステップ３２０において、一緒に取得された第１意図インジケータ及び第２意図インジケータが前記人間対話者による対話の制御の譲渡と一貫性を有していると判定された場合には、方法は、資料が対話内に注入されうる、ステップ３２５に進む。第１意図インジケータ及び第２意図インジケータが共に人間対話者による対話の制御の譲渡と一貫性を有してはいないと判定された場合には、方法は、人間対話者からの発声の終了を検出する、ステップ３０５に戻り、人間対話者からの発声の終了の検出には、本実施形態においては、ステップ３０５を介して到達されている。

図１ａ、図１ｂ、図１ｃ、及び図１ｄに伴って記述されているように、第１意図インジケータと第２意図インジケータの両方が、ロボットが会話フロアを引き継ぐように、人間対話者が会話フロアの制御の譲渡を所望している、ことに対応していなければならない、２値方式が示唆されている。いくつかの実施形態においては、第１意図インジケータ又は第２意図インジケータのいずれか又は両方は、非２値型であってもよいことを理解されたい。

一緒に取得された第１意図インジケータ及び第２意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有していると判定されたケースにおいては、方法は、システムが人間対話者に応答するステップ３２５に進む。この応答は、現在の反復における対話者の発声及び／又は任意の以前の発声のみならず、任意の外部刺激、に基づいて生成されてもよく、或いは、対話者発声とは完全に独立したものであってもよい。応答は、発話、並びに／或いは、システムが実行する能力を有しうる任意のその他のアクション、の形態を有しうる。資料は、対話者が会話フロアを譲渡したという判定の際に、即座に注入される必要はなく、且つ、実際に、場合によっては、その時点において定義されなくてもよい。特定の実施形態においては、対話者のコメントを処理する、且つ、応答を実行する前にその結果として資料を生成する、更なるステップが存在していてもよい。

上述のステップは、その論理的な重要性を変更することなしに変更されうることを理解されたい。例えば、いくつかの実施形態においては、到来したオーディオは、バッファ処理されてもよく、且つ、オーディオは、第１意図インジケータの存在を判定するべく、評価されてもよく、この処理は、発声の末尾がステップ３１０において検出されたら、バッファ処理されたデータに基づいて、以前に遡って実行されてもよい。これは、必ずしも、図３のフローチャートの再構築を示唆するものではなく、その理由は、第１意図インジケータが、依然として、いくつかのケースにおいては、その評価が後から実行される場合にも、それがバッファされる時点においてキャプチャされるものと見なされうるからである。いくつかの実施形態においては、第１意図インジケータをキャプチャするステップは、第１意図インジケータを抽出するべくオーディオデータを評価するサブステップを有していてもよく、このサブステップは、発声の末尾がステップ３１０において検出される前又は後に、発生しうる。

一方においては、対話者の第１発話特性に基づいた第１意図インジケータの、且つ、他方においては、対話者の身体運動に基づいた第２意図インジケータの、組み合わせられた検討は、会話フロアの譲渡との関係における人間対話者の真の意図を判定することにおいて特に効果的であることが見出されている。これは、ロボットからの応答の欠如にも拘らず、人間対話者による反復の相対的に少ない発生、ロボットによる人間対話者の不適当な中断の相対的に少ない発生、並びに、対応する方式により、人間対話者からの相対的に長い発声、に結び付く傾向を有する。発声の末尾における第１発話特性に基づいた第１意図インジケータを検出する、且つ、発声が終了したと見なされた後の身体運動に基づいた第２意図インジケータを考慮する、構造化された方式は、プロセッサ、メモリ、エネルギー、及びその他のシステムリソースに対する需要を制約しつつ、これらの利益を生成している。

図４は、図３の実施形態の一変形による機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法を示している。

図３に示されているように、発声の終了がステップ３１０において検出されたら、方法は、上述のステップ３１５と並行して、更なるステップ４１７に進む。ステップ４１７においては、対話者の第２発話特性に基づいた第３意図インジケータがキャプチャされている。ステップ４１７から、方法は、第３意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかが判定される、ステップ４１８に進む。

第３意図インジケータは、発声の末尾の後の人間対話者からの任意の発話の検出を有することができる。従って、第２意図インジケータを検出するステップは、人間対話者からの更なる発声を検出するステップを更に有していてもよく、且つ、この場合には、任意のこのような更なる発声が検出されることにより、人間対話者からの発声の終了を検出するステップに戻るが、これには、本実施形態においては、ステップ３０５を介して到達されている。

このような新しい発話は、第１及び第２意図インジケータによって示唆されているその明白な意図とは無関係に、人間対話者によるステージの回復を通知するものとして解釈することができる。

従って、ステップ４１８において、第３意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有してはいないと判定された場合には、方法は、ステップ３０５に戻る。さもなければ、方法は、図３との関係において記述されているように、ステップ３２０に進む。

ステップ３２０及び４１８は、一緒に取得された第１意図インジケータ及び第２意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップが、一緒に取得された第１意図インジケータ及び第２意図インジケータ及び第３意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するステップを更に有する、単一のステップにおいて、組み合わせることができることを理解されたい。

従って、第３意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの１つ又は複数を有することができる。

図５は、一実施形態による、機械との間の対話において人間対話者による発話ターンの譲渡を検出するシステムを提示している。

図示のように、システム５２０は、人間対話者１１０からの発声を担持するコミュニケーションチャネルの表現５２４を受け取る入力５２６と、資料を担持するコミュニケーションチャネルの表現を伝達する出力５２５と、発声の終了を検出するべく表現を処理するように適合されたプロセッサ５２１と、を有する。

プロセッサ５２１は、人間対話者１１０からの発声の終了が判定されたケースにおいては、対話者の第１発話特性に基づいた第１意図インジケータ及び対話者の身体運動に基づいた第２意図インジケータをキャプチャするように、且つ、１つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているかどうかを判定するように、且つ、１つ又は複数の意図インジケータが人間対話者による対話の制御の譲渡と一貫性を有しているケースにおいては、例えば、図３又は図４との関係において、例えば、上述されたように、対話者に応答するように、更に適合されている。

特定の任意選択の変形によれば、図５のシステムは、対話者１１０によって知覚可能である焦点５２９と、焦点との関係における対話者の身体運動の一側面を第２意図インジケータとして判定する能力を有する検出器５２２と、を有することができる。例として、検出器５２２は、上述のように、ビデオカメラ１２２を有することができる。

図５のシステムの特定の任意選択の変形によれば、第２意図インジケータは、人間対話者の注視の向きの判定、対話の焦点との関係における人間対話者の物理的近接性の程度の検出、対話の焦点との関係における人間対話者の身体の向きの検出、対話の焦点との関係における人間対話者の規定された身体部分の向きの検出、のうちの１つ又は複数を有することができる。システムは、ビデオ入力トランスデューサ５２２と、人間対話者の注視の向きを判定するように適合された注視トラッカと、を更に有することができる。このような注視トラッカは、スタンドアロンシステムとして、或いは、上述のように、ビデオカメラなどの既存のシステムからのデータ使用することにより、実装することができる。このデータに対する注視追跡処理は、ハードウェアにより、又はソフトウェアにより、或いは、これら２つの組合せにより、実行することができる。

図５のシステムの特定の任意選択の変形によれば、第１意図インジケータ又は第３意図インジケータは、人間対話者からの挿入語音響の分析、人間対話者からの音響のピッチの検出、又は発声の意味成分、のうちの１つ又は複数を有することができる。

図１ａ、図１ｂ、図１ｃ、及び図１ｄは、ビデオカメラ１２２、マイクロフォン１２４、ラウドスピーカ１２５、プロセッサ１２１、及び焦点エリア１２３などの、言及されている様々な動作自在のシステムを内蔵する、ロボット１２０との関係において記述されているが、本発明の実施形態は、動作自在の要素の任意の適切な分散の形態を有しうることを理解されたい。いくつかの実施形態においては、焦点は、ある程度まで、ヒト型ロボットの顔に似たものであってよい。例えば、これは、眼を表す２つの地点を有することができる。これは、これに加えて、口又は鼻の表現を有することもできる。いくつかのケースにおいては、これらの特徴は、個々の顔面特徴の機能に（眼がビデオ入力に、口がオーディオトランスデューサに、などのように）対応しうる、或いは、対応しえない、機能的コンポーネントと一致していてもよく、或いは、その代わりに、いくつかの又はすべての要素において、単なるグラフィカルな表現であってもよい。表現は、それなりに、人間の顔のようなものであってよく、且つ、いくつかのケースにおいては、これに加えて、肌の色合いや手触りなどのような特徴を表すこともできる。表現は、動物、空想上の生物、又は機械的なエンティティを表しうる。表現は、全体的に又は部分的に、グラフィカルディスプレイ上において提示されてもよい。その一方で、焦点エリアは、任意の自由裁量による可視特徴を有することもできよう。例えば、これは、単に、壁上のスポット、格子、窓、或いは、例えば、仮想又は拡張現実を介してデジタル手段によって識別可能でありうる領域を有することができる。同様に、焦点エリアは、物理的空間内において定義される必要はなく、３次元のコンピュータ生成された空間内においてのみ存在しうる。

この焦点エリアとの関係において、ビデオカメラ１２２、マイクロフォン１２４、ラウドスピーカ１２５などのその他の要素を任意の場所において配置することができる。複数のビデオカメラ、マイクロフォン、又はラウドスピーカが提供されてもよく、且つ、これらは、対話者との関係において最良に位置しているいずれかのものの関数として独立的に動作してもよく、或いは、最適な結果を実現するべく、特定のタイプの装置のそれぞれの例のうちのいくつか又はすべてとの間における信号を一緒に処理することができる。例えば、バックグラウンドノイズ及びこれに類似したものを排除するように、空間内において分散されうる、複数のマイクロフォンからの信号を一緒に処理することができる。

以上においては、対話者の身体運動に基づいた第２意図インジケータは、ビデオ入力１２２を介してキャプチャされるものとして提示されているが、対象の身体運動の特性に応じて、その他のセンサが提供されてもよい。検出対象の身体運動に応じて、例えば、ＬＩＤＡＲ、音響、赤外線、又は任意のその他の適切なセンサを提供することができる。

第１意図インジケータ及び／又は第２意図インジケータ及び／又は第３意図インジケータは、複数の個々の入力に基づいて生成することができることを理解されたい。第１意図インジケータ及び／又は第３意図インジケータは、以上において提示されているもののいずれかを含む適切な発話特性の任意の組合せに基づいて生成することができると共に、第２意図インジケータは、以上において提示されているもののいずれかを含む適切な身体運動特性の任意の組合せに基づいて生成することができる。

特定の実施形態によれば、ロボット又はその他の会話エージェントは、既定された時間ウィンドウ内における、発声の末尾における挿入語発話の導入などの特定の発話特性の欠如、並びに、発声の末尾の後の、ロボットの顔などの、変換の焦点に対話者がその注視を戻すことなどの、特徴的な物理的振る舞いの存在、を検出することにより、人間対話者が会話フロアを譲渡したかどうかを判定している。この特性の組合せが検出された場合には、ロボットは、会話フロアが自由な状態にあり、且つ、応答が適切でありうる、と判定することができる。この結果、例えば、音声又はテキストを介した会話応答をトリガすることができる。

開示されている方法は、全体的にハードウェアの実施形態（例えば、ＦＰＧＡ）、全体的にソフトウェアの実施形態（例えば、本発明に従ってシステムを制御するためのもの）、或いは、ハードウェア及びソフトウェア要素の両方を含む一実施形態の形態を有することができる。ソフトウェア実施形態は、ファームウェア、レジデントソフトウェア、マイクロコードなどを含んでいるが、これらに限定されるものではない。本発明は、コンピュータ又は命令実行システムにより、或いは、これとの関係において、使用される、プログラムコードを提供するコンピュータ使用可能又はコンピュータ可読媒体からアクセス可能なコンピュータプログラムプロダクトの形態を有することができる。

コンピュータ使用可能物又はコンピュータ可読物は、命令実行システム、装置、又は機器により、或いは、これらとの関連において、使用される、プログラムを収容、保存、通信、伝播、又は搬送しうる、任意の装置であってよい。媒体は、電子、磁気、光学、電磁、赤外線、又は半導体のシステム（或いは、装置又は機器）、或いは、伝播媒体であってよい。

いくつかの実施形態においては、本明細書において記述されている方法及びプロセスは、ユーザー装置により、全体的に又は部分的に、実装することができる。これらの方法及びプロセスは、コンピュータアプリケーションプログラム又はサービス、アプリケーションプログラミングインターフェイス（ＡＰＩ）、ライブラリ、及び／又はその他のコンピュータプログラムプロダクト、或いは、このようなエンティティの任意の組合せによって実装することができる。

ユーザー装置は、スマートフォン又はタブレットなどのモバイル装置、コンピュータ、或いは、ロボット又はその他の接続された装置などの処理能力を有する任意のその他の装置であってよい。

図６は、本発明の実施形態の実装に適した一般的な演算システムを示している。

図６に示されているように、システムは、論理装置６０１と、ストレージ装置６０２と、を含む。システムは、任意選択により、表示サブシステム６１１、入力サブシステム６１２、６１３、６１４、通信サブシステム６２０、及び／又は図示されていないその他のコンポーネントを含むことができる。

論理装置９０１は、命令を実行するように構成された１つ又は複数の物理的装置を含む。例えば、論理装置６０１は、１つ又は複数のアプリケーション、サービス、プログラム、ルーチン、ライブラリ、オブジェクト、コンポーネント、データ構造、又はその他の論理的構造物の一部分である、命令を実行するように構成することができる。このような命令は、タスクを実行するべく、データタイプを実装するべく、１つ又は複数のコンポーネントの状態を変換するべく、技術的効果を実現するべく、或いは、その他の方法で望ましい結果に到達するべく、実装することができる。

論理装置６０１は、ソフトウェア命令を実行するように構成された１つ又は複数のプロセッサを含みうる。これに加えて、又はこの代わりに、論理装置は、ハードウェア又はファームウェア命令を実行するように構成された１つ又は複数のハードウェア又はファームウェア論理装置を含みうる。論理装置のプロセッサは、シングルコア又はマルチコアであってもよく、且つ／又は、その上部において実行される命令は、逐次型、並行型、及び／又は分散型の、処理のために構成することができる。論理装置６０１の個々のコンポーネントは、任意選択により、調整された処理のために、離れたところにおいて配置及び／又は構成されうる、２つ以上の別個の装置の間において分散させることができる。論理装置６０１の各側面は、クラウド演算構成において構成された、リモートアクセス可能な、ネットワーク化された、演算装置により、仮想化及び実行することができる。

ストレージ装置６０２は、本明細書において記述されている方法及びプロセスを実装するべく、論理装置によって実行可能な命令を保持するように構成された１つ又は複数の物理的装置を含む。このような方法及びプロセスが実行された際に、ストレージ装置６０２の状態は、例えば、異なるデータを保持するように、変換されてもよい。

ストレージ装置６０２は、着脱自在の且つ／又は組込み型の装置を含みうる。ストレージ装置６０２は、例えば、光メモリ（例えば、ＣＤ、ＤＶＤ、ＨＤ－ＤＶＤ、Ｂｌｕ－Ｒａｙディスクなど）、半導体メモリ（例えば、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭなど）、及び／又は磁気メモリ（例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、ＭＲＡＭなど）を含む１つ又は複数のタイプのストレージ装置を有することができる。ストレージ装置は、揮発性の、不揮発性の、動的な、静的な、読取り／書込みの、読み出し専用の、ランダムアクセスの、シーケンシャルアクセスの、場所アドレス指定可能な、ファイルアドレス指定可能な、且つ／又は、コンテンツアドレス指定可能な、装置を含みうる。

特定の構成においては、システムは、論理装置６０１と更なるシステムコンポーネントの間の通信をサポートするように適合されたインターフェイス６０３を有することができる。例えば、更なるシステムコンポーネントは、着脱自在の且つ／又は組込み型の拡張ストレージ装置を有しうる。拡張ストレージ装置は、例えば、光メモリ６３２（例えば、ＣＤ、ＤＶＤ、ＨＤ－ＤＶＤ、Ｂｌｕ－Ｒａｙディスクなど）、半導体メモリ６３３（例えば、ＲＡＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ、ＦＬＡＳＨなど）、及び／又は、磁気メモリ６３１（例えば、ハードディスクドライブ、フロッピーディスクドライブ、テープドライブ、ＭＲＡＭなど）を含む１つ又は複数のタイプのストレージ装置を有することができる。このような拡張ストレージ装置は、揮発性の、不揮発性の、動的な、静的な、読取り／書込みの、読み出し専用の、ランダムアクセスの、シーケンシャルアクセスの、場所アドレス指定可能な、ファイルアドレス指定可能な、且つ／又は、コンテンツアドレス指定可能な、装置を含みうる。

ストレージ装置は、１つ又は複数の物理的装置を含み、且つ、伝播信号自体を排除している、ことを理解されたい。但し、本明細書において記述されている命令の態様は、この代わりに、ストレージ上において保存される代わりに、通信媒体（例えば、電磁信号や光信号など）によって伝播させることもできる。

論理装置６０１及びストレージ装置６０２の態様は、１つ又は複数のハードウェア論理コンポーネントとして１つに統合することができる。このようなハードウェア論理コンポーネントは、例えば、フィールドプログラム可能なゲートアレイ（ＦＰＧＡ）、プログラム及び用途固有の集積回路（ＰＡＳＩＣ／ＡＳＩＣ）、プログラム及びプリケーション固有の標準製品（ＰＳＳＰ／ＡＳＳＰ）、システムオンチップ（ＳＯＣ）、及び複合プログラム可能論理装置（ＣＰＬＤ）を含みうる。

「プログラム」という用語は、特定の機能を実行するように実装された演算システムの態様を記述するべく、使用することができる。いくつかのケースにおいては、プログラムは、ストレージ装置によって保持された機械可読命令を実行する論理装置を介してインスタンス生成することができる。同一のアプリケーション、サービス、コードブロック、オブジェクト、ライブラリ、ルーチン、ＡＰＩ、関数などから、異なるモジュールをインスタンス生成することができることを理解されたい。同様に、異なるアプリケーション、サービス、コードブロック、オブジェクト、ルーチン、ＡＰＩ、関数などにより、同一のプログラムをインスタンス生成することもできる。「プログラム」という用語は、実行可能ファイル、データファイル、ライブラリ、ドライバ、スクリプト、データベースレコードなどの個別のもの又は群を包含しうる。

システムは、上述のように、要素１２２、５２２に対応しうる眼追跡ハードウェアを有する。このハードウェアは、システムの一体的なコンポーネント又は周辺機器であってよい。その機能は、論理装置６０１又はその他のものの上部において稼働するソフトウェアにより、サポート又は改善することができる。

具体的には、図６のシステムは、本発明の実施形態を実装するべく、使用することができる。

例えば、図３又は図４との関係において記述されているステップを実装するプログラムは、ストレージ装置６０２内において保存することができると共に、論理装置６０１によって実行することができる。人間対話者から受け取られたデータ、対話に注入されるべきデータ、運動データ及び／又はユーザー注視方向は、ストレージ６０２或いは拡張ストレージ装置６３２、６３３、又は６３１内において保存することができる。論理装置６０１は、ユーザー注視方向を判定するべく、カメラ６１６又は眼追跡システム６６０から受け取られたデータを使用することができると共に、ディスプレイ６１１は、対話用の、且つ／又は、焦点としての、出力の機能を提供することができる。

従って、本発明は、コンピュータプログラムの形態において実施することができる。

本明細書において使用されている「サービス」は、複数のユーザーセッションに跨って稼働可能なアプリケーションプログラムであることを理解されたい。サービスは、１つ又は複数のシステムコンポーネント、プログラム、及び／又はその他のサービスにとって利用可能であってよい。いくつかの実装形態においては、サービスは、１つ又は複数のサーバー演算装置上において稼働することができる。

含まれている際には、表示サブシステム６１１は、ストレージ装置によって保持されているデータの視覚的表現を提示するべく、使用することができる。この視覚的表現は、グラフィカルユーザーインターフェイス（ＧＵＩ）の形態を有することできる。本明細書において記述されている方法及びプロセスが、ストレージ装置６０２によって保持されているデータを変更し、且つ、従って、ストレージ装置６０２の状態を変換するのに伴って、同様に、基礎をなすデータの変化を視覚的に表すように、表示サブシステム６１１の状態を変換することもできる。表示サブシステム６１１は、任意のタイプの技術を視覚的に利用した１つ又は複数の表示装置を含みうる。このような表示装置は、共有エンクロージャ内において、論理装置及び／又はストレージ装置と組み合わせられてもよく、或いは、このような表示装置は、周辺表示装置であってもよい。

含まれている際には、入力サブシステムは、キーボード６１２、マウス６１１、タッチスクリーン６１１、又はゲームコントローラ、ボタン、フットスイッチなど（図示されてはいない）のような１つ又は複数のユーザー入力装置を有していてもよく、或いは、これらとインターフェイスしていてもよい。いくつかの実施形態においては、入力サブシステムは、選択された自然ユーザー入力（ＮＵＩ）コンポーネントを有していてもよく、或いは、これとインターフェイスしていてもよい。このようなコンポーネントは、統合されていてもよく、或いは、周辺に位置していてもよく、且つ、入力アクションの変換及び／又は処理は、オンボード状態又はオフボード状態において処理することができる。例示用のＮＵＩコンポーネントは、発話及び／又は音声認識用のマイクロフォン、マシンビジョン及び／又はジェスチャ認識用の赤外線、カラー、立体、及び／又はデプスカメラ、モーション検出及び／又は意図認識用のヘッドトラッカ、眼トラッカ６６０、加速度計、及び／又はジャイロスコープ、のみならず、脳の活動を評価する電界検知コンポーネントを含みうる。

含まれている際には、通信サブシステム６２０は、１つ又は複数のその他の演算装置と演算システムを通信自在に結合するように構成することができる。例えば、通信モジュールは、例えば、パーソナルエリアネットワーク、ローカルエリアネットワーク、ワイドエリアネットワーク、又はインターネットを含む任意のサイズのネットワークを介して、例えば、リモートサーバー６７６上においてホスティングされたリモートサービスに演算装置を通信自在に結合することができる。通信サブシステムは、１つ又は複数の異なる通信プロトコルに適合した有線及び／又は無線通信装置を含みうる。非限定的な例として、通信サブシステムは、無線電話ネットワーク６７４或いは有線又は無線ローカル又はワイドエリアネットワークを介した通信のために構成することができる。いくつかの実施形態においては、通信サブシステムは、演算システムがインターネット６７５などのネットワークを介してその他の装置との間においてメッセージを送受信することを許容することができる。これに加えて、通信サブシステムは、受動型装置（ＮＦＣやＲＦＩＤなど）との間における近距離誘導通信６２１をサポートすることもできる。

図６のシステムは、広範囲の様々なタイプの情報処理システムを反映することを意図したものである。図６との関係において記述されているサブシステム及び特徴の多くは、本発明の実装のために必須のものではなく、且つ、本発明による可能なシステムを反映するべく含まれている、ことを理解されたい。システムアーキテクチャは幅広に変化し、且つ、図６の様々なサブシステムの間の関係は、概略的なものに過ぎず、且つ、システムの役割のレイアウト及び配分の観点において変化する可能性が大きい、ことを理解されたい。実際に、システムは、図６との関係において記述されている様々な特徴及びサブシステムの異なるサブセットを内蔵する可能性が大きいことを理解されたい。

図７及び図８は、本発明による更なる例示用装置を開示している。又、当業者は、本発明に従って動作するシステムが将来においても利用されうることを理解するであろう。

図７は、一実施形態を構成するべく適合可能なロボットを示している。図７に示されているように、ロボットは、上述のように、要素６０１、６０２、６０３、６１１、６２０、６３１、６３３、６１４、６１５、６１６、６６０、及び６２１を有する。これは、携帯電話ネットワーク６７４又はインターネット６７５を介してサーバー６７６との通信状態にあってもよい。又、専用ネットワーク又はＷｉ－Ｆｉなどの代替通信メカニズムを使用することができる。その一方において、要素６１２、６１３、６３２、６２１、６１７、６は、省略することもできる。ヒト型ロボットとして示されているが、ロボットは、同様に、ロボット芝刈り機、真空掃除機、或いは、任意のタイプの家庭、社会、又は産業ロボットであってもよい。

図８は、一実施形態を構成するべく適合可能なスマートフォン装置を示している。図８に示されているように、スマートフォン装置は、上述のように、要素６０１、６０２、６０３、６２０、任意選択の近距離通信インターフェイス６２１、フラッシュメモリ６３３、並びに、要素６１４、６１５、６１６、６４０、及び６１１を内蔵している。これは、ネットワーク６７５を介した電話ネットワーク６７４及びサーバー６７６との通信状態にある。又、専用ネットワーク又はＷｉ－Ｆｉなどの代替通信メカニズムを使用することもできる。又、この図において開示されている特徴は、同様に、タブレット装置内において含むこともできる。

本発明の実施形態は、例えば、ネットワークスピーカ装置や車両などの上部のインテリジェントなパーソナルアシスタントインターフェイスなどの、自由人間発話の解析が必要とされている、無数の更なるコンテキストに適合可能であることを理解されたい。

要素のすべてが同一の場所において提供される必要はなく―例えば、オーディオ入力及び出力要素、人間対話者の運動を検出しうる要素、並びに、任意選択により、焦点は、人間対話者にローカルな状態において提供することができる一方で、その他の機能のうちの任意のものをリモート実装することもできることを理解されたい。

本明細書において記述されている構成及び／又は方式は、その特性が例示を目的としており、且つ、特定の実施形態又は例は、限定の意味において解釈されてはならず、その理由は、多数の変形が可能であるからであることを理解されたい。本明細書において記述されている特定のルーチン又は方法は、任意の数の処理方式のうちの１つ又は複数を表しうる。従って、図示及び／又は記述されている様々な行為は、図示及び／又は記述されているシーケンスにおいて、その他のシーケンスにおいて、並行して、実行されてもよく、或いは、省略されてもよい。同様に、上述のプロセスの順序を変更することもできる。

本開示の主題は、本明細書において開示されている様々なプロセス、システム、及び構成、並びに、その他の特徴、機能、行為、及び／又はプロパティ、のみならず、これらの任意の且つすべての均等物の、すべての新規の且つ非明白な組合せ及びサブ組合せを含む。

Claims

機械インターフェイスとの間の対話において人間対話者による発話ターンの譲渡を検出する方法であって、
前記機械インターフェイスが、前記人間対話者からの発声の間に前記人間対話者の第１発話特性に基づいて第１意図インジケータをキャプチャするステップと、
前記機械インターフェイスが、前記人間対話者からの前記発声の終了を検出するステップと、
前記人間対話者からの発声の前記終了が判定された際に、前記機械インターフェイスが、前記人間対話者の身体運動に基づいて第２意図インジケータをキャプチャするステップと、
前記第１意図インジケータが、前記人間対話者からの挿入語音響の検出、前記人間対話者からの音響のピッチにおける降下の検出、又は前記発声の終了前の既定の持続時間の時間ウィンドウの間にキャプチャされる、前記発声の既定の意味成分を有し、かつ、前記第２意図インジケータが、前記人間対話者の注視が前記対話の焦点に戻っているという判定を有する場合に、前記機械インターフェイスが、一緒に取得された前記第１意図インジケータ及び前記第２意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定するステップと、
一緒に取得された前記第１意図インジケータ及び前記第２意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定された際に、前記機械インターフェイスが前記人間対話者に応答するステップと、
を有する方法。
前記人間対話者からの発声の前記終了が判定された際に、前記人間対話者から何らかの発話が前記発声の末尾の後に検出されたかどうかを判定し、このような何らかのさらなる発話が検出された場合に、前記人間対話者からの前記発声の終了を検出する前記ステップに戻る、更なるステップを有する請求項１に記載の方法。
発声は、前記発声内の休止の持続時間が既定の閾値持続時間を超過していると検出されたケースにおいてのみ、終了していると判定される請求項１または２に記載の方法。
前記人間対話者の前記第２意図インジケータをキャプチャする前記ステップが既定の持続時間にわたって実行されている請求項１乃至３のいずれか１項に記載の方法。
前記第１意図インジケータ及び前記第２意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有しているかどうかを判定する前記ステップにおいて、前記第１意図インジケータ及び前記第２意図インジケータが共に前記人間対話者による前記対話の制御の譲渡と一貫性を有してはいないと判定された際に、前記方法は、前記人間対話者からの発声の前記終了を検出する前記ステップに戻る請求項１乃至４のいずれか１項に記載の方法。
人間対話者との間の対話において人間対話者による発話ターンの譲渡を検出するシステムであって、
前記人間対話者からの発声を運ぶコミュニケーションチャネルの表現を受け取る入力と、
対話における注入用の資料を運ぶコミュニケーションチャネルの表現を伝達する出力と、
前記発声の終了を検出するべく前記表現を処理するように適合されたプロセッサと、
を有し、
前記プロセッサは、前記人間対話者からの発声の間に前記人間対話者の第１発話特性に基づいて第１意図インジケータをキャプチャし、前記人間対話者からの発声の前記終了が判定された場合に、前記対話者の身体運動に基づいて第２意図インジケータをキャプチャするように、且つ、前記第１意図インジケータが、前記人間対話者からの挿入語音響の検出、前記人間対話者からの音響のピッチにおける降下の検出、又は前記発声の終了前の既定の持続時間の時間ウィンドウの間にキャプチャされる、前記発声の既定の意味成分を有し、また、前記第２意図インジケータが、前記人間対話者の注視が前記対話の焦点に戻っているという判定を有する場合に、前記１つ又は複数の意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定するように、更に適合されており、且つ、
前記１つ又は複数の意図インジケータが前記人間対話者による前記対話の制御の譲渡と一貫性を有していると判定された場合に、前記人間対話者に対する応答を開始する、システム。
前記システムは、目に見える焦点と、前記人間対話者の注視が前記対話の前記焦点に戻っていることを判定できる検出器と、を有する請求項６に記載のシステム。
請求項１乃至５のいずれか１項に記載の前記ステップを実装するように適合された命令を有するコンピュータプログラム。