JP6984474B2

JP6984474B2 - 情報処理装置および情報処理方法

Info

Publication number: JP6984474B2
Application number: JP2018024449A
Authority: JP
Inventors: 智景久保; 卓司山田
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-02-14
Filing date: 2018-02-14
Publication date: 2021-12-22
Anticipated expiration: 2038-02-14
Also published as: JP2019139658A; US20190251958A1; US10978055B2

Description

本発明は、ユーザの発話に対して応答を出力する情報処理装置および情報処理方法に関する。

特許文献１は、利用者との情報のやり取りを通じて、利用者の意図理解を段階的に進めていく技術を開示している。特許文献２は、ユーザの発話を逐次処理して意図理解を進める技術を開示している。特許文献３は、音声対話システムにおいて話者の意図を理解した結果得られる信頼スコア（SLU Confidence Scores）を開示している。

特開２０１７−０５８５４５号公報特開平０６−２５９０９０号公報米国特許出願公開第２００６／１４９５４４号明細書

対話型のシステムのユーザは、システムでの意図理解がどの程度進んでいるか知ることは困難である。従って、ユーザは、あとどのくらいの入力を行えばシステムから応答が得られるか把握できないため、不便である。

本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザの発話に対して応答を出力する場合に、ユーザの利便性を向上できる情報処理装置および情報処理方法を提供することにある。

上記課題を解決するために、本発明のある態様の情報処理装置は、ユーザによる発話の情報を取得する取得部と、前記取得部で取得された発話情報に基づいて、前記発話の意図の理解度を導出する導出部と、前記導出部で導出された前記理解度に応じた画像を表示部に表示させる表示制御部と、前記取得部で取得された発話情報に基づいて、前記発話に対する応答を出力する出力部と、を備える。前記表示制御部は、第１領域と第２領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第１領域を表示させ、前記理解度が増加するほど、前記第１領域の面積を増加させるとともに前記第２領域の面積を減少させる。

この態様によると、ユーザの発話の意図の理解度を導出し、理解度に応じた画像を表示部に表示させるので、理解度をユーザに容易に把握させることができる。これにより、あとどのくらいの入力を行えば応答が得られるかユーザに容易に把握させることができ、ユーザの利便性を向上できる。

前記出力部は、前記理解度が所定値以上になるまで前記発話に対する問い合わせを出力し、前記理解度が前記所定値以上になった場合に前記応答を出力してもよい。

本発明の別の態様は、情報処理方法である。この方法は、ユーザによる発話の情報を取得するステップと、取得された発話情報に基づいて、前記発話の意図の理解度を導出するステップと、導出された前記理解度に応じた画像を表示部に表示させるステップと、取得された発話情報に基づいて、前記発話に対する応答を出力するステップと、を備える。前記画像を前記表示部に表示させるステップにおいて、第１領域と第２領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第１領域を表示させ、前記理解度が増加するほど、前記第１領域の面積を増加させるとともに前記第２領域の面積を減少させる。

本発明によれば、ユーザの発話に対して応答を出力する場合に、ユーザの利便性を向上できる。

実施の形態に係る車載装置の構成を示すブロック図である。図１の記憶部に記憶された問い合わせ候補データのデータ構造の一例を示す図である。図３（ａ）は、ユーザによる発話の一例を示す図であり、図３（ｂ）は、図３（ａ）の発話により表示部に表示された理解度に応じた画像を示す図である。図４（ａ）は、図３（ａ）に続く、ユーザによる発話等の一例を示す図であり、図４（ｂ）は、図４（ａ）の発話等により表示部に表示された理解度に応じた画像を示す図であり、図４（ｃ）は、図４（ａ）の発話等により非選択となったノードを示す図である。図５（ａ）は、図４（ａ）に続く、ユーザによる発話等の一例を示す図であり、図５（ｂ）は、図５（ａ）の発話等により表示部に表示された理解度に応じた画像を示す図であり、図５（ｃ）は、図５（ａ）の発話等により非選択となったノードを示す図である。図６（ａ）と図６（ｂ）は、表示部に表示された理解度に応じた画像の他の例を示す図である。

図１は、実施の形態に係る車載装置１０の構成を示すブロック図である。車載装置１０は、自動車である車両に搭載されている。車載装置１０は、処理部２０と、マイク２２と、ＧＰＳ受信部２４と、スピーカ２６と、表示部２８と、記憶部３０とを備える。

マイク２２は、車両の車室内に設けられ、車室内の音声を取得する。この音声は、ユーザである車両の乗員による発話を含む。マイク２２は、取得した音声のデータを処理部２０に出力する。

ＧＰＳ受信部２４は、ＧＰＳ衛星から信号を受信し、自車両の位置を導出する。自車両の位置は、緯度と経度を含む。ＧＰＳ受信部２４は、自車両の位置情報を処理部２０に出力する。

スピーカ２６は、車両の車室内に設けられ、音声を出力する音声出力装置である。表示部２８は、液晶ディスプレイなどの表示装置であり、車両のセンターコンソールやダッシュボードに設けられる。

処理部２０は、取得部４０と、音声認識部４２と、制御部４４と、出力部４６と、導出部４８と、表示制御部５０とを備える。処理部２０は、情報処理装置として機能する。処理部２０は、ユーザの発話に対する応答を出力し、各種情報を提供する対話型エージェントまたは対話装置と呼ぶこともできる。

処理部２０は、ユーザの発話に対して、発話の意図に最も合っていると推定される応答を出力する。処理部２０は、このような応答を決定できない場合には、ユーザとの情報のやり取りを通じて、発話の意図の理解を段階的に進めていく。具体的には、処理部２０は、ユーザの発話に対して応答を決定できない場合には、発話に基づいて問い合わせを出力し、この問い合わせに対するユーザの回答に基づいて応答を決定する。処理部２０は、応答を決定できるまでこのような処理を繰り返す。

取得部４０は、マイク２２から音声データを取得する。これは、取得部４０が、ユーザによる発話の情報を取得することに相当する。取得部４０は、ＧＰＳ受信部２４から自車両の位置情報を定期的に取得する。取得部４０は、発話情報を音声認識部４２へ出力し、位置情報を制御部４４へ出力する。

音声認識部４２は、取得部４０から出力された発話情報に基づいて、ユーザにより発話された音声を音声認識する。音声認識は、周知の技術を用いて実行できる。音声認識部４２は、音声認識結果を制御部４４に出力する。音声認識結果は、テキストデータを含む。

記憶部３０は、予め定められた複数の問い合わせ候補データを記憶している。各問い合わせ候補データのデータ構造は、複数のノードを有するツリー構造である。最上位のノードには、予め定められたユーザの発話が設定されている。最上位のノードより下位のノードのそれぞれには、最上位のノードのユーザの発話に対する応答を決定するための問い合わせ候補が設定されている。問い合わせ候補は、ユーザの発話の意図の理解を進めるためのものであるとも言える。問い合わせ候補データは、対話シナリオデータと呼ぶこともできる。

図２は、図１の記憶部３０に記憶された問い合わせ候補データのデータ構造の一例を示す図である。図２では、説明を明瞭にするために５つのノードを示しているが、ノード数はこれに限らない。最上位のノード１００には、「お腹空いた」というユーザの発話が設定されている。最上位のノード１００の直下の最下位のノード１０２には、「雑談しますか？」という問い合わせ候補が設定されている。最上位のノード１００の直下のノード１０４には、「レストランを探しますか？」という問い合わせ候補が設定されている。ノード１０４の直下の最下位のノード１０６には、「周辺の人気店を探しますか？」という問い合わせ候補が設定されている。ノード１０４の直下の最下位のノード１０８には、「どのジャンルの店を探しますか？」という問い合わせ候補が設定されている。

この例では、ユーザの発話「お腹空いた」の意図は、最下位のノード１０２に対応する「雑談したい」、最下位のノード１０６に対応する「周囲の人気店を知りたい」、または、最下位のノード１０８に対応する「周囲の希望のジャンルの店を知りたい」であることが想定されている。つまり、最下位のノードには、想定される発話の意図に対応する問い合わせ候補が設定されている。最下位のノードの問い合わせ候補は、ユーザの肯定的な発話が得られた場合に、応答を決定できる内容を含む。

制御部４４は、音声認識部４２による音声認識結果をもとに、ユーザの発話に対応する内容が最上位のノードに設定された問い合わせ候補データに従って、問い合わせと応答を決定する。

図３（ａ）は、ユーザによる発話の一例を示す図である。図３（ｂ）は、図３（ａ）の発話により表示部２８に表示された理解度に応じた画像２１０を示す図である。

図３（ａ）の例では、ユーザによる発話が「ＭｙＡｇｅｎｔ、お腹空いた」であるため、図２の問い合わせ候補データが選択される。なお、「ＭｙＡｇｅｎｔ」は、処理部２０による対話機能を起動させるための起動ワードである。

制御部４４は、選択した問い合わせ候補データにおける最下位のノードの数「３」を導出部４８に出力する。導出部４８は、制御部４４から出力された最下位のノードの数の逆数を導出し、その値を百分率で表した値を、ユーザによる発話の意図の理解度とする。この例では、理解度は、３３％と導出される。これは、導出部４８が、取得部４０で取得された発話情報に基づいて、ユーザによる発話の意図の理解度を導出することに相当する。

表示制御部５０は、導出部４８で導出された理解度に応じた画像２１０を表示部２８に表示させる。具体的には、表示制御部５０は、第１領域２００と第２領域２０２とに分割された画像２１０を表示部２８に表示させ、理解度が増加するほど、第１領域２００の面積を増加させるとともに第２領域２０２の面積を減少させる。例えば、図３（ｂ）に示すように、表示部２８は、約３３％の面積の第１領域２００と、約７７％の面積の第２領域２０２を含む円形の画像２１０を表示する。この画像２１０は、対話型エージェントを表してもよい。この画像２１０は、例えば、目的地案内機能を有する地図などの所定の機能を有する画像の端に表示されてもよい。

図４（ａ）は、図３（ａ）に続く、ユーザによる発話等の一例を示す図である。図４（ｂ）は、図４（ａ）の発話等により表示部２８に表示された理解度に応じた画像２１０を示す図である。図４（ｃ）は、図４（ａ）の発話等により非選択となったノードを示す図である。

制御部４４は、最上位のノード１００から最下位のノードに向けてノードを選択していく。制御部４４は、まず、最上位のノード１００の直下のノードのいずれかを選択する。例えば、制御部４４は、まず、最上位のノード１００の直下のノードの中で最も多くの最下位のノードに接続されたノード１０４を選択する。制御部４４は、選択したノード１０４に設定された問い合わせ候補「レストランを探しますか？」を、出力部４６に供給する。なお、制御部４４は、図示しないサーバ装置から複数のユーザが過去に最も高い確率で選択したノードの情報を取得して、そのノードを選択してもよい。

出力部４６は、制御部４４から供給された問い合わせ候補に従った問い合わせを、スピーカ２６を介して出力する。具体的には、出力部４６は、制御部４４から供給された問い合わせ候補の文字情報を音声信号に変換してスピーカ２６に出力する。スピーカ２６は、出力部４６から出力された音声信号に基づいて、問い合わせを音声で出力する。

図４（ａ）に示すように、問い合わせに対するユーザの回答として、ユーザの発話の意図と一致するという発話情報、例えば「お願い」を取得部４０が取得した場合、制御部４４は、選択されたノード１０４より下位の最下位のノードの数「２」を導出部４８に出力し、選択されたノード１０４の直下のノードのいずれかを選択する。ノードの選択例は後述する。図４（ｃ）に示すように、ノード１０２は、ユーザの発話の意図と異なることが特定され、非選択となる。

導出部４８は、制御部４４から出力された最下位のノードの数に基づいて、理解度を５０％と導出する。図４（ｂ）に示すように、表示部２８は、約５０％の面積の第１領域２００と、約５０％の面積の第２領域２０２を含む画像２１０を表示する。図３（ｂ）の画像２１０と比較して、第１領域２００の面積が増加しているため、ユーザは、発話の意図の理解が進んでいることを容易に把握できる。

図５（ａ）は、図４（ａ）に続く、ユーザによる発話等の一例を示す図である。図５（ｂ）は、図５（ａ）の発話等により表示部２８に表示された理解度に応じた画像２１０を示す図である。図５（ｃ）は、図５（ａ）の発話等により非選択となったノードを示す図である。

制御部４４は、例えば、ノード１０４の直下の最下位のノード１０６を選択する。制御部４４は、選択した最下位のノード１０６に設定された問い合わせ候補「周囲の人気店を探しますか？」を、出力部４６に供給する。出力部４６は、制御部４４から供給された問い合わせ候補に従った問い合わせを、スピーカ２６を介して出力する。

図５（ａ）に示すように、最下位のノード１０６による問い合わせに対するユーザの回答として、ユーザの発話の意図と一致するという発話情報、例えば「お願い」を取得部４０が取得した場合、制御部４４は、確定した最下位のノード１０６の数「１」を導出部４８に出力し、確定した最下位のノード１０６に対応する応答を作成する。

制御部４４は、取得部４０から出力された位置情報と、記憶部３０に記憶された地図データなどに基づいて、自車両の位置の周囲の人気店を検索する。制御部４４は、検索結果に基づいて、例えば、「周囲の人気店を紹介します。近くにレストランＸＸＸがあります。」という応答を作成し、出力部４６に供給する。制御部４４は、応答の作成に必要なデータを、図示しないサーバ装置や他車の車載装置から無線通信により取得してもよい。出力部４６は、制御部４４から供給された応答を、スピーカ２６を介して出力する。

導出部４８は、制御部４４から出力された最下位のノードの数に基づいて、理解度を１００％と導出する。図５（ｂ）に示すように、表示部２８は、約１００％の面積の第１領域２００を含む画像２１０を表示する。画像２１０を見たユーザは、発話の意図の理解が完了したことを把握できる。１００％の理解度の画像は、表示しなくてもよい。

一方、問い合わせに対するユーザの回答として、ユーザの発話の意図と異なるという発話情報、例えば「違う」などを取得部４０が取得した場合、制御部４４は、選択されたノードを非選択とし、非選択としたノードと同じ階層の他のノードを選択する。制御部４４は、選択したノードに設定された問い合わせ候補を、出力部４６に供給する。また、制御部４４は、問い合わせ候補データにおける最下位のノードの総数から、非選択としたノードの下位の最下位のノードの数を減じた最下位のノードの数を、導出部４８に出力する。

例えば、ノード１０４に設定された問い合わせ候補による問い合わせ「レストランを探しますか？」に対して、「違う」という発話情報を取得部４０が取得した場合、制御部４４は、ノード１０４を非選択とし、非選択としたノード１０４と同じ階層の他のノード１０２を選択する。制御部４４は、選択したノード１０２に設定された問い合わせ候補「雑談しますか？」を、出力部４６に供給する。また、制御部４４は、最下位のノードの総数「３」から、非選択としたノード１０４の下位の最下位のノードの数「２」を減じた最下位のノードの数「１」を、導出部４８に出力する。

このように、問い合わせに対する回答が取得部４０で取得されるたびに、選択可能な最下位のノードの数は減少し、理解度は増加する。制御部４４は、理解度が所定値以上になるまでノードの選択を行い、出力部４６は、理解度が所定値以上になるまで発話に対する問い合わせを出力する。そして、出力部４６は、理解度が所定値以上になった場合に、発話に対する応答を出力する。以上で説明した例では、所定値は１００％である。

所定値は、５０％などでもよい。この場合、制御部４４は、例えば、理解度が５０％のときにノード１０４の直下の最下位のノード１０６を選択し、最下位のノード１０６に設定された問い合わせ候補「周囲の人気店を探しますか？」に基づいて、「周囲の人気店を紹介します。近くにレストランＸＸＸがあります。」という応答を作成し、出力部４６に供給する。つまり、出力部４６は、最下位のノード１０６に設定された問い合わせ候補による問い合わせを出力せずに、応答を出力する。この応答に対して、「違う」などの発話を取得部４０が取得した場合、制御部４４は、他の最下位のノード１０８に設定された問い合わせ候補「どのジャンルの店を探しますか？」を出力部４６に供給する。

なお、記憶部３０は、ユーザの履歴情報を記憶していてもよい。履歴情報は、ユーザの複数の過去の発話のそれぞれに関して、当該発話に対する過去の応答と、当該発話に対する当該過去の応答の出力確率とを含む。

例えば、履歴情報は、「お腹空いた」というユーザの発話について、「イタリアンレストランを紹介します」という応答が８０％の出力確率であり、「フレンチレストランを紹介します」という応答が１５％の出力確率であり、「周辺の人気店を紹介します」という応答が５％の出力確率であるという情報を含む。

制御部４４は、取得部４０で取得された発話についての過去の応答が記憶部３０に記憶されている場合、発話に対する過去の応答と、過去の応答の出力確率とに基づいて、過去の応答を選択する。例えば、制御部４４は、出力確率が最も高い過去の応答を選択する。制御部４４は、選択した過去の応答に基づいて、その過去の応答がユーザの発話の意図と一致するか確認するための問い合わせを作成し、それを出力部４６に供給する。

過去の応答に基づいた問い合わせに対して、過去の応答がユーザの発話の意図と一致するという発話情報を取得部４０が取得した場合、制御部４４は、過去の応答に基づく応答を作成し、応答を出力部４６に供給する。

一方、過去の応答に基づいた問い合わせに対して、過去の応答がユーザの発話の意図と異なるという発話情報を取得部４０が取得した場合、制御部４４は、前述のように、問い合わせ候補データを用いて問い合わせと応答を決定する。

このように履歴情報を用いる場合、過去の応答の出力確率のうち最大のものを理解度と呼んでもよい。

この構成は、ハードウエア的には、任意のコンピュータのＣＰＵ、メモリ、その他のＬＳＩで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。

このように本実施の形態によれば、ユーザの発話の意図の理解度を導出し、理解度に応じた画像２１０を表示部２８に表示させるので、理解度をユーザに容易に把握させることができる。これにより、あとどのくらいの入力を行えば応答が得られるかユーザに容易に把握させることができ、ユーザの利便性を向上できる。

また、出力部４６は、理解度が所定値以上になるまで発話に対する問い合わせを出力し、理解度が所定値以上になった場合に応答を出力するので、問い合わせに対するユーザの回答によって理解度を高め、発話の意図に最も合っていると推定される応答を出力することができる。

また、第１領域２００と第２領域２０２とに分割された画像２１０を表示部２８に表示させ、理解度が増加するほど、第１領域２００の面積を増加させるとともに第２領域２０２の面積を減少させるので、理解度の変化をユーザに容易に把握させることができる。

以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

例えば、理解度に応じた画像２１０の表示態様は、上述した例に限らない。図６（ａ）と図６（ｂ）は、表示部２８に表示された理解度に応じた画像２１０の他の例を示す図である。理解度に応じた画像２１０は、図６（ａ）に示す円柱形状の画像２１０であってもよいし、図６（ｂ）に示す長方形の画像２１０であってもよいし、他の形状であってもよい。

また、図示は省略するが、表示制御部５０は、理解度に応じた画像としてキャラクタを表示部２８に表示させ、理解度に応じてキャラクタの表情または動作を変化させてもよい。このキャラクタは、対話型エージェントを表すキャラクタであってもよい。また、表示制御部５０は、理解度に応じて所定の画像の色を変化させてもよい。所定の画像は、対話型エージェントを表す画像またはキャラクタであってもよい。これらの変形例では、理解度に応じた画像の表示の自由度を向上できる。

また、以上の実施の形態では、表示部２８は、理解度に実質的に一致した割合の面積で第１領域２００を表示する例について説明したが、これに限らない。例えば、表示部２８は、理解度に所定値を加算した割合の面積で第１領域２００を表示してもよい。例えば、問い合わせ候補データにおける最下位のノードの総数が１００である場合、最初の理解度は１％である。ここで、理解度に例えば１０％の所定値を加算した割合の面積で第１領域２００を表示することで、ほとんど意図が理解されていないという印象をユーザに与え難くできる。

また、出力部４６は、制御部４４から供給された問い合わせと応答を、表示制御部５０と表示部２８を介して文字として出力してもよい。

また、一例として車載装置１０を説明したが、車載装置１０は、車両に搭載されないスマートフォン、パーソナルコンピュータなどとして構成されてもよい。

１０…車載装置、２０…処理部、２８…表示部、４０…取得部、４４…制御部、４６…出力部、４８…導出部、５０…表示制御部。

Claims

ユーザによる発話の情報を取得する取得部と、
前記取得部で取得された発話情報に基づいて、前記発話の意図の理解度を導出する導出部と、
前記導出部で導出された前記理解度に応じた画像を表示部に表示させる表示制御部と、
前記取得部で取得された発話情報に基づいて、前記発話に対する応答を出力する出力部と、
を備え、
前記表示制御部は、第１領域と第２領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第１領域を表示させ、前記理解度が増加するほど、前記第１領域の面積を増加させるとともに前記第２領域の面積を減少させる、ことを特徴とする情報処理装置。
前記出力部は、前記理解度が所定値以上になるまで前記発話に対する問い合わせを出力し、前記理解度が前記所定値以上になった場合に前記応答を出力することを特徴とする請求項１に記載の情報処理装置。
ユーザによる発話の情報を取得するステップと、
取得された発話情報に基づいて、前記発話の意図の理解度を導出するステップと、
導出された前記理解度に応じた画像を表示部に表示させるステップと、
取得された発話情報に基づいて、前記発話に対する応答を出力するステップと、
を備え、
前記画像を前記表示部に表示させるステップにおいて、第１領域と第２領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第１領域を表示させ、前記理解度が増加するほど、前記第１領域の面積を増加させるとともに前記第２領域の面積を減少させる、ことを特徴とする情報処理方法。