JP6984474B2 - 情報処理装置および情報処理方法 - Google Patents

情報処理装置および情報処理方法 Download PDF

Info

Publication number
JP6984474B2
JP6984474B2 JP2018024449A JP2018024449A JP6984474B2 JP 6984474 B2 JP6984474 B2 JP 6984474B2 JP 2018024449 A JP2018024449 A JP 2018024449A JP 2018024449 A JP2018024449 A JP 2018024449A JP 6984474 B2 JP6984474 B2 JP 6984474B2
Authority
JP
Japan
Prior art keywords
utterance
unit
understanding
area
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018024449A
Other languages
English (en)
Other versions
JP2019139658A (ja
Inventor
智景 久保
卓司 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toyota Motor Corp
Original Assignee
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toyota Motor Corp filed Critical Toyota Motor Corp
Priority to JP2018024449A priority Critical patent/JP6984474B2/ja
Priority to US16/273,481 priority patent/US10978055B2/en
Publication of JP2019139658A publication Critical patent/JP2019139658A/ja
Application granted granted Critical
Publication of JP6984474B2 publication Critical patent/JP6984474B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L21/10Transforming into visible information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/72Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for transmitting results of analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、ユーザの発話に対して応答を出力する情報処理装置および情報処理方法に関する。
特許文献1は、利用者との情報のやり取りを通じて、利用者の意図理解を段階的に進めていく技術を開示している。特許文献2は、ユーザの発話を逐次処理して意図理解を進める技術を開示している。特許文献3は、音声対話システムにおいて話者の意図を理解した結果得られる信頼スコア(SLU Confidence Scores)を開示している。
特開2017−058545号公報 特開平06−259090号公報 米国特許出願公開第2006/149544号明細書
対話型のシステムのユーザは、システムでの意図理解がどの程度進んでいるか知ることは困難である。従って、ユーザは、あとどのくらいの入力を行えばシステムから応答が得られるか把握できないため、不便である。
本発明はこうした状況に鑑みてなされたものであり、その目的は、ユーザの発話に対して応答を出力する場合に、ユーザの利便性を向上できる情報処理装置および情報処理方法を提供することにある。
上記課題を解決するために、本発明のある態様の情報処理装置は、ユーザによる発話の情報を取得する取得部と、前記取得部で取得された発話情報に基づいて、前記発話の意図の理解度を導出する導出部と、前記導出部で導出された前記理解度に応じた画像を表示部に表示させる表示制御部と、前記取得部で取得された発話情報に基づいて、前記発話に対する応答を出力する出力部と、を備える。前記表示制御部は、第1領域と第2領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第1領域を表示させ、前記理解度が増加するほど、前記第1領域の面積を増加させるとともに前記第2領域の面積を減少させる。
この態様によると、ユーザの発話の意図の理解度を導出し、理解度に応じた画像を表示部に表示させるので、理解度をユーザに容易に把握させることができる。これにより、あとどのくらいの入力を行えば応答が得られるかユーザに容易に把握させることができ、ユーザの利便性を向上できる。
前記出力部は、前記理解度が所定値以上になるまで前記発話に対する問い合わせを出力し、前記理解度が前記所定値以上になった場合に前記応答を出力してもよい。
本発明の別の態様は、情報処理方法である。この方法は、ユーザによる発話の情報を取得するステップと、取得された発話情報に基づいて、前記発話の意図の理解度を導出するステップと、導出された前記理解度に応じた画像を表示部に表示させるステップと、取得された発話情報に基づいて、前記発話に対する応答を出力するステップと、を備える。前記画像を前記表示部に表示させるステップにおいて、第1領域と第2領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第1領域を表示させ、前記理解度が増加するほど、前記第1領域の面積を増加させるとともに前記第2領域の面積を減少させる。
本発明によれば、ユーザの発話に対して応答を出力する場合に、ユーザの利便性を向上できる。
実施の形態に係る車載装置の構成を示すブロック図である。 図1の記憶部に記憶された問い合わせ候補データのデータ構造の一例を示す図である。 図3(a)は、ユーザによる発話の一例を示す図であり、図3(b)は、図3(a)の発話により表示部に表示された理解度に応じた画像を示す図である。 図4(a)は、図3(a)に続く、ユーザによる発話等の一例を示す図であり、図4(b)は、図4(a)の発話等により表示部に表示された理解度に応じた画像を示す図であり、図4(c)は、図4(a)の発話等により非選択となったノードを示す図である。 図5(a)は、図4(a)に続く、ユーザによる発話等の一例を示す図であり、図5(b)は、図5(a)の発話等により表示部に表示された理解度に応じた画像を示す図であり、図5(c)は、図5(a)の発話等により非選択となったノードを示す図である。 図6(a)と図6(b)は、表示部に表示された理解度に応じた画像の他の例を示す図である。
図1は、実施の形態に係る車載装置10の構成を示すブロック図である。車載装置10は、自動車である車両に搭載されている。車載装置10は、処理部20と、マイク22と、GPS受信部24と、スピーカ26と、表示部28と、記憶部30とを備える。
マイク22は、車両の車室内に設けられ、車室内の音声を取得する。この音声は、ユーザである車両の乗員による発話を含む。マイク22は、取得した音声のデータを処理部20に出力する。
GPS受信部24は、GPS衛星から信号を受信し、自車両の位置を導出する。自車両の位置は、緯度と経度を含む。GPS受信部24は、自車両の位置情報を処理部20に出力する。
スピーカ26は、車両の車室内に設けられ、音声を出力する音声出力装置である。表示部28は、液晶ディスプレイなどの表示装置であり、車両のセンターコンソールやダッシュボードに設けられる。
処理部20は、取得部40と、音声認識部42と、制御部44と、出力部46と、導出部48と、表示制御部50とを備える。処理部20は、情報処理装置として機能する。処理部20は、ユーザの発話に対する応答を出力し、各種情報を提供する対話型エージェントまたは対話装置と呼ぶこともできる。
処理部20は、ユーザの発話に対して、発話の意図に最も合っていると推定される応答を出力する。処理部20は、このような応答を決定できない場合には、ユーザとの情報のやり取りを通じて、発話の意図の理解を段階的に進めていく。具体的には、処理部20は、ユーザの発話に対して応答を決定できない場合には、発話に基づいて問い合わせを出力し、この問い合わせに対するユーザの回答に基づいて応答を決定する。処理部20は、応答を決定できるまでこのような処理を繰り返す。
取得部40は、マイク22から音声データを取得する。これは、取得部40が、ユーザによる発話の情報を取得することに相当する。取得部40は、GPS受信部24から自車両の位置情報を定期的に取得する。取得部40は、発話情報を音声認識部42へ出力し、位置情報を制御部44へ出力する。
音声認識部42は、取得部40から出力された発話情報に基づいて、ユーザにより発話された音声を音声認識する。音声認識は、周知の技術を用いて実行できる。音声認識部42は、音声認識結果を制御部44に出力する。音声認識結果は、テキストデータを含む。
記憶部30は、予め定められた複数の問い合わせ候補データを記憶している。各問い合わせ候補データのデータ構造は、複数のノードを有するツリー構造である。最上位のノードには、予め定められたユーザの発話が設定されている。最上位のノードより下位のノードのそれぞれには、最上位のノードのユーザの発話に対する応答を決定するための問い合わせ候補が設定されている。問い合わせ候補は、ユーザの発話の意図の理解を進めるためのものであるとも言える。問い合わせ候補データは、対話シナリオデータと呼ぶこともできる。
図2は、図1の記憶部30に記憶された問い合わせ候補データのデータ構造の一例を示す図である。図2では、説明を明瞭にするために5つのノードを示しているが、ノード数はこれに限らない。最上位のノード100には、「お腹空いた」というユーザの発話が設定されている。最上位のノード100の直下の最下位のノード102には、「雑談しますか?」という問い合わせ候補が設定されている。最上位のノード100の直下のノード104には、「レストランを探しますか?」という問い合わせ候補が設定されている。ノード104の直下の最下位のノード106には、「周辺の人気店を探しますか?」という問い合わせ候補が設定されている。ノード104の直下の最下位のノード108には、「どのジャンルの店を探しますか?」という問い合わせ候補が設定されている。
この例では、ユーザの発話「お腹空いた」の意図は、最下位のノード102に対応する「雑談したい」、最下位のノード106に対応する「周囲の人気店を知りたい」、または、最下位のノード108に対応する「周囲の希望のジャンルの店を知りたい」であることが想定されている。つまり、最下位のノードには、想定される発話の意図に対応する問い合わせ候補が設定されている。最下位のノードの問い合わせ候補は、ユーザの肯定的な発話が得られた場合に、応答を決定できる内容を含む。
制御部44は、音声認識部42による音声認識結果をもとに、ユーザの発話に対応する内容が最上位のノードに設定された問い合わせ候補データに従って、問い合わせと応答を決定する。
図3(a)は、ユーザによる発話の一例を示す図である。図3(b)は、図3(a)の発話により表示部28に表示された理解度に応じた画像210を示す図である。
図3(a)の例では、ユーザによる発話が「My Agent、お腹空いた」であるため、図2の問い合わせ候補データが選択される。なお、「My Agent」は、処理部20による対話機能を起動させるための起動ワードである。
制御部44は、選択した問い合わせ候補データにおける最下位のノードの数「3」を導出部48に出力する。導出部48は、制御部44から出力された最下位のノードの数の逆数を導出し、その値を百分率で表した値を、ユーザによる発話の意図の理解度とする。この例では、理解度は、33%と導出される。これは、導出部48が、取得部40で取得された発話情報に基づいて、ユーザによる発話の意図の理解度を導出することに相当する。
表示制御部50は、導出部48で導出された理解度に応じた画像210を表示部28に表示させる。具体的には、表示制御部50は、第1領域200と第2領域202とに分割された画像210を表示部28に表示させ、理解度が増加するほど、第1領域200の面積を増加させるとともに第2領域202の面積を減少させる。例えば、図3(b)に示すように、表示部28は、約33%の面積の第1領域200と、約77%の面積の第2領域202を含む円形の画像210を表示する。この画像210は、対話型エージェントを表してもよい。この画像210は、例えば、目的地案内機能を有する地図などの所定の機能を有する画像の端に表示されてもよい。
図4(a)は、図3(a)に続く、ユーザによる発話等の一例を示す図である。図4(b)は、図4(a)の発話等により表示部28に表示された理解度に応じた画像210を示す図である。図4(c)は、図4(a)の発話等により非選択となったノードを示す図である。
制御部44は、最上位のノード100から最下位のノードに向けてノードを選択していく。制御部44は、まず、最上位のノード100の直下のノードのいずれかを選択する。例えば、制御部44は、まず、最上位のノード100の直下のノードの中で最も多くの最下位のノードに接続されたノード104を選択する。制御部44は、選択したノード104に設定された問い合わせ候補「レストランを探しますか?」を、出力部46に供給する。なお、制御部44は、図示しないサーバ装置から複数のユーザが過去に最も高い確率で選択したノードの情報を取得して、そのノードを選択してもよい。
出力部46は、制御部44から供給された問い合わせ候補に従った問い合わせを、スピーカ26を介して出力する。具体的には、出力部46は、制御部44から供給された問い合わせ候補の文字情報を音声信号に変換してスピーカ26に出力する。スピーカ26は、出力部46から出力された音声信号に基づいて、問い合わせを音声で出力する。
図4(a)に示すように、問い合わせに対するユーザの回答として、ユーザの発話の意図と一致するという発話情報、例えば「お願い」を取得部40が取得した場合、制御部44は、選択されたノード104より下位の最下位のノードの数「2」を導出部48に出力し、選択されたノード104の直下のノードのいずれかを選択する。ノードの選択例は後述する。図4(c)に示すように、ノード102は、ユーザの発話の意図と異なることが特定され、非選択となる。
導出部48は、制御部44から出力された最下位のノードの数に基づいて、理解度を50%と導出する。図4(b)に示すように、表示部28は、約50%の面積の第1領域200と、約50%の面積の第2領域202を含む画像210を表示する。図3(b)の画像210と比較して、第1領域200の面積が増加しているため、ユーザは、発話の意図の理解が進んでいることを容易に把握できる。
図5(a)は、図4(a)に続く、ユーザによる発話等の一例を示す図である。図5(b)は、図5(a)の発話等により表示部28に表示された理解度に応じた画像210を示す図である。図5(c)は、図5(a)の発話等により非選択となったノードを示す図である。
制御部44は、例えば、ノード104の直下の最下位のノード106を選択する。制御部44は、選択した最下位のノード106に設定された問い合わせ候補「周囲の人気店を探しますか?」を、出力部46に供給する。出力部46は、制御部44から供給された問い合わせ候補に従った問い合わせを、スピーカ26を介して出力する。
図5(a)に示すように、最下位のノード106による問い合わせに対するユーザの回答として、ユーザの発話の意図と一致するという発話情報、例えば「お願い」を取得部40が取得した場合、制御部44は、確定した最下位のノード106の数「1」を導出部48に出力し、確定した最下位のノード106に対応する応答を作成する。
制御部44は、取得部40から出力された位置情報と、記憶部30に記憶された地図データなどに基づいて、自車両の位置の周囲の人気店を検索する。制御部44は、検索結果に基づいて、例えば、「周囲の人気店を紹介します。近くにレストランXXXがあります。」という応答を作成し、出力部46に供給する。制御部44は、応答の作成に必要なデータを、図示しないサーバ装置や他車の車載装置から無線通信により取得してもよい。出力部46は、制御部44から供給された応答を、スピーカ26を介して出力する。
導出部48は、制御部44から出力された最下位のノードの数に基づいて、理解度を100%と導出する。図5(b)に示すように、表示部28は、約100%の面積の第1領域200を含む画像210を表示する。画像210を見たユーザは、発話の意図の理解が完了したことを把握できる。100%の理解度の画像は、表示しなくてもよい。
一方、問い合わせに対するユーザの回答として、ユーザの発話の意図と異なるという発話情報、例えば「違う」などを取得部40が取得した場合、制御部44は、選択されたノードを非選択とし、非選択としたノードと同じ階層の他のノードを選択する。制御部44は、選択したノードに設定された問い合わせ候補を、出力部46に供給する。また、制御部44は、問い合わせ候補データにおける最下位のノードの総数から、非選択としたノードの下位の最下位のノードの数を減じた最下位のノードの数を、導出部48に出力する。
例えば、ノード104に設定された問い合わせ候補による問い合わせ「レストランを探しますか?」に対して、「違う」という発話情報を取得部40が取得した場合、制御部44は、ノード104を非選択とし、非選択としたノード104と同じ階層の他のノード102を選択する。制御部44は、選択したノード102に設定された問い合わせ候補「雑談しますか?」を、出力部46に供給する。また、制御部44は、最下位のノードの総数「3」から、非選択としたノード104の下位の最下位のノードの数「2」を減じた最下位のノードの数「1」を、導出部48に出力する。
このように、問い合わせに対する回答が取得部40で取得されるたびに、選択可能な最下位のノードの数は減少し、理解度は増加する。制御部44は、理解度が所定値以上になるまでノードの選択を行い、出力部46は、理解度が所定値以上になるまで発話に対する問い合わせを出力する。そして、出力部46は、理解度が所定値以上になった場合に、発話に対する応答を出力する。以上で説明した例では、所定値は100%である。
所定値は、50%などでもよい。この場合、制御部44は、例えば、理解度が50%のときにノード104の直下の最下位のノード106を選択し、最下位のノード106に設定された問い合わせ候補「周囲の人気店を探しますか?」に基づいて、「周囲の人気店を紹介します。近くにレストランXXXがあります。」という応答を作成し、出力部46に供給する。つまり、出力部46は、最下位のノード106に設定された問い合わせ候補による問い合わせを出力せずに、応答を出力する。この応答に対して、「違う」などの発話を取得部40が取得した場合、制御部44は、他の最下位のノード108に設定された問い合わせ候補「どのジャンルの店を探しますか?」を出力部46に供給する。
なお、記憶部30は、ユーザの履歴情報を記憶していてもよい。履歴情報は、ユーザの複数の過去の発話のそれぞれに関して、当該発話に対する過去の応答と、当該発話に対する当該過去の応答の出力確率とを含む。
例えば、履歴情報は、「お腹空いた」というユーザの発話について、「イタリアンレストランを紹介します」という応答が80%の出力確率であり、「フレンチレストランを紹介します」という応答が15%の出力確率であり、「周辺の人気店を紹介します」という応答が5%の出力確率であるという情報を含む。
制御部44は、取得部40で取得された発話についての過去の応答が記憶部30に記憶されている場合、発話に対する過去の応答と、過去の応答の出力確率とに基づいて、過去の応答を選択する。例えば、制御部44は、出力確率が最も高い過去の応答を選択する。制御部44は、選択した過去の応答に基づいて、その過去の応答がユーザの発話の意図と一致するか確認するための問い合わせを作成し、それを出力部46に供給する。
過去の応答に基づいた問い合わせに対して、過去の応答がユーザの発話の意図と一致するという発話情報を取得部40が取得した場合、制御部44は、過去の応答に基づく応答を作成し、応答を出力部46に供給する。
一方、過去の応答に基づいた問い合わせに対して、過去の応答がユーザの発話の意図と異なるという発話情報を取得部40が取得した場合、制御部44は、前述のように、問い合わせ候補データを用いて問い合わせと応答を決定する。
このように履歴情報を用いる場合、過去の応答の出力確率のうち最大のものを理解度と呼んでもよい。
この構成は、ハードウエア的には、任意のコンピュータのCPU、メモリ、その他のLSIで実現でき、ソフトウエア的にはメモリにロードされたプログラムなどによって実現されるが、ここではそれらの連携によって実現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウエアのみ、ソフトウエアのみ、またはそれらの組合せによっていろいろな形で実現できることは、当業者には理解されるところである。
このように本実施の形態によれば、ユーザの発話の意図の理解度を導出し、理解度に応じた画像210を表示部28に表示させるので、理解度をユーザに容易に把握させることができる。これにより、あとどのくらいの入力を行えば応答が得られるかユーザに容易に把握させることができ、ユーザの利便性を向上できる。
また、出力部46は、理解度が所定値以上になるまで発話に対する問い合わせを出力し、理解度が所定値以上になった場合に応答を出力するので、問い合わせに対するユーザの回答によって理解度を高め、発話の意図に最も合っていると推定される応答を出力することができる。
また、第1領域200と第2領域202とに分割された画像210を表示部28に表示させ、理解度が増加するほど、第1領域200の面積を増加させるとともに第2領域202の面積を減少させるので、理解度の変化をユーザに容易に把握させることができる。
以上、実施の形態をもとに本発明を説明した。実施の形態はあくまでも例示であり、各構成要素や各処理プロセスの組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。
例えば、理解度に応じた画像210の表示態様は、上述した例に限らない。図6(a)と図6(b)は、表示部28に表示された理解度に応じた画像210の他の例を示す図である。理解度に応じた画像210は、図6(a)に示す円柱形状の画像210であってもよいし、図6(b)に示す長方形の画像210であってもよいし、他の形状であってもよい。
また、図示は省略するが、表示制御部50は、理解度に応じた画像としてキャラクタを表示部28に表示させ、理解度に応じてキャラクタの表情または動作を変化させてもよい。このキャラクタは、対話型エージェントを表すキャラクタであってもよい。また、表示制御部50は、理解度に応じて所定の画像の色を変化させてもよい。所定の画像は、対話型エージェントを表す画像またはキャラクタであってもよい。これらの変形例では、理解度に応じた画像の表示の自由度を向上できる。
また、以上の実施の形態では、表示部28は、理解度に実質的に一致した割合の面積で第1領域200を表示する例について説明したが、これに限らない。例えば、表示部28は、理解度に所定値を加算した割合の面積で第1領域200を表示してもよい。例えば、問い合わせ候補データにおける最下位のノードの総数が100である場合、最初の理解度は1%である。ここで、理解度に例えば10%の所定値を加算した割合の面積で第1領域200を表示することで、ほとんど意図が理解されていないという印象をユーザに与え難くできる。
また、出力部46は、制御部44から供給された問い合わせと応答を、表示制御部50と表示部28を介して文字として出力してもよい。
また、一例として車載装置10を説明したが、車載装置10は、車両に搭載されないスマートフォン、パーソナルコンピュータなどとして構成されてもよい。
10…車載装置、20…処理部、28…表示部、40…取得部、44…制御部、46…出力部、48…導出部、50…表示制御部。

Claims (3)

  1. ユーザによる発話の情報を取得する取得部と、
    前記取得部で取得された発話情報に基づいて、前記発話の意図の理解度を導出する導出部と、
    前記導出部で導出された前記理解度に応じた画像を表示部に表示させる表示制御部と、
    前記取得部で取得された発話情報に基づいて、前記発話に対する応答を出力する出力部と、
    を備え
    前記表示制御部は、第1領域と第2領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第1領域を表示させ、前記理解度が増加するほど、前記第1領域の面積を増加させるとともに前記第2領域の面積を減少させる、ことを特徴とする情報処理装置。
  2. 前記出力部は、前記理解度が所定値以上になるまで前記発話に対する問い合わせを出力し、前記理解度が前記所定値以上になった場合に前記応答を出力することを特徴とする請求項1に記載の情報処理装置。
  3. ユーザによる発話の情報を取得するステップと、
    取得された発話情報に基づいて、前記発話の意図の理解度を導出するステップと、
    導出された前記理解度に応じた画像を表示部に表示させるステップと、
    取得された発話情報に基づいて、前記発話に対する応答を出力するステップと、
    を備え
    前記画像を前記表示部に表示させるステップにおいて、第1領域と第2領域とに分割された前記画像を前記表示部に表示させ、導出された前記理解度に所定値を加算した割合の面積で前記第1領域を表示させ、前記理解度が増加するほど、前記第1領域の面積を増加させるとともに前記第2領域の面積を減少させる、ことを特徴とする情報処理方法。
JP2018024449A 2018-02-14 2018-02-14 情報処理装置および情報処理方法 Active JP6984474B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2018024449A JP6984474B2 (ja) 2018-02-14 2018-02-14 情報処理装置および情報処理方法
US16/273,481 US10978055B2 (en) 2018-02-14 2019-02-12 Information processing apparatus, information processing method, and non-transitory computer-readable storage medium for deriving a level of understanding of an intent of speech

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018024449A JP6984474B2 (ja) 2018-02-14 2018-02-14 情報処理装置および情報処理方法

Publications (2)

Publication Number Publication Date
JP2019139658A JP2019139658A (ja) 2019-08-22
JP6984474B2 true JP6984474B2 (ja) 2021-12-22

Family

ID=67541074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018024449A Active JP6984474B2 (ja) 2018-02-14 2018-02-14 情報処理装置および情報処理方法

Country Status (2)

Country Link
US (1) US10978055B2 (ja)
JP (1) JP6984474B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6984474B2 (ja) * 2018-02-14 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259090A (ja) * 1993-03-09 1994-09-16 Nec Corp 音声対話システム
US20030140063A1 (en) * 2001-12-17 2003-07-24 Pizzorno Joseph E. System and method for providing health care advice by diagnosing system function
US6993482B2 (en) * 2002-12-18 2006-01-31 Motorola, Inc. Method and apparatus for displaying speech recognition results
JP4246548B2 (ja) * 2003-05-30 2009-04-02 日本電信電話株式会社 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体
US8825379B2 (en) * 2005-01-05 2014-09-02 Sirius Xm Connected Vehicle Services Inc. Systems and methods for off-board voice-automated vehicle navigation
US7809569B2 (en) * 2004-12-22 2010-10-05 Enterprise Integration Group, Inc. Turn-taking confidence
US20060149544A1 (en) * 2005-01-05 2006-07-06 At&T Corp. Error prediction in spoken dialog systems
GB0513786D0 (en) * 2005-07-05 2005-08-10 Vida Software S L User interfaces for electronic devices
US8140328B2 (en) * 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
US9197736B2 (en) * 2009-12-31 2015-11-24 Digimarc Corporation Intuitive computing methods and systems
JP2011209786A (ja) * 2010-03-29 2011-10-20 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8832117B2 (en) * 2012-02-06 2014-09-09 Su-Kam Intelligent Education Systems, Inc. Apparatus, systems and methods for interactive dissemination of knowledge
US8909653B1 (en) * 2012-02-06 2014-12-09 Su-Kam Intelligent Education Systems, Inc. Apparatus, systems and methods for interactive dissemination of knowledge
US9305554B2 (en) * 2013-07-17 2016-04-05 Samsung Electronics Co., Ltd. Multi-level speech recognition
US10572810B2 (en) * 2015-01-07 2020-02-25 Microsoft Technology Licensing, Llc Managing user interaction for input understanding determinations
JP6540414B2 (ja) * 2015-09-17 2019-07-10 本田技研工業株式会社 音声処理装置および音声処理方法
CN108885872A (zh) * 2016-04-11 2018-11-23 三菱电机株式会社 应答生成装置、对话控制系统以及应答生成方法
US11108708B2 (en) * 2016-06-06 2021-08-31 Global Tel*Link Corporation Personalized chatbots for inmates
US10606952B2 (en) * 2016-06-24 2020-03-31 Elemental Cognition Llc Architecture and processes for computer learning and understanding
US10446137B2 (en) * 2016-09-07 2019-10-15 Microsoft Technology Licensing, Llc Ambiguity resolving conversational understanding system
US9953650B1 (en) * 2016-12-08 2018-04-24 Louise M Falevsky Systems, apparatus and methods for using biofeedback for altering speech
US10418023B2 (en) * 2017-10-17 2019-09-17 International Business Machines Corporation Automatic answer rephrasing based on talking style
JP6984474B2 (ja) * 2018-02-14 2021-12-22 トヨタ自動車株式会社 情報処理装置および情報処理方法
US11455497B2 (en) * 2018-07-23 2022-09-27 Accenture Global Solutions Limited Information transition management platform

Also Published As

Publication number Publication date
JP2019139658A (ja) 2019-08-22
US20190251958A1 (en) 2019-08-15
US10978055B2 (en) 2021-04-13

Similar Documents

Publication Publication Date Title
US10331784B2 (en) System and method of disambiguating natural language processing requests
CN109616108B (zh) 多轮对话交互处理方法、装置、电子设备及存储介质
JP6570651B2 (ja) 音声対話装置および音声対話方法
US9396727B2 (en) Systems and methods for spoken dialog service arbitration
US7184957B2 (en) Multiple pass speech recognition method and system
US8706505B1 (en) Voice application finding and user invoking applications related to a single entity
US20180090132A1 (en) Voice dialogue system and voice dialogue method
CN111095400A (zh) 选择系统和方法
US9715877B2 (en) Systems and methods for a navigation system utilizing dictation and partial match search
EP1050872A2 (en) Method and system for selecting recognized words when correcting recognized speech
CN112270925A (zh) 用于创建可定制对话系统引擎的平台
CN111661068A (zh) 智能体装置、智能体装置的控制方法及存储介质
DE102012019178A1 (de) Verwendung von Kontextinformationen zum Erleichtern der Verarbeitung von Befehlen bei einem virtuellen Assistenten
US9202459B2 (en) Methods and systems for managing dialog of speech systems
JP7347217B2 (ja) 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
JP2019128374A (ja) 情報処理装置、及び情報処理方法
US12246676B2 (en) Supporting multiple roles in voice-enabled navigation
JP6281202B2 (ja) 応答制御システム、およびセンター
CN111724777A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP7322830B2 (ja) 情報出力システムおよび情報出力方法
JP6984474B2 (ja) 情報処理装置および情報処理方法
CN111660966A (zh) 智能体装置、智能体装置的控制方法及存储介质
JP2011065526A (ja) オペレーティングシステム及びオペレーティング方法
JP5341548B2 (ja) 音声認識装置
CN111667823A (zh) 智能体装置、智能体装置的控制方法及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200924

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210630

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210902

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211026

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211108

R151 Written notification of patent or utility model registration

Ref document number: 6984474

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151