JP6903380B2

JP6903380B2 - 情報提示装置、情報提示システム、端末装置

Info

Publication number: JP6903380B2
Application number: JP2017206494A
Authority: JP
Inventors: 及川　卓; 卓及川; 朋子金森
Original assignee: Alpine Electronics Inc
Current assignee: Alpine Electronics Inc
Priority date: 2017-10-25
Filing date: 2017-10-25
Publication date: 2021-07-14
Anticipated expiration: 2037-10-25
Also published as: JP2019079345A; US10755711B2; US20190122664A1

Description

本発明は、情報提示装置、情報提示システム、及び端末装置に関する。

音声認識を行い話者の発言の意図を解析し、適切な回答を出力する自然対話システムが知られている。自然対話システムは様々なシーンで利用されているが、例えばキー操作することが困難な車両を運転中の運転者が利用する場合がある。自然対話システムが音声で回答を出力した場合に短い回答であれば話者が理解しやすいが、長くなるほど全てを聞き取ることが困難になる。車両を運転中の運転者の場合は運転に集中しているため、なおさら全てを聞き取ることが困難になりやすい。

図１は、運転者と自然対話システムの会話例を示す。運転者は「近いうちにあるコンサートを教えて」と発言し、自然対話システムが「カレンダーの空き時間にあるコンサートはロック３件、クラシック２件となります。奥様とのご予定のある時間帯をお探しですか？」と回答している。しかしながら、回答の情報量が多く運転者は内容を把握できていない。

問い合わせに対しテキストデータをディスプレイ等に表示する自然対話システムも知られているが、車両の運転中に運転者がテキストデータを注視することは困難である。このような不都合に対し、運転者への回答を選択肢で表示する技術が考案されている（例えば、特許文献１参照。）。特許文献１には運転者が指定した行き先を選択肢で表示し、行き先を絞り込む要求判定装置が開示されている。選択肢であれば比較的短時間に運転者が選択できるため、ディスプレイを注視することなく対話を継続することができる。

特開２００１−２９６８８８号公報

しかしながら、選択肢を表示するだけでは何についての選択肢であるかを運転者が判断できない場合があり、運転者が内容を把握しにくいという問題が解決されない。例えば、コンサート会場を３つ表示したとしてそれぞれのコンサート会場で何が演奏されるかまでは分からない場合がある。仮に、コンサート会場ごとにコンサートのジャンルをテキストで付記したとしても、ディスプレイの注視時間が長くなってしまう。

なお、ここでは車両の運転者を例に説明しているが、例えば、スマートフォンなどを携帯して歩行する歩行者もスマートフォンを長時間注視することは好ましくないため、歩行者においても同様の問題がある。また、必ずしも自然対話システムのユーザが移動していなくても長い音声の全てを聞き取りにくいことは生じうる。

本発明は上記課題に鑑み、内容を把握しやすい態様で情報を提示する情報提示装置を提供することを目的とする。

本発明は、表示手段と、ユーザからの音声又は操作による入力を受け付ける入力受付手段と、前記入力受付手段が受け付けた入力に基づいて回答文章で回答する情報を検索する検索手段と、前記検索手段が検索した情報に含まれる単語を用いて、前記入力受付手段が受け付けた入力に対する回答文章を生成する回答生成手段と、前記回答生成手段によって生成された前記回答文章に含まれる単語に関連する、画像である付加情報を取得する付加情報取得手段と、前記回答文章を音声で出力する音声出力手段と、前記付加情報を前記表示手段に出力する情報出力手段と、を有し、前記付加情報取得手段は、前記付加情報として前記単語ごとに画像を取得し、前記情報出力手段は前記付加情報の画像を選択肢として表示することを特徴とする情報提示装置を提供する。

内容を把握しやすい態様で情報を提示する情報提示装置を提供することができる。

運転者と自然対話システムの会話例を示す図である。自然対話システムによる回答の提示例を示す図である。自然対話システムの概略構成図の一例である。車載端末装置の一例としてのハードウェア構成図である。自然対話システムが有する車載端末装置、及び、対話制御サーバの機能をブロック状に示す機能ブロック図の一例である。対話制御部の機能をブロック状に示す機能ブロック図の一例である。ＦＳＴによる入力理解を説明する図の一例である。フレームと呼ばれるデータ構造で示す意図理解結果の一例である。ユーザ発言か否かの判断を説明するためのフレームの一例を示す図である。自然対話システムが音声データに基づいてアイコンを表示する手順を示すシーケンス図の一例である。アイコン決定部がアイコン７を決定する手順を示すフローチャート図の一例である。自然対話システムによる回答の提示例を示す図の一例である。自然対話システムによる回答の提示例を示す図の一例である。自然対話システムによる回答の提示例を示す図の一例である。自然対話システムによる回答の提示例を示す図の一例である。自然対話システムによる回答の提示例を示す図の一例である。ディスプレイに表示されたアイコンを示す図の一例である。選択肢が省略されて表示される場合のアイコンの表示例を示す図である。アイコンの表示例を示す図である。車両が停止した場合のアイコンの表示例を説明する図である。同音異義語を含む回答文章を対話制御部が構築した場合にディスプレイに表示されるアイコンの一例を示す図である。

以下、本発明を実施するための形態について図面を参照しながら説明する。

＜自然対話システムの動作の概略＞
図２は、本実施形態の自然対話システムによる回答の提示例を示す図である。本実施形態の自然対話システムは、自然対話システムが認識している話題をアイコンとして表示する。なお、以下ではアイコンの符号を７とし、各アイコン７を区別するためにアルファベットを付す。
（１）運転者が「レストラン」と発言する。
（２）自然対話システムは「レストラン」を音声認識することで、レストラン検索要求であると判断し、レストランを検索する。検索の結果、「評判のレストランが３件あります」という音声を出力する。
（３）また、自然対話システムはレストランを表すアイコン７ａとレストランの選択肢６をディスプレイ１６に表示する。
（４）運転者は選択肢６からレストランを選択することができるが、図２では「ロブスターがおいしい店がいいな」と発言している。
（５）自然対話システムは「ロブスターがおいしい店がいいな」を音声認識することで、レストランのジャンルとして運転者がロブスターを指定したと判断し、ロブスターを提供するレストランを検索する。レストランの検索にはエリアが必要になるため、自然対話システムはレストランのエリアを補足する。例えば、運転者の属性に海が好きであるという属性が登録されていたり、現在地が海の近くであったりすることを利用して「海辺の」という言葉を補足する。検索されたレストランが海辺のレストランであったことを事後的に利用してもよい。検索の結果、自然対話システムは「海辺のロブスターのおいしいレストランをお勧めします。」という音声を出力する。
（６）自然対話システムは発言の中の単語から、運転者が話題にしている単語に関連するアイコンを決定する。例えば、海辺を表すアイコン７ｂとロブスターを表すアイコン７ｃと共にレストランの選択肢６をディスプレイ１６に表示する。このうち海辺を表すアイコン７ｂは運転者が発言していない単語から決定されたアイコンである。運転者は選択肢６からレストランをタップして詳細な情報を要求したり、予約したりすることができる。

このように、本実施形態の自然対話システムは、認識した話題の趣旨をアイコン７で表示する。これにより、運転者は自然対話システムの発言（レコメンドされていること）の大枠を直感的に理解できるようになる。例えば、（５）で自然対話システムは「海辺の」というエリアに関する発言をしているが、運転者は海辺とは発言していないので、海辺という話題を予測していない。運転者は予測していない話題を聞き取れなかったり聞き漏らしたりする可能性が高くなるが、本実施形態の自然対話システムは（６）に示すように海辺を表すアイコン７ｂを表示するため、運転者は自然対話システムの発言を直感的に理解できる。

＜用語について＞
特許請求の範囲の回答文章とは、自然対話システムが提示する文章を言う。必ずしも質問と回答が適合していなくてもよい。自然対話システムが脈略なく話題を変えたり、自然対話システムから話しかけたりする場合も含まれる。

付加情報とは回答文章に含まれる単語に関連する情報であり、主に単語の理解を補助、支援、補足するための情報である。付加情報はアイコンなどの画像の他、音や匂いでもよい。本実施形態ではアイコンという用語で説明する。

＜構成例＞
図３は自然対話システム１００の概略構成図の一例である。自然対話システム１００は、対話制御サーバ５０、及び、ネットワークＮを介して通信する車載端末装置１０を有する。ネットワークＮは携帯電話網、無線ＬＡＮ網、又は、ＷｉＭＡＸ通信網などの通信事業者が提供する公衆回線とプロバイダ（インターネットに接続するためのサービスを提供する企業）が提供するプロバイダネットワークとを有している。通信事業者の公衆回線に車載端末装置１０が接続するためにネットワークＮには基地局９が接続されている。

対話制御サーバ５０は、運転者と対話する情報処理装置である。対話制御サーバ５０は提示する情報を生成するという意味で情報提示装置の一例である。特定のタスクの達成を目的にするものをタスク指向型対話システムと呼び、雑談的に対話を続けるものを非タスク指向型対話システムと呼ぶ。本実施形態では主に前者が想定されるが後者のシステムでもよい。なお、対話制御サーバ５０はその機能が車載端末装置１０に搭載されていてもよい。この場合、対話制御サーバ５０は不要になる。また、本実施形態では、対話制御サーバ５０が音声認識するとして説明するが、音声認識を別のサーバが行ってもよい。

車載端末装置１０は情報を提示するという意味で情報提示装置の一例である。車載端末装置１０は出発地から目的地までの経路を検索して道路地図に設定し、ディスプレイに表示された電子地図に経路と現在地を表示したり、経路に基づいて進路変更の手前で音声案内や電子地図上のアニメーションなどで適切な進路を案内したりする。この他、ＡＶ(Audio Visual)の再生機能、インターネットとの通信機能等を有していてよい。運転者は案内にしたがって車両８を操作することで目的地まで到達できる。この車載端末装置１０の機能のうち経路の検索を所定のサーバが行い経路を車載端末装置１０に提供してもよい。更に、車両８の位置情報を車載端末装置１０が所定のサーバに送信することで、所定のサーバが経路の検索と進路の案内を行ってもよい。

車載端末装置１０は、汎用的な情報処理端末である場合とナビゲーション専用端末（ＰＮＤ（Portable Navigation Device）とも呼ばれる。）の場合がある。汎用的な情報処理端末として、例えば、スマートフォン、タブレット端末、携帯電話、ＰＤＡ（Personal Digital Assistant）、ノートＰＣ、及び、ウェアラブルＰＣ（例えば、腕時計型、サングラス型など）などがある。これらの装置は、普段は情報処理端末として利用されるが、ナビゲーションのためのアプリケーションソフトウェアを実行すると、ナビゲーション専用端末と同様、経路検索及び経路案内等を行う。

このような機能を有する装置をナビゲーション装置というが、本実施形態の車載端末装置１０は車載される装置に特有の機能を有する必要はなく、後述するように対話制御サーバ５０と自然対話することができればよい。したがって、車載端末装置１０はナビゲーション装置に限られない。

また、車載端末装置１０は、汎用的な情報処理端末とナビゲーション専用端末の連携（通信）により実現されてもよい。汎用的な情報処理端末に搭載されるアプリが実質的な自然対話の機能を提供し、このアプリが生成する画面をナビゲーション専用端末が通信で取得して表示する。このようなアプリとしてCarPlay（登録商標）やAndroid Auto（登録商標）等が知られている。

このように汎用的な情報処理端末と連携する場合、車載端末装置１０はディスプレイオーディオ（又はコネクティッドオーディオ）と呼ばれる装置であってもよい。ディスプレイオーディオはナビゲーションの機能を搭載せずに主にＡＶ機能と通信機能を提供する装置である。

車載端末装置１０は、汎用的な情報処理端末とナビゲーション専用端末のどちらの場合でも、車載された状態と携帯可能な状態の切り替えが可能であってもよい。つまり、車載端末装置１０は、車両８に脱着可能であってよい。

＜装置のハードウェア構成＞
図４は、車載端末装置１０の一例としてのハードウェア構成図である。車載端末装置１０は制御部２２により制御され、制御部２２には、カメラ１１を制御したり画像処理を行ったりするカメラ制御部１２、ＧＰＳ受信機１３、自律航法用センサ１４、ハードキー１５、タッチパネル１７付きのディスプレイ１６、スピーカ１８、マイク１９、ＨＵＤ（Head Up Display）２０、及び、通信装置２１が接続されている。図示されたハードウェア要素はナビゲーション装置であるもの想定されているが、車載端末装置１０は情報処理装置としての機能を有していればよく、図４は一例のハードウェア要素であるにすぎない。

制御部２２は、マイコン、又は、コンピュータと呼ばれる機能を有し、車載端末装置１０の全体を制御すると共に情報の入力、処理（加工）及び出力を行う。制御部２２は、ＣＰＵ２２ａ、ＲＡＭ２２ｂ、ＲＯＭ２２ｃ、及びフラッシュメモリ２２ｄ等を有するが、この他、ＣＡＮコントローラ、タイマ、Ｉ／Ｏポートなど一般的なＥＣＵ（Electronic Control Unit）と同様の機能を備えている。また、フラッシュメモリ２２ｄの容量不足を補うためにＨＤＤ（Hard Disk Drive）が制御部２２に接続されていてもよい。

カメラ１１は入射した光をＣＣＤやＣＭＯＳなどの光電変換素子により輝度情報を有する画像データに変換する撮像装置である。カメラ１１は定期的に画像データをカメラ制御部１２に送出する。本実施形態においてカメラ１１は運転者の顔画像を撮像するように例えばメータパネルに配置される。カメラ１１は運転者の顔画像を撮像することで車載端末装置１０が眠気を検出したり、運転者の感情を通信装置が対話制御サーバ５０に送信したりすることで、種々の感情に応じた対話を可能にする。

カメラ制御部１２はカメラが撮像した画像データに画像処理を施すＩＣである。本実施形態では喜怒哀楽や眠気などを画像処理により検出する。カメラ制御部１２は、ディープラーニング、サポートベクターマシン、ニューラルネットワーク、ランダムフォレストなどの機械学習のアルゴリズムで、これら顔画像の特徴と喜怒哀楽や眠気との関係を学習しており、運転者がどのような感情に支配されているかを判断できる。なお、感情の検出は対話管理サーバが行ってもよい。

ＧＰＳ受信機１３はＧＰＳ衛星を利用して自車位置を測位する。自律航法用センサ１４は加速度センサ、ジャイロセンサ及び地磁気センサ等、自律航法で自車位置や姿勢を推定するためのセンサである。

ハードキー１５は、運転者による使用頻度が高いスイッチ、ボタン又はタッチセンサ類であり、例えば、電源ボタン、音量の増減ボタン、ＣＤ／ＤＶＤの取り出しボタン等である。ステアリングスイッチも含まれる。ディスプレイ１６は、例えばＬＣＤ（Liquid Cristal Display）や有機ＥＬなどの表示装置である。ディスプレイ１６はタッチパネル１７を一体に有しており、タッチパネル１７はユーザの手指などが接触した座標を検知し制御部２２に出力する。ディスプレイ１６には自然対話システム１００が認識した話題に関するアイコンと選択肢６が表示される。

スピーカ１８は進路方向を音声で出力する他、対話管理サーバが送信した回答文章を音声で出力する。マイク１９は運転者の音声を認識するために音声を集音する。音声認識は車両と任意のサーバのどちらで行われてもよい。ＨＵＤ２０は運転者の視界に設置された半透明のコンバイナー（フロントガラス）に情報を表示する表示装置である。自然対話システム１００が認識した話題に関するアイコンと選択肢６はＨＵＤ２０に表示されてもよい。通信装置２１は３Ｇ，４Ｇ、無線ＬＡＮ、ＷｉＭａｘなどの通信事業者の基地局９と通信し、各種の情報を送受信する。

なお、対話制御サーバ５０のハードウェア構成は、一般的な情報処理装置のハードウェア構成と同様とする。すなわち、一般的な構成としてＣＰＵ、ＲＡＭ、ＲＯＭ、ＨＤＤ（Hard Disk Drive）、ネットワークカード、入力装置、及び、出力装置を有するため、図示は省略した。なお、対話制御サーバ５０はクラウドコンピューティングに対応していてもよい。また、対話制御サーバ５０は対話管理サーバ、会話制御サーバ、おしゃべりサーバ等、任意の名称で呼ばれてよい。

＜自然対話システムの機能について＞
図５は、自然対話システム１００が有する車載端末装置１０、及び、対話制御サーバ５０の機能をブロック状に示す機能ブロック図の一例である。

<<車載端末装置>>
車載端末装置１０は、音声取得部３１、音声データ送信部３２、システム発言取得部３３、表示情報取得部３４、発言出力部３５、表示制御部３６、操作受付部３７、及び対話情報保持部３８を有する。車載端末装置１０が有するこれらの各機能は、制御部２２のフラッシュメモリ２２ｄからＲＡＭ２２ｂに展開されたプログラムをＣＰＵ２２ａが実行することにより実現される機能又は手段である。

音声取得部３１は、例えばステアリングスイッチが押下されている間にＯＮ（オン）となりマイクが集音した音声を電気信号に変換して音声データとして取得する。音声データ送信部３２は、音声取得部３１が取得した所定時間分（例えば２０ミリ秒）の音声データを繰り返し対話制御サーバ５０に送信する。所定時間は音声認識に有利な時間として設定されている。通信プロトコルは特に限定されず、一例として移動体の通信に適した通信プロトコルが使用されればよい。なお、対話制御サーバ５０のＩＰアドレスは予め既知であるとする。

システム発言取得部３３は、対話制御サーバ５０が生成した回答文章を取得する。システム発言取得部３３は対話制御サーバ５０が新らに発言するごとに回答文章を取得する。あるいは、運転中や車内での会話中等の場合は、運転者が一時的に回答文章の受信を中断しておくこともできる。この場合は、運転者が回答文章の受信を再開した場合に、回答文章が受信される。回答文章の送信が中断されるとアイコンの送信も中断される。

発言出力部３５は、回答文章をスピーカ１８から出力する。回答文章がすでにＭＰ３やＰＣＭのフォーマットの音声データになっている場合はそのまま再生すればよい。回答文章がテキストデータで送信される場合は音声合成を行う。

表示情報取得部３４は、対話制御サーバ５０が生成したアイコン７と選択肢６を取得する。この他、選択肢６に関する詳細な情報を受信することができる。アイコン７のみの場合もあるし、選択肢６のみの場合もある。これらはディスプレイ１６又はＨＵＤ２０に表示されるため、回答文章の出力前、出力中又は出力後に運転者が見ることができる。回答文章とアイコン７（選択肢６がある場合は選択肢６も含む）はほぼ同時に対話制御サーバ５０から送信されることが好ましいが、通信の遅延などにより若干の時間差があってもよい。対話制御サーバ５０は回答文章に合わせてアイコン７が表示されるように可能な限り同期させてこれらを送信する。少なくとも、１周期前のアイコン７が送信される前に次の周期の回答文章が取得（又は表示）されないように対話制御サーバ５０が制御することは好ましい。

システム発言取得部３３が取得した回答文章と表示情報取得部３４が取得したアイコン７と選択肢６等は表１に示す対話情報保持部３８に記憶される。これにより、運転者が後から回答文章等を確認できる。

表示制御部３６はアイコン７及び選択肢６を受信した順にディスプレイ１６又はＨＵＤ２０の少なくとも一方に時系列に表示していく。また、表示制御部３６は時間的又は会話の履歴的に古くなったアイコン７の表示態様を変更する（例えば、選択肢を隠す）ことができる。また、運転者の操作が受け付けられると、表示制御部３６は選択肢６に関する詳細な情報を表示してもよい。

操作受付部３７は車載端末装置１０に対する各種の操作を受け付ける。本実施形態ではアイコン７に対するタップを受け付け、表示制御部３６や発言出力部３５に通知する。これにより、表示制御部３６は選択肢の表示と非表示を切り替えたり、発言出力部３５が回答文章を再度、出力したりすることができる。また、操作受付部３７は運転者からのテキスト入力（キータイプによる入力）を受け付けてもよい。テキストによっても自然対話は可能である。

表１は対話情報保持部３８に記憶される対話情報を模式的に示す。対話情報は、対話ＩＤ、ユーザ発言、回答文章、アイコン、選択肢、及び、詳細情報の各項目を有する。対話ＩＤは対話を識別するための識別情報であり、ユーザ発言とこれへの回答である回答文章に対しそれぞれ付与される。ユーザ発言は運転者の発言内容であり、回答文章は対話制御サーバ５０の発言内容である。アイコンは対話制御サーバ５０が送信したアイコンであり、選択肢６も同様である。詳細情報は選択肢６に対応付けて対話制御サーバ５０から送信される選択肢６の住所、電話番号、ホームページのＵＲＬ等である。なお、ユーザ発言が車載端末装置１０以外で音声認識される場合、車載端末装置１０が送信した音声データに対し対話制御サーバ５０等から認識されたテキストデータがフィードバックされる。

１つの回答における回答文章とアイコン７（及び選択肢）を対応付けるため、対話制御サーバ５０は回答文章とアイコン７に同じ識別情報を付与して車載端末装置１０に送信してもよい。相対的な時間差が閾値内の回答文章とアイコン７が同じ対話ＩＤに対応付けられてもよい。

<<対話制御サーバ>>
対話制御サーバ５０は音声データ受信部５１、単語抽出部５２、システム発言送信部５３、表示情報送信部５４、対話制御部５５、ユーザ情報管理部５６、外部情報取得部５７、及び、ユーザ情報ＤＢ５８を有する。対話制御サーバ５０が有するこれらの機能は、対話制御サーバ５０のＣＰＵがプログラムを実行して対話制御サーバ５０のハードウェアと協働することで実現される機能又は手段である。

音声データ受信部５１は、車載端末装置１０から音声データを受信する。音声データ受信部５１は受信した音声データを順次、単語抽出部５２に送出する。これにより、音声データは単語列に変換される。文字単位に変換される場合はテキストデータが出力されるため、その場合は形態素解析により単語（自立語）に分解される。単語抽出部５２はシステム発言送信部５３を介して、運転者の発言をユーザ発言として車載端末装置１０に送信する。また、単語列は対話制御部５５に送出され、対話制御部５５は単語列に基づいて対話を制御する。

単語抽出部５２による単語の抽出は公知の方法を採用すればよいので簡単に説明する。単語抽出部５２は、音声データを単語列に変換する。単語抽出部５２は、特徴を抽出しやすくするための前処理、特徴を抽出する特徴抽出処理、及び、音声データを音素に変換する識別演算処理を行う。単語抽出（音声認識）は対話制御サーバ５０とは別の音声認識サーバが行い、対話制御サーバ５０は変換結果である単語列を取得してもよい。また、車両側に音声認識機能が搭載されていてもよく、この場合は対話制御サーバ５０の単語抽出部５２は不要になる。

システム発言送信部５３は、対話制御部５５が生成した回答文章を車載端末装置１０に送信する。表示情報送信部５４は、対話制御部５５が生成したアイコン７及び選択肢６を車載端末装置１０に送信する。

ユーザ情報管理部５６はユーザに関する情報を表２に示すユーザ情報ＤＢ５８にて管理しており、対話制御部５５からの問い合わせに対しユーザに関する情報に基づいて回答する。これにより、対話制御部５５はユーザ毎に適切な対話を行うことができる。外部情報取得部５７はインターネット検索等を行ったり所定のサーバのＡＰＩ（Application Interface）を介して所望の情報を取得したりする。

表２は、ユーザ情報ＤＢ５８に記憶されている情報を模式的に示す。ユーザ情報ＤＢ５８には、一例として、性別、生年月日、好きなエリア、好きな食事、好きなニュース、趣味等のユーザの属性が登録されている。これにより、対話制御部５５はユーザの属性に適合した回答文章を出力できる。また、ユーザ情報ＤＢ５８にはユーザのスケジュールが登録されているか、又は、外部のスケジュール管理サイトと連携できるようになっている。これにより対話制御部５５はユーザのスケジュールに適合した回答文章を出力できる。また、ユーザ情報ＤＢ５８には「奥様との連携」の有無が登録されている。奥様との連携とは、回答文章の構築において、運転者の奥様のスケジュールを考慮するか否かを示す。「奥様との連携」が有りの場合、ユーザ情報ＤＢ５８には奥様のスケジュールも登録されているものとする。「奥様との連携」の項目がなくてもスケジュールが奥様と共有の場合には、対話制御部５５は運転者の奥様のスケジュールを考慮すると判断してよい。なお、奥様以外の友人知人と連携してよい。

＜対話制御部の機能について＞
続いて、図６を用いて対話制御部５５について説明する。図６は、対話制御部５５の機能をブロック状に示す機能ブロック図の一例である。なお、対話制御部５５は人工知能（ＡＩ）により実現されることが多く以下は回答文章の構築例の一形態に過ぎない。例えば、回答文章は、運転者の過去の発言等の学習結果に応じて構築される。

対話制御部５５は、入力理解部６１、内部状態更新部６２、内部状態記憶部６３、処理決定部６４、外部連携部６５、出力生成部６６、及びアイコンＤＢ６７を有する。適宜、図７、図８を参照して図６の機能ブロックについて説明する。

入力理解部６１は、入力された単語列、ジェスチャ、画像データなどをコンピュータが扱える表現に変換する。本実施形態では単語列が主に入力されるものとして説明するが、ジェスチャや画像データが入力に使用されてもよい。入力理解部６１は、単語列から発言の意味を判断する。入力理解を実現する一例としてＦＳＴ（Finite State Transducer）が知られている。

図７はＦＳＴによる入力理解を説明する図の一例である。なお、図７はレストラン検索要求という対話行為における入力理解に関するＦＳＴである。ＦＳＴは、初期状態から入力された単語列が入力ラベルと一致するパスを辿って、最終状態に辿り着いた時にパスの出力ラベルをつなぎ合わせたものを出力する。図７では「：」の左側が入力ラベル、右側が出力ラベルである。「ε」は空集合を意味し、入力ラベル又は出力ラベルが省略されることを可能にしている。

例えば「東京のイタリアンのレストランを教えて」という単語列が入力されると、ＦＳＴは単語列に一致する入力ラベルの右側の出力ラベルを出力する。したがって、エリア＝東京、ジャンル＝イタリア料理、対話行為タイプ＝レストラン検索要求、が得られる。仮に、単に「レストラン」という単語が入力された場合には、対話行為タイプ＝レストラン検索要求、という出力が得られる。対話行為タイプが決定されると、対話管理が可能になる。

内部状態更新部６２は入力理解の結果に応じて内部状態６３ａを更新する。内部状態６３ａには対話行為に関するあらゆる情報が含まれうる。ただし、どのような情報を保持しておくかは設計によって異なる。一例として、内部状態６３ａには、運転者と自然対話システム１００の対話の履歴、対話行為タイプで決まるフレーム（図８に示す）の意図理解結果、外部連携部６５が外部と通信した場合のアクセス結果、運転者と自然対話システム１００のどちらが発言すべきか、という談話義務、及び、現在地等が保持される。

図８はフレーム７０と呼ばれるデータ構造で示す意図理解結果の一例である。内部状態更新部６２は、対話行為タイプに応じて予め定められているシンボルと属性の集合であるフレームで対話を管理する。つまり、対話の進捗に応じてフレームが有するシンボルの属性を更新する。図８で「：」の左側がシンボル、右側が属性である。１つの対話行為タイプにおいてシンボルと属性の集合がフレーム７０である。全てのシンボルに対し属性が定まると１つの対話行為が完了したことになる。なお、このような意図理解の方法は一例に過ぎず、例えばベイジアンネットワークのような確率モデル等が用いられてもよい。

処理決定部６４は内部状態を適宜参照し、自然対話システム１００が次にどのような行動を取るべきかを決定する。処理決定部６４は発言決定部６４ａとアイコン決定部６４ｂを有する。発言決定部６４ａは内部状態、ユーザの属性、検索結果などに基づき回答文章を構築する。発言の構築には適宜、人工知能が使用される。アイコン決定部６４ｂは回答文章から判断される話題からアイコンを決定する。例えば、発言決定部６４ａはレストラン検索要求という対話行為では図８のようなフレーム７０を満たすための回答文章を構築する。図８のように属性が定まっていないシンボルを抽出して「どのエリアでレストランを探しますか」という対話を指示する。

また、発言決定部６４ａは、外部連携部６５を介して運転者のユーザ情報ＤＢ５８を参照し「気を利かせる」こともできる。例えば、「奥様との連携」が有りの場合（又はスケジュールが奥様と共有されている場合）、処理決定部６４は運転者と奥様の両方が空いている時間帯を検索することができる。あるいは、奥様の属性（例えば、趣味や嗜好等）を考慮してレストランを検索することもできる。

また、ユーザ情報ＤＢ５８に好きな食事、好きなエリア、趣味等が登録されていれば、フレーム７０でジャンルの属性が定まっていなくても、発言決定部６４ａは運転者の好きなジャンルのレストランの検索結果を対話で出力できる。

発言決定部６４ａは、フレーム７０に含まれる全てのシンボルの属性が定まるか、運転者に関する情報に基づいて検索が可能になると、外部連携部６５にフレーム７０が保持する情報を渡して、検索を指示する。フレーム７０が保持する情報は、例えばレストランの検索条件なので、これにより、外部情報取得部５７がレストランに関する情報を取得して、発言決定部６４ａがレストランの情報を提供できるようになる。

アイコン決定部６４ｂは回答文章に基づいてアイコン７と選択肢６を決定する。アイコン決定部６４ｂはアイコンＤＢ６７を参照できる。アイコンＤＢ６７には単語に対応付けてアイコンが登録されている。

出力生成部６６は、処理決定部６４が構築した回答文章及びアイコン７と選択肢６を車載端末装置１０に送信する。これにより、例えば「海辺のロブスターのおいしいレストランをお勧めします。」という回答文章、レストランのアイコン、３件の店名とその詳細などが車載端末装置１０に送信される。

出力生成部６６は、回答文章を出力するためにいわゆる音声合成を行う。どのような方法で音声合成を行ってもよい。例えば、テキストの言語解析を行い読みに変換し、単語の意味に適したアクセントや間（ま）を決定する。次に、読みに対する音声波形データが登録されたデータベースを参照し、テキストデータに沿って音声波形データを並べ、音声波形データ同士が滑らかに接続されるように音声波形データの端部を補正する。音声合成は車両で行ってもよい。

表３はアイコンＤＢ６７に登録されている単語とアイコンの対応を示す。アイコンＤＢ６７には単語に対応付けてアイコンが登録されている。したがって、アイコン決定部６４ｂは回答文章に含まれる単語に対応付けられているアイコンを特定できる。回答文章に含まれる単語がアイコンＤＢ６７に登録されていない場合、処理決定部６４は外部連携部６５を使ってインターネットからアイコンを検索して取得することができる。なお、表３のアイコンは一例に過ぎない。

＜回答文章の構築とアイコンの選択＞
発言決定部６４ａは運転者に確認を求めたり、検索結果を提供したりする回答文章を構築する。構築方法は特に制約がなく、予め保持するフォーマットに単語や検索結果を当てはめればよい。例えば、レストラン検索要求の場合、「評判のレストランがＡ件あります」「ＢのＣがおいしいレストランをお勧めします」などのフォーマットが決まっており、Ａ，Ｂ、Ｃに検索で得た情報又は検索に使った単語を当てはめる。Ａは数字であり、Ｂはユーザの属性やユーザ発言から取得したエリアに関する単語であり、Ｃはユーザの属性又はユーザ発言から取得して検索に使用した食材又は食事に関する単語である。

例えば、運転者が「ロブスター」と発言し、発言決定部６４ａがユーザの属性からエリアとして「海辺」を取得し、ロブスターと海辺で検索した場合、Ｂは「海辺」でありＣは「ロブスター」である。このように、単語の意味が分かっていれば適切なフォーマットを使用して回答文章を構築できる。

次に、アイコンの選択方法を説明する。アイコン決定部６４ｂは例えば以下のような規則でアイコンを用意する。
(i) 回答文章に含まれる全ての自立語
(ii) ユーザが過去に発言していない単語
(iii) フレーム７０の属性のうちユーザが発言していない属性
(i)のように回答文章に含まれる全ての自立語には(ii)(iii)が含まれる。また(ii)のようにユーザが過去に発言していない単語には(iii)が含まれる。本実施形態の自然対話システム１００は、認識している話題をアイコンとして表示するものであるが、(i)によりそれが満たされる。また、ユーザが予測していないこと、又は、考えていないことをアイコンで表示することで話題の確認を可能とすることは(ii)(iii)により可能となる。(ii)については内部状態の対話履歴を参照することで実現できる。(iii)についてもフレーム７０の属性値がユーザ発言に含まれているかどうか対話履歴を参照して判断することで実現できる。このような規則により、運転者が仮に予測又は考えていなくても運転者に確認を求める単語に関連するアイコンが提示される。

図９は、ユーザ発言か否かの判断を説明するためのフレーム７０の一例を示す。この例では「海辺」についてはユーザが発言していないことが検出される。

アイコン数には(i)＞(ii)＞(iii)の大小関係があるが、アイコンが少ないと情報量も減る。どのくらいのアイコンの数が適切かはユーザによって異なるので、運転者が(i)〜(iii)から好みの設定を選択してよい。また、(i)〜(iii)のいずれをアイコン決定部６４ｂが方針としていても、上限のアイコンの数を超えないようにアイコン７の数を制限することができる。この上限のアイコンの数を運転者が設定してもよい。制限の際は、(iii)＞(ii)＞(i)の順に優先順位を高くする。したがって、フレーム７０のシンボルのうちユーザが発言していない単語又はユーザが過去に発言していない単語はアイコン７で表示される可能性を高くできる。

＜動作手順＞
図１０は、本実施形態の自然対話システム１００が音声データに基づいてアイコン７を表示する手順を示すシーケンス図の一例である。

S1：車載端末装置１０の音声取得部３１は運転者の音声を取得して音声データに変換し、音声データ送信部３２が音声データを対話制御サーバ５０に送信する。

S2：対話制御サーバ５０の音声データ受信部５１は音声データを受信し、単語抽出部５２が音声データに音声認識処理を施し１つ以上の単語（単語列）に変換する。

S3：対話制御部５５の入力理解部６１は単語列から発言の意味を判断し、内部状態更新部６２が内部状態を更新する。すなわち、レストラン検索要求のような対話行為タイプを決定し、対話行為タイプで定まるシンボルに属性を設定する。

S4：発言決定部６４ａは属性が定まっていないシンボルを特定して、このシンボルの属性を問い合わせる回答文章を構築したり、発言を確認するための回答文章を構築したりする。また、アイコン決定部６４ｂは回答文章に含まれる話題をアイコン７に変換する。アイコン７への変換の詳細を図１１にて説明する。出力生成部６６は回答文章とアイコンを出力する。また、何らかの検索結果が得られた場合、アイコン決定部６４ｂは予め定められた優先順位に基づいて選択肢６も決定する。例えば、検索結果の上位から３つ、現在地から近い順に３つ、現在の日時から近い順に３つなどである。

S5：システム発言送信部５３は回答文章を送信し、表示情報送信部５４はアイコン７を送信し、更に選択肢６がある場合は選択肢６を送信する。なお、アイコン７がない場合もあってよい。

S6：車載端末装置１０のシステム発言取得部３３は回答文章を取得し、表示情報取得部３４はアイコン７と選択肢６を受信する。車載端末装置１０の発言出力部３５は回答文章をスピーカ１８から出力する。

S7：表示制御部３６はアイコンと選択肢６を予め決まっているフォーマットで表示する。例えば、選択肢の先頭にアイコン７を配置し、選択肢に１、２、３のような番号を付与する。なお、ステップＳ６とＳ７は順不同である。

図１１は、アイコン決定部６４ｂがアイコン７を決定する手順を示すフローチャート図の一例である。

発言決定部６４ａは、ユーザの属性、ユーザ発言、及び、これらで検索された検索結果から回答文章を構築する（Ｓ１２−１）。

次に、発言決定部６４ａはユーザが発言していないが、フレームが有するシンボルの属性が回答文章に含まれているか否かを判断する（Ｓ１２−２）。内部状態には運転者の過去のユーザ発言が登録されており（対話履歴）、それがフレーム７０のシンボルに含まれているか否かにより、発言決定部６４ａはユーザが発言していないシンボルの属性を回答文章から特定できる。フレーム７０の属性は対話行為を進行させるために参照され、検索にも使用されるため重要であるが、これがアイコン７で表されるため、運転者は自分が予測していない話題をアイコンで確認できる。

次に、アイコン決定部６４ｂはアイコンＤＢ６７から回答文章の単語に対応付けられたアイコン７を取得する（Ｓ１２−３）。

アイコン決定部６４ｂは回答文章に運転者が過去に発言していない単語があるか否かを判断する（Ｓ１２−４）。内部状態の対話履歴と回答文章を比較して回答文章にあって、対話履歴にはない単語を特定する。

アイコン決定部６４ｂはアイコンＤＢ６７から回答文章の単語に対応付けられたアイコン７を取得する（Ｓ１２−５）。

次に、アイコン決定部６４ｂは回答文章のその他の自立語のアイコン７を取得する（Ｓ１２−６）。その他の自立語とは、ステップＳ１２−２とＳ１２−４で検出された単語以外の自立語である。

処理決定部６４は１つの回答文章に付随するアイコン７の数を調整する（Ｓ１２−７）。アイコン７の数があまりに多いと運転者が却って見づらいため、上限値以下になるようにアイコン７の数を調整する。アイコン７の優先順位は上記のとおりである。なお、アイコン７の数の調整は行わなくてもよい。また、運転者がアイコン７の数を調整するか否かを調整したり、上限の数を決定したりできてもよい。

次に、処理決定部６４は回答文章の出現順にアイコン７を並べ替える（Ｓ１２−８）。これにより、回答文章の単語とアイコン７の出現順が同じになるので、運転者は意味を把握しやすくなる。なお、発言決定部６４ａはアイコン７の元になった単語に対しその旨を添付して回答文章と共に車載端末装置１０に送信することも有効である。車載端末装置１０の発言出力部３５は回答文章のうちアイコン７の元になった単語を強調して出力することができるので、運転者は回答文章とアイコン７との関係をつかみやすくなる。強調して出力するとは、音量を大きくしたり、声の波長を変えたり、前後の単語との間で間をあけたりすることなどをいう。また、表示制御部３６が回答文章をディスプレイ１６又はＨＵＤ２０に表示することもできるが、その際にアイコン７の元になった単語を強調して表示できる。例えば、色、太さ又はフォントの１つ以上を変えて強調する。

＜ユースケース１＞
以下では、運転者と対話制御サーバ５０の対話によりディスプレイ１６に表示されるアイコン７をいくつかのユースケースに分けて説明する。

図１２は、本実施形態の自然対話システム１００による回答の提示例を示す図である。
（１）運転者が「近くの駐車場を教えて」と発言する。
（２）対話制御サーバ５０の入力理解部６１はこの発言の意味を理解することで駐車場の検索要求であると判断するが、エリアに関する発言がなく検索するために最低限必要なシンボルの属性がないと判断し、対話制御部５５の発言決定部６４ａが「目的地周辺と現在地周辺どちらの駐車場をお探しですか?」と発言する。
（３）また、アイコン決定部６４ｂは「目的地周辺と現在地周辺どちらの駐車場をお探しですか?」という回答文章から、フレーム７０のエリアに関する単語で運転者が過去に発言していない単語として、「目的地周辺」と「現在地周辺」を特定し、これらを表すアイコン７ｄ、７ｅ及び疑問形を表すアイコン７ｆをディスプレイ１６に表示する。疑問形を表すアイコン７ｆにより運転者に回答を促すことができる。
（４）運転者は回答文章とアイコン７の少なくとも一方から駐車場のエリアを指定する必要があると判断し「ん？ああ、目的地の近くの駐車場を教えて」と発言する。
（５）入力理解部６１は「目的地の近く」が指定されたと判断することで、駐車場のエリアが目的地の近くであると判断し、処理決定部６４が外部情報取得部５７に目的地周辺の駐車場を検索させる。これによりいくつかの駐車場が検索される。この段階で処理決定部６４が選択肢６を提案することも可能であるが、検索結果が多いため処理決定部６４は運転者による絞り込みを依頼すると判断する。発言決定部６４ａは絞り込みのため駐車場の特徴を発言する。一例として「割引チケットがあたる駐車場が２件、モノレール乗り場に近い駐車場が３件、ゲートに近い駐車場が2件ございます」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（６）また、アイコン決定部６４ｂは、運転者が過去に発言していない単語として「割引チケット」「モノレール乗り場」「ゲート」を特定し、割引チケットを表すアイコン７ｇ、モノレールを表すアイコン７ｈ、及び、ゲートを表すアイコン７ｉをアイコンＤＢ６７から決定する。アイコン７は車載端末装置１０に送信され、ディスプレイ１６に表示される。
（７）運転者は回答文章とアイコン７の少なくとも一方からどのような駐車場がよいかを判断し「割引チケットがあると良いな」と発言する。
（８）対話制御サーバ５０の入力理解部６１はこの発言から割引チケットがある駐車場が選択されたと判断し、発言決定部６４ａは「割引チケットに関係する２件を表示します」という回答文章を構築する。
（９）アイコン決定部６４ｂは、回答文章に含まれる自立語として、割引チケットを表すアイコン７ｇをアイコンＤＢ６７から取得する。また、アイコン決定部６４ｂは割引チケットが利用できる駐車場に関する情報を選択肢６に設定する。したがって、車載端末装置１０のディスプレイ１６には割引チケットのアイコン７ｇと選択肢６が表示される。運転者は選択肢６に挙げられた駐車場をタップして詳細な情報を表示させることができる。

＜ユースケース２＞
図１３は、本実施形態の自然対話システム１００による回答の提示例を示す図である。
（１）運転者が「近いうちにあるコンサートを教えて」と発言する。
（２）対話制御サーバ５０の入力理解部６１は発言からコンサートの検索要求であると判断する。発言決定部６４ａは、運転者のスケジュールが空いている時間帯で、通常の行動範囲をエリアとして、外部連携部６５を介して外部情報取得部５７に開催日が近いコンサートを検索させる。検索によりいくつかのコンサートの開催情報が得られ、発言決定部６４ａが「カレンダーの空き時間にあるコンサートはロック３件、クラシック２件となります。」という回答文章を構築する。この時、例えばスケジュールが奥様と共有されている、ユーザ属性、又は、過去に奥様とコンサートに行ったなどの情報に基づいて、処理決定部６４は「奥様とのご予定のある時間帯をお探しですか？」という回答文章を構築する。回答文章は車載端末装置１０に送信されスピーカ１８から出力される。
（３）アイコン決定部６４ｂはこれらの回答文章から、フレーム７０のエリアに関する単語で運転者が過去に発言していない単語又は運転者が過去に発言していない単語として、「カレンダー」「ロック」「クラシック」「奥様」を表すアイコン７ｊ、７ｋ、７ｌ、７ｍ及び疑問形を表すアイコン７ｆを決定する。アイコン７は車載端末装置１０に送信されディスプレイ１６に表示される。
（４）運転者は回答文章とアイコン７の少なくとも一方から奥様と行動するかどうかを回答する必要があると判断し「ん？ああ、妻と見に行きたいんだけど」と発言する。
（５）入力理解部６１は「妻と見に行きたい」という発言から奥様と行くと意味を理解し、処理決定部６４は奥様の属性を考慮することが好ましいと判断する。発言決定部６４ａは外部連携部６５を介して外部情報取得部５７に、奥様の好きなＪＡＺＺのコンサートを検索させる。これにより３件のＪＡＺＺのコンサートが検索される。このように奥様の属性も利用される。発言決定部６４ａは「奥様が好きなJAZZのライブは３件ございます」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（６）また、アイコン決定部６４ｂは、フレーム７０が有するシンボルの属性で運転者が過去に発言していない単語、単に運転者が過去に発言していない単語、又は、回答文章に含まれる自立語として、「奥様」「ＪＡＺＺ」「ライブ」を特定し、これらを表すアイコン７ｍ、７ｎ、７ｏをアイコンＤＢ６７から取得する。アイコン決定部６４ｂは複数の単語に意味上の関係がある場合、２つの隣接したアイコン７の間に両者の関係を想起させる第二のアイコン（第二の付加情報）を追加することが好ましい。図１３ではアイコン７ｍと７ｎの間に「奥様が好きなJAZZ」という意味上の関係を想起させるハートマークの第２のアイコン３０２が追加されている。こうすることでアイコン間の関係が分かりやすくなり、運転者がアイコンから意味を把握しやすくなる。アイコン７は車載端末装置１０に送信され、ディスプレイ１６に表示される。
（７）運転者は回答文章とアイコンの少なくとも一方からコンサートのジャンルを理解したが、「ピアノのものはある？」と発言する。
（８）対話制御サーバ５０の入力理解部６１はこの発言からピアノのコンサートが要求されたと判断する。発言決定部６４ａは外部連携部６５を介して外部情報取得部５７に、ピアノのコンサートを検索させる。これにより１件のピアノのコンサートが検索される。発言決定部６４ａは「ピアノのものは１件ございます。ご予約しますか」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（９）アイコン決定部６４ｂは、回答文章に含まれる自立語として「ピアノ」を特定し、これを表すアイコン７ｐをアイコンＤＢ６７から取得する。また、アイコン決定部６４ｂは予約するか否かを問い合わせるアイコン７ｑと疑問形を表すアイコン７ｆを特定する。これらは車載端末装置１０に送信され、ディスプレイ１６に表示される。
（１０）運転者は回答文章とアイコン７の少なくとも一方から予約するかどうかを回答すればよいと判断し「お願い」と発言する。
（１１）入力理解部６１は予約するか否かについて肯定する回答を得たと理解し、処理決定部６４が外部連携部６５を介して外部情報取得部５７に予約システムへの予約を実行させる。発言決定部６４ａは「予約が完了し、カレンダーに予定を追加しました。奥様にメールをお出ししますか。」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（１２）アイコン決定部６４ｂは、回答文章に含まれる自立語として、「予約、完了、カレンダー、予定、追加」「奥様」「メール」を特定し、これらを表すアイコン７ｒ、７ｍ、７ｓをアイコンＤＢ６７から取得する。なお、「予約、完了、カレンダー、予定、追加」で１つのアイコン７ｒに対応する。これはいわゆる定型文であり、複数の単語（自立語）に１つのアイコン７ｒを対応付けることで１回の回答文章のアイコン７の数を少なくすることができる。アイコン決定部６４ｂは「奥様にメール」という単語間の意味上の関係を検出し、２つの隣接したアイコン７ｍと７ｓの間に両者の関係を想起させる第二のアイコン３０１を追加する。これにより、奥様にメールが送信されることを運転者が把握しやすくなる。アイコン７は車載端末装置１０に送信され、ディスプレイ１６に表示される。
（１３）運転者は回答文章とアイコンの少なくとも一方から奥様にメールするかどうかを回答すればよいと判断し「よろしく」と発言する。
（１４）入力理解部６１はメールを送信するか否かに対して肯定する回答を得たと判断し、処理決定部６４が外部連携部６５を介して外部情報取得部５７にメールを送信させる。発言決定部６４ａは「奥様にメールを送信し、カレンダーに予定を追加いたしました。」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（１５）アイコン決定部６４ｂは、回答文章に含まれる自立語として、「奥様」「メール」「カレンダー、予定、追加」を特定し、これらを表すアイコン７ｍ、７ｓ、７ｒをアイコンＤＢ６７から取得する。なお、「カレンダー、予定、追加」も定型文である。アイコン７は車載端末装置１０に送信され、ディスプレイ１６に表示される。

＜ユースケース３＞
図１４は、本実施形態の自然対話システム１００による回答の提示例を示す図である。
（１）運転者が「時間を教えて」と発言する。
（２）対話制御サーバ５０の入力理解部６１はこの発言を解析して時間の通知要求であると判断する。また、時間の通知に対してはスケジュールの次の予定を通知するという規則がある場合には、発言決定部６４ａは、外部連携部６５を介してユーザ情報ＤＢ５８のスケジュールから次の予定を取得する。発言決定部６４ａは「現在時刻は〇:〇〇分次のテレビ会議の時刻は45分後、現地(米国)時間PM4:00からです」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（３）アイコン決定部６４ｂはこの回答文章から、運転者が過去に発言していない単語、又は、回答文章に含まれる自立語として、「現在時刻」「会議」「予定」「米国」を表すアイコン７ｔ、７ｕ、７ｊ、７ｖを決定する。アイコン７は車載端末装置１０に送信されディスプレイ１６に表示される。

＜ユースケース４＞
（１）運転者は「今月の電気料金は」と発言する。
（２）入力理解部６１は「電気料金は」を解析して電気料金を通知すると判断する。発言決定部６４ａは外部連携部６５を介して、外部情報取得部５７に家に関する情報を管理するシステムから電気料金、及び、先月の電気料金を取得させる。発言決定部６４ａは、電気料金を先月と比較し、使用量が多い時間帯を特定する。また、電気料金に納付期限が設定されている場合はリマインダーを設定する。以上から「今月の料金は￥3000です。前月に比較すると1000円アップで、19:00-20:00の使用量が増えています。納付日のリマインダーを設定しておきます。」という回答文章を構築する。回答文章は車載端末装置１０に送信され、スピーカ１８から出力される。
（３）アイコン決定部６４ｂは、運転者が過去に発言していない単語、又は、回答文章に含まれる自立語として、「料金」「先月」「比較」「19:00〜20:00」「納付日、リマインダー、設定」を特定し、これらを表すアイコン７ｗ、７ｊ、７ｙ、７ｔ、７ｒをアイコンＤＢ６７から取得する。なお、「納付日、リマインダー、設定」で１つのアイコン７ｒに対応する。アイコン７は車載端末装置１０に送信され、ディスプレイ１６に表示される。

＜ユースケース５＞
図１５は、本実施形態の自然対話システム１００による回答の提示例を示す図である。
（１）運転者が「近くの充電スタンドを教えて」と発言する。
（２）対話制御サーバ５０の入力理解部６１はこの発言を解析して近くの急速充電スタンドの検索要求であると判断する。発言決定部６４ａは、検索しても急速充電スタンドがない場合は代替案を提供する。ここでは一例としてスケジュールに空きがあることを確認のうえ、外部情報取得部５７がコーヒー店に併設された通常の充電スタンドを検索した。以上から、発言決定部６４ａは「近隣の急速充電スタンドに空きがありません。空きがある急速充電スタンドにしますか。カレンダー上に空き時間がございますので、コーヒー店に併設されている通常スタンドもご案内できます。」という回答文章を構築する。回答文章は車載端末装置１０に送信されスピーカ１８から出力される。
（３）アイコン決定部６４ｂはこの回答文章から、運転者が過去に発言していない単語、又は、回答文章に含まれる自立語として、「急速充電スタンド」「カレンダー」「コーヒー店」「通常スタンド」を表すアイコン７ｚ、７ｊ、７ａａ、７ｂｂを決定する。アイコン７は車載端末装置１０に送信されディスプレイ１６に表示される。

＜ユースケース６＞
（１）運転者が「近くで子供の楽しめる場所を教えて」と発言する。
（２）対話制御サーバ５０の入力理解部６１はこの発言を解析して子供用の施設の検索要求であると判断する。そして、外部連携部６５を介して外部情報取得部５７が公園と遊園地を検索する。また、施設の検索に対しては天候を考慮するという規則がある場合、発言決定部６４ａは天候に応じた施設を提案する。一例として、発言決定部６４ａは「近隣の公園３件、遊園地１件がございますが、本日は雨の予報ですので映画館をお勧めします」という回答文章を構築する。回答文章は車載端末装置１０に送信されスピーカ１８から出力される。
（３）アイコン決定部６４ｂはこの回答文章から、運転者が過去に発言していない単語、又は、回答文章に含まれる自立語として、「公園」「遊園地」「雨」「映画」を表すアイコン７ｃｃ、７ｄｄ、７ｅｅ、７ｆｆを決定する。アイコン７は車載端末装置１０に送信されディスプレイ１６に表示される。
（４）運転者は回答文章とアイコンの少なくとも一方から施設を検討し「映画館にするわ」と発言する。

＜ユースケース７＞
図１６は、本実施形態の自然対話システム１００による回答の提示例を示す図である。
（１）運転者が「今週末の出張ホテルの予約したいんだけど」と発言する。
（２）対話制御サーバ５０の入力理解部６１はこの発言を解析することで出張のための宿泊施設の予約要求であると判断する。スケジュールに行き先が登録されているものとする。これによりフレーム７０には行き先が設定される。登録されていなければ行き先を問い合わせる。次に、宿泊施設を提案するためフレーム７０に交通機関が設定されていない場合は、発言決定部６４ａは交通機関を運転者に問い合わせる。発言決定部６４ａは「お車で行かれますか? 電車で行かれますか?」という回答文章を構築する。回答文章は車載端末装置１０に送信されスピーカ１８から出力される。
（３）アイコン決定部６４ｂはこの回答文章から、フレーム７０が有するシンボルの属性で運転者が過去に発言していない単語として「車」「電車」を表すアイコン７ｇｇ、７ｈｈを決定する。アイコン７は車載端末装置１０に送信されディスプレイ１６に表示される。
（４）運転者は回答文章とアイコンの少なくとも一方から交通機関を回答すると判断し「電車で」と発言する。
（５）対話制御サーバ５０の入力理解部６１はこの発言を解析して内部状態更新部６２が交通機関をフレーム７０に設定する。発言決定部６４ａは外部連携部６５を介して外部情報取得部５７に京都駅付近の宿泊施設を検索させる。発言決定部６４ａはスケジュールから取得した日付、行き先（京都）、ユーザ属性の趣味（例えば陶芸）に適合する宿泊施設を検索する。発言決定部６４ａは「○月〇日の京都出張ですね、京都駅付近に駐車場付のホテルで3件空きがありますが、近くで陶芸市が行われているホテルがございます。予約しますか」という回答文章を構築する。回答文章は車載端末装置１０に送信されスピーカ１８から出力される。
（６）アイコン決定部６４ｂはこの回答文章から、フレーム７０が有するシンボルの属性で運転者が過去に発言していない単語、運転者が過去に発言していない単語、又は、回答文章に含まれる自立語として「○月○日」「京都」「駅」「ホテル」「陶芸」を表すアイコン７ｒ、7ｉｉ、７ｈｈ、７ｊｊ、７ｋｋを決定する。アイコン７は車載端末装置１０に送信されディスプレイ１６に表示される。
（７）運転者は回答文章とアイコンの少なくとも一方から交通機関を回答すると判断し「そこにしよう！お願い」と発言する。

＜回答文章の再出力＞
車載端末装置１０の対話情報保持部３８ではアイコンと回答文章が対応付けられているので、車載端末装置１０の発言出力部３５は任意のタイミングで回答文章をスピーカ１８から再度、出力できる。例えば、運転者がアイコン７をタップすることで、このアイコン７と共に送信された回答文章を出力する。

図１７は、ディスプレイ１６に表示されたアイコン７を示す。図示するように運転者がアイコン７ａをタップすると操作受付部３７がこれを受け付けて、このアイコン７ａに対応付けられた回答文章を対話情報保持部３８から読み出して発言出力部３５が発言する。こうすることで、運転者は後から回答文章を確認できる。なお、１つの回答文章に複数のアイコン７ｂ、７ｃが対応付けられている場合、いずれか１つのアイコン７のタップにより全ての回答文章が出力されてよい。また、回答文章の出力はアイコン７のタップに限られず、選択肢６のタップで出力されてもよい。

更に、回答文章のどの単語がアイコン７の元になったかが回答文章に含まれている場合（回答文章の単語とアイコン７が対応付けられている場合）、アイコン７のタップにより発言出力部３５が対応付けられている単語のみを出力してもよい。

＜選択肢の省略＞
図１８は、選択肢６が省略されて表示される場合のアイコンの表示例を示す図である。回答文章の回数が多くなるとそれに伴って、アイコン７の送信回数も増えていく。１回に送信される１つ以上のアイコン７がディスプレイ１６の１行に表示される場合、古いアイコン７は上の方に（又は下の方に）スクロールされ、表示範囲に収まらないと消去される。古いアイコン７と共に表示される選択肢６は運転者が見る可能性が徐々に低くなるので、表示しておく必要性が低い。このため、表示制御部３６は表示から一定時間が経過した選択肢６を非表示に切り替える。図１８（ａ）ではアイコン７ａの選択肢６が非表示に切り替えられている。

また、図１８（ｂ）に示すように、運転者がタップすることで、表示制御部３６は非表示にした選択肢６を再度、表示させる。この時、回答文章は出力されても出力されなくてもよい。このように選択肢６が非表示になることでディスプレイ１６を有効に利用できると共に、運転者は任意のタイミングで選択肢６を確認できる。

また、アイコン７は１行ずつ表示される他、図１９に示すように１行に可能な限りの数のアイコン７が表示されてもよい。図１９では、選択肢６のあるアイコン７、ないアイコン７が、対話制御サーバ５０から送信された順番に１行に表示されている。車載端末装置１０の表示制御部３６は、例えば左上から行方向にアイコン７及び選択肢６を順番に並べて表示する。アイコン７又は選択肢６が右端に達すると行を変えて再度、順番にアイコン７及び選択肢６を表示する。図１９のような表示方法では、図１８（ｂ）のように選択肢６が非表示になることでアイコン７が左詰めされるので、多くのアイコン７が１画面に表示されるようになり、選択肢６を非表示にすることの効果が大きい。

＜車両が停止した場合の表示方法＞
非表示になった選択肢６は車両が停止した際に、表示制御部３６が表示してもよい。また、車両が停止した際に、回答文章に含まれる時刻など、数字を表示してもよい。

図２０（ａ）では表示から一定時間が経過して選択肢６が非表示になったが、車両の停止により表示制御部３６が選択肢６を再度、表示している。こうすることで、車両の停止中はアイコン７に対応付けられている選択肢６を目視することができる。また、図２０（ｂ）では車両の停止中に現在の時刻４０１、及び、テレビ会議が何分後に開始されるかを示す時刻４０２が表示されている。これにより、運転者はスケジュールの時刻を確認できる。なお、回答文章に含まれている時刻とアイコンは対応付けられて、対話制御サーバ５０から送信される。

車両の停止中に表示する情報は数字に限らず、回答文章に含まれている少なくとも一部の情報であれば表示できる。回答文書の全体を表示してもよい。また、車両の停止中に（自動運転等、法令等が許可する範囲で移動中でもよい）、運転者がアイコンをタップすることで回答文章がディスプレイ１６に表示されてもよい。

なお、車両が停止したことは、車速センサが検出する車速がゼロ若しくは所定値以下になること、シフトレバーがパーキングに設定されること、又は、パーキングブレーキのＯＮ等から判断される。車速センサは車両が有していてもよいし、車載端末装置１０が有していてもよい。

＜同音異義語の取り扱い＞
運転者のユーザ発言に同音異義語が含まれている場合に、対話制御部５５がユーザ発言の意図する単語をユーザに確認する技術が知られているが、本実施形態では、運転者が考えていない単語が同音異義語の場合があるため、同音異義語のアイコン７を示すことで明確に運転者に伝えることができる。

図２１は同音異義語を含む回答文章を対話制御部５５が構築した場合にディスプレイ１６に表示されるアイコン７の一例を示す。図２１では回答文章が「まっすぐ行った先の端にあります」である場合、「端」がイメージされるアイコン７ｌｌをアイコン決定部６４ｂが採用する。また、回答文章が「まっすぐ行った先の橋にあります」である場合は、「橋」がイメージされるアイコン７ｍｍをアイコン決定部６４ｂが採用する。

運転者は端も橋も予測していないので、このような同音異義語が回答文章に含まれていると困惑するおそれがあるが、本実施形態ではアイコン７が同音異義語の意味を示すので運転者は回答文章を容易に理解できる。

＜まとめ＞
このように、本実施形態の自然対話システム１００は、認識した話題の趣旨をアイコン７で表示する。これにより、運転者は自然対話システムの発言（レコメンドされていること）の大枠を直感的に理解できるようになる。

＜その他の適用例＞
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。

例えば、アイコンは静的なものの他、動くものでもよい。動くアイコンはぱらぱら漫画のように少しずつ異なる静止画を切り替えて表示することで実現できる。また、アイコンはＭＰＥＧ、Ｈ．２６４などの動画でもよい。

また、アイコン７と回答文章は少ない時間差で車載端末装置１０に送信されることが好ましいが、アイコン７は回答文章の後から送信されてもよい。アイコンはディスプレイ１６に表示されるため後から運転者が見ることができるためである。また、アイコン７がアイコンＤＢ６７に登録されていない場合、外部情報取得部５７がアイコン７を検索するために時間がかかることも想定されるためである。

また、発言決定部６４ａが選択肢の数を提示する場合、その選択肢に関するアイコンを選択肢の数だけアイコン決定部６４ｂが車載端末装置１０に送信してもよい。例えば、割引チケットがあたる駐車場が２件ある場合、アイコン決定部６４ｂは割引チケットのアイコンを２個、送信し、表示制御部３６が２つの同じアイコンを表示する。これにより、運転者は直感的に数を把握できる。

また、アイコン７の代わりに又はアイコン７と共に音データを対話制御サーバ５０が車載端末装置１０に送信してもよい。車載端末装置１０は音データに基づいて音を再生する。例えばロックのアイコンではロック音楽が再生される。これより、運転者はアイコンの意味をイメージしやすくなる。この音データは任意のタイミングでアイコン７のタップにより再生されることができる。

また、上記の実施形態では、車両という移動体を運転する運転者（ユーザ）が自然対話システム１００を利用する場合を例に説明した。しかし、車両の他の移動体にも適用できる。例えば、軽車両、動力付き二輪車（自動二輪車という）等でもよい。また、車載端末装置１０はスマートフォンなどの情報処理装置でもよいため、歩行者が車載端末装置１０（この場合は単に端末装置という）を保持する場合も含まれている。また、デスクに座ったユーザが自然対話システム１００を利用することもできる。

また、上記の実施形態では対話制御サーバ５０が車載端末装置１０に回答文章とアイコン等を送信しているが、車載端末装置１０が対話制御サーバ５０の機能を有していてもよい。車載端末装置１０が対話制御サーバ５０の機能を有する場合、車載端末装置１０が情報提示装置に相当する。

また、図５，図６などの構成例は、車載端末装置１０、及び対話制御サーバ５０の処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。また、車載端末装置１０、及び対話制御サーバ５０の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、１つの処理単位が更に多くの処理を含むように分割することもできる。

なお、ディスプレイ１６は表示手段の一例であり、マイク１９、ハードキー１５、又はタッチパネル１７は入力受付手段の一例であり、発言決定部６４ａは回答生成手段の一例であり、アイコン決定部６４ｂは付加情報取得手段の一例であり、発言出力部３５は音声出力手段の一例であり、表示制御部３６は情報出力手段の一例である。外部情報取得部５７は検索手段の一例であり、対話情報保持部３８は情報記憶手段の一例であり、操作受付部３７は操作受付手段の一例であり、システム発言送信部５３と表示情報送信部５４は送信手段の一例である。自然対話システム１００は情報提示システムの一例である。

７：アイコン
８：車両
１０：車載端末装置
５０：対話制御サーバ
１００：自然対話システム

Claims

表示手段と、
ユーザからの音声又は操作による入力を受け付ける入力受付手段と、
前記入力受付手段が受け付けた入力に基づいて回答文章で回答する情報を検索する検索手段と、
前記検索手段が検索した情報に含まれる単語を用いて、前記入力受付手段が受け付けた入力に対する回答文章を生成する回答生成手段と、
前記回答生成手段によって生成された前記回答文章に含まれる単語に関連する、画像である付加情報を取得する付加情報取得手段と、
前記回答文章を音声で出力する音声出力手段と、
前記付加情報を前記表示手段に出力する情報出力手段と、を有し、
前記付加情報取得手段は、前記付加情報として前記単語ごとに画像を取得し、
前記情報出力手段は前記付加情報の画像を選択肢として表示することを特徴とする情報提示装置。
前記付加情報取得手段は、前記回答文章に含まれる単語のうち、前記ユーザに確認を求める単語に関連する前記付加情報を取得することを特徴とする請求項１に記載の情報提示装置。
前記付加情報取得手段は、前記回答文章に含まれる単語のうち、前記ユーザが前記入力受付手段から入力していない単語に関連する前記付加情報を取得することを特徴とする請求項１に記載の情報提示装置。
前記情報出力手段は、前記選択肢を出力してから一定時間が経過すると前記選択肢を非表示にすることを特徴とする請求項１に記載の情報提示装置。
前記表示手段に対する操作を受け付ける操作受付手段を有し、
前記操作が前記付加情報に対する操作を受け付けた場合、前記情報出力手段は前記選択肢の表示と非表示を切り替えることを特徴とする請求項４に記載の情報提示装置。
前記表示手段に対する操作を受け付ける操作受付手段と、
前記回答文章と前記付加情報を対応付けて記憶する情報記憶手段と、を有し、
前記操作受付手段が前記付加情報に対する操作を受け付けた場合、
前記音声出力手段は、操作された前記付加情報に対応付けられている前記回答文章を前記情報記憶手段から読み出して音声で出力することを特徴とする請求項１〜４のいずれか１項に記載の情報提示装置。
前記情報提示装置が移動体に搭載されており、
前記移動体が停止した場合、前記情報出力手段は前記情報記憶手段に記憶されている前記回答文章の少なくとも一部を前記付加情報に対応付けて前記表示手段に表示することを特徴とする請求項６に記載の情報提示装置。
前記移動体が停止した場合であって、前記操作受付手段が前記付加情報に対する操作を
受け付けた場合、
前記情報出力手段は前記情報記憶手段に記憶されている前記回答文章の少なくとも一部を前記表示手段に表示することを特徴とする請求項７に記載の情報提示装置。
前記付加情報取得手段は１つの前記回答文章に含まれる複数の前記単語に意味上の関係がある場合、複数の前記単語にそれぞれ関連する複数の前記付加情報の間に両者の関係を想起させる第二の付加情報を追加する請求項１〜７のいずれか１項に記載の情報提示装置。
表示手段と、
ユーザからの音声又は操作による入力を受け付ける入力受付手段と、
前記入力受付手段が受け付けた入力に基づいて回答文章で回答する情報を検索する検索手段と、
前記検索手段が検索した情報に含まれる単語を用いて、前記入力受付手段が受け付けた入力に対する回答文章を生成する回答生成手段と、
前記回答生成手段によって生成された前記回答文章に含まれる単語に関連する、画像である付加情報を取得する付加情報取得手段と、
前記回答文章を音声で出力する音声出力手段と、
前記付加情報を前記表示手段に出力する情報出力手段と、を有し、
前記付加情報取得手段は、前記付加情報として前記単語ごとに画像を取得し、
前記情報出力手段は前記付加情報の画像を選択肢として表示することを特徴とする情報提示システム。
入力受付手段が受け付けた入力に基づいて回答文章で回答する情報を検索する検索手段と、
前記検索手段が検索した情報に含まれる単語を用いて、前記入力受付手段が受け付けた入力に対する回答文章を生成する回答生成手段と、
前記回答生成手段によって生成された前記回答文章に含まれる単語に関連する、画像である付加情報を取得する付加情報取得手段と、
前記回答文章と前記付加情報を端末装置に送信する送信手段と、を有し、前記付加情報取得手段は、前記付加情報として前記単語ごとに画像を取得する情報処理装置とネットワークを介して通信することができる端末装置であって、
表示手段と、
ユーザからの音声又は操作による入力を受け付ける入力受付手段と、
前記回答文章を音声で出力する音声出力手段と、
前記付加情報を前記表示手段に出力する情報出力手段と、を有し、
前記情報出力手段は前記付加情報の画像を選択肢として表示することを特徴とする端末装置。