JP7420109B2

JP7420109B2 - 情報出力システム、サーバ装置および情報出力方法

Info

Publication number: JP7420109B2
Application number: JP2021066091A
Authority: JP
Inventors: 結衣田上; 敏文西島
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2024-01-23
Anticipated expiration: 2041-04-08
Also published as: US20220324460A1; JP2022161353A; CN115203359A

Description

本発明は、ユーザに情報を出力する技術に関する。

特許文献１には、エージェント機能部が、マイクにより収集された音声の意味に基づいて車両の乗員に対して話しかけるエージェント音声を生成し、生成したエージェント音声をスピーカに出力させるエージェント装置が開示されている。このエージェント装置は、コマンド機能に応じて割り当てられた複数のサブエージェント機能を備え、乗員音声からコマンド入力を認識すると、認識したコマンドに割り当てられたサブエージェント機能を実行する。

国際公開第２０２０／０７０８７８号

ユーザが明確なコマンド入力の発話をしなくとも、エージェントと会話するやり取りで適切なコマンドを導き出せると好ましい。

本発明の目的は、ユーザの意図を適切に絞り込むことができる技術を提供することにある。

上記課題を解決するために、本発明のある態様の情報出力システムは、ユーザの発話を取得する発話取得部と、質問に対応付けられた意図情報と、タスクに対応付けられた意図情報とをタスク毎の階層構造で保持する保持部と、ユーザの発話の内容が保持部に保持される意図情報のいずれに対応するか特定する特定部と、質問に対応付けられている意図情報が特定部によって特定されると当該質問を出力することを決定する出力決定部と、タスクに対応付けられている意図情報が特定部によって特定されると当該タスクを実行するタスク実行部と、過去の対話の履歴を記憶する記憶部と、を備える。保持部に保持される質問は、対応付けられている意図情報の階層とは別の階層の意図情報を導出するための内容を含む。出力決定部は、ユーザから回答が得られていない過去に出力した質問を、その質問に対応付けられた意図情報とは別種類のタスクが実行された直後に、再度出力することを決定する。記憶部は、ユーザの発話から特定された時刻から所定時間経過した対話の履歴を破棄する。

本発明の別の態様は、サーバ装置である。このサーバ装置は、質問に対応付けられた意図情報と、タスクに対応付けられた意図情報とをタスク毎の階層構造で保持する保持部と、ユーザの発話の内容が保持部に保持される意図情報のいずれに対応するか特定する特定部と、質問に対応付けられている意図情報が特定部によって特定されると当該質問を出力することを決定する出力決定部と、タスクに対応付けられている意図情報が特定部によって特定されると当該タスクを実行するタスク実行部と、過去の対話の履歴を記憶する記憶部と、を備える。保持部に保持される質問は、対応付けられている意図情報の階層とは別の階層の意図情報を導出するための内容を含む。出力決定部は、ユーザから回答が得られていない過去に出力した質問を、その質問に対応付けられた意図情報とは別種類のタスクが実行された直後に、再度出力することを決定する。記憶部は、ユーザの発話から特定された時刻から所定時間経過した対話の履歴を破棄する。

本発明のさらに別の態様は、各ステップを情報出力システムによって実行する情報出力方法である。この方法は、ユーザの発話を取得するステップと、質問に対応付けられた意図情報と、タスクに対応付けられた意図情報とをタスク毎の階層構造で保持するステップと、ユーザの発話の内容が、保持される意図情報のいずれに対応するか特定するステップと、質問に対応付けられている意図情報が特定されると当該質問を出力することを決定するステップと、タスクに対応付けられている意図情報が特定されると当該タスクを実行するステップと、を含む。保持された質問は、対応付けられている意図情報の階層とは別の階層の意図情報を導出するための内容を含む。質問の出力を決定するステップにおいて、ユーザから回答が得られていない過去に出力した質問を、その質問に対応付けられた意図情報とは別種類のタスクが実行された直後に、再度出力することを決定する。記憶するステップにおいて、ユーザの発話から特定された時刻から所定時間経過した対話の履歴を破棄する。

本発明によれば、ユーザの意図を適切に絞り込むことができる技術を提供できる。

実施例の情報出力システムについて説明するための図であり、ユーザおよび端末装置のエージェントの会話例を示す図である。情報出力システムの機能構成を示す図である。情報処理部の機能構成を示す図である。保持部によって保持される複数の意図情報を示す図である。ユーザと対話を実行する処理のフローチャートである。

図１は、実施例の情報出力システムについて説明するための図であり、ユーザ１０および端末装置１２のエージェントの会話例を示す。情報出力システムは、ユーザ１０と会話をする機能を有しており、端末装置１２のエージェントを用いてユーザ１０に画像および音声で情報を出力する。

エージェントは、端末装置に搭載されたディスプレイにキャラクタとして画像で表示され、主に対話でユーザ１０と情報のやりとりをする。エージェントは、画像および音声の少なくとも一方でユーザ１０と対話する。エージェントは、ユーザ１０の発話の内容を認識し、発話の内容に合わせた応答をする。

ユーザ１０は、「お腹が空いた。」と発話する（Ｓ１０）。端末装置１２は、ユーザ１０の発話を解析してユーザ１０が空腹を意図していると特定する（Ｓ１２）。つまり、端末装置１２は、ユーザ１０の発話からユーザ１０の意図を特定する。端末装置１２のエージェントは、特定した意図に応じて「何か食べますか？」と質問する（Ｓ１４）。

ユーザ１０は、質問に対して「新宿で食べたい。」と返答する（Ｓ１６）。端末装置１２は、ユーザ１０の発話を解析して外出と食事の意図を特定し（Ｓ１８）、エージェントは、「何を食べますか？」と質問する（Ｓ２０）。

ユーザ１０は、質問に答えずに、「そういえば、新宿の天気は？」と質問する（Ｓ２２）。端末装置１２は、ユーザ１０の発話を解析して天気の意図を特定し（Ｓ２４）、天気検索のタスクを実行して、天気情報を取得する（Ｓ２６）。エージェントは、取得した天気情報をもとに「新宿は晴れです。」と応答する（Ｓ２８）。

ユーザ１０は、エージェントの出力に応じて「やっぱり行くわ。」と発話する（Ｓ３０）。端末装置１２は、ユーザ１０の発話を解析し、外出の意図に戻ることを決定する（Ｓ３２）。エージェントは、Ｓ２０と同様に「何を食べますか？」と再び質問する（Ｓ３４）。

ユーザ１０は、質問に対して「ラーメン。」と返答する（Ｓ３６）。端末装置１２は、ユーザ１０の発話を解析して外食の意図を特定し（Ｓ３８）、飲食店検索のタスクを実行し、飲食店情報を取得する（Ｓ４０）。エージェントは、取得した飲食店をもとに「おすすめのラーメン店が２件あります。１件目は、Ａ店、２件目は、Ｂ店をおすすめします。」と提案する。

ユーザ１０は、提案に対して「１件目のラーメン店に案内して。」と応答する（Ｓ４４）。端末装置１２のエージェントは「了解しました。」と出力し、案内を開始する（Ｓ４６）。

このように、端末装置１２はエージェントを介してユーザ１０と対話が可能であり、ユーザの発話から外食を希望している意図を導き出すことができる。Ｓ２２で示したように、ユーザ１０は質問に対して返答せずに発話することがある。この場合はＳ２４に示すように、ユーザ１０の発話に従って応答することが自然である。一方、前の対話の流れを無視することは不自然であり、Ｓ３４において前の対話の流れに戻って発話する。このように、情報出力システムは、対話中に突如発生したユーザのタスク要求に合わせて応答しつつ、適切な話題復帰によって自然な対話を実現できる。

図２は、情報出力システム１の機能構成を示す。図２および後述の図３において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、回路ブロック、メモリ、その他のＬＳＩで構成することができ、ソフトウェア的には、メモリにロードされたプログラムなどによって実現される。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組合せによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

情報出力システム１は、端末装置１２およびサーバ装置１４を備える。サーバ装置１４は、データセンターに設けられ、端末装置１２と通信可能である。サーバ装置１４は、提供情報を保持しており、端末装置１２に提供情報を送信する。提供情報は、例えば店舗情報であって、店名、住所および店舗の販売内容を含む。また、提供情報は、商品やサービスの広告情報、天気情報、ニュース情報等であってよい。提供情報は、ジャンル毎に分類されており、飲食店であれば、ラーメン、中華料理、和食、カレー、イタリア料理などジャンルに分類される。

端末装置１２は、情報処理部２４、出力部２６、通信部２８、入力部３０および位置情報取得部３２を有する。端末装置１２は、ユーザが乗車する車両に搭載された端末装置であってよく、ユーザに保持される携帯端末装置であってよい。通信部２８は、サーバ装置１４と通信する。通信部２８からサーバ装置１４に送られる情報には端末ＩＤが付される。

入力部３０は、ユーザ１０の入力を受け付ける。入力部３０は、マイクロフォン、タッチパネル、カメラなどであってユーザ１０の音声入力、操作入力、動作入力を受け付ける。位置情報取得部３２は、衛星測位システムを用いて端末装置１２の位置情報を取得する。端末装置１２の位置情報にはタイムスタンプが付される。

出力部２６は、スピーカおよびディスプレイの少なくとも一方であり、ユーザに情報を出力する。出力部２６のスピーカは、エージェントの音声を出力し、出力部２６のディスプレイは、エージェントおよび案内情報を表示する。

情報処理部２４は、入力部３０に入力されたユーザの発話を解析して、ユーザの発話の内容に対する応答を出力部２６に出力させ、エージェントがユーザと会話する処理を実行する。

図３は、情報処理部２４の機能構成を示す。情報処理部２４は、発話取得部３４、認識処理部３６、出力処理部３８、出力制御部４０、提供情報取得部４２、記憶部４４および保持部４６を有する。

発話取得部３４は、入力部３０に入力されたユーザの発話を取得する。ユーザの発話は音響信号である。発話取得部３４は、入力部３０に文字入力されたユーザの入力情報を取得してもよい。発話取得部３４は、音声を抽出するフィルタによって音信号から発話を抽出してよい。

認識処理部３６は、発話取得部３４により取得されたユーザの発話の内容を認識する。認識処理部３６は、ユーザの発話をテキストに変換する音声認識処理を実行し、テキストの内容を理解する言語認識処理を実行する。

提供情報取得部４２は、認識処理部３６によって認識したユーザの発話の内容に応じて案内情報をサーバ装置１４から取得する。例えば、ユーザが「ラーメンを食べたい。」と発話した場合、提供情報取得部４２は、「飲食店」や「ラーメン」のタグ情報を有する提供情報や、「ラーメン」のワードを含む提供情報を取得する。提供情報取得部４２は、端末装置１２の位置情報をもとに、端末装置１２の周辺に位置する店舗情報を取得してもよい。つまり、提供情報取得部４２は、提供情報の検索結果を取得してよく、検索せずに車両周辺に位置する店舗情報をまとめて取得してもよい。

保持部４６は、複数の意図情報をタスク毎の階層構造で分類して保持する。ユーザの意図情報は、ユーザの発話を解析して得られ、ユーザが発話で伝えようとしている内容を示す。ここで、保持部４６によって保持される意図情報について新たな図面を参照して説明する。

図４は、保持部４６によって保持される複数の意図情報を示す図である。図４に示す例では、第１階層が最上層に位置し、第２階層が従属されている。タスクの種類によっては、階層の数が異なる。また、同じタスクの種類で、同じ階層に複数の意図情報が含まれることもある。

例えば、飲食のタスクでは、第１階層に「空腹」、第２階層に「食事」、第３階層に「外出」、第４階層に「外食」および「テイクアウト」の意図情報が関連付けて配置されている。飲食のタスクでは第４階層の意図情報、つまり「外食」および「テイクアウト」の意図情報が特定された場合に、飲食店検索のタスクが実行される。意図情報には、階層の種類と、階層のレベルとが関連付けられて保持される。

最下層の意図情報が特定された場合、その意図情報に対応するタスクが実行される。例えば、天気のタスクでは、「天気」の意図情報が特定されると天気検索が実行され、娯楽のタスクでは、「外で遊ぶ」の意図情報が特定されると娯楽情報検索が実行される。

保持部４６は、対応付けられた意図情報とは別の意図情報を導出するための質問を、意図情報に対応付けて保持する。質問はテキストで保持される。特定された意図情報に対応付けられた質問を出力することで、ユーザから別の意図情報を導き出すことができる。

保持部４６は、質問に対応付けられた意図情報よりも下層の意図情報を導出する内容を定めた質問を保持する。つまり、第１階層の意図情報に対応付けられた質問は、その第１階層の意図情報に従属する第２階層の意図情報を導出する内容が定められる。例えば、図４に示す「空腹」の意図情報が特定されると、それに従属する「食事」の意図情報を導出するための質問が出力される。これにより、下層の意図情報を導出する質問を予め定義することで、最終的に最下層の意図情報を特定して、タスクを実行できる。一方で最下層の意図情報が特定されるまで、タスクが実行されない。

１つの意図情報に対して、複数の質問が関連付けられてよく、対応付けられた複数の質問のうち、いずれかの質問が出力されてよく、所定の確率でいずれかの質問が選択されて出力されてよい。

保持部４６は、意図情報に特定のワードを結びつけた辞書データを保持する。これにより、ユーザが特定のワードを発話した場合に、ユーザの意図情報を特定される。例えば、辞書データでは、「お腹が空いた」や「腹ぺこ」などの特定ワードが「空腹」の意図情報に結びつけられており、「晴れ」や「雨」などの特定ワードが「外の状態」の意図情報に結びつけられている。

保持部４６によって階層構造で保持される意図情報には、質問に対応付けられている意図情報と、タスクに対応付けられている意図情報とが含まれる。例えば、飲食の階層構造では、第１階層から第３階層の意図情報は質問に対応付けられており、最下層である第４階層の意図情報はタスクに対応付けられている。これによって、上位の意図情報を特定した場合には質問を出力して、下位の意図情報を導出し、最終的にタスクに対応する意図情報を導出することができる。

図３に戻る。出力処理部３８は、認識処理部３６によって認識したユーザの発話の内容に対する応答をテキストで生成する。出力制御部４０は、出力処理部３８により生成された応答を出力部２６から出力する制御を実行する。

出力処理部３８は、ユーザの発話の内容に応じてタスクを実行して、サービスを提供できる。例えば、出力処理部３８は、ユーザに提供情報を提供する案内機能を有する。出力処理部３８によって提供されるサービス機能は、案内機能に限られず、音楽再生機能、経路案内機能、通話接続機能、端末設定変更機能などであってよい。

出力処理部３８の特定部４８は、ユーザの発話ごとに、その発話の内容が保持部４６に保持される複数の意図情報のいずれの意図情報に対応するか特定する。特定部４８は、ユーザの発話から特定のワードが含まれているか抽出し、抽出した特定のワードをもとにユーザの意図情報を特定する。つまり、特定部４８は、意図情報と予め設定した特定ワードとの結び付きを示す辞書データを参照して、ユーザの意図情報を特定する。なお、特定部４８は、ニューラルネットワークの手法等を用いてユーザの発話の内容からユーザの意図情報を特定してよい。また特定部４８は、特定ワードを抽出する際に表記ゆれや小さな差分を許容してよい。また、特定部４８は、ユーザの発話の内容から複数の意図情報を特定してもよい。

記憶部４４は、特定部４８によって特定されたユーザの意図情報や、ユーザの発話などの対話履歴を記憶する。記憶部４４は、特定された意図情報が属するタスクの種類と、特定した時刻を記憶する。記憶部４４は、特定部４８によって特定されたユーザの意図情報を複数回分だけ記憶してよく、現在時刻から所定時間内の対話履歴を記憶してよい。つまり、記憶部４４は、意図情報が所定個数溜まると古い意図情報を破棄し、特定された時刻から所定時間経過した対話履歴を破棄する。これにより、ある程度の対話履歴を記憶しつつ、古い意図情報が破棄される。

特定部４８は、ユーザの発話に特定ワードが含まれない場合、ユーザが肯定または否定の回答であるか判定する。特定ワードが含まれず、ユーザが肯定または否定の回答である場合に、特定部４８は、前回の意図情報と、ユーザの発話と、質問内容とをもとにユーザの意図情報を特定してよい。これにより、ユーザが「はい。」、「いいえ。」で答えた場合に、ユーザの意図を特定できる。

出力決定部５０は、特定された意図情報に対応付けられた質問を保持部４６から取り出し、出力することを決定する。意図情報に対応付けられた質問は、その意図情報に従属する下層の意図情報を導出するためのもので、ユーザの意図を絞り込むことができる。これにより、ユーザの意図を絞り込むことができ、ユーザの意図に沿ったスムーズな流れで対話を実現できる。出力決定部５０は、特定された意図情報に対応付けられた複数の質問からいずれかを選択して、選択した質問を出力することを決定してよい。出力決定部５０は、複数の質問からいずれかを選択する際に、ランダムに選択してよいが、前回の意図情報をもとに最適な質問を選択してよい。

特定部４８によって特定されたユーザの意図情報をもとに応答が出力されるため、図１のＳ２０からＳ２８の対話例に示すように、ユーザが突然に話題を変えて別の種類のタスクを要求しても、出力処理部３８は適切なタスクを導き出して対応できる。

記憶部４４には、対話の履歴が記憶されており、その対話履歴には、図１のＳ２０に示すように、回答が得られていない質問があることも記憶されている。図１のＳ１８ではユーザの発話が別階層の意図情報に飛んだことで、階層の降下が止まっている。そこで、出力決定部５０は、記憶部４４に記憶された対話履歴から質問の回答がない質問を検出して、検出した質問を再度出力することを決定する。再度出力することを決定するタイミングは、図１のＳ３４に示すように別種類のタスクが実行された直後であってよい。これにより、図１のＳ３２およびＳ３４に示すように、別種類のタスクを完了した後に、実行完了前のタスクを導出するための対話を再開できる。また、階層構造を上層から１段階ずつ順に下りる必要はなく、特定された意図情報の位置に容易に飛ぶことができる。

また、出力決定部５０は、意図情報に対応付けられた質問を出力しないことを決定してよく、この場合、質問ではなく、単なる相づちなどが出力される。例えば、意図情報に対応付けられた質問が出力される確率が意図情報毎に予め設定されていてよい。例えば、「雑談」の意図情報が特定された場合は、質問が出力される確率が約１０パーセントで相対的に低く、「空腹」の意図情報が特定された場合は、質問が出力される確率が約９０パーセントと相対的に高くてよい。出力決定部５０は、特定部４８によって複数の意図情報が特定された場合、最も下層の意図情報に対応付けられた質問を出力することを決定してよい。

意図情報に対応付けられた質問は、下層の意図情報に絞り込むだけでなく、回答次第では別の種類の階層の意図情報を導出するための内容が定義されている。例えば、図１に示すＳ１４の「何か食べますか？」という質問に対して、ユーザが否定的な発話をした場合、「我慢」の意図情報が特定される。この「我慢」の意図情報は、図４に示すように、食事の階層ではなく、ニュースの階層に配置される。このように、質問の回答次第では、別種類の階層に飛び、会話を継続することができる。

タスク実行部５２は、最下層の意図情報が特定された場合に、対応するタスクを実行する。例えば、タスク実行部５２は、図４に示す「外食」の意図情報が特定された場合に、飲食店検索を実行し、提供情報取得部４２を介してサーバ装置１４から飲食店情報を取得する。また、タスク実行部５２は、音楽再生装置やナビゲーション装置を実行させる指示を出してよい。

生成部５４は、エージェントに発話させるテキストを生成する。生成部５４は、出力決定部５０によって出力決定された質問をテキストで生成する。生成部５４は、保持部４６に保持される質問の表現をエージェントの種類に応じて設定してよく、例えば質問を訛り言葉にしてもよい。生成部５４は、出力決定部５０によって決定された質問以外のテキストを生成してよく、ユーザの意図情報に沿ったテキストを生成してよい。また、生成部５４は、ユーザの意図情報が特定されない場合に、単なる相づちや挨拶などの日常会話を生成してよい。出力制御部４０は、生成部５４によって生成されたテキストを音声または画像で出力部２６から出力させる。

図５は、ユーザと対話を実行する処理のフローチャートである。発話取得部３４は、入力部３０からユーザ１０の発話を取得する（Ｓ５０）。認識処理部３６は、ユーザ１０の発話を解析して発話の内容を認識する（Ｓ５２）。

特定部４８は、ユーザ１０の発話が特定ワードを含むか判定する（Ｓ５４）。ユーザ１０の発話が特定ワードを含む場合（Ｓ５４のＹ）、特定部４８は、保持部４６に保持される辞書データを参照して、特定ワードに対応付けられた意図情報とその意図情報の階層レベルを特定する（Ｓ５６）。記憶部４４は、特定部４８によって特定された意図情報を記憶する（Ｓ５８）。

タスク実行部５２は、特定された意図情報に対応するタスクがあるか判定する（Ｓ６０）。つまり、タスク実行部５２は、特定された意図情報が最下層に位置するか判定する。特定された意図情報に対応するタスクがある場合（Ｓ６０のＹ）、そのタスクを実行する（Ｓ６２）。生成部５４は、タスク実行部５２の実行結果をもとに、ユーザ１０に応答するテキストを生成する（Ｓ６４）。出力制御部４０は、生成されたテキストを出力部２６から出力させ（Ｓ６６）、本処理を終える。

特定された意図情報に対応するタスクがない場合（Ｓ６０のＮ）、出力決定部５０は、特定された意図情報に対応付けられた質問を出力することを決定する（Ｓ７４）。この質問は従属している下層の意図情報を導き出すもので、最終的にタスクを導出することが可能となる。生成部５４は、出力決定部５０によって決定された質問をもとにテキストを生成する（Ｓ７６）。例えば、保持部４６には、質問がテキストで保持されているため、生成部５４は、出力決定部５０によって決定された質問を保持部４６から取り出すだけでもよい。出力制御部４０は、生成されたテキストを出力部２６から出力させ（Ｓ６６）、本処理を終える。

ユーザ１０の発話が特定ワードを含まない場合（Ｓ５４のＮ）、特定部４８は、記憶部４４に過去の意図情報が記憶されているか判定する（Ｓ６８）。過去の意図情報が記憶されていない場合（Ｓ６８のＮ）、生成部５４は、ユーザ１０の発話に応じた応答文を生成する（Ｓ７８）。出力制御部４０は、生成されたテキストを出力部２６から出力させ（Ｓ６６）、本処理を終える。

過去の意図情報が記憶されている場合（Ｓ６８のＹ）、特定部４８は、直近の意図情報と、エージェントの出力と、ユーザ１０の発話とをもとにユーザ１０の意図情報を特定する（Ｓ７０）。例えば、エージェントが「何か食べますか？」と出力し、ユーザ１０が「はい。」と返答した場合に、特定部４８は、ユーザ１０の意図情報を「食事」であると特定し、ユーザ１０が「いいえ。」と返答した場合に、特定部４８は、ユーザの意図情報を「我慢」であると特定する。記憶部４４は、特定された意図情報を記憶する（Ｓ７２）。その後は、上述のＳ６０に進んで、本処理を実行する。

なお各実施例はあくまでも例示であり、各構成要素の組合せにいろいろな変形例が可能なこと、またそうした変形例も本発明の範囲にあることは当業者に理解されるところである。

実施例では、端末装置１２がサーバ装置１４から提供情報を取得する態様を示したが、この態様に限られず、端末装置１２が提供情報を予め保持してよい。

また、端末装置１２が発話の認識処理および応答テキストを生成する処理を実行する態様に限られず、サーバ装置１４が発話の認識処理および応答テキストを生成する処理の少なくとも一方を実行してもよい。例えば、端末装置１２の情報処理部２４の構成が、全てサーバ装置１４に設けられてよい。情報処理部２４がサーバ装置１４に設けられる場合、端末装置１２の入力部３０に入力された音信号、および位置情報取得部３２によって取得された位置情報は、通信部２８からサーバ装置１４に送信される。そしてサーバ装置１４の情報処理部２４が発話テキストを生成して端末装置１２の出力部２６から出力させる。

実施例では、特定部４８が、ユーザの発話の内容をもとに、タスクに対応する意図情報を特定する態様を示したが、この態様に限られない。例えば、特定部４８が、前回のユーザの発話と今回のユーザの発話の内容をもとにタスクに対応する意図情報を特定してもよく、複数の意図情報を特定すれることでタスクに対応する意図情報を特定してもよい。

１情報出力システム、１０ユーザ、１２端末装置、１４サーバ装置、２４情報処理部、２６出力部、２８通信部、３０入力部、３２位置情報取得部、３４発話取得部、３６認識処理部、３８出力処理部、４０出力制御部、４２提供情報取得部、４４記憶部、４６保持部、４８特定部、５０出力決定部、５２タスク実行部、５４生成部。

Claims

ユーザの発話を取得する発話取得部と、
質問に対応付けられた意図情報と、タスクに対応付けられた意図情報とをタスク毎の階層構造で保持する保持部と、
ユーザの発話の内容が前記保持部に保持される意図情報のいずれに対応するか特定する特定部と、
質問に対応付けられている意図情報が前記特定部によって特定されると当該質問を出力することを決定する出力決定部と、
タスクに対応付けられている意図情報が前記特定部によって特定されると当該タスクを実行するタスク実行部と、
過去の対話の履歴を記憶する記憶部と、を備え、
前記保持部に保持される質問は、対応付けられている意図情報の階層とは別の階層の意図情報を導出するための内容を含み、
前記出力決定部は、ユーザから回答が得られていない過去に出力した質問を、その質問に対応付けられた意図情報とは別種類のタスクが実行された直後に、再度出力することを決定し、
前記記憶部は、ユーザの発話から特定された時刻から所定時間経過した対話の履歴を破棄することを特徴とする情報出力システム。
前記保持部に保持される質問は、対応付けられている意図情報より下層の意図情報を導出するための内容を含み、
タスクに対応付けられた意図情報は、階層構造において質問に対応付けられた意図情報よりも下層にあることを特徴とする請求項１に記載の情報出力システム。
前記特定部は、ユーザの発話と前回特定された意図情報とにもとづいてユーザの発話の内容が前記保持部に保持される意図情報のいずれに対応するか特定することを特徴とする請求項１または２に記載の情報出力システム。
前記保持部は、１つの意図情報に対して、複数の質問を対応付けて保持し、
前記出力決定部は、１つの意図情報に対応付けられた複数の質問のうち、前回特定された意図情報をもとにいずれかの質問を選択し、選択した質問を出力することを決定することを特徴とする請求項１に記載の情報出力システム。
前記保持部は、意図情報に対応付けられた質問が出力される確率を意図情報毎に保持し、
前記出力決定部は、前記保持された質問が出力される確率をもとに意図情報に対応付けられた質問を出力するか決定することを特徴とする請求項１に記載の情報出力システム。
質問に対応付けられた意図情報と、タスクに対応付けられた意図情報とをタスク毎の階層構造で保持する保持部と、
ユーザの発話の内容が前記保持部に保持される意図情報のいずれに対応するか特定する特定部と、
質問に対応付けられている意図情報が前記特定部によって特定されると当該質問を出力することを決定する出力決定部と、
タスクに対応付けられている意図情報が前記特定部によって特定されると当該タスクを実行するタスク実行部と、
過去の対話の履歴を記憶する記憶部と、を備え、
前記保持部に保持される質問は、対応付けられている意図情報の階層とは別の階層の意図情報を導出するための内容を含み、
前記出力決定部は、ユーザから回答が得られていない過去に出力した質問を、その質問に対応付けられた意図情報とは別種類のタスクが実行された直後に、再度出力することを決定し、
前記記憶部は、ユーザの発話から特定された時刻から所定時間経過した対話の履歴を破棄することを特徴とするサーバ装置。
各ステップを情報出力システムによって実行する情報出力方法であって、
ユーザの発話を取得するステップと、
質問に対応付けられた意図情報と、タスクに対応付けられた意図情報とをタスク毎の階層構造で保持するステップと、
ユーザの発話の内容が、保持される意図情報のいずれに対応するか特定するステップと、
質問に対応付けられている意図情報が特定されると当該質問を出力することを決定するステップと、
タスクに対応付けられている意図情報が特定されると当該タスクを実行するステップと、
ユーザとの対話の履歴を記憶するステップと、を含み、
保持された質問は、対応付けられている意図情報の階層とは別の階層の意図情報を導出するための内容を含み、
前記質問の出力を決定するステップにおいて、ユーザから回答が得られていない過去に出力した質問を、その質問に対応付けられた意図情報とは別種類のタスクが実行された直後に、再度出力することを決定し、
前記記憶するステップにおいて、ユーザの発話から特定された時刻から所定時間経過した対話の履歴を破棄することを特徴とする情報出力方法。