JP6559417B2

JP6559417B2 - 情報処理装置、情報処理方法、対話システム、および制御プログラム

Info

Publication number: JP6559417B2
Application number: JP2014245349A
Authority: JP
Inventors: 和典柴田; 広瀬　斉志; 斉志広瀬; 章友大西
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2014-12-03
Filing date: 2014-12-03
Publication date: 2019-08-14
Anticipated expiration: 2034-12-03
Also published as: JP2016109784A

Description

本発明は、ユーザと音声で対話する音声対話装置が取得した音声を用いて処理を行う情報処理装置等に関する。

従来から、ユーザと音声で対話する音声対話装置に関する技術の研究開発が進められている。音声対話装置に関する文献としては、例えば下記特許文献１〜５が挙げられる。このうち、特許文献１には、会話のシーンに応じた音声認識辞書を用いて音声認識することにより、入力された音声と音声認識辞書に記録された単語とのマッチングを高速化する技術が開示されている。これにより、ユーザの発話に対する応答を迅速に行うことができ、スムーズで自然な会話が実現される。

国際公開第２００２／６７２４４号（２００２年８月２９日公開）特開昭６０−２４６４６８号公報（１９８５年１２月６日公開）特開２００６−２２７６１１号公報（２００６年８月３１日公開）特開２００４−２８７０１６号公報（２００４年１０月１４日公開）特開２００４−５５３０号公報（２００４年１月８日公開）

上述のような従来技術は、ユーザが音声対話装置と自然な会話を行うことに主眼を置いたものが多く、単なる会話以上の価値を生み出すものではなかった。しかしながら、ユーザが対話する相手が人ではなく音声対話装置である場合には、それを利用して付加価値を生み出すことができるはずである。例えば、人であれば聞いたことを忘れてしまうが、装置であれば不揮発性のメモリ等を用いることにより、正確に会話内容を記録しておくことが可能である。

本発明は、上記の問題点に鑑みてなされたものであり、その目的は、ユーザが音声対話装置に対して発話した発話内容をテキストデータとして記録することのできる情報処理装置等を提供することにある。

上記の課題を解決するために、本発明の一態様に係る情報処理装置は、ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得部と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、を備えている。

また、本発明の一態様に係る情報処理方法は、上記の課題を解決するために、情報処理装置が実行する情報処理方法であって、ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得ステップと、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録ステップと、を含む。

そして、本発明の一態様に係る対話システムは、上記の課題を解決するために、ユーザの発する音声を取得する音声対話装置と、該音声対話装置に上記音声に応じた応答音声を出力させる発話制御装置とを含む対話システムであって、上記発話制御装置は、上記音声対話装置から取得した上記音声を音声認識する音声認識部と、上記音声認識部の音声認識結果を取得する認識結果取得部と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、を備えている。

本発明の上記各態様によれば、ユーザが音声対話装置に対して発話した発話内容をテキストデータとして記録することができるという効果を奏する。

本発明の一実施形態に係る対話システムに含まれる音声対話装置および発話制御装置の要部構成の一例を示すブロック図である。上記音声対話装置とユーザとの対話の一例を示す図である。ユーザの発話に応じて上記発話制御装置が実行する発話制御処理の流れの一例を示すフローチャートである。上記発話制御処理の別の例を示すフローチャートである。図３および図４のフローチャートにおける口頭メモモードにおける処理の流れの一例を示すフローチャートである。本発明の別の実施形態における音声対話装置とユーザとの対話の一例を示す図である。図６に示す実施形態における口頭メモモードの流れの一例を示すフローチャートである。上記音声対話装置および上記発話制御装置として利用可能なコンピュータの構成を例示したブロック図である。

〔実施形態１〕
本発明の一実施形態について図１〜図５に基づいて説明すれば以下のとおりである。

（本実施形態の概要）
まず、図２に基づいて本実施形態の概要を説明する。図２は、本実施形態に係る音声対話装置１とユーザとの対話例を示す図である。図２に示すように、本実施形態では、音声対話装置１がロボット掃除機である例を説明する。ただし、音声対話装置１はユーザの声などの外部の音声を取得し、取得した音声に対する応答音声を発することができるものであればよく、ロボット掃除機に限定されない。例えば、対話ロボットであってもよいし、音声の入出力機能を有する冷蔵庫、エアコンなどの家電であってもよいし、タブレット端末、スマートフォン、パーソナルコンピュータ等の多機能端末であってもよい。

ユーザが口頭メモモードの開始キーワード（所定の語句）を発話すると、音声対話装置１は、口頭メモモードに遷移する。口頭メモモードでは、ユーザが発話した内容が、テキスト形式のメモとして記録されるので、この動作モードは記録モードとも言える。

図２の例では、ユーザが発した「ちょっとメモしてくれる？」というメッセージＭ１には、「メモして」という、口頭メモモードの開始キーワードが含まれている。このため、メッセージＭ１を取得した音声対話装置１は口頭メモモードに遷移する。そして、口頭メモモードに遷移した音声対話装置１は、「わかった。喋っていいよ。」という応答Ｒ１を音声出力して、ユーザに口頭メモモードに遷移したことを通知する。

続いて、ユーザはメモとして記録したい内容を発話し、音声対話装置１はその音声を取得する。図２の例では、音声対話装置１は、「スーパーでジャガイモとニンジンを買わないといけない。それとバターが切れているので買わないと」というメッセージＭ２の音声を取得している。これにより、このメッセージＭ２がメモとして記録される。

ここで、ユーザの発話が途切れると、音声対話装置１は、これまでに記録したメモの内容を応答Ｒ２として音声出力する。すなわち、音声対話装置１は、発話が途切れるまでに入力されたメッセージＭ２を復唱する。

ユーザは、さらに記録したい内容がある場合は、続けて発話してもよい。図２の例では、「その後、ホームセンターでプランターとプチトマトの苗を買おうか」というメッセージＭ３を発話し、音声対話装置１はその音声を取得しているので、メッセージＭ３もメモとして記録される。そして、ユーザの発話が途切れると、音声対話装置１は、Ｒ２の応答を行ったときと同様にして、メッセージＭ３の復唱である応答Ｒ３を音声出力する。

ここで、所定の終了キーワードが発話されると、メモの最終確認が行われる。図示の例では、メッセージＭ４に「いいよ」という終了キーワードが含まれているので、音声対話装置１がメッセージＭ４を取得すると、メモの最終確認が行われる。この最終確認では、音声対話装置１は、今までに記録されたメモ（図２の例では、メッセージＭ２およびＭ３）をまとめて復唱する応答Ｒ４を音声出力する。これにより、ユーザは、自分の意図通りのメモが記録されたかを確認することができる。

この最終確認において、所定の終了キーワードが再度発話されると、口頭メモモードは終了する。図示の例では、ユーザは、メッセージＭ５を発話しており、これには終了キーワードである「いいよ」が含まれているので、口頭メモモードは終了する。なお、図２には示していないが、最終確認において、所定のやりなおしキーワードが発話されると、これまでに記録したメモは破棄され、音声対話装置１は、応答Ｒ１を再び音声出力して、メモの記録をやり直す。

また、口頭メモモードの終了時に、音声対話装置１は、記録したメモをユーザに電子メールで送信することを伝える応答Ｒ５を音声出力する。なお、メモの送信については後述する。ここで、応答Ｒ５に対してユーザが何らかの発話を行った場合、音声対話装置１は、その発話に対して応答してもよい。図示の例では、ユーザが「ありがとう」というメッセージＭ６を発話しており、音声対話装置１はこれに対して「また何かあったらメモするよ」という応答Ｒ６を音声出力している。

（対話システム５の構成）
次に、上記音声対話装置１に上述のような発話を行わせる対話システム５の構成を図１に基づいて説明する。図１は、対話システム５に含まれる音声対話装置１および発話制御装置（情報処理装置）２の要部構成の一例を示すブロック図である。図示のように、対話システム５は、ユーザの発話する音声を取得する音声対話装置１と発話制御装置２を含むシステムであり、発話制御装置２の制御により、音声対話装置１に発話させるシステムである。

より詳細には、音声対話装置１はユーザの発した音声を取得し、これを音声データとして発話制御装置２に送信する。そして、発話制御装置２は、受信した音声データを解析して音声認識し、その音声認識結果に応じた応答音声データを生成し、音声対話装置１に送信して出力させる。また、メモの記録や、電子メールによるメモの送信についても発話制御装置２が行う。なお、同図では、音声対話装置１と発話制御装置２がネットワークを介して通信する例を示しているが、音声対話装置１と発話制御装置２の通信態様は特に限定されない。

同図に示す端末装置３は、発話制御装置２が電子メールで送信したメモの閲覧に使用される端末装置である。なお、発話制御装置２は、メモを端末装置３に直接送信してもよいし、図示しないメールサーバ等に送信することにより、端末装置３から当該メモを閲覧できるようにしてもよい。また、メモの通知方法はこれらの例に限られず、例えば端末装置３から閲覧できるＳＮＳ（social networking service）に投稿することによってメモの内容を通知してもよい。

（音声対話装置１の要部構成）
次に、音声対話装置１の構成を説明する。図示のように、音声対話装置１は、制御部１０、音声入力部１１、音声出力部１２、記憶部１３、および通信部１４を備えている。また、制御部１０は、入力音声送信部１０１および応答音声取得部１０２を含む。

制御部１０は、音声対話装置１が備える各部を統括制御するものであり、音声入力部１１は、音声対話装置１の外部の音声を取得する装置であり、音声出力部１２は、音声を出力する装置である。音声入力部１１は、例えばマイクであってもよく、音声出力部１２は例えばスピーカであってもよい。記憶部１３は、音声対話装置１にて使用される各種データを記憶する記憶装置であり、通信部１４は、音声対話装置１と外部の装置（特に発話制御装置２）との間で情報の送受信を行う通信装置である。

入力音声送信部１０１は、音声入力部１１によって取得された外部の音声を、通信部１４を介して発話制御装置２に送信する。そして、応答音声取得部１０２は、発話制御装置２が生成した、入力音声送信部１０１が送信した音声に対する応答音声を、通信部１４を介して取得し、音声出力部１２から出力する。

（発話制御装置２の要部構成）
次に、発話制御装置２の要部構成について説明する。発話制御装置２は、制御部２０、記憶部２１、および通信部２２を備えている。制御部２０は、発話制御装置２が備える各部を統括制御するものであり、記憶部２１は、発話制御装置２にて使用される各種データを記憶する記憶装置である。また、通信部２２は、発話制御装置２が外部の装置（特に音声対話装置１と端末装置３）と通信するための通信装置である。なお、音声対話装置１と通信するための通信部と、端末装置３と通信するための通信部が個別に設けられていてもよい。

図１に示す記憶部２１には、登録キーワード２１１、対話ＤＢ（データベース）２１２、およびメモデータ（ユーザの発話内容を示すテキストデータ）２１３が格納されている。

登録キーワード２１１は、所定の処理の契機となるキーワードとして予め登録されたものであり、登録キーワード２１１には、上述した開始キーワード、やりなおしキーワード、および終了キーワードが含まれる。ここでは登録キーワード２１１がテキストデータである例を説明する。

対話ＤＢ２１２は、ユーザの発話に対する応答内容を決定するために用いられるデータベースである。対話ＤＢ２１２では、想定されるユーザの発話内容がテキストデータとして登録されており、このテキストデータに対して、応答内容を示すテキストデータが対応付けられている。例えば、「調子はどう？」というテキストデータには、「絶好調！」というテキストデータが対応付けられており、これによりユーザの「調子はどう？」との発話に対して、「絶好調！」との応答を音声対話装置１に発話させることができる。

メモデータ２１３は、口頭メモモード時に記録されるデータであり、ユーザの発話内容を示すテキストデータである。

制御部２０には、入力音声取得部２０１、音声解析部（音声認識部）２０２、キーワード判定部（認識結果取得部、記録制御部）２０３、通常応答部２０４、口頭メモ応答部２０５、音声合成部２０６、発話制御部２０７、メモ生成部（テキスト記録部）２０８、およびメモ通知部（テキスト送信部）２０９が含まれる。

入力音声取得部２０１は、通信部２２を介して、音声対話装置１から音声データを取得し、取得した音声データを音声解析部２０２に送信する。

音声解析部２０２は、入力音声取得部２０１から受信した音声データを解析して音声認識し、音声認識結果としてテキストデータを出力する。つまり、音声解析部２０２は、音声データをテキストデータに変換する。そして、当該テキストデータをキーワード判定部２０３に送信する。なお、音声データをテキストデータに変換する方法は公知であるから、ここでは説明を省略する。また、音声解析部２０２を音声対話装置１に設けてもよく、この場合には、入力音声取得部２０１は、音声データの代わりに音声認識結果を取得することになる。

キーワード判定部２０３は、音声解析部２０２から音声認識結果を受信する。そして、受信した音声認識結果に所定のキーワードが含まれているか否かを判定し、含まれていると判定した場合には、含まれているキーワードに応じた処理を実行する。なお、上記所定のキーワードとは、記憶部２１に記憶されている登録キーワード２１１である。また、所定のキーワードが含まれていない場合には、当該音声認識結果を通常応答部２０４に送信する。

具体的には、キーワード判定部２０３は、開始キーワードが含まれていると判定し、口頭メモモードに遷移させることを決定した場合には、口頭メモ応答部２０５とメモ生成部２０８にその旨を通知する。これにより、発話制御装置２は、口頭メモモードに遷移し、音声対話装置１に口頭メモモード特有の音声応答を行わせると共に、これ以降に音声対話装置１から受信した音声データをテキストデータとして記録する。

また、キーワード判定部２０３は、口頭メモモードにおいては、音声解析部２０２から受信したテキストデータに、やりなおしキーワードまたは終了キーワードが含まれているか判定し、その判定結果に応じた処理を行う。なお、この処理の詳細は後述する。

通常応答部２０４は、口頭メモ応答部２０５と共に、応答内容決定部を構成している。応答内容決定部では、音声対話装置１に発話させる応答内容を決定する。通常応答部２０４は、非口頭メモモード時の応答内容を決定し、口頭メモ応答部２０５は、口頭メモモード時の応答内容を決定する。なお、非口頭メモモードでは、テキストデータは記録せずに音声対話装置１にユーザと対話させるので、非口頭メモモードは対話モードであるとも言える。無論、動作モードは、これらの２つに限られず、発話制御装置２は、その他の動作モードを有していてもよい。

具体的には、通常応答部２０４は、非口頭メモモード時において、対話ＤＢ２１２を参照して音声認識結果に応じた応答内容を決定し、その応答内容を示すテキストデータを音声合成部２０６に送信する。

一方、口頭メモ応答部２０５は、キーワード判定部２０３の指示に従って応答内容を決定し、その応答内容を示すテキストデータを音声合成部２０６に送信する。詳細は後述するが、口頭メモ応答部２０５は、確認発話、開始発話、復唱発話、復唱・確認発話、および終了発話のそれぞれについて、その内容を示すテキストデータを音声合成部２０６に送信する。これらのテキストデータを生成するために必要なデータ（テキストデータ）は、予め記録しておく。なお、確認発話は、口頭メモモードへの遷移の可否を確認する発話であり、開始発話は、口頭メモモードへの遷移を通知する発話であり、復唱発話は、記録した口頭メモを復唱する発話である。そして、復唱・確認発話は、記録した全てのメモを復唱する発話であり、終了発話は、口頭メモモードの終了を通知する発話である。

音声合成部２０６は、応答内容決定部から受信したテキストデータを音声データに変換し、この音声データを発話制御部２０７に送信する。そして、発話制御部２０７は、音声合成部２０６から受信した音声データを、通信部２２を介して音声対話装置１に送信して出力させる。つまり、発話制御部２０７が送信する音声データは、音声対話装置１に対して発話したユーザ向けの応答音声データである。

メモ生成部２０８は、音声解析結果からユーザの発話内容を示すテキストデータを生成し、これをメモデータ２１３として記憶部２１に格納する。

メモ通知部２０９は、メモデータ２１３の内容をユーザに通知する。具体的には、メモ通知部２０９は、キーワード判定部２０３からの指示を受けて、メモデータ２１３を読み出し、当該メモデータ２１３の内容を含むメールを生成する。そして、生成したメールを、通信部２２を介してユーザのアドレス宛に送信する。なお、メモデータ２１３は、メールの本文としてもよいし、添付ファイルとしてもよい。

（発話制御処理の流れ）
次に、図３を参照して、発話制御装置２が実行する発話制御処理の流れについて説明する。図３は、発話制御処理（情報処理方法）の一例を示すフローチャートである。なお、図３のフローの開始時には、発話制御装置２は非口頭メモモードである。

まず、入力音声取得部２０１が、音声入力を受け付ける（Ｓ１）。具体的には、入力音声取得部２０１は、通信部２２を介して、音声対話装置１が取得した音声データを受信する。そして、入力音声取得部２０１は、この音声データを音声解析部２０２に送信し、音声解析部２０２がこれを解析する（Ｓ２）。

ここで、音声解析部２０２は、音声解析が成功したか否かを判定する（Ｓ３）。そして、成功していないと判定した場合（Ｓ３でＮＯ）には、解析失敗発話を行うよう通常応答部２０４に指示する。なお、例えば、ユーザの発話した言葉が不明瞭であった場合や、ユーザの発話以外の雑音などを音声対話装置１が取得した場合等に、音声解析が失敗したと判定される。

この指示を受信した通常応答部２０４は、解析が失敗したことを示す所定のテキストデータ（例えば、「もう１回言って」や「わからないよ」等）を音声合成部２０６に送信する。これにより、このテキストデータが音声合成部２０６によって音声データに変換され、発話制御部２０７は、この音声データを音声対話装置１に発話させる（Ｓ６）。これにより、音声対話装置１によって解析失敗発話が行われる。

一方、解析に成功したと判定した場合（Ｓ３でＹＥＳ）、音声解析部２０２は、音声解析によって得た音声認識結果をキーワード判定部２０３に送信する。そして、キーワード判定部２０３は、受信した音声認識結果に開始キーワードが含まれるか否かを判定する（Ｓ４、認識結果取得ステップ）。

ここで、開始キーワードが含まれていないと判定した場合（Ｓ４でＮＯ）、キーワード判定部２０３は、通常の応答（非口頭メモモードにおける応答）が行われるようにするため、通常応答部２０４に音声認識結果を送信する。そして、通常応答部２０４は、受信した音声認識結果に対応する応答が対話ＤＢ２１２に登録されているか判定する（Ｓ７）。

ここで、登録されていないと判定した場合（Ｓ７でＮＯ）、通常応答部２０４は、未登録の発話への応答に用いる未登録時発話を行わせる（Ｓ８）。具体的には、通常応答部２０４は、予め定められた未登録時発話の発話内容を音声合成部２０６に通知して音声データに変換させる。そして、発話制御部２０７は、この音声データを音声対話装置１に発話させる。

なお、未登録時発話は、開始キーワードが認識されなかったことをユーザが認識できるような内容であれば特に限定されず、例えば解析失敗発話と同じ発話内容としてもよいし、異なる発話内容としてもよい。異なる発話内容とする場合、例えば音声認識結果のテキストを発話内容に組み込んでもよい。例えば、音声認識したテキストに「ＡＡＡ」という文字列が含まれていた場合、この文字列を組み込んだ「ＡＡＡは知らないよ」のような発話内容としてもよい。

一方、登録されていると判定した場合（Ｓ７でＹＥＳ）、登録済み応答が行われる（Ｓ９）。具体的には、通常応答部２０４は、受信した音声認識結果に応じた応答内容を特定し、当該応答内容が音声合成部２０６にて音声データに変換される。そして、発話制御部２０７は、この音声データ、すなわち対話ＤＢ２１２に登録済みの応答を音声対話装置１に発話させる。

例えば、ユーザが音声対話装置１に対して「調子はどう？」と話しかけた場合、この音声の音声データが発話制御装置２に送信され、上述のＳ１およびＳ２の処理で「調子はどう？」との音声認識結果が生成される。そして、この音声認識結果には開始キーワードが含まれていないので、Ｓ４でＮＯと判定され、Ｓ９では、対話ＤＢ２１２において「調子はどう？」に対応付けられている「絶好調！」を発話させる制御が行われる。

一方、開始キーワード（例えば「メモして」）が含まれると判定した場合、キーワード判定部２０３は、Ｓ４でＹＥＳと判定し、発話制御装置２を口頭メモモードに遷移させる（Ｓ５）。なお、口頭メモモードにおける処理の詳細は後述する。

また、発話制御処理は、図４に示すようなものであってもよい。図４は、発話制御処理の別の例を示すフローチャートである。図４の発話制御処理は、Ｓ４でＹＥＳと判定された場合に、Ｓ１０およびＳ１１の処理を行う点で図３の発話制御処理と相違している。このため、ここではＳ１０およびＳ１１の処理を中心に説明し、他の処理の説明は省略する。

図４の発話制御処理では、Ｓ４でＹＥＳと判定したキーワード判定部２０３は、確認発話を行うように口頭メモ応答部２０５に指示する。そして、この指示を受信した口頭メモ応答部２０５は、ユーザに開始キーワードの反復を促す内容のテキストデータを音声合成部２０６に送信する。これにより、音声合成部２０６はこのテキストデータを音声データに変換し、発話制御部２０７はこの音声データを音声対話装置１に送信して出力させる（Ｓ１０）。これにより、音声対話装置１によって確認発話が行われる。なお、上記テキストデータの内容は、開始キーワードの反復を促すものであればよく、特に限定されないが、例えば「何々？」のようなものであってもよい。

この確認発話に応じてユーザが発話すると、その音声データが音声対話装置１から発話制御装置２に送信され、音声解析されて音声認識結果が生成される。そして、キーワード判定部２０３は、この音声認識結果に開始キーワードが含まれているか否か、すなわち開始キーワードが反復されたかを判定する（Ｓ１１）。

ここで、開始キーワードが反復されたと判定した場合（Ｓ１１でＹＥＳ）には、Ｓ５の処理に進み、発話制御装置２は口頭メモモードに遷移する。一方、開始キーワードが反復されていないと判定した場合（Ｓ１１でＮＯ）には、Ｓ１の処理に戻り、この場合、非口頭メモモードが継続する。なお、キーワード判定部２０３は、所定時間経過しても音声認識結果が受信されない場合には、開始キーワードが反復されていないと判定してもよい。

上記Ｓ１０およびＳ１１の処理を行うことにより、例えばテレビ等の音声に開始キーワードが含まれていたような場合に、ユーザが意図していないタイミングで口頭メモの記録が行われることを防ぐことができる。つまり、上記Ｓ１０およびＳ１１の処理は、口頭メモモードに遷移することをユーザが意図しているか確認するための処理である。

このため、Ｓ１０の確認発話の内容は、開始キーワードの反復を促すものに限られず、例えば口頭メモモードに遷移することの可否をユーザに確認する内容（例えば「メモするんだね？」等）であってもよい。ただし、このような確認発話を行った場合、これに対するユーザの応答内容にばらつきが生じると考えられるので、Ｓ１１では、このようなばらつきをカバーするような判定を行う必要がある。例えば、開始キーワードが反復された場合の他、「はい」や「そうだよ」等の肯定的な文言が発話された場合にも、ＹＥＳと判定するようにしておくことが望ましい。この点、同一の開始キーワードを反復させる上記の構成では、Ｓ１１を簡易な処理とすることができる。

（口頭メモモードにおける処理の流れ）
次に、口頭メモモードにおける処理の流れについて、図５を参照して説明する。図５は、口頭メモモードにおける処理の流れの一例を示すフローチャートである。

まず、キーワード判定部２０３は、メモ生成部２０８に口頭メモモードに遷移する旨を通知する。また、口頭メモ応答部２０５に開始発話を行うように指示する。この通知を受信した口頭メモ応答部２０５は、開始発話のテキストデータを音声合成部２０６に送信する。

そして、音声合成部２０６はこのテキストデータを音声データに変換し、発話制御部２０７はこの音声データを音声対話装置１に送信して出力させる（Ｓ２０）。上記テキストデータの内容、すなわち開始発話の内容は特に限定されず、例えば「わかった。喋っていいよ。」のようなユーザの発話を促すものであってもよい。

ユーザは、上記開始発話に応じて、音声対話装置１に対してメモとして記録して欲しい内容を発話するので、その発話内容を示す音声データが入力音声取得部２０１によって取得され、音声解析部２０２によって解析されて、音声認識結果が生成される。そして、キーワード判定部２０３は、この音声認識結果に終了キーワードが含まれるか、すなわちユーザによって終了キーワードが入力されたか判定する（Ｓ２１）。なお、音声解析に失敗した場合には、図３および図４のＳ６と同様に、音声対話装置１に解析失敗発話を行わせてもよい。

ここで、終了キーワードが入力されていないと判定した場合（Ｓ２１でＮＯ）、キーワード判定部２０３は、メモ生成部２０８に音声認識結果を送信する。そして、メモ生成部２０８は、受信した音声認識結果を記録する（Ｓ２７、テキスト記録ステップ）。このようにして記録された音声認識結果（テキストデータ）がメモデータ２１３である。また、メモ生成部２０８は、メモデータ２１３を記録した旨を口頭メモ応答部２０５に通知する。

上記通知を受信した口頭メモ応答部２０５は、直前の記録文章、すなわちＳ２７で記録されたテキストデータを読み込む（Ｓ２８）。また、口頭メモ応答部２０５は、読み出したテキストデータを音声合成部２０６に送信する。そして、音声合成部２０６はこのテキストデータを音声データに変換し、発話制御部２０７はこの音声データを音声対話装置１に送信して出力させる（Ｓ２９）。この後、処理はＳ２１に戻る。つまり、ユーザの発話が途切れる毎に、それまでに発話された内容を記録し、復唱するという処理が、終了キーワードが入力されるまで（Ｓ２１でＹＥＳと判定されるまで）繰り返される。

上記Ｓ２８およびＳ２９の処理によれば、ユーザは、音声対話装置１の発話を聞くことにより、記録されたメモデータ２１３の内容を確認することができる。例えば、図２の例では、ユーザのメッセージＭ２が発話された後に行われるＳ２９の処理により、音声対話装置１は応答Ｒ２を出力する。これにより、ユーザは、自らが発話したメッセージＭ２の内容がメモデータ２１３として記録されていることを確認することができる。メッセージＭ３に対する応答Ｒ３についても同様である。

ここで、Ｓ２１において、終了キーワードが入力されたと判定した場合（Ｓ２１でＹＥＳ）、キーワード判定部２０３は、復唱・確認発話を行うよう、口頭メモ応答部２０５に指示する。この指示を受信した口頭メモ応答部２０５は、全記録文章、すなわちメモデータ２１３として記録されたテキストデータ（開始キーワードの検出から終了キーワードの検出までに記録された全テキストデータ）を読み込む（Ｓ２２）。

そして、口頭メモ応答部２０５は、読み出したテキストデータに所定のテキストデータを付加して復唱・確認発話用のテキストデータを生成し、これを音声合成部２０６に送信する。音声合成部２０６はこのテキストデータを音声データに変換し、発話制御部２０７はこの音声データを音声対話装置１に送信して出力させる（Ｓ２３）。図２の例では、応答Ｒ４が復唱・確認発話に相当する。

ユーザは、上記復唱・確認発話に応じて発話するので、その発話内容を示す音声データが入力音声取得部２０１によって取得され、音声解析部２０２によって解析されて、音声認識結果が生成される。そして、キーワード判定部２０３は、この音声認識結果に終了キーワードが含まれるか、すなわちユーザによって終了キーワードが入力されたか判定する（Ｓ２４）。なお、Ｓ２４の終了キーワードは、Ｓ２１の終了キーワードと同じであってもよいし、異なっていてもよい。異なるキーワードを使用する場合には、各ステップで使用するキーワードのそれぞれを登録キーワード２１１に含めておけばよい。また、音声解析に失敗した場合には、図３および図４のＳ６と同様に、音声対話装置１に解析失敗発話を行わせてもよい。

ここで、終了キーワードが入力されていないと判定した場合（Ｓ２４でＮＯ）、キーワード判定部２０３は、やりなおしキーワードが入力されたか否かを判定する（Ｓ３０）。そして、やりなおしキーワードが入力されていないと判定した場合（Ｓ３０でＮＯ）、処理はＳ２４に戻る。

一方、やりなおしキーワードが入力されたと判定した場合（Ｓ３０でＹＥＳ）、キーワード判定部２０３は、その旨を口頭メモ応答部２０５とメモ生成部２０８に通知する。この通知を受信したメモ生成部２０８は、記録したメモデータ２１３を削除し、この通知を受信した口頭メモ応答部２０５は、開始発話のテキストデータを音声合成部２０６に送信する。つまり、処理はＳ２０に戻り、音声対話装置１によって再度開始発話が行われ、その後に入力された音声がメモデータ２１３として新たに記録されることになる。なお、Ｓ３０でＹＥＳの場合、記録したメモデータ２１３は削除せずに、Ｓ２１の処理に戻り、更なる音声の入力を受け付けてもよい。

ここで、Ｓ２４において終了キーワードが入力されたと判定した場合（Ｓ２４でＹＥＳ）、キーワード判定部２０３は、メモ生成部２０８に口頭メモモードを終了する旨通知すると共に、終了発話を行うよう口頭メモ応答部２０５に指示する。これにより、口頭メモモードは終了し、発話制御装置２は非口頭メモモードに戻る。

口頭メモ応答部２０５は、キーワード判定部２０３からの指示に応じて、終了発話のテキストデータを音声合成部２０６に送信する。そして、音声合成部２０６はこのテキストデータを音声データに変換し、発話制御部２０７はこの音声データを音声対話装置１に送信して出力させる（Ｓ２５）。これにより、音声対話装置１は終了発話を行う。図２の例では、Ｒ５の「メモをメールするね。」が終了発話である。

また、口頭メモモードを終了する旨の通知を受信したメモ生成部２０８は、記録したメモデータ２１３をユーザに通知するようメモ通知部２０９に指示する。そして、メモ通知部２０９は、この指示に従ってメモデータ２１３を読み出し、該メモデータ２１３の内容を文面とする電子メールを生成し、所定の送信先に送信することにより、該内容をユーザに通知する（Ｓ２６）。これにより、口頭メモモードにおける処理は終了する。

なお、記録されるメモデータ２１３は、その内容をユーザが参照可能になっていればよく、メモの内容を通知するＳ２６の処理は必須ではない。例えば、メモデータ２１３をユーザの識別情報と対応付けて、該ユーザがアクセス可能な所定のデータベースに記録してもよい。この場合、例えばユーザが所定のアプリケーションソフトウェアを使用して当該データベースにアクセスすることにより、自身が記録させたメモデータ２１３の内容を参照できるようにしてもよい。

〔実施形態２〕
本発明の他の実施形態について、図６および図７に基づいて説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

本実施形態の対話システム５では、発話制御装置２は、ユーザの発話内容をそのまま記録するのではなく、その内容を解析して要約を作成し、その要約を記録する。このため、復唱の際には、ユーザが発話した内容の要約を音声対話装置１に音声出力させる。これについて、図６に基づいて説明する。図６は、本実施形態における音声対話装置とユーザとの対話を示す図である。なお、図６の対話例は、図２の対話例のＲ２、Ｒ３、およびＲ４がそれぞれＲ２０、Ｒ３０、およびＲ４０に置換されたものであるため、ここではＲ２０、Ｒ３０、およびＲ４０を中心に説明し、他の発話の説明は省略する。

図６の応答Ｒ２０は、「わかった。ジャガイモとニンジンとバターを買うんだね。」というものであり、ユーザのメッセージＭ２の内容が要約されている。同様に、応答Ｒ３０は、ユーザのメッセージＭ３の内容が要約されたものである。そして、復唱・確認発話であるＲ４０も、ユーザのメッセージＭ２およびＭ３が要約された内容となっている。

これは、本実施形態のメモ生成部２０８が、音声認識結果をそのまま記録するのではなく、音声認識結果から必要な単語を抽出して要約を生成し、当該要約をメモデータ２１３として記録することによる。この要約は、音声認識結果を所定の規則に従って処理することによって生成される。

例えば、メッセージＭ２の音声認識結果を受信した場合、メモ生成部２０８は、そのテキストデータから「ジャガイモ」、「ニンジン」、「買わないといけない」、「バター」、「買わないと」という単語を抽出する。そして、「ジャガイモとニンジンとバターを買う」という要約を生成して、メモデータ２１３として記録する。

また、本実施形態の口頭メモ応答部２０５は、復唱発話の際に、メモデータ２１３から読み出したテキストデータに所定のテキストを付加した復唱発話メッセージを生成し、音声合成部２０６に送信する。図６の例では、メモデータ２１３のテキストの冒頭に「わかった。」を付加し、末尾に「〜んだね。」を付加した復唱発話メッセージとしている。このテキストの付加は、必須の処理ではないが、テキストを付加した場合、要約がなされたことをユーザに認識させることができると共に、より自然な発話とすることができるので好ましい。

（口頭メモモードにおける処理の流れ）
次に、図７を参照して、本実施形態の口頭メモモードにおける処理の流れについて説明する。図７は、口頭メモモードにおける処理の一例を示すフローチャートである。なお、図７の例は、Ｓ２１でＮＯの場合に、Ｓ２７の処理を行う前にＳ４０の処理を行う点で図５の例と異なっているから、ここではこの相違点を中心に説明し、他の処理の説明は省略する。

Ｓ４０では、メモ生成部２０８は、キーワード判定部２０３から受信した音声認識結果の要約を作成する。具体的には、メモ生成部２０８は、受信した音声認識結果から所定の規則に従って単語を抽出して組み合わせることにより要約を作成する。この後は図５の例と同様に、Ｓ２７にて上記作成した要約がメモデータ２１３として記録される。よって、Ｓ２３およびＳ２９では音声対話装置１に当該要約を音声出力させることになる。

〔実施形態３〕
上記各実施形態では、発話制御装置２の制御により音声対話装置１に発話させ、また発話制御装置２が口頭メモを記録する例を説明した。しかしながら、音声対話装置１が単体でユーザの発話に応答する機能、開始キーワード等の各種キーワードを検出する機能、および口頭メモを記録する機能を備えていてもよい。

つまり、本実施形態の音声対話装置（情報処理装置）１は、制御部１０に発話制御装置２の制御部２０に含まれる各ブロックを備え、記憶部１３に登録キーワード２１１、対話ＤＢ２１２、およびメモデータ２１３を格納している。この音声対話装置１によれば、発話制御装置２と通信することなく、ユーザと対話し、必要に応じてユーザの発話内容を記録することができる。

また、上記各実施形態の発話制御装置２の機能の一部を音声対話装置１に持たせてもよい。例えば、非口頭メモモード時には発話制御装置２の制御によって音声対話装置１に通常の対話を行わせ、口頭メモモード時には音声対話装置１単体で応答およびメモの記録を行ってもよい。

〔実施形態４〕
また、例えば音声解析部２０２および音声合成部２０６を音声対話装置１の制御部１０に含めてもよい。この場合、音声対話装置１は、音声入力部１１から入力されるユーザの発話音声を音声解析部２０２によって音声解析し、これによって得られた音声認識結果のテキストデータを発話制御装置２に送信する。

そして、発話制御装置２は、受信したテキストデータからキーワードの検出などを行い、発話内容を決定すると、決定した発話内容を示すデータ（例えばテキストデータ）を音声対話装置１に送信する。

これにより、音声対話装置１は、音声合成部２０６によって当該データから音声データを生成し、この音声データを音声出力部１２から音声出力する。この例では、発話制御装置２の処理の負荷を低減できると共に、音声データを送受信する上記各実施形態の構成と比べて、ネットワークの負荷を低減することができる。

〔実施形態５〕
さらに、例えば音声解析部２０２および音声合成部２０６に加えて、キーワード判定部２０３および通常応答部２０４についても音声対話装置１の制御部１０に含めてもよい。この場合、音声対話装置１は、キーワード判定部２０３が開始キーワードを検出したときには、発話制御装置２に音声認識結果のテキストデータを送信して、これをメモデータ２１３として記録させる。また、この場合、非口頭メモモードでは、発話制御装置２と通信することなく、速やかにユーザに応答を返すことができる。

このように、通常の発話応答のような使用頻度の高い処理や早い応答速度が求められる処理については音声対話装置１で実行することが好ましい。一方、外部リソースが必要な処理や、早い応答速度は求められない処理（例えばテキストベースの記事を音声データに変換して出力するテキスト読み上げ処理等）は発話制御装置２に実行させることが好ましい。処理の特性に応じて、音声対話装置１と発話制御装置２に分担させる処理を決めることにより、全体として効率が良く、ユーザメリットの大きいシステム構成とすることができる。また、発話制御装置２以外のサーバに処理の一部を分担させてもよい。

〔変形例〕
上記対話システム５は、音声対話装置１を複数含んでもよく、この場合、音声対話装置１毎に、ユーザに対する応答やメモの記録の態様を異ならせてもよい。これにより、音声対話装置１毎の個性をユーザに感じさせることができる。

この場合、発話制御装置２は、複数の音声対話装置のうち何れの音声対話装置１から音声データを受信したかを特定する。これにより、口頭メモモードにおいて、特定した音声対話装置１に応じた各種発話（開始発話等）を行わせることができる。なお、音声対話装置１毎の発話内容は予め登録しておけばよい。また、要約作成のアルゴリズムを音声対話装置１に応じて変更することにより、メモの記録の態様を異ならせることができる。これは、上記実施形態３のように、音声対話装置１が口頭メモを記録する機能等を有している場合にも適用可能である。この場合、各音声対話装置１の発話内容や、使用する要約作成のアルゴリズムを異なるものとすればよい。

また、上記各実施形態で使用している各キーワード（開始キーワードや終了キーワード等）は一例にすぎず、任意のキーワードを適用することができる。また、同じ処理のトリガとなるキーワードを複数種類設定してもよい。例えば、上述の「メモして」に加えて、「メモお願い」や「控えておいて」等についても開始キーワードと設定してもよい。終了キーワード等の他のキーワードについても同様である。

〔実施形態６〕
上記各実施形態では、１つの発話制御装置２を用いる例を説明したが、発話制御装置２の有する各機能が、個別のサーバにて実現されていてもよい。例えば、音声対話装置１に通常の対話（非口頭メモモードにおける対話）を行わせる機能と、口頭メモモードを実現する機能（メモの生成、記録、復唱など）とを個別のサーバで実現してもよい。そして、複数のサーバを適用する場合においては、各サーバは、同じ事業者によって管理されていてもよいし、異なる事業者によって管理されていてもよい。

〔実施形態７〕
音声対話装置１および発話制御装置２の各ブロックは、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。後者の場合、音声対話装置１および発話制御装置２のそれぞれを、図８に示すようなコンピュータ（電子計算機）を用いて構成することができる。

図８は、音声対話装置１および発話制御装置２として利用可能なコンピュータ９１０の構成を例示したブロック図である。コンピュータ９１０は、バス９１１を介して互いに接続された演算装置９１２と、主記憶装置９１３と、補助記憶装置９１４と、入出力インターフェース９１５と、通信インターフェース９１６とを備えている。演算装置９１２、主記憶装置９１３、および補助記憶装置９１４は、それぞれ、例えばＣＰＵ、ＲＡＭ（random access memory）、ハードディスクドライブであってもよい。入出力インターフェース９１５には、ユーザがコンピュータ９１０に各種情報を入力するための入力装置９２０、および、コンピュータ９１０がユーザに各種情報を出力するための出力装置９３０が接続される。入力装置９２０および出力装置９３０は、コンピュータ９１０に内蔵されたものであってもよいし、コンピュータ９１０に接続された（外付けされた）ものであってもよい。例えば、入力装置９２０は、マイク、キーボード、マウス、タッチセンサなどであってもよく、出力装置９３０は、ディスプレイ、プリンタ、スピーカなどであってもよい。そして、通信インターフェース９１６は、コンピュータ９１０が外部の装置と通信するためのインターフェースである。

補助記憶装置９１４には、コンピュータ９１０を音声対話装置１および発話制御装置２として動作させるための各種のプログラムが格納されている。そして、演算装置９１２は、補助記憶装置９１４に格納された上記プログラムを主記憶装置９１３上に展開して該プログラムに含まれる命令を実行することによって、コンピュータ９１０を、音声対話装置１および発話制御装置２が備える各部として機能させる。なお、補助記憶装置９１４が備える、プログラム等の情報を記録する記録媒体は、コンピュータ読み取り可能な「一時的でない有形の媒体」であればよく、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブル論理回路などであってもよい。

また、上記プログラムは、コンピュータ９１０の外部から取得してもよく、この場合、任意の伝送媒体（通信ネットワークや放送波等）を介して取得してもよい。そして、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

〔まとめ〕
本発明の態様１に係る情報処理装置（発話制御装置２）は、ユーザの発する音声を取得して応答音声を出力する音声対話装置（１）による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得部（キーワード判定部２０３）と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部（メモ生成部２０８）と、を備えている。

上記の構成によれば、音声対話装置による応答に用いられる音声認識結果を取得し、この音声認識結果からユーザの発話内容を示すテキストデータを生成して記録する。よって、音声対話装置による応答に用いられる音声認識結果を利用して、ユーザが音声対話装置に対して発話した発話内容をテキストデータとして記録することができるという効果を奏する。

なお、上記情報処理装置と上記音声対話装置とは、別体の装置であってもよいし、一体の装置であってもよい。また、音声認識結果は、上記情報処理装置が生成したものであってもよいし、上記音声対話装置が生成したものであってもよく、その他の装置が生成したものであってもよい。

本発明の態様２に係る情報処理装置は、上記態様１において、上記情報処理装置の動作モードには、上記ユーザの発話内容を示すテキストデータを記録する記録モード（口頭メモモード）と、該テキストデータは記録せずに上記音声対話装置にユーザと対話させる対話モード（非口頭メモモード）とが含まれており、上記認識結果取得部が取得した上記音声認識結果に所定の語句が含まれているときに、上記情報処理装置を上記記録モードに遷移させる記録制御部（キーワード判定部２０３）を備えていてもよい。

上記の構成によれば、音声認識結果に所定の語句が含まれているときに、情報処理装置を記録モードに遷移させる。よって、該構成によれば、ユーザは、対話モードにおいて音声対話装置と対話する中で、発話内容を記録したいタイミングで上記所定の語句を発話するという極めて簡易な行為により、その後の発話内容をテキストデータとして記録させることができる。

本発明の態様３に係る情報処理装置は、上記態様２において、上記認識結果取得部が取得した上記音声認識結果に上記所定の語句が含まれているときに、該語句を再度発話することを促す音声を上記音声対話装置に出力させる発話制御部（２０７）を備え、上記記録制御部は、上記発話制御部が上記語句を再度発話することを促す音声を上記音声対話装置に出力させた後、上記認識結果取得部が取得した音声認識結果に上記所定の語句が含まれている場合に、上記情報処理装置を上記記録モードに遷移させてもよい。

上記の構成によれば、音声認識結果に所定の語句が含まれるときに、該語句を再度発話することを促す音声を音声対話装置に出力させる。そして、この音声を出力させた後の音声認識結果に上記所定の語句が含まれる場合に、情報処理装置を記録モードに遷移させる。

これにより、ユーザが発話内容を記録することを意図していないときに、発話内容が記録されることを防ぐことができる。例えば、音声対話装置が、テレビの音やユーザが他のユーザと会話している声を取得した際の音声認識結果に上記所定の語句が含まれていたような場合には、その所定の語句が再度発話される可能性が低い。よって、このような場合に発話内容が記録されることを防ぐことができる。

本発明の態様４に係る情報処理装置は、上記態様１から３の何れかにおいて、上記音声対話装置に上記テキスト記録部が記録したテキストデータを音声出力させる発話制御部（２０７）を備えていてもよい。

上記の構成によれば、記録したテキストデータを音声対話装置に音声出力させるので、ユーザは、音声対話装置との対話の中で、どのような内容が記録されたかを認識することができる。

本発明の態様５に係る情報処理装置は、上記態様１から４の何れかにおいて、上記テキスト記録部は、上記認識結果取得部が取得した上記音声認識結果の内容を所定の規則に従って要約して生成したテキストデータを記録してもよい。

一般に、ユーザの発話する音声には、そのユーザが伝達したい情報以外にも様々な情報が含まれる。このため、ユーザの発話する音声をそのままテキスト化した場合、冗長で意図が伝わりにくいものとなる可能性がある。そこで、上記の構成によれば、ユーザの発話した音声の音声認識結果の内容を要約したテキストデータを記録している。これにより、記録するテキストデータを、簡潔でユーザの伝達したい情報が読み取りやすいものとすることができる。

本発明の態様６に係る情報処理装置は、上記態様１から５の何れかにおいて、上記テキスト記録部が記録したテキストデータを所定の送信先に送信するテキスト送信部（メモ通知部２０９）を備えていてもよい。

上記の構成によれば、記録したテキストデータを所定の送信先に送信するので、ユーザは、この所定の送信先にアクセスすることにより、上記テキストデータの内容を確認することができる。これにより、情報処理装置から離れた場所においても、上記テキストデータの内容を確認することが可能になる。

本発明の態様７に係る情報処理方法は、情報処理装置が実行する情報処理方法であって、ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得ステップと（Ｓ４）、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録ステップ（Ｓ２７）と、を含む。よって、態様１と同様の作用効果を奏する。

本発明の態様８に係る対話システム（５）は、ユーザの発する音声を取得する音声対話装置（１）と、該音声対話装置に上記音声に応じた応答音声を出力させる情報処理装置（２）とを含む対話システムであって、上記情報処理装置は、上記音声対話装置が取得した上記音声の音声認識結果を取得する認識結果取得部（キーワード判定部２０３）と、上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部（メモ生成部２０８）と、を備えている。よって、態様１と同様の作用効果を奏する。

本発明の各態様に係る情報処理装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記情報処理装置が備える各部（ソフトウェア要素）として動作させることにより上記情報処理装置をコンピュータにて実現させる情報処理装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。

本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

本発明は、ユーザの音声発話に対して応答音声を出力する音声対話装置や、このような音声対話装置に発話させる発話制御装置等に利用することができる。

１音声対話装置
２発話制御装置（情報処理装置）
２０２音声解析部（音声認識部）
２０３キーワード判定部（認識結果取得部、記録制御部）
２０７発話制御部
２０８メモ生成部（テキスト記録部）
２０９メモ通知部（テキスト送信部）
２１３メモデータ（ユーザの発話内容を示すテキストデータ）
５対話システム

Claims

ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得部と、
上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、
音声入力をやり直すためのキーワードが音声認識された場合に、発話を促す音声を上記音声対話装置に出力させる発話制御部と、を備え、
上記テキスト記録部は、音声入力をやり直すためのキーワードが音声認識された場合、上記発話制御部が発話を促す音声を上記音声対話装置に出力させた後の音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録し、
上記発話制御部は、上記ユーザの一連の発話が終了するまでの期間、上記ユーザの発話が途切れる毎に、それまでに上記テキスト記録部が記録した上記一連の発話のテキストデータを上記音声対話装置に音声出力させる、ことを特徴とする情報処理装置。
上記情報処理装置の動作モードには、上記ユーザの発話内容を示すテキストデータを記録する記録モードと、該テキストデータは記録せずに上記音声対話装置にユーザと対話させる対話モードとが含まれており、
上記認識結果取得部が取得した上記音声認識結果に所定の語句が含まれているときに、上記情報処理装置を上記記録モードに遷移させる記録制御部を備えていることを特徴とする請求項１に記載の情報処理装置。
上記認識結果取得部が取得した上記音声認識結果に上記所定の語句が含まれているときに、該語句を再度発話することを促す音声を上記音声対話装置に出力させる発話制御部を備え、
上記記録制御部は、上記発話制御部が上記語句を再度発話することを促す音声を上記音声対話装置に出力させた後、上記認識結果取得部が取得した音声認識結果に上記所定の語句が含まれている場合に、上記情報処理装置を上記記録モードに遷移させることを特徴とする請求項２に記載の情報処理装置。
上記テキスト記録部は、上記認識結果取得部が取得した上記音声認識結果の内容を所定の規則に従って要約して生成したテキストデータを記録することを特徴とする請求項１から３の何れか１項に記載の情報処理装置。
上記テキスト記録部が記録したテキストデータを所定の送信先に送信するテキスト送信部を備えていることを特徴とする請求項１から４の何れか１項に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
ユーザの発する音声を取得して応答音声を出力する音声対話装置による上記音声への応答に用いられる、該音声の音声認識結果を取得する認識結果取得ステップと、
音声入力をやり直すためのキーワードが音声認識された場合に、発話を促す音声を上記音声対話装置に出力させるステップと、
発話を促す音声を上記音声対話装置に出力させた後の音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録ステップと、
上記ユーザの一連の発話が終了するまでの期間、上記ユーザの発話が途切れる毎に、それまでに記録した上記一連の発話のテキストデータを上記音声対話装置に音声出力させるステップと、を含むことを特徴とする情報処理方法。
ユーザの発する音声を取得する音声対話装置と、該音声対話装置に上記音声に応じた応答音声を出力させる情報処理装置とを含む対話システムであって、
上記情報処理装置は、
上記音声対話装置が取得した上記音声の音声認識結果を取得する認識結果取得部と、
上記音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録するテキスト記録部と、
音声入力をやり直すためのキーワードが音声認識された場合に、発話を促す音声を上記音声対話装置に出力させる発話制御部と、を備え、
上記テキスト記録部は、音声入力をやり直すためのキーワードが音声認識された場合、上記発話制御部が発話を促す音声を上記音声対話装置に出力させた後の音声認識結果から上記ユーザの発話内容を示すテキストデータを生成して記録し、
上記発話制御部は、上記ユーザの一連の発話が終了するまでの期間、上記ユーザの発話が途切れる毎に、それまでに上記テキスト記録部が記録した上記一連の発話のテキストデータを上記音声対話装置に音声出力させる、ことを特徴とする対話システム。
請求項１に記載の情報処理装置としてコンピュータを機能させるための制御プログラムであって、上記認識結果取得部、上記テキスト記録部、および上記発話制御部としてコンピュータを機能させるための制御プログラム。