JP5049934B2

JP5049934B2 - 対話文生成装置及び方法

Info

Publication number: JP5049934B2
Application number: JP2008243046A
Authority: JP
Inventors: 美和子土井; 優佳小林; 大介山本
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-09-22
Filing date: 2008-09-22
Publication date: 2012-10-17
Anticipated expiration: 2028-09-22
Also published as: US8856010B2; US20100076753A1; JP2010072578A

Description

本発明は、音声認識処理を利用する対話文生成装置及び方法に関する。

近年、電子メール、チャット及び電子掲示板（ＢＢＳ；Bulletin Board System）等の対話手段が多くのユーザによって利用されている。上記電子メール、チャット及びＢＢＳ等は、電話やボイスチャット等の音声ベースの対話手段とは異なり、比較的短いテキストをユーザ間でやり取りすることによって成立するテキストベースの対話手段である。テキストベースの対話手段を利用する場合、ユーザは入力手段としてキーボードや携帯電話機のテンキーまたはタッチパネル等のテキスト入力インタフェースを使用する。一方、テキスト入力におけるユーザビリティを向上させてリズムの良い対話を実現させるために、音声認識処理に基づくテキスト入力インタフェースが使用されることがある。

音声認識処理では、ユーザの発話が音響的観点及び言語的観点に基づいて所定の待ち受け単語に順次置き換えられ、当該発話の内容を示す待ち受け単語列で構成される言語テキストが生成される。上記待ち受け単語を少なくすると、個々の単語に対する認識精度は高くなるものの、認識可能な単語数が減る。一方、上記待ち受け単語を多くすると認識可能な単語数が増えるものの、個々の単語を誤認識するおそれが高くなる。従って、音声認識処理の認識精度を効率的に向上させるために、ユーザの発話に含まれることが期待される特定の単語を優先的に認識させたり、上記特定の単語のみを認識させたりすることが提案されている。また、音声認識処理の態様として、いわゆる口述筆記のような連続単語の認識を目的とする連続音声認識処理の他に、機器に対する操作指示やキーワード入力のような短単語の認識を目的とする孤立単語音声認識処理が知られている。孤立単語音声認識処理は、特定の単語に対する認識精度が連続音声認識処理に比べて優れる。

特許文献１記載の電子メール通信装置は、電子メール本文中において待ち受け単語を記述するためのフォーマットを予め規定しているので、当該フォーマットに従って受信メールから待ち受け単語を抽出できる。従って、特許文献１記載の電子メール通信装置によれば、上記フォーマットに基づき抽出された待ち受け単語を優先的に認識することにより、高い認識精度を期待できる。

特許文献２記載の応答データ出力装置は、疑問文の文末に用いられる文末語に基づいてテキストデータから疑問文を推定する。上記応答データ出力装置は、推定した疑問文に「何時に」及び「何処で」等の特定の文節が存在すれば当該文節に応じて、時刻及び場所を表す単語を夫々優先的に認識する。一方、上記応答データ出力装置は、上記疑問文に「何時に」及び「何処で」等の特定の文節が存在しなければ「はい」及び「いいえ」等の単語を優先的に認識する。従って、特許文献２記載の応答データ出力装置によれば、疑問文に対するユーザの音声応答において、高い認識精度を期待できる。

特許文献３記載の音声認識・合成装置は、入力テキストに対して形態素解析を行い、当該入力テキストを構成する単語のみを待ち受け単語として利用することにより、当該待ち受け単語に対して高い認識精度を期待できる。
特開２００２−３５１７９１号公報特開２００６−１７２１１０号公報特開２００３−９９０８９号公報

特許文献１記載の電子メール通信装置は、所定のフォーマットに従わなければ、待ち受け単語を電子メール本文において記述できない。即ち、特許文献１記載の電子メール通信装置は、対話の形式が制限されるため、対話の自由度が損なわれる。

特許文献２記載の応答データ出力装置は、疑問文に対する応答において高い認識精度を期待できる。一方、上記応答データ出力装置は、疑問文以外の平叙文、感嘆文及び命令文に対する応答において認識精度を向上させるものでない。

特許文献３記載の音声認識・合成装置は、メニュー選択やリンク先情報の取得等を目的とし、入力テキストを構成する単語のみを認識するものである。即ち、ユーザの発話対象として、１単語または比較的少数の単語列が想定されている。しかしながら、返事に相当するテキストを入力する場合、入力テキスト（例えば、受信メール）に含まれない単語を認識する必要がある。

また、音声認識処理の認識精度は、周囲環境によっても影響され、比較的大きな騒音が入力音声に混入すれば、当該入力音声の内容が音声認識結果に十分に反映されないおそれがある。即ち、ユーザは、上記音声認識結果に満足を得られなければ音声入力を何度も繰り返すか、音声入力を諦めなければならない。

また、上記テキストベースの対話手段は、遠隔地に居住する家族との定期連絡、独居高齢者の安否確認等にも利用され得る。このような利用態様では、話題の枯渇により対話の内容が単調になりやすく、対話を継続することが難しいという問題もある。

従って、本発明は、音声認識処理を利用してテキスト入力を実現しつつ、ユーザビリティを向上可能な対話文生成装置を提供することを目的とする。

本発明の一態様に係る対話文生成装置は、対話相手からの第１のテキストを受信する受信部と、前記対話相手となり得る人物毎に、当該人物固有の情報と当該人物に対応する定型テキストとが記憶される情報記憶部と、前記第１のテキストの内容をユーザに提示する提示部と、提示された前記第１のテキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、前記対話相手に対応する情報及び定型テキストと、前記音声認識結果とに基づき第２のテキストを生成する生成部と、前記第２のテキストを前記対話相手に送信する送信部とを具備する。

本発明によれば、音声認識処理を利用してテキスト入力を実現しつつ、ユーザビリティを向上可能な対話文生成装置を提供できる。

以下、図面を参照して、本発明の実施形態について説明する。
（第１の実施形態）
図１に示すように、本発明の第１の実施形態に係る対話文生成装置は、テキスト送受信部１０１、形態素解析部１０２、音声合成部１０３、スピーカ１０４、マイクロホン１０５、ディスプレイ１０６、切替指示入力部１０７、音声蓄積部１０８、孤立単語音声認識部１０９、連続音声認識部１１０、情報記憶部１１１、返信テキスト生成部１１２及び制御部１１３を有する。

テキスト送受信部１０１は、ユーザが対話を行う相手（以下、単に対話相手と称する）からテキスト（以下、単に受信テキストと称する）を受信したり、対話相手に返事に相当するテキスト（以下、単に返信テキストと称する）を送信したりする。上記テキストの送受信は、メールプロトコル等の所定の通信プロトコルに従って、有線ネットワークまたは無線ネットワークを介して行われる。上記テキストは、ユーザと対話相手との間の対話を実現する対話手段によって様々な態様が考えられ、例えば電子メール、チャットメッセージまたはＢＢＳの投稿メッセージが挙げられる。また、テキスト送受信部１０１は、受信テキストに画像ファイルや音声ファイル等が添付されている場合にはこれらを受信してもよいし、返信テキストにこれらを添付して送信してもよい。また、受信テキストの添付データがテキストデータである場合には、当該添付データも受信テキストと同様に扱ってよい。テキスト送受信部１０１は、制御部１１３を介して受信テキストを形態素解析部１０２、音声合成部１０３、ディスプレイ１０６及び返信テキスト生成部１１２に入力する。

形態素解析部１０２は、制御部１１３からの受信テキストに対して形態素解析処理を行う。具体的には、上記形態素解析処理によって受信テキストを構成する単語が得られ、更に当該単語の読み情報、品詞情報、基本形及び活用形等の言語情報が得られる。形態素解析部１０２は、上記受信テキストに対する形態素解析結果を制御部１１３に返す。

音声合成部１０３は、制御部１１３からの受信テキストに応じて所定の音声信号を合成する音声合成処理を行うことにより、当該受信テキストを音声信号に変換する。音声合成部１０３によって合成された音声信号は、スピーカ１０４を介してユーザに提示される。

マイクロホン１０５は、ユーザからの発話を受け、制御部１１３を介して音声データを連続音声認識部１１０に入力する。また、マイクロホン１０５は、後述する再音声入力時には、ユーザからの発話を再度受けて、制御部１１３を介して音声データを音声蓄積部１０８及び孤立単語音声認識部１０９に入力する。

ディスプレイ１０６は、例えばＬＣＤ（Liquid Crystal Display）、有機ＥＬ（Electro Luminescence）ディスプレイ等である。ディスプレイ１０６には、受信テキスト、後述する連続音声認識結果、孤立単語音声認識結果及び返信テキスト等が表示される。

切替指示入力部１０７は、ユーザから返信テキストの生成方式の切替指示の入力を受理する。切替指示入力部１０７は、受理した切替指示を制御部１１３に入力する。尚、上記返信テキストの生成方式の詳細は後述する。切替指示入力部１０７は、例えば図１の対話文生成装置の筐体に備え付けられるボタン、スイッチまたはキー、ディスプレイ１０６に表示されるボタン等として実現可能である。

連続音声認識部１１０は、制御部１１３からのユーザの入力音声に対して連続音声認識処理を行う。具体的には、連続音声認識部１１０は、上記入力音声と、一般的な単語が網羅的に記憶される待ち受け単語記憶部（図示しない）からの待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該入力音声を待ち受け単語で構成される言語テキストに変換する。連続音声認識部１１０は、音声認識結果を制御部１１３に返す。連続音声認識部１１０は、音声認識に失敗した場合には、認識失敗をユーザに告知するために所定のエラーメッセージを生成し、制御部１１３を介して音声合成部１０３またはディスプレイ１０６に入力してもよい。また、連続音声認識部１１０は、音声認識に成功した場合にも、ユーザから承認を得るために音声認識結果及び所定の承認要求メッセージを、制御部１１３を介して音声合成部１０３またはディスプレイ１０６に入力してもよい。

孤立単語音声認識部１０９は、上記連続音声認識部１１０による音声認識結果に満足しなかったユーザが上記切替指示入力部１０７を介して切替指示を入力すると、動作を開始する。孤立単語音声認識部１０９は、動作開始後に、ユーザに対して再音声入力を要求する再音声入力要求メッセージを、制御部１１３を介して音声合成部１０３またはディスプレイ１０６に入力する。孤立単語音声認識部１０９は、マイクロホン１０５を介して受信したユーザからの再入力音声に対して孤立単語音声認識処理を行う。具体的には、孤立単語音声認識部１０９は、上記再入力音声と、図示しない待ち受け単語記憶部に記憶されている待ち受け単語との間の音響的類似度及び言語的信頼度に基づき、当該再入力音声の一部を待ち受け単語に変換する。孤立単語音声認識部１０９の待ち受け単語は、上記連続音声認識部１１０の待ち受け単語に比べて限定的である。孤立単語音声認識部１０９は、音声認識結果を制御部１１３に返す。孤立単語音声認識部１０９は、音声認識に失敗した場合には、認識失敗をユーザに告知するために所定のエラーメッセージを生成し、制御部１１３を介して音声合成部１０３またはディスプレイ１０６に入力してもよい。また、孤立単語音声認識部１０９は、音声認識に成功した場合にも、ユーザから承認を得るために音声認識結果及び所定の承認要求メッセージを、制御部１１３を介して音声合成部１０３またはディスプレイ１０６に入力してもよい。音声蓄積部１０８には、制御部１１３からの再入力音声が上記孤立単語音声認識部１０９の音声認識結果に対応付けて蓄積される。

情報記憶部１１１には、対話相手となり得る人物固有の情報、例えばメールアドレス、誕生日等の情報と、当該対話相手に対応するテキストとが予め記憶されている。例えば、情報記憶部１１１には、図９に示すように、例えば各人物のメールアドレスと、当該人物の愛称または氏名とが対応付けて記憶される。人物の愛称、氏名等は一般に固有名詞であるから、これらを正しく音声認識することは比較的困難である。一方、対話文の冒頭に愛称、氏名等を宛名として付加することは通例であるから、これらを予めテキスト形式で記憶しておくことは、音声認識処理を利用したテキスト入力の手間を削減できる点においてユーザビリティの向上に寄与する。また、対話相手に対応する上記固有名詞を、連続音声認識部１１０または孤立単語音声認識部１０９が使用する待ち受け単語として利用してもよい。尚、情報記憶部１１１の記憶内容は、ユーザによって適宜削除、追加、変更等されてよい。情報記憶部１１１の記憶内容は、制御部１１３を介して返信テキスト生成部１１２によって適宜読み出される。

返信テキスト生成部１１２は、制御部１１３から入力される切替指示に応じた生成方式に従って、返信テキストを生成する。具体的には、上記生成方式は、連続音声認識部１１０による連続音声認識結果を利用する方式と、孤立単語音声認識部１０９による孤立単語音声認識結果を利用する方式と、音声蓄積部１０８の記憶内容に基づき作成されたボイスメールを利用する方式とを含み、上記切替指示によっていずれかの方式が指定される。ここで、ボイスメールを作成することとは、生成された返信テキストに音声ファイルを添付するなど、返信テキストを受信した対話相手が当該音声ファイルを参照可能に関連付けることを意味するものとする。返信テキスト生成部１１２は、生成した返信テキストを制御部１１３を介してテキスト送受信部１０１に入力する。

制御部１１３は、例えばＣＰＵ（Central Processing Unit）等のプロセッサを有し、図１の各部の動作を制御したり、情報／データの授受を行ったりする。例えば、制御部１１３は、テキストを受信した旨のメッセージを音声合成部１０３及びスピーカ１０４を介して出力させたり、ディスプレイ１０６に当該メッセージを表示させたり、アラーム、メロディ、楽曲等をスピーカ１０４を介して出力させたり、図１の対話文生成装置本体を振動させたり、図１の対話文生成装置の筐体に設けられたＬＥＤ（Light Emitting Diode）ランプ等を点灯させたりすることによって、対話相手からテキストを受信したことをユーザに通知する。

以下、図２を用いて図１の対話文生成装置の動作を説明する。
まず、テキスト送受信部１０１が対話相手から電子メール等のテキストを受信する（ステップＳ２０１）。次に、形態素解析部１０２がステップＳ２０１における受信テキストに対して形態素解析を行う（ステップＳ２０２）。次に、音声合成部１０３がステップＳ２０２における形態素解析結果に基づき、ステップＳ２０１における受信テキストに対応する音声信号を合成し、スピーカ１０４を介して当該音声信号をユーザに提示する（ステップＳ２０３）。

次に、ステップＳ２０３における提示音声に対し、ユーザは返事に相当する音声をマイクロホン１０５に入力する（ステップＳ２０４）。次に、連続音声認識部１１０が、ステップＳ２０４における入力音声に対して音声認識処理（連続音声認識処理）を行う（ステップＳ２０５）。次に、ディスプレイ１０６が、例えば図４に示すように、ステップＳ２０５における音声認識結果（連続音声認識結果）を表示する（ステップＳ２０６）。

図３は、図１の対話文生成装置のステップＳ２０３〜Ｓ２０６に対応する使用例を示す。具体的には、図３の使用例では、スピーカ１０４を介して受信テキスト「こんにちは、風邪などひいてないですか？もうすぐＧＷですね。楽しみです。今度そっちに遊びに行くので楽しみにしていてくださいね。」の読み上げが行われ（ステップＳ２０３）、提示音声に対する返事「ひいてないよ、大丈夫だよ。楽しみにしているよ、早くきてね。」に相当する音声をユーザがマイクロホン１０５を介して入力し（ステップＳ２０４）、連続音声認識部１１０が当該入力音声に対して音声認識処理を行い（ステップＳ２０５）、ディスプレイ１０６が音声認識結果「ひいてないよ、タイ丈夫だよ。楽しみにしているよ、早くいてね」を表示している。尚、図３において図１の対話文生成装置は、エージェントと称するロボット型の端末として描かれているが、上記対話文生成装置の形態はこのようなロボット型に限られないものとする。

ユーザは、ステップＳ２０６において表示された音声認識結果に満足しなければ切替指示入力部１０７に切替指示を入力する。即ち、例えば図５に示すように、ユーザの発話内容と表示された音声認識結果とが大きく異なる場合に、ユーザは孤立単語音声認識結果を利用した返信テキストの生成方式を選択することができる。上記切替指示が例えば所定の待機時間内に入力されれば、処理はステップＳ２０８に進み、そうでなければ処理はステップＳ２１４に進む（ステップＳ２０７）。

ステップＳ２０８において、ステップＳ２０３における提示音声に対し、ユーザは返事に相当する音声をマイクロホン１０５に再度入力する。次に、孤立単語音声認識部１０９が、ステップＳ２０８における再入力音声に対して音声認識処理（孤立単語音声認識処理）を行う（ステップＳ２０９）。次に、制御部１１３が、ステップＳ２０８における再入力音声を、ステップＳ２０９における音声認識結果（孤立単語音声認識結果）に対応付けて音声蓄積部１０８に記憶させる（ステップＳ２１０）。尚、音声蓄積部１０８の記憶態様は、例えば図８に示すように音声認識結果を構成する単語毎に、分割された再入力音声を対応付けるものであってもよいし、図１１に示すように音声認識結果全体に、再入力音声全体を対応付けるものであってもよい。図８及び図１１において、説明の便宜上、対応する再入力音声がテキスト化されて表示されているが、実際にはこれらは所定の形式の音声ファイル等である。次に、ディスプレイ１０６が、例えば図６に示すように、ステップＳ２１０における音声認識結果を表示する（ステップＳ２１１）。

ユーザは、ステップＳ２１１において表示された音声認識結果に満足しなければ切替指示入力部１０７に切替指示を入力する。即ち、例えば図７に示すように、ユーザの発話内容と表示された音声認識結果とが大きく異なる場合に、ユーザはボイスメールを利用した返信テキストの生成方式を選択することができる。上記切替指示が例えば所定の待機時間内に入力されれば、処理はステップＳ２１４に進み、そうでなければ処理はステップＳ２１３に進む（ステップＳ２１２）。ステップＳ２１３において、返信テキスト生成部１１２は、制御部１１３を介して音声蓄積部１０８の記憶内容を読み出して、ボイスメールを作成し、処理はステップＳ２１４に進む。

ステップＳ２１４において、返信テキスト生成部１１２が、制御部１１３を介して情報記憶部１１１から対話相手の情報と、当該対話相手に対応するテキストとを読み出す。次に、返信テキスト生成部１１２が、ステップＳ２０５における連続音声認識結果、ステップＳ２０９における孤立単語音声認識結果及びステップＳ２１３におけるボイスメールの少なくとも１つと、ステップＳ２０１における受信テキストと、ステップＳ２１４における読み出し内容とに基づき返信テキストを生成する（ステップＳ２１５）。次に、テキスト送受信部１０１は、ステップＳ２１５において生成された返信テキストを対話相手に送信する。

ステップＳ２１５において、例えば図１０に示すように、返信テキスト生成部１１２は、ステップＳ２１４において読み出した対話相手のメールアドレス「miwako@softobank.jp」（図９参照）を送信先メールアドレスとして指定した返信メールを返信テキストとして作成する。返信テキスト生成部１１２は、上記返信メールの件名（Subject）として、受信テキストの件名「ひさしぶり」を引用し、返信を意味する記号として一般に用いられる「ＲＥ：」を冒頭に付加して、「ＲＥ：ひさしぶり」を生成する。

返信テキスト生成部１１２は、ステップＳ２１４において対話相手に対応するテキストとして読み出した、対話相手の愛称「みわこちゃん」（図９参照）を返信テキスト本文の冒頭に挿入する。また、例えば、返信テキスト生成部１１２は、返信テキストを生成した日がステップＳ２１４において読み出した対話相手の誕生日に一致していれば、「みわこちゃん、お誕生日おめでとう」等のお祝いメッセージを追加してもよい。更に、返信テキスト生成部１１２は、ステップＳ２０１における受信テキストの本文「こんにちは。風邪などひいてないですか？もうすぐＧＷですね。楽しみですね。今度そっちに行くので楽しみにしていて下さいね」を引用し、引用を意味する記号として一般に用いられる「＞」を各引用文の冒頭に付加して、返信テキスト本文に挿入する。更に、返信テキスト生成部１１２は、上記引用部分に対する返事としてステップＳ２０９における孤立単語音声認識結果及びステップＳ２１３におけるボイスメールを挿入している。即ち、返信テキスト生成部１１２は、孤立単語音声認識結果「いないタイ頼み早く」（図７参照）を挿入すると共に、当該孤立単語音声認識結果を構成する単語「いない」、「タイ」、「頼み」及び「早く」の各々に対応する再入力音声「ひいてないよ」、「大丈夫だよ、」、「楽しみにしているよ」及び「早く来てね」（図８参照）を再生するための音声ファイルを参照可能に関連付けて挿入している。上記音声ファイルを参照するための態様は特に限定されないが、例えば対話相手が返信テキスト中に挿入された上記孤立単語音声認識結果を構成する単語を選択すると、選択された単語に対応する音声ファイルが再生されるようにしてもよい。

また、図１２に示すように、返信テキスト生成部１１２は、上記引用部分に対する返事として孤立単語音声認識結果「いないタイ頼み早く」（図７参照）を挿入すると共に、当該孤立単語音声認識結果に対応する再入力音声「ひいてないよ、大丈夫だよ、楽しみにしているよ早く来てね」（図１１参照）の音声ファイルを参照可能に関連付けて挿入してもよい。また、上記音声ファイルを参照するための態様も特に限定されないが、例えば前述した態様と同様に、対話相手が返信テキスト中に挿入された孤立単語音声認識結果を選択すると、対応する音声ファイルが再生されるようにしてもよい。

また、返信テキスト生成部１１２は、返信テキストの生成方式に応じて、上記引用部分に対する返事としてステップＳ２０５における連続音声認識結果またはステップＳ２０９における孤立単語音声認識結果を挿入してもよい。

以上説明したように本実施形態に係る対話文生成装置は、対話相手固有の情報や当該対話相手に対応する定型テキストを利用して対話文を生成するようにしている。従って本実施形態に係る対話文生成装置によれば、定型的なテキストをユーザが音声入力することなく返信テキストの一部として自動的に挿入可能なため、ユーザの入力の手間を削減できる。また、本実施形態に係る対話文生成装置は、連続音声認識結果、孤立単語音声認識結果、ボイスメール等を選択的に利用して返信テキストを生成している。従って、本実施形態に係る対話文生成装置によれば、周囲環境に影響されて音声認識精度が変動しても、適切な態様で返信テキストを生成することができるため、ユーザは音声認識結果に満足するまで音声入力を繰り返したり、音声入力を諦めたりしなくてもよい。

（第２の実施形態）
図１３に示すように、本発明の第２の実施形態に係る対話文生成装置は、上記図１に示す対話文生成装置において、制御部１１３を制御部１１８に置き換え、通信部１１４、使用履歴記憶部１１５、テンプレート記憶部１１６及び送信テキスト生成部１１７を更に備えている。以下の説明では、図１３において図１と同一部分には同一符号を付して示し、異なる部分を中心に述べる。

通信部１１４は、無線ネットワークまたは有線ネットワークを介して図１３の対話文生成装置と通信可能なインタフェースを有する情報家電との間で通信を行う。上記情報家電には、例えばＴＶ、ビデオレコーダ、オーディオプレーヤ等のいわゆるデジタル家電だけでなく、電子レンジ、エアコン等のいわゆる白物家電が含まれる。通信部１１４は、上記通信によって上記情報家電に対するユーザの使用履歴情報を取得する。上記使用履歴情報は、使用日時、家電種別及び属性を含む。上記属性の態様は、情報家電の家電種別に応じて異なり、例えばテレビまたはビデオレコーダであればユーザの視聴／録画した番組の番組情報（番組名等）、オーディオプレーヤであればユーザの再生した楽曲の楽曲情報（楽曲名等）、電子レンジであればユーザの選択した調理メニューの情報、エアコンであれば設定温度等が挙げられる。上記使用履歴情報は、各機器によって逐次蓄積され、周期的または通信部１１４からの要求に応じて図１３の対話文生成装置に送信される。通信部１１４は、情報家電から受信した使用履歴情報を、制御部１１８を介して使用履歴記憶部１１５に記憶させる。使用履歴記憶部１１５には、図１４に示すように、制御部１１８からの使用履歴情報が記憶される。

テンプレート記憶部１１６には、例えば図１５に示すように、使用履歴記憶部１１５に記憶され得る使用履歴情報と、当該使用履歴情報に基づいて返信テキストに追加可能な追加テキストとが対応付けて記憶され、追加テキストテンプレートが構築されている。ここで、追加テキストとは、ユーザ以外の者（例えば、図１３の対話文生成装置自体）が主体となって上記使用履歴情報から推定されるユーザの生活状況を述べるような形式のテキストである。上記追加テキストの主体（例えば、図１５における「ロボット」）も、追加テキストテンプレートに登録され、追加テキストと共に後述する送信テキストに挿入される。図１５において、Ｐは、家電種別が確率的に代入されることを意味し、ＮＵＬＬは、情報家電の使用履歴情報が無い場合を意味する。また、＊は、追加テキストの発生が確率的であることを示す。即ち、図１５において家電種別が電子レンジである場合、追加テキストは「（ユーザは）（属性）を食べたよ／飲んだよ。おいしかった？」、「（属性）を食べたよ／飲んだよ。おいしかった？」、「（ユーザは）（属性）を食べたよ／飲んだよ。」または「（属性）を食べたよ／飲んだよ。」のいずれかとなる。このように、同一の家電種別に対応する追加テキストにおいて、一部を確率的に発生させることにより、追加テキストが単調になりにくくなる。

また、テンプレート記憶部１１６には、例えば図１６に示すように、使用履歴記憶部１１５に記憶され得る使用履歴情報と、当該使用履歴情報に対応する件名とが対応付けて記憶され、件名テンプレートが構築されている。後述する送信テキスト生成部１１７は、テンプレート記憶部１１６に記憶されている件名のうち、例えば１日の中で使用時間が最も長い家電種別に対応するものを選択する。尚、図１６において、Ａは家電種別毎の使用時間の差が比較的小さい場合、Ｎはいずれの家電種別の使用時間も比較的短い場合を夫々意味する。

送信テキスト生成部１１７は、制御部１１８を介して使用履歴記憶部１１５から読み出した使用履歴情報と、テンプレート記憶部１１６に記憶されている追加テキストテンプレート及び件名テンプレートとを利用して送信テキストを生成する。より詳細には、送信テキスト生成部１１７は、上記追加テキストテンプレートを利用して送信テキストに追加テキストを挿入すると共に、当該追加テキストに対するコメントをユーザに要求する。ユーザがマイクロホン１０５を介して音声を入力すると、送信テキスト生成部１１７は、当該入力音声に対する音声認識結果を上記追加テキストに対するコメントとして送信テキストに挿入する。送信テキスト生成部１１７は、生成した送信テキストを制御部１１８を介してテキスト送受信部１０１に入力する。制御部１１８は、例えばＣＰＵ等のプロセッサを有し、図１３の各部の動作を制御したり、情報／データの授受を行ったりする。

以下、図１７を用いて送信テキスト生成部１１７による送信テキストの生成処理を説明する。送信テキスト生成部１１７は、使用履歴記憶部１１５に記憶される使用履歴情報（図１４参照）を読み出し、使用時間の最も長い家電種別「ＴＶ」に対応する件名「今日はＴＶ見たよ」をテンプレート記憶部１１６に記憶される件名テンプレート（図１６参照）に基づき生成し、送信テキストの件名として代入する。また、送信テキスト生成部１１７は、追加テキストの主体となる「ロボット」をテンプレート記憶部１１６に記憶される追加テキストテンプレート（図１５参照）に基づき生成し、送信テキストに挿入する。次に、送信テキスト生成部１１７は、上記使用履歴情報のうち、［日時＝２００８年６月２１日１２：００−１２：３０，家電種別＝電子レンジ，属性＝塩鮭］を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「おかあさんは昼に塩鮭を食べたよ。」を送信テキストに挿入する。次に、送信テキスト生成部１１７は、上記使用履歴情報のうち、［日時＝２００８年６月２１日１９：００−１９：２０，家電種別＝電子レンジ，属性＝鶏の照焼き］を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「夜に鶏の照焼きを食べたよ。」を送信テキストに挿入する。次に、送信テキスト生成部１１７は、上記使用履歴情報のうち、［日時＝２００８年６月２１日１９：２５−１９：３０，家電種別＝電子レンジ，属性＝お酒］を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「お酒も飲んだよ。おいしかった？」を送信テキストに挿入する。以上のように、家電種別「電子レンジ」に関する追加テキストの生成が終了すると、図１３の対話文生成装置は上記追加テキストをディスプレイ１０６に表示するなどして、ユーザにコメントを要求する。ユーザは、上記追加テキストに対するコメントとして音声「おいしかった。」をマイクロホン１０５を介して入力する。上記入力音声に対して、連続音声認識部１１０によって音声認識処理が行われ、当該入力音声の内容を示す音声認識結果「おいしかった。」が得られる。送信テキスト生成部１１７は、上記音声認識結果「おいしかった。」を送信テキストに挿入する。尚、コメントは、１項目の使用履歴情報に基づく追加テキストを挿入する毎に要求されてもよいし、全ての家電種別に関する追加テキストを挿入してからまとめて要求されてもよい。

次に、送信テキスト生成部１１７は、上記使用履歴情報のうち、［日時＝２００８年６月２１日１９：３０−２１：１５，家電種別＝ＴＶ，属性＝プロ野球巨阪−ソフトクリーム戦］を読み出し、上記追加テキストテンプレートを利用して生成した追加テキスト「夜にプロ野球巨阪−ソフトクリーム戦を見たよ。」を、当該追加テキストの主体「ロボット」と共に送信テキストに挿入する。このように、家電種別「ＴＶ」に関する追加テキストの生成が終了すると、図１３の対話文生成装置はユーザにコメントを要求する。ユーザは、上記追加テキストに対するコメントとして音声「一生懸命応援したわよ。」をマイクロホン１０５を介して入力する。上記入力音声に対して、連続音声認識部１１０によって音声認識処理が行われ、当該入力音声の内容を示す音声認識結果「一生懸命応援したわよ。」が得られる。送信テキスト生成部１１７は、上記音声認識結果「一生懸命応援したわよ。」を送信テキストに挿入する。

以上説明したように、本実施形態に係る対話文生成装置は、ユーザの情報家電に対する使用履歴情報を利用して追加テキストを挿入し、当該追加テキストに対するユーザからのコメントを利用して送信テキストを生成している。従って、本実施形態に係る対話文生成装置によれば、話題が単調になりがちな利用態様においても、ユーザに話題のヒントを提供することができるので、対話が継続しやすくなる。

尚、本発明は上記各実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また上記各実施形態に開示されている複数の構成要素を適宜組み合わせることによって種々の発明を形成できる。また例えば、各実施形態に示される全構成要素からいくつかの構成要素を削除した構成も考えられる。さらに、異なる実施形態に記載した構成要素を適宜組み合わせてもよい。

その一例として例えば、上記各実施形態では、日本語のテキストを例にとって説明したが、当業者であれば英語、中国語またはその他のテキストに置き換えて実施しても同様の効果が得られる。

その他、本発明の要旨を逸脱しない範囲で種々の変形を施しても同様に実施可能であることはいうまでもない。

第１の実施形態に係る対話文生成装置を示すブロック図。図１の対話文生成装置の動作を示すフローチャート。図１の対話文生成装置の使用例を示す図。図１のディスプレイの表示内容の一例を示す図。図１のディスプレイの表示内容の一例を示す図。図１のディスプレイの表示内容の一例を示す図。図１のディスプレイの表示内容の一例を示す図。図１の音声蓄積部の記憶内容の一例を示す図。図１の情報記憶部の記憶内容の一例を示す図。図１の返信テキスト生成部によって生成される返信テキストの一例を示す図。図１の音声蓄積部の記憶内容の一例を示す図。図１の返信テキスト生成部によって生成される返信テキストの一例を示す図。第２の実施形態に係る対話文生成装置を示すブロック図。図１３の使用履歴記憶部の記憶内容の一例を示す図。図１３のテンプレート記憶部の記憶内容の一例を示す図。図１３のテンプレート記憶部の記憶内容の一例を示す図。図１３の送信テキスト生成部によって生成される送信テキストの一例を示す図。

符号の説明

１０１・・・テキスト送受信部
１０２・・・形態素解析部
１０３・・・音声合成部
１０４・・・スピーカ
１０５・・・マイクロホン
１０６・・・ディスプレイ
１０７・・・切替指示入力部
１０８・・・音声蓄積部
１０９・・・孤立単語音声認識部
１１０・・・連続音声認識部
１１１・・・情報記憶部
１１２・・・返信テキスト生成部
１１３・・・制御部
１１４・・・通信部
１１５・・・使用履歴記憶部
１１６・・・テンプレート記憶部
１１７・・・送信テキスト生成部
１１８・・・制御部

Claims

対話相手からの第１のテキストを受信する受信部と、
前記対話相手となり得る人物毎に、当該人物固有の情報と当該人物に対応する定型テキストとが記憶される情報記憶部と、
前記第１のテキストの内容をユーザに提示する提示部と、
提示された前記第１のテキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、
前記対話相手に対応する情報及び定型テキストと、前記音声認識結果とに基づき第２のテキストを生成する生成部と、
前記第２のテキストを前記対話相手に送信する送信部と、
前記ユーザの使用する情報家電との間で通信を行って、前記情報家電に対する前記ユーザの使用履歴情報を取得する通信部と、
前記使用履歴情報が記憶される使用履歴記憶部と、
前記使用履歴情報と、当該使用履歴情報に対応する追加テキストとが対応付けられた追加テキストテンプレートが記憶されるテンプレート記憶部と
を具備し、
前記生成部は、前記使用履歴情報に対応する追加テキスト及び当該追加テキストに関する前記ユーザの発話に対する音声認識結果を用いて前記第２のテキストを生成することを特徴とする対話文生成装置。
前記ユーザから、前記第２のテキストの生成方式を切り替える切替指示の入力を受理する入力部を更に具備し、
前記音声認識部は、前記発話に対して連続音声認識処理を行って連続音声認識結果を得る連続音声認識部と、前記発話に対して孤立単語音声認識処理を行って孤立単語音声認識結果を得る孤立単語音声認識部とを有し、前記切替指示に応じて前記連続音声認識結果及び前記孤立単語音声認識結果のいずれか一方を前記音声認識結果として出力することを特徴とする請求項１記載の対話文生成装置。
前記発話を音声ファイルとして蓄積する蓄積部を更に具備し、
前記生成部は、前記切替指示に応じて前記音声認識結果に前記音声ファイルを参照可能に関連付けて前記第２のテキストを生成することを特徴とする請求項２記載の対話文生成装置。
前記テンプレート記憶部には、前記使用履歴情報と、当該使用履歴情報に対応する件名とが対応付けられた件名テンプレートが更に記憶され、
前記生成部は、前記使用履歴情報に対応する件名を用いて前記第２のテキストを生成することを特徴とする請求項１乃至３のいずれか１項記載の対話文生成装置。
前記使用履歴情報は、前記ユーザの使用時間、家電種別及び属性の少なくとも１つを含むことを特徴とする請求項１乃至４のいずれか１項記載の対話文生成装置。
対話相手からの第１のテキストを受信することと、
前記対話相手となり得る人物毎に、当該人物固有の情報と当該人物に対応する定型テキストとを記憶することと、
前記第１のテキストの内容をユーザに提示することと、
提示された前記第１のテキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成することと、
前記対話相手に対応する情報及び定型テキストと、前記音声認識結果とに基づき第２のテキストを生成することと、
前記第２のテキストを前記対話相手に送信することと、
前記ユーザの使用する情報家電との間で通信を行って、前記情報家電に対する前記ユーザの使用履歴情報を取得することと、
前記使用履歴情報を記憶することと、
前記使用履歴情報と、当該使用履歴情報に対応する追加テキストとが対応付けられた追加テキストテンプレートを記憶することと
を具備し、
前記第２のテキストは、前記使用履歴情報に対応する追加テキスト及び当該追加テキストに関する前記ユーザの発話に対する音声認識結果を用いて生成されることを特徴とする対話文生成方法。
ユーザの使用する情報家電との間で通信を行って、前記情報家電に対する前記ユーザの使用履歴情報を取得する通信部と、
前記使用履歴情報が記憶される使用履歴記憶部と、
前記使用履歴情報と、当該使用履歴情報に対応する追加テキストとが対応付けられた追加テキストテンプレートが記憶されるテンプレート記憶部と、
前記追加テキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成する音声認識部と、
前記追加テキストと、前記音声認識結果とを用いて送信用テキストを生成する生成部と、
前記送信用テキストを対話相手に送信する送信部と、
を具備する対話文生成装置。
ユーザの使用する情報家電との間で通信を行って、前記情報家電に対する前記ユーザの使用履歴情報を取得することと、
前記使用履歴情報を記憶することと、
前記使用履歴情報と、当該使用履歴情報に対応する追加テキストとが対応付けられた追加テキストテンプレートを記憶することと、
前記追加テキストに関する前記ユーザの発話に対して音声認識処理を行って、前記発話の内容を示す音声認識結果を生成することと、
前記追加テキストと、前記音声認識結果とを用いて送信用テキストを生成することと、
前記送信用テキストを対話相手に送信することと、
を具備する対話文生成方法。