JP4783608B2

JP4783608B2 - 対話方法、対話装置、対話プログラムおよび記録媒体

Info

Publication number: JP4783608B2
Application number: JP2005269912A
Authority: JP
Inventors: 昇宮崎; 哲郎甘粕; 輝雄萩野
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-09-16
Filing date: 2005-09-16
Publication date: 2011-09-28
Anticipated expiration: 2025-09-16
Also published as: JP2007079397A

Description

本発明は、入力に対して対話シナリオに基づいて適切な応答を出力する対話技術に関する。より詳しくは、異なる話題を扱う複数の対話システムを自動的に切り替えながら用いることによって、広い範囲の話題に対応する対話を実現する対話技術に関する。

音声やテキストなどによる入力を受け付けて適切な応答を出力する従来的対話システムは、特定の話題に限定した対話を扱うことはできるが、広い範囲の話題に関連した入力に対して適切な応答を出力することは困難であった。これは、話題の範囲が広がれば入力に対する応答を決定する対話シナリオの記述が複雑になるからである。また、狭い範囲の話題しか扱えない対話システムでは、ユーザの要求に不十分な応答しか出来ない、ユーザが予めシステムの能力についてよく理解していなければならない、などの問題があった。そこで、比較的容易に構築できる狭い範囲の話題を扱う対話システムを複数構築しておき、それらを適切に切り替えながら対話を行うことによって、擬似的に広い範囲の話題を扱う対話システムを構築することが試みられてきた。

このような試みにおいて、例えば非特許文献１に示されるように、複数の対話システムに加えて中立な対話状態（複数の対話システムにおける対話状態のいずれにも該当しない対話状態である。）を準備するマルチ対話システムがある。このようなマルチ対話システムを用いる場合、中立な対話状態に対応した補助対話シナリオを準備しておき、現在動作している対話システムでは入力を処理できない場合に、別の対話システムへ切り替えるための対話を、補助対話シナリオを用いて行うような手法が考えられる。なお、上記の「入力を処理できない場合」とは、例えば、現在動作している対話システムの設計想定範囲外の入力をユーザが行った場合や、入力を処理する手続きがパターン認識処理を伴うものであったとして、パターン認識に失敗しそれ以降の処理を実行できなくなった場合などが考えられる。

なお、今後、複数の対話システムのうち現在動作している（あるいは動作させる）対話システムを「焦点対話システム」と表記し、焦点対話システムの応答内容を決定する対話シナリオを「焦点対話シナリオ」と表記する。
磯部俊洋外５名、「複数モデルを選択的に用いる音声対話システムにおけるドメイン切り替え尺度の検討」、音声言語情報処理研究会（ＳＩＧ−ＳＬＰ）第４７回研究会、社団法人情報処理学会、２００３年７月１９日、ｐ．４１−４６

上記のマルチ対話システムでは、複数の対話システムのうちの一つを焦点対話システムとして稼動させ、焦点対話システムに対応する焦点対話シナリオと補助対話シナリオとを遷移しながら対話を行い、補助対話シナリオの進行に応じて焦点対話システムを切替えて対話を実現する。このようなマルチ対話システムでは、焦点対話シナリオと補助対話シナリオとの間で用いるシナリオが遷移した際の対話を自然に行う点に技術的な困難が存在した。

マルチ対話システムでは、例えばユーザが焦点対話システムに何らかの要求を入力したつもりであるにも関わらず、焦点対話システムが処理できない入力であった場合、用いるシナリオが補助対話シナリオへ遷移する。この場合、補助対話シナリオにおいて、現在の焦点対話システムでは入力が扱えないことをユーザに伝え、別の対話システムへ切り替えるかどうかを確認するなどといった、対話の破綻を防ぐ処理を行うことが考えられる。

ここで、対話システムの応答の様式が、個々の対話システムで異なっている場合を考える。「応答の様式」とは、例えば、音声で応答する場合では、音声の大きさ、発話速度、声質などといった話者性であり、画面にエージェントキャラクタを表示してジェスチャとテキストあるいは音声を組み合わせて応答する場合では、エージェントのキャラクタの種類などである。このような場合、焦点対話シナリオから補助対話シナリオに用いるシナリオが遷移した際に突然エージェントのキャラクタが変化したり音声の話者性が変化したりすることとなる。即ち、ユーザの立場からすると、焦点対話システムに入力したつもりであるにも関わらず突然応答様式が変化するように感じられることになる。一般にユーザは、同一の対話システムにおいては、同一の応答様式を想定して対話を進める。従って、同一の対話システムの応答様式が突然変化するように感じられる対話システムは、ユーザに混乱を与えることとなる。つまり、従来的なマルチ対話システムでは、個々の焦点対話シナリオから補助対話シナリオへ用いるシナリオが遷移する際に応答様式の不連続性が発生するという課題があった。

そこで本発明は、上記の課題に鑑み、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた際の応答様式の連続性を保持する対話方法、対話装置、対話プログラムおよび記録媒体を提供することを目的とする。

上記課題を解決するために、本発明では、
それぞれ少なくとも対話シナリオおよび応答生成モデルを記憶して対話処理が実行可能な複数の対話システムと相互に通信可能であり、前記複数の対話システムのうちの一つを焦点対話システムとして稼動させ、稼動中の焦点対話システムの応答生成モデルを用いて対話出力を行う対話装置であり、
少なくとも対話システムの切り替えにおける対話処理を行うことが可能な補助対話シナリオを記憶する記憶手段と、
ユーザの対話入力から、ユーザの対話入力を対話処理が可能な形式に変換した入力変換結果および対話処理を実行するための対話シナリオあるいは補助対話シナリオを指示する指示情報を生成して、これらを出力する入力処理手段と、
上記指示情報によって指示された対話シナリオを有する対話システムの対話シナリオおよび応答生成モデルを当該対話システムから受信し、それぞれを対話処理を実行するための焦点対話シナリオおよび焦点応答生成モデルとして設定する焦点対話システム設定手段と、
上記焦点対話シナリオまたは上記補助対話シナリオを用いて、上記入力変換結果に対する応答内容を生成して、これを出力する対話シナリオ実行手段と、
焦点対話シナリオを用いて生成された上記応答内容、および補助対話シナリオを用いて生成された上記応答内容のどちらの応答内容に対しても、上記焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する応答生成手段と、
を備え、
上記応答生成手段は、焦点対話システムが切り替わったときは、切り替わった新しい焦点対話シナリオおよび補助対話シナリオによる応答内容を、切り替わった新しい焦点対話システムの焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する。

また、対話装置をコンピュータ上で機能させる対話プログラムによって、コンピュータを対話装置として作動処理させることができる。そして、この対話プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体によって、他のコンピュータを対話装置として機能させることや、対話プログラムを流通させることなどが可能になる。

本発明によれば、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた場合でも、現在の対話システムにおける焦点応答生成モデルを用いて、応答内容から対話出力を生成して出力するので、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた際の応答様式の連続性が保持される。

以下に、２つの実施形態について説明する。
第１実施形態は、ユーザからの入力毎に用いる対話システムを判定し、この判定された対話システムに従って対話処理を行う場合である。
第２実施形態は、参考文献１に開示される対話システムに、本発明の手法を用いる場合である。
（参考文献１）特願２００５−２３２２１５号
《第１実施形態》
以下に、本発明の第１実施形態を、図１〜図１５を参照しながら説明する。

本発明の最良の実施形態の一つは、主にコンピュータに本発明の対話プログラムを実行させることによって、コンピュータを対話装置として機能させる形態である。
図１は、第１実施形態に係わる対話装置（Ａ）のハードウェア構成を例示した構成ブロック図である。

図１に例示するように、対話装置（Ａ）は、マイクロフォンやキーボードなどが接続可能な入力部（１１）、スピーカや液晶ディスプレイなどが接続可能な出力部（１２）、対話装置（Ａ）外部に通信可能な通信装置（例えばモデム）が接続可能な通信部（１３）、ＭＰＵ〔Micro Processing Unit〕（１４）〔キャッシュメモリなどを備えていてもよい。〕、メモリであるＲＡＭ（Random Access Memory）（１５）、ＲＯＭ（Read Only Memory）（１６）やハードディスクなどである外部記憶装置（１７）並びにこれらの入力部（１１）、出力部（１２）、通信部（１３）、ＭＰＵ（１４）、ＲＡＭ（１５）、ＲＯＭ（１６）、外部記憶装置（１７）間のデータのやり取りが可能なように接続するバス（１８）などを備えている。また必要に応じて、対話装置（Ａ）に、ＣＤ−ＲＯＭなどの記憶媒体を読み書きできる装置（ドライブ）などを設けるとしてもよい。

対話装置（Ａ）の外部記憶装置（１７）には、少なくとも中立な対話状態に対応した補助対話シナリオおよび補助応答生成モデルが保存記憶されている。

対話装置（Ａ）のＲＯＭ（１６）には、対話処理を可能にするためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、ＲＡＭ（１５）などに適宜に保存記憶される。

より具体的には、ＲＯＭ（１６）には、対話装置（Ａ）に入力された情報に対して対話処理を実行可能なように情報処理を行うためのプログラム、焦点対話シナリオなどによって応答内容などを生成するためのプログラム、焦点対話システムの設定・変更を実行するためのプログラム、上記応答内容から応答情報を生成して出力するためのプログラムが保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。

第１実施形態に係る対話装置（Ａ）では、ＲＯＭ（１６）に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてＲＡＭ（１５）に読み込まれて、ＭＰＵ（１４）で解釈実行・処理される。その結果、ＭＰＵ（１４）が所定の機能（入力処理部、対話シナリオ実行部、焦点対話システム設定部、応答生成部、制御部）を実現することで、対話処理が実現される。

続いて、図２〜図１５を参照しながら、第１実施形態における対話処理について、具体例を示しながら叙述的に説明する。

対話装置（Ａ）と、複数（ｎ個）の対話システム、即ち、第１対話システム（１０４１）、第２対話システム（１０４２）、・・・、第ｎ対話システム（１０４ｎ）とは、ネットワーク（１）を介して相互に通信可能に接続されている（図１８参照。）。各対話システムは、それ自体が対話処理を実行可能な公知の対話システムであるとする。このように既存の対話システムを用いることで、コストを抑えて様々な話題に対応可能なマルチ対話システムが構築される。
それぞれの対話システムは、少なくとも対話シナリオおよび応答生成モデルをその記憶手段に記憶している。つまり、第１対話システム（１０４１）は、第１対話シナリオ（１０４１ｂ）および第１応答生成モデル（１０４１ａ）をその記憶手段に記憶し、第２対話システム（１０４２）は、第２対話シナリオ（１０４２ｂ）および第２応答生成モデル（１０４２ａ）をその記憶手段に記憶し、第ｎ対話システム（１０４ｎ）は、第ｎ対話シナリオ（１０４ｎｂ）および第ｎ応答生成モデル（１０４ｎａ）をその記憶手段に記憶している。対話シナリオは、ある所定の話題について、対話を構築するための処理命令や入力に対する応答などが記述されたデータである（例えば、プログラム様式で記述される。）。応答生成モデルは、応答様式を決定するための情報が記述されたデータである。ここでは、便宜的に、第１対話システム（１０４１）を、東京観光案内システムとし、第ｎ対話システム（１０４ｎ）を、東京行政サービス案内システムとする。
なお、必ずネットワーク（１）を介して、対話装置（Ａ）と複数の対話システムとが通信可能に接続されなければならないというものではなく、要は、少なくとも対話装置（Ａ）と対話システムとで相互に通信可能に接続されることによって、少なくとも対話システムの対話シナリオおよび応答生成モデルが対話装置（Ａ）に送信可能な構成であればよい。

また、対話装置（Ａ）の外部記憶装置（１７）に保存記憶される補助対話シナリオ（１０１２）および補助応答生成モデル（１０３２）は、制御部（８０）の制御によって、ＲＡＭ（１５）の所定の格納領域に格納される。

さらに、制御部（８０）は、処理シナリオ情報（１００３）を生成して、ＲＡＭ（１５）の所定の格納領域に格納する。なお、ここで生成される処理シナリオ情報（１０３３）は、初期情報として例えばＮｕｌｌ値とする。
以後、「ＲＡＭ（１５）から○○を読み込む」旨の説明をした場合は、「ＲＡＭ（１５）において○○が格納されている所定の格納領域から○○を読み込む」ことを意味するとする。

対話装置（Ａ）への入力には、例えば、対話装置（Ａ）の利用者であるユーザが発声した音声や、キーボードを用いたテキスト入力、マウス入力、タッチパネル入力、ボタン操作、ジェスチャ入力、もしくはそれらのいくつかを組み合わせたものなどが考えられる。第１実施形態では一例として音声による対話処理を想定しており、入力は音声であるとする。

ユーザの発声した音声は、対話装置（Ａ）のマイクロフォン（３０）によって収音される（ステップＳ１）。マイクロフォン（３０）によって収音されたユーザの音声は、収音信号として、対話装置（Ａ）の入力処理部（１００）の入力となる。

対話装置（Ａ）の入力処理部（１００）は、上記の収音信号に対して、対話装置（Ａ）において対話処理を実行可能とする情報処理を行う。
具体的な一例として、入力処理部（１００）は、収音信号に対してＡ／Ｄ変換などを行い離散信号に変換し、この離散信号に対して、音声区間を検出する音声区間検出、検出された音声区間の周波数領域の変換などの音声分析処理を行う。さらに、入力処理部（１００）は、これらの処理が施された離散信号について、適宜の音響モデル（例えば単語の発音と音声特徴量との関係を確率として与える確率モデルである。）、言語モデル（例えば、単語と単語との共起関係を確率として与える確率モデルである。）などを用いて、収音信号（ユーザの発した音声）に相当するテキスト（音声認識結果）を得る。加えて、入力処理部（１００）は、この得られたテキストから特徴的なキーワードやテキストタイプ（例えば質問形式や返答形式など）などを抽出し、キーワード属性値対応表などを用いて、これらを属性−値ペアの形式の入力変換結果（１００１）として出力する。また、入力処理部（１００）は、例えば非特許文献１に開示される手法を用いて、抽出されたキーワードなどから、処理シナリオを指定する処理シナリオ指示情報（１００２）も生成して出力する（ステップＳ２）。
なお、対話装置（Ａ）の入力処理部（１００）は、公知技術（例えば参考文献２、上記非特許文献１などを参照。）によって達成されるから、入力処理部（１００）の詳細な構成・機能についての説明は略する。
（参考文献２）「ＮＴＴ技術ジャーナル」、社団法人電気通信協会、２００４年１月号

例えば、ユーザが「六本木ヒルズの最寄り駅を教えてほしい」と発声すると、対話装置（Ａ）の入力処理部（１００）は、属性−値ペア形式の入力変換結果（１００１）を、属性が「意図タイプ」の値を「質問」、属性が「主題」の値を「最寄り駅」、属性が「エリア」の値を「六本木ヒルズ」として出力する（図３参照。）。また、対話装置（Ａ）の入力処理部（１００）は、「最寄り駅」「六本木ヒルズ」というキーワードなどに基づき、処理シナリオ指示情報（１００２）を、scenario＝"第１対話シナリオ"として出力する（図３参照。）。対話装置（Ａ）の入力処理部（１００）によって出力された入力変換結果（１００１）および処理シナリオ指示情報（１００２）は、ＲＡＭ（１５）の所定の格納領域に格納される。

対話装置（Ａ）の対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ情報（１００３）および処理シナリオ指示情報（１００２）を読み込み、各情報が一致するか否かを判定する（ステップＳ３）。
制御部（８０）は、判定結果が、各情報が一致する場合にはステップＳ３０の処理を、各情報が一致しない場合にはステップＳ４の処理を実行するように制御する。
この段階では、処理シナリオ情報（１００３）はＮｕｌｌ値であり、処理シナリオ指示情報（１００２）は"第１対話シナリオ"であるから一致しないので、ステップＳ４の処理が実行される。

制御部（８０）の制御の下、対話装置（Ａ）の対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から読み込んだ処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるか否かを判定する（ステップＳ４）。
制御部（８０）は、判定結果が、処理シナリオ指示情報（１００２）が"補助対話シナリオ"である場合にはステップＳ１２の処理を、処理シナリオ指示情報（１００２）が"補助対話シナリオ"ではない場合にはステップＳ５の処理を実行するように制御する。
この段階では、処理シナリオ指示情報（１００２）は"第１対話シナリオ"であるから、ステップＳ５の処理が実行される。

制御部（８０）の制御の下、対話装置（Ａ）の対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から読み込んだ処理シナリオ情報（１００３）がＮｕｌｌ値であるか否かを判定する（ステップＳ５）。
制御部（８０）は、判定結果が、処理シナリオ情報（１００３）がＮｕｌｌ値である場合にはステップＳ６の処理を、処理シナリオ情報（１００３）がＮｕｌｌ値ではない場合にはステップＳ２４の処理を実行するように制御する。
この段階では、処理シナリオ情報（１００３）はＮｕｌｌ値であるから、ステップＳ６の処理が実行される。

制御部（８０）は、処理シナリオ指示情報（１００２）と同一内容の情報を処理シナリオ情報（１００３）として、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ６）。つまり、処理シナリオ指示情報（１００２）を処理シナリオ情報（１００３）に複写するのである。この段階で、処理シナリオ情報（１００３）は、Ｎｕｌｌ値から処理シナリオ指示情報（１００２）である"第１対話シナリオ"に変更されたことになる。

続いて、制御部（８０）の制御の下、対話シナリオ実行部（１０１）は、処理シナリオ情報（１００３）から焦点対話システム設定情報（１０２１）を生成して、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ７）。ここで焦点対話システム設定情報（１０２１）とは、処理シナリオ情報（１００３）に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報である。

続いて、制御部（８０）の制御の下、対話装置（Ａ）の焦点対話システム設定部（１０２）は、ＲＡＭ（１５）から焦点対話システム設定情報（１０２１）を読み込む。そして、焦点対話システム設定部（１０２）は、焦点対話システム設定情報（１０２１）を解釈し、処理シナリオ情報（１００３）で指示される対話シナリオに対応する対話システムを選択する。さらに、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ８）。
この段階では、処理シナリオ情報（１００３）は"第１対話シナリオ"であるから、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、第１対話システム（１０４１）の記憶手段から第１対話シナリオ（１０４１ｂ）および第１応答生成モデル（１０４１ａ）をそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する。

続いて、制御部（８０）の制御の下、対話装置（Ａ）の対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から焦点対話シナリオ（１０１１）および入力変換結果（１００１）を読み込み、応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ９）。この応答内容（１０３３）としては、例えば、テキストやエージェントキャラクタの描画コマンドなどが考えられる。第１実施形態では、音声による対話処理を実行するとしているので、応答内容（１０３３）はテキスト形式であるとする。具体的な一例として、対話シナリオ実行部（１０１）は、応答内容（１０３３）を、text="最寄り駅は六本木になります"として出力する（図４参照。）。

続いて、制御部（８０）の制御の下、対話装置（Ａ）の応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）および応答内容（１０３３）を読み込み、応答情報（対話出力）を生成して出力する（ステップＳ１０）。ここで対話処理におけるユーザへの応答としては、例えば、ディスプレイに表示されるテキスト、画像、エージェントキャラクタのジェスチャなどのアニメーション、スピーカから出力される合成音声もしくはこれらのいくつかを組み合わせたものなどが考えられる。第１実施形態では、音声による対話処理を実行するとしているので、応答は合成音声であるとする。そこで、応答生成部（１０３）は、波形接続方式のテキスト音声合成手段であるとし、応答生成部（１０３）の出力である応答情報は、音声波形データが連なる合成音声信号であるとする。但し、応答生成部（１０３）を、波形接続方式のテキスト音声合成手段に限定する趣旨ではなく、その他の方式の音声合成手段でもよい。

応答生成部（１０３）の具体的な一例を説明する。応答生成部（１０３）は、テキスト解析部、韻律生成部、音声波形選択部、音声合成部から構成される。応答生成部（１０３）は、焦点応答生成モデルおよび応答内容であるテキストを入力とし、合成音声信号を出力する。また、外部記憶装置（１７）には、図示しない音声波形データベースおよび音声情報データベースが保存記憶されている。音声波形データベースは、単語や文章を読み上げた音声データに対して公知のＡ／Ｄ変換を行い、合成音声を組み立てる上で適切な合成単位（例えば音素）で切出したもの（音声波形素片としての音声波形データ）の集合である。

音声情報データベースは、合成音声を組み立てる上で適切な単位（合成単位）を音素として、これに諸情報が対応付けられたエントリーからなるデータ構造（テーブル）となっている。音声情報データベースの各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高の時間推移を表したＦ_０パターン情報、音声波形データベースの中での音声波形データの位置を示す情報、例えば男女の別などの話者性を示すインデックス（以下、音声波形データ位置情報という。）などから構成される。
音声情報データベースのエントリーと音声波形データベースにおける（音声波形素片としての）各音声波形データとは、音声情報データベースにおける音声波形データ位置情報によって対応付けられる。

テキスト解析部は、入力されたテキストを形態素解析し、入力されたテキストに対応した音素列とアクセント型を出力する。

韻律生成部は、テキスト解析部が出力した情報および焦点応答生成モデルを入力として、音素ごとの音声のＦ_０パターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)などを推定し、これを出力する。焦点応答生成モデル（第ｉ応答生成モデル）には、合成音声の話速や声の高さや話者性などを指定するテキスト音声合成のパラメータが記述されている。この段階では第１応答生成モデル（１０４１ａ）であり、例えば、pitch="200Hz"として平均的な声の高さを２００Ｈｚ、speed="fast"として口調の速さを速め、power="normal"として通常の声の大きさを指定するものとなっている（図５参照。）。

音声波形選択部は、焦点応答生成モデルおよびテキスト解析部が出力した音素列の並びに従い、韻律生成部で出力した、音素ごとの音声のＦ_０パターン、音素継続時間長、パワー情報、応答生成モデルで指定される話者性（この段階では第１応答生成モデル（１０４１ａ）であり、例えば、voicetype="female"として話者を女性と指定している。）などをターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ（最適音声波形素片列）を、音声情報データベースから選択して、最適音声波形素片列の各音声波形素片番号（テキスト解析部が出力した音素列の並びに対応している。）を出力する。最適音声波形素片列の決定には動的計画法などを用いる。

音声合成部は、音声波形選択部で選択された最適音声波形素片列の各音声波形素片番号を入力として、この最適音声波形素片列の各音声波形素片番号に対応した音声波形データを（音声波形データ位置情報を参照して）音声波形データベースから読み込み、それら音声波形データを順次接続して連続した合成音声信号として出力する。

なお、対話装置（Ａ）の応答生成部（１０３）は、公知技術（例えば参考文献３などを参照。）によって達成されるから、応答生成部（１０３）の詳細な構成・機能についての説明は略する。
（参考文献３）特許２７６１５５２号公報

応答生成部（１０３）によって出力された合成音声信号（応答情報）は、対話装置（Ａ）のスピーカ（４０）から合成音声として出力される（ステップＳ１１）。つまり、スピーカ（４０）からは、女性の声で平均的な声の高さが２００Ｈｚになる程度の、やや早めの口調で通常の大きさの合成音声で「最寄り駅は六本木になります」と出力される。ユーザは、この合成音声を対話処理の応答として知覚する。

ユーザは、この合成音声を聴いて満足し（この例で云えば、ユーザは、最寄り駅を知るだけで満足した。）、対話処理を終了するかもしれないし、あるいは、さらなる情報などを求めて対話処理を続行するかもしれない。続行する場合、ユーザは、従前の対話に関連した内容の言葉を発するかもしれないし、従前の対話に関連しない内容の言葉を発するかもしれない。さらに、従前のユーザから突然、別のユーザが割り込みないし変更し、従前の対話に関連した内容の言葉を発するかもしれないし、従前の対話に関連しない内容の言葉を発するかもしれない。このように、対話処理においては様々な場合が考えられる。
しかしながら、本発明は、このような様々な場合においても対応可能なものであるから、ユーザがさらなる情報などを求めて対話処理を続行する場合を例として、さらに説明を加えることにする。

ユーザが、合成音声の出力を受けて、さらなる情報などを求めて、ある言葉を発したとする。この言葉（音声）は、マイクロフォン（３０）によって収音され、上記ステップＳ１およびステップＳ２の処理が実行される。その結果、処理シナリオ指示情報（１００２）が、"第１対話シナリオ"である場合と、"第１対話シナリオ"ではない場合がありえる。例えば、ユーザが「六本木ヒルズ周辺の有名な公園を教えてほしい」と発声すると、処理シナリオ指示情報（１００２）は、東京観光案内システムである第１対話システムの"第１対話シナリオ"となる。また、ユーザが「六本木駅の近くの区役所を教えてください」という発声を行うと、処理シナリオ指示情報（１００２）は、東京行政サービス案内システムである第ｎ対話システムの"第ｎ対話シナリオ"となる（図６参照。）。

処理シナリオ指示情報（１００２）が"第１対話シナリオ"である場合、ステップＳ３の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ情報（１００３）および処理シナリオ指示情報（１００２）を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報（１００３）は"第１対話シナリオ"であり、処理シナリオ指示情報（１００２）は"第１対話シナリオ"であるから、各情報は一致する。
そこで、制御部（８０）は、次のステップＳ３０の処理を実行するように制御する。

対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ情報（１００３）および焦点対話システム設定情報（１０２１）を読み込み、焦点対話システム設定情報（１０２１）が、現在の処理シナリオ情報（１００３）に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報であるか否かを判定する（ステップＳ３０）。
制御部（８０）は、判定結果が、焦点対話システム設定情報（１０２１）が、現在の処理シナリオ情報（１００３）に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報である場合にはステップＳ９〜ステップＳ１１の処理を、現在の処理シナリオ情報（１００３）に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報ではない場合にはステップＳ３１の処理を実行するように制御する。
この段階では、焦点対話システム設定情報（１０２１）は、"第１対話シナリオ"等を設定するために必要な対話システムの設定・変更のための情報であり、現在の処理シナリオ情報（１００３）は"第１対話シナリオ"であるから、判定が成立し、ステップＳ９〜ステップＳ１１の処理が実行される。

ここで、従前の対話処理において、第１対話システム（１０４１）における対話シナリオ（１０４１ｂ）および応答生成モデル（１０４１ａ）それぞれが、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納されているので、続くステップＳ９〜ステップＳ１１の処理は、対話シナリオ（１０４１ｂ）および応答生成モデル（１０４１ａ）に基づいて実行されることに留意しなければならない。

処理シナリオ指示情報（１００２）が"第１対話シナリオ"ではない場合として、上記のように処理シナリオ指示情報（１００２）が"第ｎ対話シナリオ"である場合を考える。この場合、ステップＳ３の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ情報（１００３）および処理シナリオ指示情報（１００２）を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報（１００３）は"第１対話シナリオ"であり、処理シナリオ指示情報（１００２）は"第ｎ対話シナリオ"であるから、各情報は一致しない。

そこで、ステップＳ４の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から読み込んだ処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるか否かを判定する。
この段階では、処理シナリオ指示情報（１００２）は"第１対話シナリオ"であるから、ステップＳ５の処理が実行される。

ステップＳ５の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から読み込んだ処理シナリオ情報（１００３）がＮｕｌｌ値であるか否かを判定する。
この段階では、処理シナリオ情報（１００３）はＮｕｌｌ値ではないから、制御部（８０）の制御の下、ステップＳ２４の処理が実行される。

対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）および入力変換結果（１００１）を読み込み、応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ２４）。この応答内容（１０３３）は上記と同様にテキスト形式であるとする。具体的な一例として、対話シナリオ実行部（１０１）は、応答内容（１０３３）を、text="これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか"として出力する（図７参照。）。

続いて、制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）および応答内容（１０３３）を読み込み、応答情報を生成して出力する（ステップＳ２５）。このステップＳ２５の処理はステップＳ１０の処理と同様であるから説明を略する。
なお、この段階では、焦点応答生成モデル（１０３１）は、第１応答生成モデル（１０４１ａ）であることに留意すること。

続いて、制御部（８０）は、処理シナリオ指示情報（１００２）と同一内容の情報を処理シナリオ情報（１００３）として、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ２６）。このステップＳ２６の処理はステップＳ６の処理と同様である。
この段階で、処理システム情報（１００３）は、"第１対話シナリオ"から処理シナリオ指示情報（１００２）である"第ｎ対話シナリオ"に変更されたことになる。

ステップＳ２５において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ２７）。このステップＳ２７の処理はステップＳ１１の処理と同様である。
既述のとおり、ステップＳ２５の処理において用いられる焦点応答生成モデル（１０３１）は、従前の第１応答生成モデル（１０４１ａ）のままであるため、スピーカ（４０）からは、女性の声で平均的な声の高さが２００Ｈｚになる程度の、やや早めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか」と出力される。従って、対話シナリオが補助対話シナリオに変更しても、応答様式が従前の応答様式（この場合は第１対話システムにおける応答様式である。）と同じになるので、ユーザを困惑させるようなことにはならない。

ユーザが、この合成音声を知覚して、例えば了承の返事である「はい」を発声したとする。この音声はマイクロフォン（３０）によって収音され、上記ステップＳ１およびステップＳ２の処理が実行される。その結果、属性−値ペア形式の入力変換結果（１００１）は、属性である「意図タイプ」の値が「返事」、属性である「主題」の値が「了承」になり、処理シナリオ指示情報（１００２）は"補助対話シナリオ"になる（図８参照。）。

この場合、ステップＳ３の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ情報（１００３）および処理シナリオ指示情報（１００２）を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報（１００３）は"第ｎ対話シナリオ"であり、処理シナリオ指示情報（１００２）は"補助対話シナリオ"であるから、各情報は一致しない。

そこで、ステップＳ４の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から読み込んだ処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるか否かを判定する。
この段階では、処理シナリオ指示情報（１００２）は"補助対話シナリオ"であるから、制御部（８０）の制御の下、ステップＳ１２の処理が実行される。

対話シナリオ実行部（１０１）は、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）および入力変換結果（１００１）を読み込み、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令であるか否かを判定する（ステップＳ１２）。
ここで「指令」とは、補助対話シナリオ（１０１２）に記述されている、実行処理の内容などを指定する命令のことである。また、「焦点対話システム変更指令」とは、焦点対話システムの変更を実行処理する内容の命令のことである。
制御部（８０）は、判定結果が、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令である場合にはステップＳ１９の処理を、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令ではない場合にはステップＳ１３の処理を実行するように制御する。ステップＳ１３の処理については後述する。
この段階では、入力変換結果（１００１）は、属性である「意図タイプ」の値は「返事」、属性である「主題」の値は「了承」であり、この入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令は焦点対話システム変更指令となっている。そこで、制御部（８０）は、ステップＳ１９の処理を実行するように制御する。

対話シナリオ実行部（１０１）は、処理シナリオ情報（１００３）から焦点対話システム設定情報（１０２１）を生成して、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ１９）。このステップＳ１９の処理はステップＳ７の処理と同様である。

続いて、制御部（８０）の制御の下、焦点対話システム設定部（１０２）は、ＲＡＭ（１５）から焦点対話システム設定情報（１０２１）を読み込む。そして、焦点対話システム設定部（１０２）は、焦点対話システム設定情報（１０２１）を解釈し、処理シナリオ情報（１００３）で指示される対話シナリオに対応する対話システムを選択する。さらに、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ２０）。このステップＳ２０の処理はステップＳ８の処理と同様である。
この段階では、処理シナリオ情報（１００３）は"第ｎ対話シナリオ"であるから、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、第ｎ対話システム（１０４ｎ）の記憶手段から第ｎ対話シナリオ（１０４ｎｂ）および第ｎ応答生成モデル（１０４ｎａ）をそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する。
なお、第ｎ応答生成モデル（１０４ｎａ）は、例えば、voicetype="male"として話者を男声、pitch="95Hz"として平均的な声の高さを９５Ｈｚ、speed="slow"として口調の速さを遅め、power="normal"として通常の声の大きさを指定するものとなっている（図９参照。）。

続いて、制御部（８０）の制御の下、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から焦点対話シナリオ（１０１１）を読み込み、対話システムの初期メッセージである応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ２１）。このステップＳ２１の処理はステップＳ９の処理と同様である。具体的な一例として、対話シナリオ実行部（１０１）は、応答内容（１０３３）を、text="これから行政サービス案内のシステムでご案内いたします"として出力する（図１０参照。）。

続いて、制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）および応答内容（１０３３）を読み込み、応答情報を生成して出力する（ステップＳ２２）。このステップＳ２２の処理はステップＳ１０の処理と同様である。
なお、この段階では、焦点応答生成モデル（１０３１）は、第ｎ応答生成モデル（１０４ｎａ）であることに留意すること。

ステップＳ２２において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ２３）。このステップＳ２３の処理はステップＳ１１の処理と同様である。既述のとおり、ステップＳ２５の処理において用いられる焦点応答生成モデル（１０３１）は、第ｎ応答生成モデル（１０４ｎａ）であるため、スピーカ（４０）からは、男性の声で平均的な声の高さが９５Ｈｚになる程度の、やや遅めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムでご案内いたします」と出力される。

このように、対話シナリオは、第１対話シナリオ（１０４１ｂ）→補助対話シナリオ（１０１２）→第ｎ対話シナリオ（１０４ｎｂ）と遷移したにも係わらず、応答様式は、第１対話システムにおける応答様式→第ｎ対話システムにおける応答様式と遷移したことになる。つまり、補助対話シナリオに対応する応答様式の応答が介入しないので、ユーザは、第１対話システムから第ｎ対話システムに移行したと受け止めることとなり、ユーザに無用な混乱・当惑などを生じせしめない。

＜補足説明１＞
さて、次に、第１実施形態における対話処理の補足説明をする。この補足説明は、処理シナリオ情報（１００３）がＮｕｌｌ値の状態において、入力音声の処理シナリオ指示情報（１００２）が"補助対話シナリオ"であった場合、あるいは、ステップＳ２７の処理の後、ステップＳ１２の処理において、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令ではない場合などにおいて、対話処理が破綻してしまうことを防止するための処理についてのものである。
ここでは、処理シナリオ情報（１００３）がＮｕｌｌ値の状態において、入力音声の処理シナリオ指示情報（１００２）が"補助対話シナリオ"であった場合を例として、補足説明する。

ユーザが、対話装置（Ａ）との対話処理を開始するべく、ある言葉を発したとする。この言葉（音声）は、マイクロフォン（３０）によって収音され、上記ステップＳ１およびステップＳ２の処理が実行される。例えば、ユーザが「こんにちは」という発声を行うと、属性−値ペア形式の入力変換結果（１００１）は、属性である「意図タイプ」の値が「挨拶」、属性である「主題」の値が「不明」になり、処理シナリオ指示情報（１００２）は"補助対話シナリオ"になる（図１１参照。）。

この場合、ステップＳ３の処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ情報（１００３）および処理シナリオ指示情報（１００２）を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報（１００３）はＮｕｌｌ値であり、処理シナリオ指示情報（１００２）は"補助対話シナリオ"であるから、各情報は一致しない。

続くステップＳ１２の処理において、対話シナリオ実行部（１０１）は、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）および入力変換結果（１００１）を読み込み、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令であるか否かを判定する。
この段階では、対話処理の開始であるから、通常、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が焦点対話システム変更指令であることはない。従って、制御部（８０）の制御の下、ステップＳ１３の処理が実行される。

対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）を読み込み、対話システムの初期メッセージである応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ１３）。この応答内容（１０３３）は上記と同様にテキスト形式であるとする。具体的な一例として、対話シナリオ実行部（１０１）は、応答内容（１０３３）を、text="お知りになりたいことは何でしょうか"として出力する。このステップＳ１３の処理はステップＳ２４の処理と同様である。

続いて、制御部（８０）の制御の下、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から読み込んだ処理シナリオ情報（１００３）がＮｕｌｌ値であるか否かを判定する（ステップＳ１４）。
制御部（８０）は、処理シナリオ情報（１００３）がＮｕｌｌ値である場合にはステップＳ１７の処理を、処理シナリオ情報（１００３）がＮｕｌｌ値ではない場合にはステップＳ１５の処理を実行するように制御する。
この段階では、処理シナリオ情報（１００３）はＮｕｌｌ値であるから、ステップＳ１７の処理が実行される。

制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から予めＲＡＭ（１５）に読み込まれている補助応答生成モデル（１０３２）およびステップＳ１３において得られた応答内容（１０３３）を読み込み、応答情報を生成して出力する（ステップＳ１７）。この段階では、焦点応答生成モデル（１０３１）がＲＡＭ（１５）に読み込まれていないため、応答情報の生成に補助応答生成モデル（１０３２）を用いるのである。

ステップＳ１７において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ１８）。このステップＳ１８の処理はステップＳ１１の処理と同様である。

もし、ステップＳ１４の処理において、処理シナリオ情報（１００３）がＮｕｌｌ値ではなかった場合（このような場合としては、例えば上記の例において、ステップＳ２７の処理の後にユーザが「はい」以外の返事をして、処理シナリオ情報が"補助シナリオ情報"となった場合などが考えられる。）、ステップＳ１５の処理が実行される。

この場合は、何らかの焦点応答生成モデル（１０３１）がＲＡＭ（１５）に読み込まれているため、制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）およびステップＳ１３において得られた応答内容（１０３３）を読み込み、応答情報を生成して出力する（ステップＳ１５）。このステップＳ１５の処理はステップＳ１０などの処理と同様である。

ステップＳ１５において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ１６）。このステップＳ１６の処理はステップＳ１１などの処理と同様である。

このように、ステップＳ１３、ステップＳ１４、ステップＳ１５、ステップＳ１６、ステップＳ１７、ステップＳ１８の処理を行うことで、対話処理の破綻が防止される。特に、ステップＳ１５およびステップＳ１６の処理を行う場合には、応答様式が従前の応答様式と同じになるので、ユーザを困惑させるようなことにはならない。

＜補足説明２＞
上記の例において、ステップＳ２７の処理の後、ユーザが「はい」と返事をしなかった場合を考える。例えば、ステップＳ２７の処理の後、ユーザが、「六本木駅の近くの区役所を教えてください」と同じ言葉を繰り返したとする。この場合、処理シナリオ指示情報（１００２）は"第ｎ対話シナリオ"になるが、ステップＳ２６の処理において、処理シナリオ情報（１００３）が"第ｎ対話シナリオ"に変更されているので、ステップＳ３の判定処理において、処理シナリオ指示情報（１００２）と処理シナリオ情報（１００３）とが一致すると判定される。次いで、ステップＳ３０の判定処理が実行されるが、この段階では、焦点対話システム設定情報（１０２１）は、"第１対話シナリオ"等を設定するために必要な対話システムの設定・変更のための情報であり、現在の処理シナリオ情報（１００３）は"第ｎ対話シナリオ"であるから、判定が成立せず、制御部（８０）は、ステップＳ３１の処理を実行するように制御する。

対話シナリオ実行部（１０１）は、現在の処理シナリオ情報（１００３）から焦点対話システム設定情報（１０２１）を生成して、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ３１）。このステップＳ３１の処理はステップＳ１９の処理と同様である。
つまり、この段階で、焦点対話システム設定情報（１０２１）は、"第ｎ対話シナリオ"等を設定するために必要な対話システムの設定・変更のための情報となる。

続いて、制御部（８０）の制御の下、焦点対話システム設定部（１０２）は、ＲＡＭ（１５）から焦点対話システム設定情報（１０２１）を読み込む。そして、焦点対話システム設定部（１０２）は、焦点対話システム設定情報（１０２１）を解釈し、処理シナリオ情報（１００３）で指示される対話シナリオに対応する対話システムを選択する。さらに、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ３２）。このステップＳ３２の処理はステップＳ２０の処理と同様である。
この段階では、処理シナリオ情報（１００３）は"第ｎ対話シナリオ"であるから、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、第ｎ対話システム（１０４ｎ）の記憶手段から第ｎ対話シナリオ（１０４ｎｂ）および第ｎ応答生成モデル（１０４ｎａ）をそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する。

続いて、制御部（８０）の制御の下、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から焦点対話シナリオ（１０１１）を読み込み、対話システムの初期メッセージである応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ３３）。このステップＳ３３の処理はステップＳ２１の処理と同様である。

続いて、制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）および応答内容（１０３３）を読み込み、応答情報を生成して出力する（ステップＳ３４）。このステップＳ３４の処理はステップＳ２２の処理と同様である。

ステップＳ３４において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ３５）。このステップＳ３５の処理はステップＳ２３の処理と同様である。

このように、ステップＳ３０、ステップＳ３１、ステップＳ３２、ステップＳ３３、ステップＳ３４、ステップＳ３５の処理を行うことで、用いる対話システムが切り替わっていないにも係わらず、続けて同じ処理シナリオ指示情報が得られた場合に、従前の対話システムが用いられてしまうことを防止している。

なお、ここまで説明してきた第１実施形態は、本発明の手法の適用を説明するための一実施形態を例示したに過ぎず、その他の対話方法・装置の実施形態にも適用可能である。

《第２実施形態》
以下に、本発明の第２実施形態について説明する。
既述のとおり、第２実施形態は、上記参考文献１の対話システムに、本発明の手法を用いる場合である。
以下に、本発明の第２実施形態を、図１６および図１７を参照しながら説明するが、第１実施形態および各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また、第２実施形態における対話装置（Ｂ）のハードウェア構成例や対話システムとのネットワーク構成例などは第１実施形態と同様であるから説明を略する。なお、第２実施形態は、第１実施形態と同様、音声による対話処理を想定する。

上記の第１実施形態は、ユーザの入力毎に用いる対話システムを判定し、この判定された対話システムに従って対話処理を行う場合であった。
一方、第２実施形態は、第１実施形態における入力処理部（１００）に相当する入力処理部（１００Ｂ）が、ユーザの入力が、焦点対話システムに対応する焦点対話シナリオに関連するか、対話システムの切り替わる際に発生する対話を扱う補助対話シナリオに関連するかを判定する機能を有する場合である。
両者の差異は、主として、第１実施形態における入力処理部（１００）は、処理シナリオ指示情報として、例えば、"第１対話シナリオ"、"第ｎ対話シナリオ"と指定していたが、第２実施形態における入力処理部（１００Ｂ）は、処理シナリオ指示情報として、例えば、"焦点対話シナリオ"、"補助対話シナリオ"と指定する点にある。
なお、第２実施形態の前提となる対話システムについては、上記参考文献１を参照することとし、その詳細な説明を略する。

また、説明の便宜から、現在の焦点対話システムが第１対話システム（１０４１）であるとする。これは、別の観点からすれば、初期状態の対話システムを第１対話システム（１０４１）とすることにも同じである。

例えば、上記第１実施形態と同様に、現在の焦点対話システムが第１対話システム（１０４１）である場合において、ユーザが「六本木駅の近くの区役所を教えてください」という発声を行うと、この発声がマイクロフォン（３０）によって収音される（ステップＳ１）。

次に、入力処理部（１００Ｂ）は、ユーザの入力に対して、焦点対話システムである第１対話システム（１０４１）から東京行政サービス案内システムである第ｎ対話システム（１０４ｎ）に対話システムを切り替えるのが適切であると判定し、処理シナリオ指示情報（１００２）として"補助対話シナリオ"を指定する（ステップＳ２Ｂ）。なお、入力処理部（１００Ｂ）は、処理シナリオ指示情報（１００２）とともに入力変換結果（１００１）を出力し、これらはＲＡＭ（１５）の所定の格納領域に格納される。

次に、制御部（８０）の制御の下、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ指示情報（１００２）を読み込み、処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるか否かを判定する（ステップＳ３Ｂ）。
制御部（８０）は、判定結果が、処理シナリオ指示情報（１００２）が"補助対話シナリオ"ではない場合（つまり、"焦点対話シナリオ"である場合）にはステップＳ９〜ステップＳ１１の処理を、処理シナリオ指示情報（１００２）が"補助対話シナリオ"である場合にはステップＳ１２の処理を実行するように制御する。
この段階では、処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるから、制御部（８０）の制御の下、ステップＳ１２の処理が実行される。

対話シナリオ実行部（１０１）は、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）および入力変換結果（１００１）を読み込み、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令であるか否かを判定する（ステップＳ１２）。
制御部（８０）は、判定結果が、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令である場合にはステップＳ１９Ｂの処理を、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令ではない場合にはステップＳ２４の処理を実行するように制御する。
この段階では、属性−値ペア形式の入力変換結果（１００１）は、属性が「意図タイプ」の値を「質問」、属性が「主題」の値を「区役所」、属性が「エリア」の値を「六本木」としたものとなっている（図６参照。）。従って、この入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令は、焦点対話システム変更指令となっていない。そこで、制御部（８０）は、ステップＳ２４の処理を実行するように制御する。

対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）および入力変換結果（１００１）を読み込み、応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ２４）。この応答内容（１０３３）は第１実施形態と同様にテキスト形式であるとする。具体的な一例として、対話シナリオ実行部（１０１）は、応答内容（１０３３）を、text="これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか"として出力する（図７参照。）。

続いて、制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）および応答内容（１０３３）を読み込み、応答情報（合成音声信号）を生成して出力する（ステップＳ１０）。
なお、この段階では、焦点応答生成モデル（１０３１）は、第１応答生成モデル（１０４１ａ）であることに留意すること。

ステップＳ１０において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ１１）。

ステップＳ１０の処理において用いられる焦点応答生成モデル（１０３１）は、従前の第１応答生成モデル（１０４１ａ）のままであるため、スピーカ（４０）からは、女性の声で平均的な声の高さが２００Ｈｚになる程度の、やや早めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか」と出力される。従って、対話シナリオが補助対話シナリオに変更しても、応答様式が従前の応答様式（この場合は第１対話システムにおける応答様式である。）と同じになるので、ユーザを困惑させるようなことにはならない。

ユーザが、上記の合成音声を知覚して、例えば了承の返事である「はい」を発声したとする。この音声はマイクロフォン（３０）によって収音され、上記ステップＳ１およびステップＳ２Ｂの処理が実行される。この結果、属性−値ペア形式の入力変換結果（１００１）は、属性である「意図タイプ」の値が「返事」、属性である「主題」の値が「了承」になる。また、処理シナリオ指示情報（１００２）は、それまでの対話履歴（参考文献１参照。）などから対話システムの切り替えの際の対話処理を扱うべく"補助対話シナリオ"になる（図８参照）。

次に、ステップＳ３Ｂの処理において、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から処理シナリオ指示情報（１００２）を読み込み、処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるか否かを判定する。この段階では、処理シナリオ指示情報（１００２）が"補助対話シナリオ"であるから、制御部（８０）の制御の下、ステップＳ１２の処理が実行される。

次に、ステップＳ１２の処理において、対話シナリオ実行部（１０１）は、予めＲＡＭ（１５）に読み込まれている補助対話シナリオ（１０１２）および入力変換結果（１００１）を読み込み、入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令が、焦点対話システム変更指令であるか否かを判定する。
この段階では、属性−値ペア形式の入力変換結果（１００１）は、属性が「意図タイプ」の値を「返事」、属性が「主題」の値を「了承」としたものとなっている。従って、この入力変換結果（１００１）に対する補助対話シナリオ（１０１２）の指令は、焦点対話システム変更指令となっている。そこで、制御部（８０）は、ステップＳ１９Ｂの処理を実行するように制御する。

対話シナリオ実行部（１０１）は、焦点対話システム変更指令から焦点対話システム設定情報（１０２１）を生成して、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ１９Ｂ）。

続いて、制御部（８０）の制御の下、焦点対話システム設定部（１０２）は、ＲＡＭ（１５）から焦点対話システム設定情報（１０２１）を読み込む。そして、焦点対話システム設定部（１０２）は、焦点対話システム設定情報（１０２１）を解釈し、焦点対話システム変更指令で指示される対話システムを選択する。さらに、焦点対話システム設定部（１０２）は、ネットワーク（１）を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ２０Ｂ）。
この段階では、焦点対話システム変更指令は第ｎ対話システム（１０４ｎ）であるから、焦点対話システム設定部（１０２）は、第ｎ対話システム（１０４ｎ）における第ｎ対話シナリオ（１０４ｎｂ）および第ｎ応答生成モデル（１０４ｎａ）をそれぞれ読み込み、焦点対話シナリオ（１０１１）および焦点応答生成モデル（１０３１）として、ＲＡＭ（１５）の所定の格納領域に格納する。

続いて、制御部（８０）の制御の下、対話シナリオ実行部（１０１）は、ＲＡＭ（１５）から焦点対話シナリオ（１０１１）を読み込み（必要に応じて入力変換結果（１００１）も読み込む。）、応答内容（１０３３）を生成し、この応答内容（１０３３）をＲＡＭ（１５）の所定の格納領域に格納する（ステップＳ９）。具体的な一例として、対話シナリオ実行部（１０１）は、応答内容（１０３３）を、text="これから行政サービス案内のシステムでご案内いたします"として出力する（図１０参照。）。

続いて、制御部（８０）の制御の下、応答生成部（１０３）は、ＲＡＭ（１５）から焦点応答生成モデル（１０３１）および応答内容（１０３３）を読み込み、応答情報（合成音声信号）を生成して出力する（ステップＳ１０）。
なお、この段階では、焦点応答生成モデル（１０３１）は、第ｎ応答生成モデル（１０４ｎａ）であることに留意すること。

ステップＳ１０において応答生成部（１０３）によって出力された合成音声信号（応答情報）は、スピーカ（４０）から合成音声として出力される（ステップＳ１１）。既述のとおり、ステップＳ１０の処理において用いられる焦点応答生成モデル（１０３１）は、第ｎ応答生成モデル（１０４ｎａ）であるため、スピーカ（４０）からは、男性の声で平均的な声の高さが９５Ｈｚになる程度の、やや遅めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムでご案内いたします」と出力される。

このように、対話シナリオは、第１対話シナリオ（１０４１ｂ）→補助対話シナリオ（１０１２）→第ｎ対話シナリオ（１０４ｎｂ）と遷移したにも係わらず、応答様式は、第１対話システムにおける応答様式→第ｎ対話システムにおける応答様式と遷移したことになる。つまり、第２実施形態においても、補助対話シナリオに対応する応答様式の応答が介入しないので、ユーザは、第１対話システムから第ｎ対話システムに移行したと受け止めることとなり、ユーザに無用な混乱・当惑などを生じせしめない。

本発明である対話装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。

また、上記実施形態において説明した対話装置における処理機能をコンピュータによって実現する場合、対話装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記対話装置における処理機能がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ−ＲＡＭ（Random Access Memory）、ＣＤ−ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ−Ｒ（Recordable）／ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto-Optical disc）等を、半導体メモリとしてＥＥＰ−ＲＯＭ（Electronically Erasable and Programmable-Read Only Memory）等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。

このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、対話装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

本発明は、複数の対話システムを組み合わせてより広い範囲の話題を扱うマルチ対話システムに有用である。

第１実施形態に係わる対話装置（Ａ）のハードウェア構成を例示した構成ブロック図。対話装置（Ａ）の機能構成例を示す図。入力変換結果および処理シナリオ指示情報の例を示す図。応答内容の例を示す図。応答生成モデルの例を示す図。入力変換結果および処理シナリオ指示情報の例を示す図。応答内容の例を示す図。入力変換結果および処理シナリオ指示情報の例を示す図。応答生成モデルの例を示す図。応答内容の例を示す図。入力変換結果および処理シナリオ指示情報の例を示す図。対話装置（Ａ）における処理フローを示す図（その１）。対話装置（Ａ）における処理フローを示す図（その２）。対話装置（Ａ）における処理フローを示す図（その３）。対話装置（Ａ）における処理フローを示す図（その４）。第２実施形態に係わる対話装置（Ｂ）の機能構成例を示す図。対話装置（Ｂ）における処理フローを示す図。対話装置と対話システムとの全体構成を示す図。

符号の説明

１ネットワーク
３０マイクロフォン
４０スピーカ
１００入力処理部
１０１対話シナリオ実行部
１０２焦点対話システム設定部
１０３応答生成部
１００１入力変換結果
１００２処理シナリオ指示情報
１００３処理シナリオ情報
１０１１焦点対話シナリオ
１０１２補助対話シナリオ
１０２１焦点対話システム設定情報
１０３１焦点応答生成モデル
１０３２補助応答生成モデル
１０３３応答内容
１０４１第１対話シナリオ
１０４１ａ第１応答生成モデル
１０４１ｂ第１対話シナリオ
１０４ｎ第ｎ対話システム
１０４ｎａ第ｎ応答生成モデル
１０４ｎｂ第ｎ対話シナリオ

Claims

それぞれ少なくとも対話シナリオおよび応答生成モデルを記憶して対話処理が実行可能な複数の対話システムと相互に通信可能であり、前記複数の対話システムのうちの一つを焦点対話システムとして稼動させ、稼動中の焦点対話システムの応答生成モデルを用いて対話出力を行う対話装置であって、記憶手段には、少なくとも対話システムの切り替えにおける対話処理を行うことが可能な補助対話シナリオが記憶された対話装置における対話方法であり、
対話装置の入力処理手段が、ユーザの対話入力から、ユーザの対話入力を対話処理が可能な形式に変換した入力変換結果および対話処理を実行するための対話シナリオあるいは補助対話シナリオを指示する指示情報を生成して、これらを出力する入力処理ステップと、
対話装置の焦点対話システム設定手段が、上記指示情報によって指示された対話シナリオを有する対話システムの対話シナリオおよび応答生成モデルを当該対話システムから受信し、それぞれを対話処理を実行するための焦点対話シナリオおよび焦点応答生成モデルとして設定する焦点対話システム設定ステップと、
対話装置の対話シナリオ実行手段が、上記焦点対話シナリオまたは上記補助対話シナリオを用いて、上記入力変換結果に対する応答内容を生成して、これを出力する対話シナリオ実行ステップと、
焦点対話シナリオを用いて生成された上記応答内容、および補助対話シナリオを用いて生成された上記応答内容のどちらの応答内容に対しても、対話装置の応答生成手段が、上記焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する応答生成ステップと、
を有し、
上記応答生成ステップでは、焦点対話システムが切り替わったときは、切り替わった新しい焦点対話シナリオおよび補助対話シナリオによる応答内容を、切り替わった新しい焦点対話システムの焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する
ことを特徴とする対話方法。
それぞれ少なくとも対話シナリオおよび応答生成モデルを記憶して対話処理が実行可能な複数の対話システムと相互に通信可能であり、前記複数の対話システムのうちの一つを焦点対話システムとして稼動させ、稼動中の焦点対話システムの応答生成モデルを用いて対話出力を行う対話装置であり、
少なくとも対話システムの切り替えにおける対話処理を行うことが可能な補助対話シナリオを記憶する記憶手段と、
ユーザの対話入力から、ユーザの対話入力を対話処理が可能な形式に変換した入力変換結果および対話処理を実行するための対話シナリオあるいは補助対話シナリオを指示する指示情報を生成して、これらを出力する入力処理手段と、
上記指示情報によって指示された対話シナリオを有する対話システムの対話シナリオおよび応答生成モデルを当該対話システムから受信し、それぞれを対話処理を実行するための焦点対話シナリオおよび焦点応答生成モデルとして設定する焦点対話システム設定手段と、
上記焦点対話シナリオまたは上記補助対話シナリオを用いて、上記入力変換結果に対する応答内容を生成して、これを出力する対話シナリオ実行手段と、
焦点対話シナリオを用いて生成された上記応答内容、および補助対話シナリオを用いて生成された上記応答内容のどちらの応答内容に対しても、上記焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する応答生成手段と、
を備え、
上記応答生成手段は、焦点対話システムが切り替わったときは、切り替わった新しい焦点対話シナリオおよび補助対話シナリオによる応答内容を、切り替わった新しい焦点対話システムの焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する
ことを特徴とする対話装置。
請求項２に記載された対話装置としてコンピュータを機能させるための対話プログラム。
請求項３に記載の対話プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体。