JP4783608B2 - 対話方法、対話装置、対話プログラムおよび記録媒体 - Google Patents

対話方法、対話装置、対話プログラムおよび記録媒体 Download PDF

Info

Publication number
JP4783608B2
JP4783608B2 JP2005269912A JP2005269912A JP4783608B2 JP 4783608 B2 JP4783608 B2 JP 4783608B2 JP 2005269912 A JP2005269912 A JP 2005269912A JP 2005269912 A JP2005269912 A JP 2005269912A JP 4783608 B2 JP4783608 B2 JP 4783608B2
Authority
JP
Japan
Prior art keywords
dialogue
scenario
dialog
response
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005269912A
Other languages
English (en)
Other versions
JP2007079397A (ja
Inventor
昇 宮崎
哲郎 甘粕
輝雄 萩野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2005269912A priority Critical patent/JP4783608B2/ja
Publication of JP2007079397A publication Critical patent/JP2007079397A/ja
Application granted granted Critical
Publication of JP4783608B2 publication Critical patent/JP4783608B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、入力に対して対話シナリオに基づいて適切な応答を出力する対話技術に関する。より詳しくは、異なる話題を扱う複数の対話システムを自動的に切り替えながら用いることによって、広い範囲の話題に対応する対話を実現する対話技術に関する。
音声やテキストなどによる入力を受け付けて適切な応答を出力する従来的対話システムは、特定の話題に限定した対話を扱うことはできるが、広い範囲の話題に関連した入力に対して適切な応答を出力することは困難であった。これは、話題の範囲が広がれば入力に対する応答を決定する対話シナリオの記述が複雑になるからである。また、狭い範囲の話題しか扱えない対話システムでは、ユーザの要求に不十分な応答しか出来ない、ユーザが予めシステムの能力についてよく理解していなければならない、などの問題があった。そこで、比較的容易に構築できる狭い範囲の話題を扱う対話システムを複数構築しておき、それらを適切に切り替えながら対話を行うことによって、擬似的に広い範囲の話題を扱う対話システムを構築することが試みられてきた。
このような試みにおいて、例えば非特許文献1に示されるように、複数の対話システムに加えて中立な対話状態(複数の対話システムにおける対話状態のいずれにも該当しない対話状態である。)を準備するマルチ対話システムがある。このようなマルチ対話システムを用いる場合、中立な対話状態に対応した補助対話シナリオを準備しておき、現在動作している対話システムでは入力を処理できない場合に、別の対話システムへ切り替えるための対話を、補助対話シナリオを用いて行うような手法が考えられる。なお、上記の「入力を処理できない場合」とは、例えば、現在動作している対話システムの設計想定範囲外の入力をユーザが行った場合や、入力を処理する手続きがパターン認識処理を伴うものであったとして、パターン認識に失敗しそれ以降の処理を実行できなくなった場合などが考えられる。
なお、今後、複数の対話システムのうち現在動作している(あるいは動作させる)対話システムを「焦点対話システム」と表記し、焦点対話システムの応答内容を決定する対話シナリオを「焦点対話シナリオ」と表記する。
磯部俊洋外5名、「複数モデルを選択的に用いる音声対話システムにおけるドメイン切り替え尺度の検討」、音声言語情報処理研究会(SIG−SLP)第47回研究会、社団法人情報処理学会、2003年7月19日、p.41−46
上記のマルチ対話システムでは、複数の対話システムのうちの一つを焦点対話システムとして稼動させ、焦点対話システムに対応する焦点対話シナリオと補助対話シナリオとを遷移しながら対話を行い、補助対話シナリオの進行に応じて焦点対話システムを切替えて対話を実現する。このようなマルチ対話システムでは、焦点対話シナリオと補助対話シナリオとの間で用いるシナリオが遷移した際の対話を自然に行う点に技術的な困難が存在した。
マルチ対話システムでは、例えばユーザが焦点対話システムに何らかの要求を入力したつもりであるにも関わらず、焦点対話システムが処理できない入力であった場合、用いるシナリオが補助対話シナリオへ遷移する。この場合、補助対話シナリオにおいて、現在の焦点対話システムでは入力が扱えないことをユーザに伝え、別の対話システムへ切り替えるかどうかを確認するなどといった、対話の破綻を防ぐ処理を行うことが考えられる。
ここで、対話システムの応答の様式が、個々の対話システムで異なっている場合を考える。「応答の様式」とは、例えば、音声で応答する場合では、音声の大きさ、発話速度、声質などといった話者性であり、画面にエージェントキャラクタを表示してジェスチャとテキストあるいは音声を組み合わせて応答する場合では、エージェントのキャラクタの種類などである。このような場合、焦点対話シナリオから補助対話シナリオに用いるシナリオが遷移した際に突然エージェントのキャラクタが変化したり音声の話者性が変化したりすることとなる。即ち、ユーザの立場からすると、焦点対話システムに入力したつもりであるにも関わらず突然応答様式が変化するように感じられることになる。一般にユーザは、同一の対話システムにおいては、同一の応答様式を想定して対話を進める。従って、同一の対話システムの応答様式が突然変化するように感じられる対話システムは、ユーザに混乱を与えることとなる。つまり、従来的なマルチ対話システムでは、個々の焦点対話シナリオから補助対話シナリオへ用いるシナリオが遷移する際に応答様式の不連続性が発生するという課題があった。
そこで本発明は、上記の課題に鑑み、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた際の応答様式の連続性を保持する対話方法、対話装置、対話プログラムおよび記録媒体を提供することを目的とする。
上記課題を解決するために、本発明では、
それぞれ少なくとも対話シナリオおよび応答生成モデルを記憶して対話処理が実行可能な複数の対話システムと相互に通信可能であり、前記複数の対話システムのうちの一つを焦点対話システムとして稼動させ、稼動中の焦点対話システムの応答生成モデルを用いて対話出力を行う対話装置であり、
少なくとも対話システムの切り替えにおける対話処理を行うことが可能な補助対話シナリオを記憶する記憶手段と、
ユーザの対話入力から、ユーザの対話入力を対話処理が可能な形式に変換した入力変換結果および対話処理を実行するための対話シナリオあるいは補助対話シナリオを指示する指示情報を生成して、これらを出力する入力処理手段と、
上記指示情報によって指示された対話シナリオを有する対話システムの対話シナリオおよび応答生成モデルを当該対話システムから受信し、それぞれを対話処理を実行するための焦点対話シナリオおよび焦点応答生成モデルとして設定する焦点対話システム設定手段と、
上記焦点対話シナリオまたは上記補助対話シナリオを用いて、上記入力変換結果に対する応答内容を生成して、これを出力する対話シナリオ実行手段と、
焦点対話シナリオを用いて生成された上記応答内容、および補助対話シナリオを用いて生成された上記応答内容のどちらの応答内容に対しても、上記焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する応答生成手段と、
を備え、
上記応答生成手段は、焦点対話システムが切り替わったときは、切り替わった新しい焦点対話シナリオおよび補助対話シナリオによる応答内容を、切り替わった新しい焦点対話システムの焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する。
また、対話装置をコンピュータ上で機能させる対話プログラムによって、コンピュータを対話装置として作動処理させることができる。そして、この対話プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体によって、他のコンピュータを対話装置として機能させることや、対話プログラムを流通させることなどが可能になる。
本発明によれば、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた場合でも、現在の対話システムにおける焦点応答生成モデルを用いて、応答内容から対話出力を生成して出力するので、焦点対話シナリオから補助対話シナリオへシナリオ遷移が生じた際の応答様式の連続性が保持される。
以下に、2つの実施形態について説明する。
第1実施形態は、ユーザからの入力毎に用いる対話システムを判定し、この判定された対話システムに従って対話処理を行う場合である。
第2実施形態は、参考文献1に開示される対話システムに、本発明の手法を用いる場合である。
(参考文献1) 特願2005−232215号
《第1実施形態》
以下に、本発明の第1実施形態を、図1〜図15を参照しながら説明する。
本発明の最良の実施形態の一つは、主にコンピュータに本発明の対話プログラムを実行させることによって、コンピュータを対話装置として機能させる形態である。
図1は、第1実施形態に係わる対話装置(A)のハードウェア構成を例示した構成ブロック図である。
図1に例示するように、対話装置(A)は、マイクロフォンやキーボードなどが接続可能な入力部(11)、スピーカや液晶ディスプレイなどが接続可能な出力部(12)、対話装置(A)外部に通信可能な通信装置(例えばモデム)が接続可能な通信部(13)、MPU〔Micro Processing Unit〕(14)〔キャッシュメモリなどを備えていてもよい。〕、メモリであるRAM(Random Access Memory)(15)、ROM(Read Only Memory)(16)やハードディスクなどである外部記憶装置(17)並びにこれらの入力部(11)、出力部(12)、通信部(13)、MPU(14)、RAM(15)、ROM(16)、外部記憶装置(17)間のデータのやり取りが可能なように接続するバス(18)などを備えている。また必要に応じて、対話装置(A)に、CD−ROMなどの記憶媒体を読み書きできる装置(ドライブ)などを設けるとしてもよい。
対話装置(A)の外部記憶装置(17)には、少なくとも中立な対話状態に対応した補助対話シナリオおよび補助応答生成モデルが保存記憶されている。
対話装置(A)のROM(16)には、対話処理を可能にするためのプログラムおよびこのプログラムの処理において必要となるデータなどが保存記憶されている。また、これらのプログラムの処理によって得られるデータなどは、RAM(15)などに適宜に保存記憶される。
より具体的には、ROM(16)には、対話装置(A)に入力された情報に対して対話処理を実行可能なように情報処理を行うためのプログラム、焦点対話シナリオなどによって応答内容などを生成するためのプログラム、焦点対話システムの設定・変更を実行するためのプログラム、上記応答内容から応答情報を生成して出力するためのプログラムが保存記憶されている。その他、これらのプログラムに基づく処理を制御するための制御プログラムも適宜に保存しておく。
第1実施形態に係る対話装置(A)では、ROM(16)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてRAM(15)に読み込まれて、MPU(14)で解釈実行・処理される。その結果、MPU(14)が所定の機能(入力処理部、対話シナリオ実行部、焦点対話システム設定部、応答生成部、制御部)を実現することで、対話処理が実現される。
続いて、図2〜図15を参照しながら、第1実施形態における対話処理について、具体例を示しながら叙述的に説明する。
対話装置(A)と、複数(n個)の対話システム、即ち、第1対話システム(1041)、第2対話システム(1042)、・・・、第n対話システム(104n)とは、ネットワーク(1)を介して相互に通信可能に接続されている(図18参照。)。各対話システムは、それ自体が対話処理を実行可能な公知の対話システムであるとする。このように既存の対話システムを用いることで、コストを抑えて様々な話題に対応可能なマルチ対話システムが構築される。
それぞれの対話システムは、少なくとも対話シナリオおよび応答生成モデルをその記憶手段に記憶している。つまり、第1対話システム(1041)は、第1対話シナリオ(1041b)および第1応答生成モデル(1041a)をその記憶手段に記憶し、第2対話システム(1042)は、第2対話シナリオ(1042b)および第2応答生成モデル(1042a)をその記憶手段に記憶し、第n対話システム(104n)は、第n対話シナリオ(104nb)および第n応答生成モデル(104na)をその記憶手段に記憶している。対話シナリオは、ある所定の話題について、対話を構築するための処理命令や入力に対する応答などが記述されたデータである(例えば、プログラム様式で記述される。)。応答生成モデルは、応答様式を決定するための情報が記述されたデータである。ここでは、便宜的に、第1対話システム(1041)を、東京観光案内システムとし、第n対話システム(104n)を、東京行政サービス案内システムとする。
なお、必ずネットワーク(1)を介して、対話装置(A)と複数の対話システムとが通信可能に接続されなければならないというものではなく、要は、少なくとも対話装置(A)と対話システムとで相互に通信可能に接続されることによって、少なくとも対話システムの対話シナリオおよび応答生成モデルが対話装置(A)に送信可能な構成であればよい。
また、対話装置(A)の外部記憶装置(17)に保存記憶される補助対話シナリオ(1012)および補助応答生成モデル(1032)は、制御部(80)の制御によって、RAM(15)の所定の格納領域に格納される。
さらに、制御部(80)は、処理シナリオ情報(1003)を生成して、RAM(15)の所定の格納領域に格納する。なお、ここで生成される処理シナリオ情報(1033)は、初期情報として例えばNull値とする。
以後、「RAM(15)から○○を読み込む」旨の説明をした場合は、「RAM(15)において○○が格納されている所定の格納領域から○○を読み込む」ことを意味するとする。
対話装置(A)への入力には、例えば、対話装置(A)の利用者であるユーザが発声した音声や、キーボードを用いたテキスト入力、マウス入力、タッチパネル入力、ボタン操作、ジェスチャ入力、もしくはそれらのいくつかを組み合わせたものなどが考えられる。第1実施形態では一例として音声による対話処理を想定しており、入力は音声であるとする。
ユーザの発声した音声は、対話装置(A)のマイクロフォン(30)によって収音される(ステップS1)。マイクロフォン(30)によって収音されたユーザの音声は、収音信号として、対話装置(A)の入力処理部(100)の入力となる。
対話装置(A)の入力処理部(100)は、上記の収音信号に対して、対話装置(A)において対話処理を実行可能とする情報処理を行う。
具体的な一例として、入力処理部(100)は、収音信号に対してA/D変換などを行い離散信号に変換し、この離散信号に対して、音声区間を検出する音声区間検出、検出された音声区間の周波数領域の変換などの音声分析処理を行う。さらに、入力処理部(100)は、これらの処理が施された離散信号について、適宜の音響モデル(例えば単語の発音と音声特徴量との関係を確率として与える確率モデルである。)、言語モデル(例えば、単語と単語との共起関係を確率として与える確率モデルである。)などを用いて、収音信号(ユーザの発した音声)に相当するテキスト(音声認識結果)を得る。加えて、入力処理部(100)は、この得られたテキストから特徴的なキーワードやテキストタイプ(例えば質問形式や返答形式など)などを抽出し、キーワード属性値対応表などを用いて、これらを属性−値ペアの形式の入力変換結果(1001)として出力する。また、入力処理部(100)は、例えば非特許文献1に開示される手法を用いて、抽出されたキーワードなどから、処理シナリオを指定する処理シナリオ指示情報(1002)も生成して出力する(ステップS2)。
なお、対話装置(A)の入力処理部(100)は、公知技術(例えば参考文献2、上記非特許文献1などを参照。)によって達成されるから、入力処理部(100)の詳細な構成・機能についての説明は略する。
(参考文献2) 「NTT技術ジャーナル」、社団法人電気通信協会、2004年1月号
例えば、ユーザが「六本木ヒルズの最寄り駅を教えてほしい」と発声すると、対話装置(A)の入力処理部(100)は、属性−値ペア形式の入力変換結果(1001)を、属性が「意図タイプ」の値を「質問」、属性が「主題」の値を「最寄り駅」、属性が「エリア」の値を「六本木ヒルズ」として出力する(図3参照。)。また、対話装置(A)の入力処理部(100)は、「最寄り駅」「六本木ヒルズ」というキーワードなどに基づき、処理シナリオ指示情報(1002)を、scenario="第1対話シナリオ"として出力する(図3参照。)。対話装置(A)の入力処理部(100)によって出力された入力変換結果(1001)および処理シナリオ指示情報(1002)は、RAM(15)の所定の格納領域に格納される。
対話装置(A)の対話シナリオ実行部(101)は、RAM(15)から処理シナリオ情報(1003)および処理シナリオ指示情報(1002)を読み込み、各情報が一致するか否かを判定する(ステップS3)。
制御部(80)は、判定結果が、各情報が一致する場合にはステップS30の処理を、各情報が一致しない場合にはステップS4の処理を実行するように制御する。
この段階では、処理シナリオ情報(1003)はNull値であり、処理シナリオ指示情報(1002)は"第1対話シナリオ"であるから一致しないので、ステップS4の処理が実行される。
制御部(80)の制御の下、対話装置(A)の対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ指示情報(1002)が"補助対話シナリオ"であるか否かを判定する(ステップS4)。
制御部(80)は、判定結果が、処理シナリオ指示情報(1002)が"補助対話シナリオ"である場合にはステップS12の処理を、処理シナリオ指示情報(1002)が"補助対話シナリオ"ではない場合にはステップS5の処理を実行するように制御する。
この段階では、処理シナリオ指示情報(1002)は"第1対話シナリオ"であるから、ステップS5の処理が実行される。
制御部(80)の制御の下、対話装置(A)の対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ情報(1003)がNull値であるか否かを判定する(ステップS5)。
制御部(80)は、判定結果が、処理シナリオ情報(1003)がNull値である場合にはステップS6の処理を、処理シナリオ情報(1003)がNull値ではない場合にはステップS24の処理を実行するように制御する。
この段階では、処理シナリオ情報(1003)はNull値であるから、ステップS6の処理が実行される。
制御部(80)は、処理シナリオ指示情報(1002)と同一内容の情報を処理シナリオ情報(1003)として、RAM(15)の所定の格納領域に格納する(ステップS6)。つまり、処理シナリオ指示情報(1002)を処理シナリオ情報(1003)に複写するのである。この段階で、処理シナリオ情報(1003)は、Null値から処理シナリオ指示情報(1002)である"第1対話シナリオ"に変更されたことになる。
続いて、制御部(80)の制御の下、対話シナリオ実行部(101)は、処理シナリオ情報(1003)から焦点対話システム設定情報(1021)を生成して、RAM(15)の所定の格納領域に格納する(ステップS7)。ここで焦点対話システム設定情報(1021)とは、処理シナリオ情報(1003)に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報である。
続いて、制御部(80)の制御の下、対話装置(A)の焦点対話システム設定部(102)は、RAM(15)から焦点対話システム設定情報(1021)を読み込む。そして、焦点対話システム設定部(102)は、焦点対話システム設定情報(1021)を解釈し、処理シナリオ情報(1003)で指示される対話シナリオに対応する対話システムを選択する。さらに、焦点対話システム設定部(102)は、ネットワーク(1)を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する(ステップS8)。
この段階では、処理シナリオ情報(1003)は"第1対話シナリオ"であるから、焦点対話システム設定部(102)は、ネットワーク(1)を介して、第1対話システム(1041)の記憶手段から第1対話シナリオ(1041b)および第1応答生成モデル(1041a)をそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する。
続いて、制御部(80)の制御の下、対話装置(A)の対話シナリオ実行部(101)は、RAM(15)から焦点対話シナリオ(1011)および入力変換結果(1001)を読み込み、応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS9)。この応答内容(1033)としては、例えば、テキストやエージェントキャラクタの描画コマンドなどが考えられる。第1実施形態では、音声による対話処理を実行するとしているので、応答内容(1033)はテキスト形式であるとする。具体的な一例として、対話シナリオ実行部(101)は、応答内容(1033)を、text="最寄り駅は六本木になります"として出力する(図4参照。)。
続いて、制御部(80)の制御の下、対話装置(A)の応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)および応答内容(1033)を読み込み、応答情報(対話出力)を生成して出力する(ステップS10)。ここで対話処理におけるユーザへの応答としては、例えば、ディスプレイに表示されるテキスト、画像、エージェントキャラクタのジェスチャなどのアニメーション、スピーカから出力される合成音声もしくはこれらのいくつかを組み合わせたものなどが考えられる。第1実施形態では、音声による対話処理を実行するとしているので、応答は合成音声であるとする。そこで、応答生成部(103)は、波形接続方式のテキスト音声合成手段であるとし、応答生成部(103)の出力である応答情報は、音声波形データが連なる合成音声信号であるとする。但し、応答生成部(103)を、波形接続方式のテキスト音声合成手段に限定する趣旨ではなく、その他の方式の音声合成手段でもよい。
応答生成部(103)の具体的な一例を説明する。応答生成部(103)は、テキスト解析部、韻律生成部、音声波形選択部、音声合成部から構成される。応答生成部(103)は、焦点応答生成モデルおよび応答内容であるテキストを入力とし、合成音声信号を出力する。また、外部記憶装置(17)には、図示しない音声波形データベースおよび音声情報データベースが保存記憶されている。音声波形データベースは、単語や文章を読み上げた音声データに対して公知のA/D変換を行い、合成音声を組み立てる上で適切な合成単位(例えば音素)で切出したもの(音声波形素片としての音声波形データ)の集合である。
音声情報データベースは、合成音声を組み立てる上で適切な単位(合成単位)を音素として、これに諸情報が対応付けられたエントリーからなるデータ構造(テーブル)となっている。音声情報データベースの各エントリーは、音声波形素片の通し番号である音声波形素片番号、発声内容を示す音素ラベル情報、音素の発声時間長を示す音素継続時間情報、音素区間の平均パワーを正規化して得たパワー情報、音素の音高の時間推移を表したFパターン情報、音声波形データベースの中での音声波形データの位置を示す情報、例えば男女の別などの話者性を示すインデックス(以下、音声波形データ位置情報という。)などから構成される。
音声情報データベースのエントリーと音声波形データベースにおける(音声波形素片としての)各音声波形データとは、音声情報データベースにおける音声波形データ位置情報によって対応付けられる。
テキスト解析部は、入力されたテキストを形態素解析し、入力されたテキストに対応した音素列とアクセント型を出力する。
韻律生成部は、テキスト解析部が出力した情報および焦点応答生成モデルを入力として、音素ごとの音声のFパターン(基本周波数パターン)、音素継続時間長(音素の発声の長さ)、パワー情報(音声の大きさ)などを推定し、これを出力する。焦点応答生成モデル(第i応答生成モデル)には、合成音声の話速や声の高さや話者性などを指定するテキスト音声合成のパラメータが記述されている。この段階では第1応答生成モデル(1041a)であり、例えば、pitch="200Hz"として平均的な声の高さを200Hz、speed="fast"として口調の速さを速め、power="normal"として通常の声の大きさを指定するものとなっている(図5参照。)。
音声波形選択部は、焦点応答生成モデルおよびテキスト解析部が出力した音素列の並びに従い、韻律生成部で出力した、音素ごとの音声のFパターン、音素継続時間長、パワー情報、応答生成モデルで指定される話者性(この段階では第1応答生成モデル(1041a)であり、例えば、voicetype="female"として話者を女性と指定している。)などをターゲットとして、これらターゲットとの歪みが小さく、また、音声波形素片を接続した際の音声波形素片同士での接続歪みが最小になるような音声波形素片の組み合わせ(最適音声波形素片列)を、音声情報データベースから選択して、最適音声波形素片列の各音声波形素片番号(テキスト解析部が出力した音素列の並びに対応している。)を出力する。最適音声波形素片列の決定には動的計画法などを用いる。
音声合成部は、音声波形選択部で選択された最適音声波形素片列の各音声波形素片番号を入力として、この最適音声波形素片列の各音声波形素片番号に対応した音声波形データを(音声波形データ位置情報を参照して)音声波形データベースから読み込み、それら音声波形データを順次接続して連続した合成音声信号として出力する。
なお、対話装置(A)の応答生成部(103)は、公知技術(例えば参考文献3などを参照。)によって達成されるから、応答生成部(103)の詳細な構成・機能についての説明は略する。
(参考文献3) 特許2761552号公報
応答生成部(103)によって出力された合成音声信号(応答情報)は、対話装置(A)のスピーカ(40)から合成音声として出力される(ステップS11)。つまり、スピーカ(40)からは、女性の声で平均的な声の高さが200Hzになる程度の、やや早めの口調で通常の大きさの合成音声で「最寄り駅は六本木になります」と出力される。ユーザは、この合成音声を対話処理の応答として知覚する。
ユーザは、この合成音声を聴いて満足し(この例で云えば、ユーザは、最寄り駅を知るだけで満足した。)、対話処理を終了するかもしれないし、あるいは、さらなる情報などを求めて対話処理を続行するかもしれない。続行する場合、ユーザは、従前の対話に関連した内容の言葉を発するかもしれないし、従前の対話に関連しない内容の言葉を発するかもしれない。さらに、従前のユーザから突然、別のユーザが割り込みないし変更し、従前の対話に関連した内容の言葉を発するかもしれないし、従前の対話に関連しない内容の言葉を発するかもしれない。このように、対話処理においては様々な場合が考えられる。
しかしながら、本発明は、このような様々な場合においても対応可能なものであるから、ユーザがさらなる情報などを求めて対話処理を続行する場合を例として、さらに説明を加えることにする。
ユーザが、合成音声の出力を受けて、さらなる情報などを求めて、ある言葉を発したとする。この言葉(音声)は、マイクロフォン(30)によって収音され、上記ステップS1およびステップS2の処理が実行される。その結果、処理シナリオ指示情報(1002)が、"第1対話シナリオ"である場合と、"第1対話シナリオ"ではない場合がありえる。例えば、ユーザが「六本木ヒルズ周辺の有名な公園を教えてほしい」と発声すると、処理シナリオ指示情報(1002)は、東京観光案内システムである第1対話システムの"第1対話シナリオ"となる。また、ユーザが「六本木駅の近くの区役所を教えてください」という発声を行うと、処理シナリオ指示情報(1002)は、東京行政サービス案内システムである第n対話システムの"第n対話シナリオ"となる(図6参照。)。
処理シナリオ指示情報(1002)が"第1対話シナリオ"である場合、ステップS3の処理において、対話シナリオ実行部(101)は、RAM(15)から処理シナリオ情報(1003)および処理シナリオ指示情報(1002)を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報(1003)は"第1対話シナリオ"であり、処理シナリオ指示情報(1002)は"第1対話シナリオ"であるから、各情報は一致する。
そこで、制御部(80)は、次のステップS30の処理を実行するように制御する。
対話シナリオ実行部(101)は、RAM(15)から処理シナリオ情報(1003)および焦点対話システム設定情報(1021)を読み込み、焦点対話システム設定情報(1021)が、現在の処理シナリオ情報(1003)に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報であるか否かを判定する(ステップS30)。
制御部(80)は、判定結果が、焦点対話システム設定情報(1021)が、現在の処理シナリオ情報(1003)に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報である場合にはステップS9〜ステップS11の処理を、現在の処理シナリオ情報(1003)に対応した対話シナリオ等を設定するために必要な対話システムの設定・変更のための情報ではない場合にはステップS31の処理を実行するように制御する。
この段階では、焦点対話システム設定情報(1021)は、"第1対話シナリオ"等を設定するために必要な対話システムの設定・変更のための情報であり、現在の処理シナリオ情報(1003)は"第1対話シナリオ"であるから、判定が成立し、ステップS9〜ステップS11の処理が実行される。
ここで、従前の対話処理において、第1対話システム(1041)における対話シナリオ(1041b)および応答生成モデル(1041a)それぞれが、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納されているので、続くステップS9〜ステップS11の処理は、対話シナリオ(1041b)および応答生成モデル(1041a)に基づいて実行されることに留意しなければならない。
処理シナリオ指示情報(1002)が"第1対話シナリオ"ではない場合として、上記のように処理シナリオ指示情報(1002)が"第n対話シナリオ"である場合を考える。この場合、ステップS3の処理において、対話シナリオ実行部(101)は、RAM(15)から処理シナリオ情報(1003)および処理シナリオ指示情報(1002)を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報(1003)は"第1対話シナリオ"であり、処理シナリオ指示情報(1002)は"第n対話シナリオ"であるから、各情報は一致しない。
そこで、ステップS4の処理において、対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ指示情報(1002)が"補助対話シナリオ"であるか否かを判定する。
この段階では、処理シナリオ指示情報(1002)は"第1対話シナリオ"であるから、ステップS5の処理が実行される。
ステップS5の処理において、対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ情報(1003)がNull値であるか否かを判定する。
この段階では、処理シナリオ情報(1003)はNull値ではないから、制御部(80)の制御の下、ステップS24の処理が実行される。
対話シナリオ実行部(101)は、RAM(15)から、予めRAM(15)に読み込まれている補助対話シナリオ(1012)および入力変換結果(1001)を読み込み、応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS24)。この応答内容(1033)は上記と同様にテキスト形式であるとする。具体的な一例として、対話シナリオ実行部(101)は、応答内容(1033)を、text="これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか"として出力する(図7参照。)。
続いて、制御部(80)の制御の下、応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)および応答内容(1033)を読み込み、応答情報を生成して出力する(ステップS25)。このステップS25の処理はステップS10の処理と同様であるから説明を略する。
なお、この段階では、焦点応答生成モデル(1031)は、第1応答生成モデル(1041a)であることに留意すること。
続いて、制御部(80)は、処理シナリオ指示情報(1002)と同一内容の情報を処理シナリオ情報(1003)として、RAM(15)の所定の格納領域に格納する(ステップS26)。このステップS26の処理はステップS6の処理と同様である。
この段階で、処理システム情報(1003)は、"第1対話シナリオ"から処理シナリオ指示情報(1002)である"第n対話シナリオ"に変更されたことになる。
ステップS25において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS27)。このステップS27の処理はステップS11の処理と同様である。
既述のとおり、ステップS25の処理において用いられる焦点応答生成モデル(1031)は、従前の第1応答生成モデル(1041a)のままであるため、スピーカ(40)からは、女性の声で平均的な声の高さが200Hzになる程度の、やや早めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか」と出力される。従って、対話シナリオが補助対話シナリオに変更しても、応答様式が従前の応答様式(この場合は第1対話システムにおける応答様式である。)と同じになるので、ユーザを困惑させるようなことにはならない。
ユーザが、この合成音声を知覚して、例えば了承の返事である「はい」を発声したとする。この音声はマイクロフォン(30)によって収音され、上記ステップS1およびステップS2の処理が実行される。その結果、属性−値ペア形式の入力変換結果(1001)は、属性である「意図タイプ」の値が「返事」、属性である「主題」の値が「了承」になり、処理シナリオ指示情報(1002)は"補助対話シナリオ"になる(図8参照。)。
この場合、ステップS3の処理において、対話シナリオ実行部(101)は、RAM(15)から処理シナリオ情報(1003)および処理シナリオ指示情報(1002)を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報(1003)は"第n対話シナリオ"であり、処理シナリオ指示情報(1002)は"補助対話シナリオ"であるから、各情報は一致しない。
そこで、ステップS4の処理において、対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ指示情報(1002)が"補助対話シナリオ"であるか否かを判定する。
この段階では、処理シナリオ指示情報(1002)は"補助対話シナリオ"であるから、制御部(80)の制御の下、ステップS12の処理が実行される。
対話シナリオ実行部(101)は、予めRAM(15)に読み込まれている補助対話シナリオ(1012)および入力変換結果(1001)を読み込み、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令であるか否かを判定する(ステップS12)。
ここで「指令」とは、補助対話シナリオ(1012)に記述されている、実行処理の内容などを指定する命令のことである。また、「焦点対話システム変更指令」とは、焦点対話システムの変更を実行処理する内容の命令のことである。
制御部(80)は、判定結果が、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令である場合にはステップS19の処理を、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令ではない場合にはステップS13の処理を実行するように制御する。ステップS13の処理については後述する。
この段階では、入力変換結果(1001)は、属性である「意図タイプ」の値は「返事」、属性である「主題」の値は「了承」であり、この入力変換結果(1001)に対する補助対話シナリオ(1012)の指令は焦点対話システム変更指令となっている。そこで、制御部(80)は、ステップS19の処理を実行するように制御する。
対話シナリオ実行部(101)は、処理シナリオ情報(1003)から焦点対話システム設定情報(1021)を生成して、RAM(15)の所定の格納領域に格納する(ステップS19)。このステップS19の処理はステップS7の処理と同様である。
続いて、制御部(80)の制御の下、焦点対話システム設定部(102)は、RAM(15)から焦点対話システム設定情報(1021)を読み込む。そして、焦点対話システム設定部(102)は、焦点対話システム設定情報(1021)を解釈し、処理シナリオ情報(1003)で指示される対話シナリオに対応する対話システムを選択する。さらに、焦点対話システム設定部(102)は、ネットワーク(1)を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する(ステップS20)。このステップS20の処理はステップS8の処理と同様である。
この段階では、処理シナリオ情報(1003)は"第n対話シナリオ"であるから、焦点対話システム設定部(102)は、ネットワーク(1)を介して、第n対話システム(104n)の記憶手段から第n対話シナリオ(104nb)および第n応答生成モデル(104na)をそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する。
なお、第n応答生成モデル(104na)は、例えば、voicetype="male"として話者を男声、pitch="95Hz"として平均的な声の高さを95Hz、speed="slow"として口調の速さを遅め、power="normal"として通常の声の大きさを指定するものとなっている(図9参照。)。
続いて、制御部(80)の制御の下、対話シナリオ実行部(101)は、RAM(15)から焦点対話シナリオ(1011)を読み込み、対話システムの初期メッセージである応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS21)。このステップS21の処理はステップS9の処理と同様である。具体的な一例として、対話シナリオ実行部(101)は、応答内容(1033)を、text="これから行政サービス案内のシステムでご案内いたします"として出力する(図10参照。)。
続いて、制御部(80)の制御の下、応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)および応答内容(1033)を読み込み、応答情報を生成して出力する(ステップS22)。このステップS22の処理はステップS10の処理と同様である。
なお、この段階では、焦点応答生成モデル(1031)は、第n応答生成モデル(104na)であることに留意すること。
ステップS22において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS23)。このステップS23の処理はステップS11の処理と同様である。既述のとおり、ステップS25の処理において用いられる焦点応答生成モデル(1031)は、第n応答生成モデル(104na)であるため、スピーカ(40)からは、男性の声で平均的な声の高さが95Hzになる程度の、やや遅めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムでご案内いたします」と出力される。
このように、対話シナリオは、第1対話シナリオ(1041b)→補助対話シナリオ(1012)→第n対話シナリオ(104nb)と遷移したにも係わらず、応答様式は、第1対話システムにおける応答様式→第n対話システムにおける応答様式と遷移したことになる。つまり、補助対話シナリオに対応する応答様式の応答が介入しないので、ユーザは、第1対話システムから第n対話システムに移行したと受け止めることとなり、ユーザに無用な混乱・当惑などを生じせしめない。
<補足説明1>
さて、次に、第1実施形態における対話処理の補足説明をする。この補足説明は、処理シナリオ情報(1003)がNull値の状態において、入力音声の処理シナリオ指示情報(1002)が"補助対話シナリオ"であった場合、あるいは、ステップS27の処理の後、ステップS12の処理において、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令ではない場合などにおいて、対話処理が破綻してしまうことを防止するための処理についてのものである。
ここでは、処理シナリオ情報(1003)がNull値の状態において、入力音声の処理シナリオ指示情報(1002)が"補助対話シナリオ"であった場合を例として、補足説明する。
ユーザが、対話装置(A)との対話処理を開始するべく、ある言葉を発したとする。この言葉(音声)は、マイクロフォン(30)によって収音され、上記ステップS1およびステップS2の処理が実行される。例えば、ユーザが「こんにちは」という発声を行うと、属性−値ペア形式の入力変換結果(1001)は、属性である「意図タイプ」の値が「挨拶」、属性である「主題」の値が「不明」になり、処理シナリオ指示情報(1002)は"補助対話シナリオ"になる(図11参照。)。
この場合、ステップS3の処理において、対話シナリオ実行部(101)は、RAM(15)から処理シナリオ情報(1003)および処理シナリオ指示情報(1002)を読み込み、各情報が一致するか否かを判定する。この段階では、処理シナリオ情報(1003)はNull値であり、処理シナリオ指示情報(1002)は"補助対話シナリオ"であるから、各情報は一致しない。
そこで、ステップS4の処理において、対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ指示情報(1002)が"補助対話シナリオ"であるか否かを判定する。
この段階では、処理シナリオ指示情報(1002)は"補助対話シナリオ"であるから、制御部(80)の制御の下、ステップS12の処理が実行される。
続くステップS12の処理において、対話シナリオ実行部(101)は、予めRAM(15)に読み込まれている補助対話シナリオ(1012)および入力変換結果(1001)を読み込み、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令であるか否かを判定する。
この段階では、対話処理の開始であるから、通常、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が焦点対話システム変更指令であることはない。従って、制御部(80)の制御の下、ステップS13の処理が実行される。
対話シナリオ実行部(101)は、RAM(15)から、予めRAM(15)に読み込まれている補助対話シナリオ(1012)を読み込み、対話システムの初期メッセージである応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS13)。この応答内容(1033)は上記と同様にテキスト形式であるとする。具体的な一例として、対話シナリオ実行部(101)は、応答内容(1033)を、text="お知りになりたいことは何でしょうか"として出力する。このステップS13の処理はステップS24の処理と同様である。
続いて、制御部(80)の制御の下、対話シナリオ実行部(101)は、RAM(15)から読み込んだ処理シナリオ情報(1003)がNull値であるか否かを判定する(ステップS14)。
制御部(80)は、処理シナリオ情報(1003)がNull値である場合にはステップS17の処理を、処理シナリオ情報(1003)がNull値ではない場合にはステップS15の処理を実行するように制御する。
この段階では、処理シナリオ情報(1003)はNull値であるから、ステップS17の処理が実行される。
制御部(80)の制御の下、応答生成部(103)は、RAM(15)から予めRAM(15)に読み込まれている補助応答生成モデル(1032)およびステップS13において得られた応答内容(1033)を読み込み、応答情報を生成して出力する(ステップS17)。この段階では、焦点応答生成モデル(1031)がRAM(15)に読み込まれていないため、応答情報の生成に補助応答生成モデル(1032)を用いるのである。
ステップS17において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS18)。このステップS18の処理はステップS11の処理と同様である。
もし、ステップS14の処理において、処理シナリオ情報(1003)がNull値ではなかった場合(このような場合としては、例えば上記の例において、ステップS27の処理の後にユーザが「はい」以外の返事をして、処理シナリオ情報が"補助シナリオ情報"となった場合などが考えられる。)、ステップS15の処理が実行される。
この場合は、何らかの焦点応答生成モデル(1031)がRAM(15)に読み込まれているため、制御部(80)の制御の下、応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)およびステップS13において得られた応答内容(1033)を読み込み、応答情報を生成して出力する(ステップS15)。このステップS15の処理はステップS10などの処理と同様である。
ステップS15において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS16)。このステップS16の処理はステップS11などの処理と同様である。
このように、ステップS13、ステップS14、ステップS15、ステップS16、ステップS17、ステップS18の処理を行うことで、対話処理の破綻が防止される。特に、ステップS15およびステップS16の処理を行う場合には、応答様式が従前の応答様式と同じになるので、ユーザを困惑させるようなことにはならない。
<補足説明2>
上記の例において、ステップS27の処理の後、ユーザが「はい」と返事をしなかった場合を考える。例えば、ステップS27の処理の後、ユーザが、「六本木駅の近くの区役所を教えてください」と同じ言葉を繰り返したとする。この場合、処理シナリオ指示情報(1002)は"第n対話シナリオ"になるが、ステップS26の処理において、処理シナリオ情報(1003)が"第n対話シナリオ"に変更されているので、ステップS3の判定処理において、処理シナリオ指示情報(1002)と処理シナリオ情報(1003)とが一致すると判定される。次いで、ステップS30の判定処理が実行されるが、この段階では、焦点対話システム設定情報(1021)は、"第1対話シナリオ"等を設定するために必要な対話システムの設定・変更のための情報であり、現在の処理シナリオ情報(1003)は"第n対話シナリオ"であるから、判定が成立せず、制御部(80)は、ステップS31の処理を実行するように制御する。
対話シナリオ実行部(101)は、現在の処理シナリオ情報(1003)から焦点対話システム設定情報(1021)を生成して、RAM(15)の所定の格納領域に格納する(ステップS31)。このステップS31の処理はステップS19の処理と同様である。
つまり、この段階で、焦点対話システム設定情報(1021)は、"第n対話シナリオ"等を設定するために必要な対話システムの設定・変更のための情報となる。
続いて、制御部(80)の制御の下、焦点対話システム設定部(102)は、RAM(15)から焦点対話システム設定情報(1021)を読み込む。そして、焦点対話システム設定部(102)は、焦点対話システム設定情報(1021)を解釈し、処理シナリオ情報(1003)で指示される対話シナリオに対応する対話システムを選択する。さらに、焦点対話システム設定部(102)は、ネットワーク(1)を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する(ステップS32)。このステップS32の処理はステップS20の処理と同様である。
この段階では、処理シナリオ情報(1003)は"第n対話シナリオ"であるから、焦点対話システム設定部(102)は、ネットワーク(1)を介して、第n対話システム(104n)の記憶手段から第n対話シナリオ(104nb)および第n応答生成モデル(104na)をそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する。
続いて、制御部(80)の制御の下、対話シナリオ実行部(101)は、RAM(15)から焦点対話シナリオ(1011)を読み込み、対話システムの初期メッセージである応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS33)。このステップS33の処理はステップS21の処理と同様である。
続いて、制御部(80)の制御の下、応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)および応答内容(1033)を読み込み、応答情報を生成して出力する(ステップS34)。このステップS34の処理はステップS22の処理と同様である。
ステップS34において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS35)。このステップS35の処理はステップS23の処理と同様である。
このように、ステップS30、ステップS31、ステップS32、ステップS33、ステップS34、ステップS35の処理を行うことで、用いる対話システムが切り替わっていないにも係わらず、続けて同じ処理シナリオ指示情報が得られた場合に、従前の対話システムが用いられてしまうことを防止している。
なお、ここまで説明してきた第1実施形態は、本発明の手法の適用を説明するための一実施形態を例示したに過ぎず、その他の対話方法・装置の実施形態にも適用可能である。
《第2実施形態》
以下に、本発明の第2実施形態について説明する。
既述のとおり、第2実施形態は、上記参考文献1の対話システムに、本発明の手法を用いる場合である。
以下に、本発明の第2実施形態を、図16および図17を参照しながら説明するが、第1実施形態および各図中の対応する部分は同一参照番号を付けて重複説明を省略する。また、第2実施形態における対話装置(B)のハードウェア構成例や対話システムとのネットワーク構成例などは第1実施形態と同様であるから説明を略する。なお、第2実施形態は、第1実施形態と同様、音声による対話処理を想定する。
上記の第1実施形態は、ユーザの入力毎に用いる対話システムを判定し、この判定された対話システムに従って対話処理を行う場合であった。
一方、第2実施形態は、第1実施形態における入力処理部(100)に相当する入力処理部(100B)が、ユーザの入力が、焦点対話システムに対応する焦点対話シナリオに関連するか、対話システムの切り替わる際に発生する対話を扱う補助対話シナリオに関連するかを判定する機能を有する場合である。
両者の差異は、主として、第1実施形態における入力処理部(100)は、処理シナリオ指示情報として、例えば、"第1対話シナリオ"、"第n対話シナリオ"と指定していたが、第2実施形態における入力処理部(100B)は、処理シナリオ指示情報として、例えば、"焦点対話シナリオ"、"補助対話シナリオ"と指定する点にある。
なお、第2実施形態の前提となる対話システムについては、上記参考文献1を参照することとし、その詳細な説明を略する。
また、説明の便宜から、現在の焦点対話システムが第1対話システム(1041)であるとする。これは、別の観点からすれば、初期状態の対話システムを第1対話システム(1041)とすることにも同じである。
例えば、上記第1実施形態と同様に、現在の焦点対話システムが第1対話システム(1041)である場合において、ユーザが「六本木駅の近くの区役所を教えてください」という発声を行うと、この発声がマイクロフォン(30)によって収音される(ステップS1)。
次に、入力処理部(100B)は、ユーザの入力に対して、焦点対話システムである第1対話システム(1041)から東京行政サービス案内システムである第n対話システム(104n)に対話システムを切り替えるのが適切であると判定し、処理シナリオ指示情報(1002)として"補助対話シナリオ"を指定する(ステップS2B)。なお、入力処理部(100B)は、処理シナリオ指示情報(1002)とともに入力変換結果(1001)を出力し、これらはRAM(15)の所定の格納領域に格納される。
次に、制御部(80)の制御の下、対話シナリオ実行部(101)は、RAM(15)から処理シナリオ指示情報(1002)を読み込み、処理シナリオ指示情報(1002)が"補助対話シナリオ"であるか否かを判定する(ステップS3B)。
制御部(80)は、判定結果が、処理シナリオ指示情報(1002)が"補助対話シナリオ"ではない場合(つまり、"焦点対話シナリオ"である場合)にはステップS9〜ステップS11の処理を、処理シナリオ指示情報(1002)が"補助対話シナリオ"である場合にはステップS12の処理を実行するように制御する。
この段階では、処理シナリオ指示情報(1002)が"補助対話シナリオ"であるから、制御部(80)の制御の下、ステップS12の処理が実行される。
対話シナリオ実行部(101)は、予めRAM(15)に読み込まれている補助対話シナリオ(1012)および入力変換結果(1001)を読み込み、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令であるか否かを判定する(ステップS12)。
制御部(80)は、判定結果が、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令である場合にはステップS19Bの処理を、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令ではない場合にはステップS24の処理を実行するように制御する。
この段階では、属性−値ペア形式の入力変換結果(1001)は、属性が「意図タイプ」の値を「質問」、属性が「主題」の値を「区役所」、属性が「エリア」の値を「六本木」としたものとなっている(図6参照。)。従って、この入力変換結果(1001)に対する補助対話シナリオ(1012)の指令は、焦点対話システム変更指令となっていない。そこで、制御部(80)は、ステップS24の処理を実行するように制御する。
対話シナリオ実行部(101)は、RAM(15)から、予めRAM(15)に読み込まれている補助対話シナリオ(1012)および入力変換結果(1001)を読み込み、応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS24)。この応答内容(1033)は第1実施形態と同様にテキスト形式であるとする。具体的な一例として、対話シナリオ実行部(101)は、応答内容(1033)を、text="これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか"として出力する(図7参照。)。
続いて、制御部(80)の制御の下、応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)および応答内容(1033)を読み込み、応答情報(合成音声信号)を生成して出力する(ステップS10)。
なお、この段階では、焦点応答生成モデル(1031)は、第1応答生成モデル(1041a)であることに留意すること。
ステップS10において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS11)。
ステップS10の処理において用いられる焦点応答生成モデル(1031)は、従前の第1応答生成モデル(1041a)のままであるため、スピーカ(40)からは、女性の声で平均的な声の高さが200Hzになる程度の、やや早めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムがご案内いたしますがよろしいでしょうか」と出力される。従って、対話シナリオが補助対話シナリオに変更しても、応答様式が従前の応答様式(この場合は第1対話システムにおける応答様式である。)と同じになるので、ユーザを困惑させるようなことにはならない。
ユーザが、上記の合成音声を知覚して、例えば了承の返事である「はい」を発声したとする。この音声はマイクロフォン(30)によって収音され、上記ステップS1およびステップS2Bの処理が実行される。この結果、属性−値ペア形式の入力変換結果(1001)は、属性である「意図タイプ」の値が「返事」、属性である「主題」の値が「了承」になる。また、処理シナリオ指示情報(1002)は、それまでの対話履歴(参考文献1参照。)などから対話システムの切り替えの際の対話処理を扱うべく"補助対話シナリオ"になる(図8参照)。
次に、ステップS3Bの処理において、対話シナリオ実行部(101)は、RAM(15)から処理シナリオ指示情報(1002)を読み込み、処理シナリオ指示情報(1002)が"補助対話シナリオ"であるか否かを判定する。この段階では、処理シナリオ指示情報(1002)が"補助対話シナリオ"であるから、制御部(80)の制御の下、ステップS12の処理が実行される。
次に、ステップS12の処理において、対話シナリオ実行部(101)は、予めRAM(15)に読み込まれている補助対話シナリオ(1012)および入力変換結果(1001)を読み込み、入力変換結果(1001)に対する補助対話シナリオ(1012)の指令が、焦点対話システム変更指令であるか否かを判定する。
この段階では、属性−値ペア形式の入力変換結果(1001)は、属性が「意図タイプ」の値を「返事」、属性が「主題」の値を「了承」としたものとなっている。従って、この入力変換結果(1001)に対する補助対話シナリオ(1012)の指令は、焦点対話システム変更指令となっている。そこで、制御部(80)は、ステップS19Bの処理を実行するように制御する。
対話シナリオ実行部(101)は、焦点対話システム変更指令から焦点対話システム設定情報(1021)を生成して、RAM(15)の所定の格納領域に格納する(ステップS19B)。
続いて、制御部(80)の制御の下、焦点対話システム設定部(102)は、RAM(15)から焦点対話システム設定情報(1021)を読み込む。そして、焦点対話システム設定部(102)は、焦点対話システム設定情報(1021)を解釈し、焦点対話システム変更指令で指示される対話システムを選択する。さらに、焦点対話システム設定部(102)は、ネットワーク(1)を介して、この選択した対話システムの記憶手段から、対話シナリオおよび応答生成モデルをそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する(ステップS20B)。
この段階では、焦点対話システム変更指令は第n対話システム(104n)であるから、焦点対話システム設定部(102)は、第n対話システム(104n)における第n対話シナリオ(104nb)および第n応答生成モデル(104na)をそれぞれ読み込み、焦点対話シナリオ(1011)および焦点応答生成モデル(1031)として、RAM(15)の所定の格納領域に格納する。
続いて、制御部(80)の制御の下、対話シナリオ実行部(101)は、RAM(15)から焦点対話シナリオ(1011)を読み込み(必要に応じて入力変換結果(1001)も読み込む。)、応答内容(1033)を生成し、この応答内容(1033)をRAM(15)の所定の格納領域に格納する(ステップS9)。具体的な一例として、対話シナリオ実行部(101)は、応答内容(1033)を、text="これから行政サービス案内のシステムでご案内いたします"として出力する(図10参照。)。
続いて、制御部(80)の制御の下、応答生成部(103)は、RAM(15)から焦点応答生成モデル(1031)および応答内容(1033)を読み込み、応答情報(合成音声信号)を生成して出力する(ステップS10)。
なお、この段階では、焦点応答生成モデル(1031)は、第n応答生成モデル(104na)であることに留意すること。
ステップS10において応答生成部(103)によって出力された合成音声信号(応答情報)は、スピーカ(40)から合成音声として出力される(ステップS11)。既述のとおり、ステップS10の処理において用いられる焦点応答生成モデル(1031)は、第n応答生成モデル(104na)であるため、スピーカ(40)からは、男性の声で平均的な声の高さが95Hzになる程度の、やや遅めの口調で通常の大きさの合成音声で「これから行政サービス案内のシステムでご案内いたします」と出力される。
このように、対話シナリオは、第1対話シナリオ(1041b)→補助対話シナリオ(1012)→第n対話シナリオ(104nb)と遷移したにも係わらず、応答様式は、第1対話システムにおける応答様式→第n対話システムにおける応答様式と遷移したことになる。つまり、第2実施形態においても、補助対話シナリオに対応する応答様式の応答が介入しないので、ユーザは、第1対話システムから第n対話システムに移行したと受け止めることとなり、ユーザに無用な混乱・当惑などを生じせしめない。
本発明である対話装置・方法は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
また、上記実施形態において説明した対話装置における処理機能をコンピュータによって実現する場合、対話装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記対話装置における処理機能がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD−RAM(Random Access Memory)、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、対話装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
本発明は、複数の対話システムを組み合わせてより広い範囲の話題を扱うマルチ対話システムに有用である。
第1実施形態に係わる対話装置(A)のハードウェア構成を例示した構成ブロック図。 対話装置(A)の機能構成例を示す図。 入力変換結果および処理シナリオ指示情報の例を示す図。 応答内容の例を示す図。 応答生成モデルの例を示す図。 入力変換結果および処理シナリオ指示情報の例を示す図。 応答内容の例を示す図。 入力変換結果および処理シナリオ指示情報の例を示す図。 応答生成モデルの例を示す図。 応答内容の例を示す図。 入力変換結果および処理シナリオ指示情報の例を示す図。 対話装置(A)における処理フローを示す図(その1)。 対話装置(A)における処理フローを示す図(その2)。 対話装置(A)における処理フローを示す図(その3)。 対話装置(A)における処理フローを示す図(その4)。 第2実施形態に係わる対話装置(B)の機能構成例を示す図。 対話装置(B)における処理フローを示す図。 対話装置と対話システムとの全体構成を示す図。
符号の説明
1 ネットワーク
30 マイクロフォン
40 スピーカ
100 入力処理部
101 対話シナリオ実行部
102 焦点対話システム設定部
103 応答生成部
1001 入力変換結果
1002 処理シナリオ指示情報
1003 処理シナリオ情報
1011 焦点対話シナリオ
1012 補助対話シナリオ
1021 焦点対話システム設定情報
1031 焦点応答生成モデル
1032 補助応答生成モデル
1033 応答内容
1041 第1対話シナリオ
1041a 第1応答生成モデル
1041b 第1対話シナリオ
104n 第n対話システム
104na 第n応答生成モデル
104nb 第n対話シナリオ

Claims (4)

  1. それぞれ少なくとも対話シナリオおよび応答生成モデルを記憶して対話処理が実行可能な複数の対話システムと相互に通信可能であり、前記複数の対話システムのうちの一つを焦点対話システムとして稼動させ、稼動中の焦点対話システムの応答生成モデルを用いて対話出力を行う対話装置であって、記憶手段には、少なくとも対話システムの切り替えにおける対話処理を行うことが可能な補助対話シナリオが記憶された対話装置における対話方法であり、
    対話装置の入力処理手段が、ユーザの対話入力から、ユーザの対話入力を対話処理が可能な形式に変換した入力変換結果および対話処理を実行するための対話シナリオあるいは補助対話シナリオを指示する指示情報を生成して、これらを出力する入力処理ステップと、
    対話装置の焦点対話システム設定手段が、上記指示情報によって指示された対話シナリオを有する対話システムの対話シナリオおよび応答生成モデルを当該対話システムから受信し、それぞれを対話処理を実行するための焦点対話シナリオおよび焦点応答生成モデルとして設定する焦点対話システム設定ステップと、
    対話装置の対話シナリオ実行手段が、上記焦点対話シナリオまたは上記補助対話シナリオを用いて、上記入力変換結果に対する応答内容を生成して、これを出力する対話シナリオ実行ステップと、
    焦点対話シナリオを用いて生成された上記応答内容、および補助対話シナリオを用いて生成された上記応答内容のどちらの応答内容に対しても、対話装置の応答生成手段が、上記焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する応答生成ステップと、
    を有し、
    上記応答生成ステップでは、焦点対話システムが切り替わったときは、切り替わった新しい焦点対話シナリオおよび補助対話シナリオによる応答内容を、切り替わった新しい焦点対話システムの焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する
    ことを特徴とする対話方法。
  2. それぞれ少なくとも対話シナリオおよび応答生成モデルを記憶して対話処理が実行可能な複数の対話システムと相互に通信可能であり、前記複数の対話システムのうちの一つを焦点対話システムとして稼動させ、稼動中の焦点対話システムの応答生成モデルを用いて対話出力を行う対話装置であり、
    少なくとも対話システムの切り替えにおける対話処理を行うことが可能な補助対話シナリオを記憶する記憶手段と、
    ユーザの対話入力から、ユーザの対話入力を対話処理が可能な形式に変換した入力変換結果および対話処理を実行するための対話シナリオあるいは補助対話シナリオを指示する指示情報を生成して、これらを出力する入力処理手段と、
    上記指示情報によって指示された対話シナリオを有する対話システムの対話シナリオおよび応答生成モデルを当該対話システムから受信し、それぞれを対話処理を実行するための焦点対話シナリオおよび焦点応答生成モデルとして設定する焦点対話システム設定手段と、
    上記焦点対話シナリオまたは上記補助対話シナリオを用いて、上記入力変換結果に対する応答内容を生成して、これを出力する対話シナリオ実行手段と、
    焦点対話シナリオを用いて生成された上記応答内容、および補助対話シナリオを用いて生成された上記応答内容のどちらの応答内容に対しても、上記焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する応答生成手段と、
    を備え、
    上記応答生成手段は、焦点対話システムが切り替わったときは、切り替わった新しい焦点対話シナリオおよび補助対話シナリオによる応答内容を、切り替わった新しい焦点対話システムの焦点応答生成モデルを用いて、ユーザに提示される対話出力を生成して出力する
    ことを特徴とする対話装置。
  3. 請求項2に記載された対話装置としてコンピュータを機能させるための対話プログラム。
  4. 請求項3に記載の対話プログラムを記録した、コンピュータによって読み取り可能なプログラム記録媒体。
JP2005269912A 2005-09-16 2005-09-16 対話方法、対話装置、対話プログラムおよび記録媒体 Expired - Fee Related JP4783608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005269912A JP4783608B2 (ja) 2005-09-16 2005-09-16 対話方法、対話装置、対話プログラムおよび記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005269912A JP4783608B2 (ja) 2005-09-16 2005-09-16 対話方法、対話装置、対話プログラムおよび記録媒体

Publications (2)

Publication Number Publication Date
JP2007079397A JP2007079397A (ja) 2007-03-29
JP4783608B2 true JP4783608B2 (ja) 2011-09-28

Family

ID=37939738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005269912A Expired - Fee Related JP4783608B2 (ja) 2005-09-16 2005-09-16 対話方法、対話装置、対話プログラムおよび記録媒体

Country Status (1)

Country Link
JP (1) JP4783608B2 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009193457A (ja) * 2008-02-15 2009-08-27 Oki Electric Ind Co Ltd 情報検索装置、方法及びプログラム
JP2009193533A (ja) * 2008-02-18 2009-08-27 Oki Electric Ind Co Ltd 情報抽出装置、方法及びプログラム
JP2013246742A (ja) * 2012-05-29 2013-12-09 Azone Co Ltd 受動型出力装置及び出力データ生成システム
WO2014020835A1 (ja) * 2012-07-31 2014-02-06 日本電気株式会社 エージェント制御システム、方法およびプログラム
WO2014103645A1 (ja) * 2012-12-28 2014-07-03 株式会社ユニバーサルエンターテインメント 話題提供システム、会話制御端末装置、及び保守装置
JP2015087649A (ja) * 2013-10-31 2015-05-07 シャープ株式会社 発話制御装置、方法、発話システム、プログラム、及び発話装置
CN110399471A (zh) * 2018-04-25 2019-11-01 北京快乐智慧科技有限责任公司 一种引导式情景对话方法和系统
JP7115265B2 (ja) * 2018-11-30 2022-08-09 富士通株式会社 対話制御方法、対話制御プログラム、対話制御装置、情報提示方法および情報提示装置
CN112652301B (zh) * 2019-10-12 2023-05-12 阿里巴巴集团控股有限公司 语音处理方法和分布式系统、及语音交互设备和方法
CN111506292B (zh) * 2020-04-15 2021-06-15 思必驰科技股份有限公司 用于人机对话的语音技能跳转方法、电子设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08339288A (ja) * 1995-06-14 1996-12-24 Canon Inc 情報処理装置及びその制御方法
JP3674453B2 (ja) * 2000-04-14 2005-07-20 株式会社デンソー 対話型ユーザインターフェース装置
JP2002032370A (ja) * 2000-07-18 2002-01-31 Fujitsu Ltd 情報処理装置
JP4224305B2 (ja) * 2003-01-07 2009-02-12 富士通株式会社 対話情報処理システム

Also Published As

Publication number Publication date
JP2007079397A (ja) 2007-03-29

Similar Documents

Publication Publication Date Title
JP4783608B2 (ja) 対話方法、対話装置、対話プログラムおよび記録媒体
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2004097792A1 (ja) 音声合成システム
JP2001034282A (ja) 音声合成方法、音声合成のための辞書構築方法、音声合成装置、並びに音声合成プログラムを記録したコンピュータ読み取り可能な媒体
JP2006084715A (ja) 素片セット作成方法および装置
JP2002530703A (ja) 音声波形の連結を用いる音声合成
US8626510B2 (en) Speech synthesizing device, computer program product, and method
JP4593069B2 (ja) 思考単位と連結質問を用いる言語教育システム
JP4797597B2 (ja) 語学学習装置
JP2011504624A (ja) 自動同時通訳システム
CN112037755B (zh) 一种基于音色克隆的语音合成方法、装置及电子设备
WO2002054383A1 (fr) Dispositif de synthese vocale de texte et support d'enregistrement de programme
JP2013072903A (ja) 合成辞書作成装置および合成辞書作成方法
CN112102811A (zh) 一种合成语音的优化方法、装置及电子设备
US20090281808A1 (en) Voice data creation system, program, semiconductor integrated circuit device, and method for producing semiconductor integrated circuit device
JP4639932B2 (ja) 音声合成装置
KR102072627B1 (ko) 음성 합성 장치 및 상기 음성 합성 장치에서의 음성 합성 방법
US20070219799A1 (en) Text to speech synthesis system using syllables as concatenative units
JP2008015424A (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP5164041B2 (ja) 音声合成装置、音声合成方法、及びプログラム
JP2006139162A (ja) 語学学習装置
JPH0549998B2 (ja)
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JPH09282137A (ja) 文章読み上げ装置
JP5387410B2 (ja) 音声合成装置、音声合成方法および音声合成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070810

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100622

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101109

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110329

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110609

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20110617

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110704

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110711

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140715

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees