JP2005321730A

JP2005321730A - 対話システム、対話システム実行方法、及びコンピュータプログラム

Info

Publication number: JP2005321730A
Application number: JP2004141582A
Authority: JP
Inventors: Ryosuke Miyata; 亮介宮田; Toshiyuki Fukuoka; 俊之福岡; Hideshi Kitagawa; 英志北川
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2004-05-11
Filing date: 2004-05-11
Publication date: 2005-11-17
Also published as: US20050256717A1; US7742924B2

Abstract

【課題】汎用的な対話シナリオを有することにより、対話シナリオの入力情報及び出力情報の更新が容易であり、複数のモーダルを変更することが容易である対話システム、対話システム実行方法及びコンピュータプログラムを提供する。
【解決手段】外部からの入力情報を受け付け、対話を進行させる対話シナリオを記憶し、記憶してある対話シナリオに沿って対話の進行を制御し、対話シナリオに沿って外部へ出力情報を出力する対話システムにおいて、入力情報及び出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、意味を識別する情報に対応付けて一又は複数の語句を記憶しておき、入力情報を解析し、意味を識別する情報を導出し、導出した意味を識別する情報に基づいて、対応する語句を抽出し、抽出した語句に基づいて記憶してある対話シナリオに沿った出力情報を出力する。
【選択図】図６

Description

本発明は、コンピュータとユーザとの間で情報のやり取りを円滑に行うことができる対話システム、対話システム実行方法及びコンピュータプログラムに関する。

近年のコンピュータによる処理能力の急速な向上、及びインターネット等の通信環境の普及によって、ユーザがコンピュータを通じて情報を取得する機会、コンピュータがユーザへ情報を通知する機会等が急増している。したがって、コンピュータに精通している技術者だけでなく、必ずしもコンピュータに精通していない一般家庭においても、コンピュータと対話を行いながら各種の情報サービスを享受することができるような対話インタフェースの開発が急務となっている。

各種の情報サービスを提供する対話システムは、特定のサービスに対応した対話手順を設定する。このように個別のサービス毎に対話手順を設定することは、対話システム開発者にとって作業が煩雑になり、対話システムの開発コストの上昇を招くことから、昨今では、多くのサービスに適用可能な汎用的な対話シナリオを有する対話システムが多々開発されている。

例えば、入力部から入力されるユーザの入力情報、出力部に対して出力される出力情報（画面や音声の情報）、及びユーザの入力情報に対するシステムの処理手順を対話シナリオに記述しておく。斯かる対話シナリオを複数のサービスに適用することで、個別のサービス毎に対話手順を設定する必要がなくなる。

対話シナリオを記述する言語としては、例えば画面を用いた対話を実現するＨＴＭＬ、音声を用いた対話を実現するＶｏｉｃｅＸＭＬ等が代表的である。また、単一のモーダルを実現する記述言語、例えば画面のみ、あるいは音声のみを扱う記述言語だけでなく、画面及び音声を組み合わせたマルチモーダルを実現するＸ＋Ｖ、ＳＡＬＴ等の記述言語、画面及び音声以外への拡張も可能なＸＩＳＬ等の記述言語も使用されている（特許文献１参照）。

対話シナリオは、対話システムがユーザに対して出力する表現を示す表現データ、ユーザからの入力を受け付けるための認識データ、及び表現と入力とを実行する手順である実行手順データで構成される。例えばＶｏｉｃｅＸＭＬの場合、表現データとして音声合成するべき文字列を示すプロンプトを、認識データとして音声認識文法を、実行手順データとしてプロンプトの出力と音声の認識を実行する手順を、それぞれ記述している。
特開平８−２３４７８９号公報

しかし、上述した対話シナリオでは、表現データ、認識データ及び実行手順データが渾然一体として記述されており、それぞれ独立して内容を変更することが困難であるという問題点があった。すなわち、音声モーダル、画面モーダル等の個々のモーダルに対して出力を行うための表現データ、あるいは個々のモーダルから入力を行うための認識データ等が対話シナリオの中に直接埋め込まれており、対話の進行を維持しつつ入出力表現だけを更新する場合、モーダルを変更する場合等は、対話シナリオを全面的に修正する必要があった。

例えば、音声モーダルを利用する場合、ユーザとの対話でやり取りされる全ての単語について、音声合成のための読みデータ、及び音声認識のための文法データが必要となる。また、画面モーダルを利用する場合、上述した表記データが必要となる。したがって、音声の言い回しを変更する、方言を変える等の処理を行う場合、記述言語で記載されている対話シナリオから該当する読みデータ、文法データ等を抽出して修正する必要があり、変更処理には多大な労力が必要となる。さらに、同じ対話シナリオを用いて複数の言語をサポートするマルチリンガルを実現するには、全ての言語に関する読みデータ、文法データを対話シナリオに含めなければならない。

また、音声で入力された単語を認識して画面に表示する処理、画面上で選択した単語を音声を用いて読み上げる処理等のように、複数のモーダル間で情報を送受信する処理を実現することも困難であった。かかる処理を実現するためには、例えば各モーダルに対応したデータ間の相互変換をすべて対話シナリオ内に記述する必要があり、モーダルの数、単語の数、及び対話シナリオの数が過大となった場合、記述言語による記載が非常に冗長となり、モーダルの変更に対応することがより困難になるという問題がある。

本発明は斯かる事情に鑑みてなされたものであり、汎用的な対話シナリオを有することにより、対話シナリオの入力情報及び出力情報の更新が容易であり、複数のモーダルを変更することが容易である対話システム、対話システム実行方法及びコンピュータプログラムを提供することを目的とする。

上記目的を達成するために第１発明に係る対話システムは、外部からの入力情報を受け付ける情報受付部と、対話を進行させる対話シナリオを記憶する対話シナリオ記憶部と、記憶してある対話シナリオに沿って対話の進行を制御する対話制御部と、前記対話シナリオに沿って外部へ出力情報を出力する情報出力部とを備える対話システムにおいて、前記対話シナリオ記憶部は、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておく手段と、前記入力情報を解析し、意味を識別する情報を導出する手段と、導出した意味を識別する情報に基づいて、対応する語句を抽出する手段とを備え、前記情報出力部は、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする。

第１発明に係る対話システムでは、対話シナリオを、用いる語句の意味内容を示す識別情報、例えば概念ＩＤを用いて記述しておき、外部からの入力情報を受け付けた場合、受け付けた入力情報を解析して概念ＩＤを求め、求めた概念ＩＤに対応する適切な語句を抽出して対話のための出力情報を外部へ出力する。これにより、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。

また、第２発明に係る対話システムは、第１発明において、外部へ出力する出力情報の固定部分及び意味を識別する情報で特定してある変更部分を指定するテンプレートを、該テンプレートを識別する情報に対応付けて記憶しておき、前記情報出力部は、テンプレートを識別する情報及び意味を識別する情報に基づいて前記テンプレートの変更部分に対応する語句を挿入し、前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする。

第２発明に係る対話システムでは、外部との入出力対象となる情報を固定部分及び変更部分に分割してあるテンプレートを用い、テンプレートを識別する情報に基づいて対話シナリオに沿った情報の入出力を行う。これにより、テンプレートの変更部分のみ、各モーダルから入力情報を受け付ければ足りることから、受け付けた入力情報の解析処理の演算負荷を軽減することができ、単語だけでなく文章全体について、モーダルの種類に依存せずに対話シナリオを記述することができることにより、より柔軟に表現の変更、モーダルの変更等を行うことが可能になる。

また、第３発明に係る対話システムは、第１発明において、前記意味を識別する情報に複数の語句が対応付けて記憶してある場合、前記意味を識別する情報に対応付けた複数の語句から選択された語句の履歴に関する履歴情報を記憶しておき、前記履歴情報に基づいて、前記意味を識別する情報に対応付けた語句を選択することを特徴とする。

第３発明に係る対話システムでは、意味を識別する情報、すなわち概念ＩＤに対応付けた複数の語句から選択された語句の履歴に関する履歴情報を記憶しておき、履歴情報に基づいて、概念ＩＤに対応付けた語句を選択する。これにより、例えば言い回しが複数存在する単語について、ユーザが用いた言い回しの過去の実績に対応して、システム側の言い回しを変えることが可能となる。

すなわち、ユーザが「ディズニーランド」について「東京ディズニーランド」と入力した場合、システムからの出力についても「東京ディズニーランド」と出力することが可能となる。また、「長田」のように複数の読み方が存在する名前について、「ながた」という読みを持つ語句情報と「おさだ」という読みを持つ語句情報を概念ＩＤに対応付けて記憶しておくことで、ユーザが直前に「ながた」と入力した場合には「ながた」を、「おさだ」と入力した場合には「おさだ」を、それぞれ出力することが可能となる。

また、第４発明に係る対話システムは、第３発明において、前記履歴情報に基づいて、直近に選択された語句を選択することを特徴とする。

第４発明に係る対話システムでは、履歴情報に基づいて、直近に選択された語句を概念ＩＤに対応付けた語句として選択する。これにより、例えば言い回しが複数存在する単語について、ユーザが直近に選択した言い回しに対応して、システム側の言い回しを変えることが可能となる。

すなわち、ユーザが「ディズニーランド」について直近に「東京ディズニーランド」と入力した場合、システムからの出力についても「東京ディズニーランド」と出力することが可能となる。

第５発明に係る対話システムは、第３発明において、前記履歴情報に基づいて、選択回数が最も大きい語句を選択することを特徴とする。

第５発明に係る対話システムでは、履歴情報に基づいて、選択回数が最も大きい語句を抽出する。これにより、例えば言い回しが複数存在する単語について、ユーザが過去に最も多く選択した言い回しを優先的に出力することにより、システム側の言い回しを変えることが可能となる。

すなわち、ユーザが「ディズニーランド」について、「東京ディズニーランド」と入力したことが最も多かった場合、システムからの出力についても「東京ディズニーランド」と出力することが可能となる。

第６発明に係る対話システムは、第１発明乃至第５発明のいずれかにおいて、受け付けた入力情報の解析結果に基づいて、モーダルの種類を特定する手段を備え、前記語句を抽出する手段は、導出した意味を識別する情報に加えて、特定したモーダルの種類に基づいて、対応する語句を抽出するようにしてあることを特徴とする。

第６発明に係る対話システムでは、入力情報に応じて、例えば音声モーダルであるか、画面モーダルであるか、あるいは他のモーダルであるか特定し、特定したモーダルの種類に応じて意味を識別する情報に対応する語句を抽出する。これにより、モーダルの種類に応じて最適な語句を抽出することができ、例えば口語表現、文語表現の区別等を含めた出力情報を出力することが可能となる。

また、第７発明に係る対話システム実行方法は、外部からの入力情報を受け付けるステップと、対話を進行させる対話シナリオを記憶するステップと、記憶してある対話シナリオに沿って対話の進行を制御するステップと、前記対話シナリオに沿って外部へ出力情報を出力するステップとを含む対話システム実行方法において、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、前記入力情報を解析し、意味を識別する情報を導出するステップと、導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とする。

第７発明に係る対話システム実行方法では、対話シナリオを、用いる語句の意味内容を示す識別情報、例えば概念ＩＤを用いて記述しておき、外部からの入力情報を受け付けた場合、受け付けた入力情報を解析して概念ＩＤを求め、求めた概念ＩＤに対応する適切な語句を抽出して対話のための出力情報を外部へ出力する。これにより、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。

また、第８発明に係るコンピュータプログラムは、外部からの入力情報を受け付けるステップと、対話を進行させる対話シナリオを記憶するステップと、記憶してある対話シナリオに沿って対話の進行を制御するステップと、前記対話シナリオに沿って外部へ出力情報を出力するステップとを含むコンピュータで実行可能なコンピュータプログラムにおいて、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、前記入力情報を解析し、意味を識別する情報を導出するステップと、導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とする。

第８発明に係るコンピュータプログラムでは、対話シナリオを、用いる語句の意味内容を示す識別情報、例えば概念ＩＤを用いて記述しておき、外部からの入力情報を受け付けた場合、受け付けた入力情報を解析して概念ＩＤを求め、求めた概念ＩＤに対応する適切な語句を抽出して対話のための出力情報を外部へ出力する。これにより、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。

第１発明、第７発明、及び第８発明によれば、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。

第２発明によれば、テンプレートの変更部分のみ、各モーダルから入力情報を受け付ければ足りることから、受け付けた入力情報の解析処理の演算負荷を軽減することができ、単語だけでなく文章全体について、モーダルの種類に依存せずに対話シナリオを記述することができることにより、より柔軟に表現の変更、モーダルの変更等を行うことが可能になる。

第３発明によれば、例えば言い回しが複数存在する単語について、ユーザが用いた言い回しの過去の実績に対応して、システム側の言い回しを変えることが可能となる。

第４発明によれば、例えば言い回しが複数存在する単語について、ユーザが直近に用いた言い回しに対応して、システム側の言い回しを変えることが可能となる。

第５発明によれば、例えば言い回しが複数存在する単語について、ユーザが過去に最も多く選択した言い回しを優先的に出力することにより、システム側の言い回しを変えることが可能となる。

第６発明によれば、モーダルの種類に応じて最適な語句を抽出することができ、例えば口語表現、文語表現の区別等を含めた出力情報を出力することが可能となる。

（実施の形態１）
以下、本発明の実施の形態１に係る対話システムについて図面に基づいて具体的に説明する。図１は、本発明の実施の形態１に係る対話システムの対話制御装置１の構成図である。図１に示すように、本実施の形態１に係る対話システムは、ユーザによる音声入力、キーボード打鍵によるテキスト入力等の入力手段と、音声による出力、画像表示する表示装置等の出力手段を備えた対話制御装置１を用いることにより具現化される。

対話制御装置１は、少なくとも、ＣＰＵ（中央演算装置）１１、記憶手段１２、ＲＡＭ１３、インターネットのような外部の通信手段と接続する通信手段１４、入力手段１５、出力手段１６及びＤＶＤ、ＣＤ等の可搬型記録媒体４を用いる補助記憶手段１７で構成する。

ＣＰＵ１１は、内部バス１８を介して対話制御装置１の上述したようなハードウェア各部と接続されており、上述したハードウェア各部を制御するとともに、記憶手段１２に記憶されている処理プログラム、例えばプログラムローダとして、プログラムをロードして実行するプログラムに従って、種々のソフトウェア的機能を実行する。

記憶手段１２は、内蔵される固定型記憶装置（ハードディスク）、ＲＯＭ等で構成され、通信手段１４を介した外部のコンピュータ、又はＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体４から、必要な処理プログラムを取得する。記憶手段１２には、対話を制御する対話シナリオを記憶する対話シナリオ記憶部１２１、語句の意味内容を識別する情報である概念ＩＤに対応付けた語句情報をデータベース化してある概念語句データベース１２２等が記憶してある。なお、対話シナリオ記憶部１２１に記憶してある対話シナリオは、概念ＩＤを用いて所定の記述言語で記載されており、対話実行時にＣＰＵ１１により読み出され、ＲＡＭ１３上に展開される。

ＲＡＭ１３は、ＳＲＡＭ、フラッシュメモリ等で構成され、ソフトウェアの実行時に発生する一時的なデータを記憶する。通信手段１４は内部バス１８に接続されており、ＬＡＮ、ＷＡＮ等のケーブルに接続されることにより、処理に必要とされるデータを送受信する。

入力手段１５は、モーダルの種類に応じて相違する。すなわち入力手段１５は、音声モーダルの場合、ユーザによる音声を入力するマイクロフォン等であり、画面モーダルの場合、画面上に表示された単語を選択するマウス等のポインティングデバイス、又は画面上でテキストデータを打鍵により入力するキーボード等である。

同様に出力手段１６も、モーダルの種類に応じて相違する。すなわち出力手段１６は、音声モーダルの場合、ユーザへ合成音声等を出力するスピーカであり、画面モーダルの場合、ユーザへ画像を表示出力する液晶表示装置（ＬＣＤ）、表示ディスプレイ（ＣＲＴ）等の表示装置である。

補助記憶手段１７は、ＣＤ、ＤＶＤ等の可搬型記録媒体４を用い、記憶手段１２へ、ＣＰＵ１１が処理するプログラム、データ等をダウンロードする。また、ＣＰＵ１１が処理したデータをバックアップすべく書き込むことも可能である。

以下、上述した構成の対話制御装置１を用いた対話システムの動作について説明する。図２は、本発明の実施の形態１に係る対話システムで用いる概念語句データベース１２２に記憶するレコードの例示図である。

概念語句データベース１２２は、語句の意味内容、特に対話シナリオ記憶部１２１に記憶されている対話シナリオ中での意味内容を識別する情報である概念ＩＤと、対話シナリオを用いて出力手段１６へ出力すべき語句に関する情報である語句情報とを対応付けて記憶してある。概念ＩＤは、語句の意味内容を一意に識別することができるＩＤであれば特に制約はない。

また、１つの概念ＩＤに対して、複数の語句情報を対応付けても良い。例えば、図２に示すように、東京駅を表す概念ＩＤ“tokyo_station”に対して、「東京駅」という表記の他に「東京」という表記もあり得ることから、これら２つの語句情報を概念ＩＤ“tokyo_station”に対応付けて記憶する。また、同じ語句情報が複数の概念ＩＤに対応する場合もありうる。前述の「東京」という表記は、東京都を表す概念ＩＤ“pref_tokyo”に対しても対応付けられている。

語句情報には、実際の対話システムの構成に合わせて様々なデータを記憶することができる。例えば、対話システムが画面及び音声を用いるモーダルである場合、表記、音声合成の読み、及び音声の認識文法が必要となる。したがって、図２に示すように、語句情報として、表記、音声合成の読み、及び音声の認識文法を一対のデータとして概念ＩＤに対応付けて記憶しておく。これにより、モーダルの種類に応じて必要なデータを抽出することが可能となる。

また、カーナビゲーションシステム等の地図情報を利用する機器を１つのモーダルとして使用する場合、例えば場所を表す概念ＩＤに対して、緯度及び経度に関する情報を語句情報として記憶する必要がある。図３は、地図情報を利用する機器を１つのモーダルとして使用する場合の概念語句データベース１２２に記憶するレコードの例示図である。図３に示すように、場所を表す概念ＩＤ“tokyo_station”及び“pref_tokyo”に対して、緯度及び経度に関する情報を語句情報として記憶してある。

さらに、表記、音声合成の読み、音声の認識文法等の語句情報を一対のデータとしてではなく、個別のデータとして記憶しておいても良い。図４は、表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベース１２２に記憶するレコードの例示図である。

例えば「永田」、「長田（ながた）」、「長田（おさだ）」という人名を対話システムで扱う場合、それぞれに異なる概念ＩＤが割り当てられる。しかし、音声合成の読み及び音声の認識文法は「永田」と「長田（ながた）」とでは共通であり、表記は「長田（ながた）」と「長田（おさだ）」と共通である。したがって、図４に示すように、表記、音声合成の読み、及び音声の認識文法を、それぞれ個別の語句情報として、概念ＩＤと対応付けて記憶しておく。

なお、概念語句データベース１２２の記憶するレコードは、図４に示すように、同音異義語であり、しかも同表記異議語である語句に限定されるものではない。図５は、表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベース１２２に記憶するレコードの他の例示図である。

図５（ａ）は、例えば「four」と「for」のように同音異義語の場合のレコードの一例である。この場合、図４と同様、それぞれに異なる概念ＩＤが割り当てられている。しかし、音声合成の読みは「four」と「for」とでは共通である。したがって、図５（ａ）に示すように、表記、音声合成の読み、及び音声の認識文法を、それぞれ個別の語句情報として、概念ＩＤと対応付けて記憶しておく。

図５（ｂ）は、例えば「bow（おじぎ）」と「bow（弓）」のように同表記異議語の場合のレコードの一例である。この場合、図４と同様、それぞれに異なる概念ＩＤが割り当てられている。しかし、表記は「bow（おじぎ）」と「bow（弓）」four」とでは共通である。したがって、図５（ｂ）に示すように、表記、音声合成の読み、及び音声の認識文法を、それぞれ個別の語句情報として、概念ＩＤと対応付けて記憶しておく。

上述した概念語句データベース１２２は、例えばリレーショナルデータベースによって実現することができる。図６は、リレーショナルデータベース化した概念語句データベース１２２の例示図である。図６に示すように、概念語句データベース１２２は、概念ＩＤと語句ＩＤをフィールドとして有する概念テーブルと、語句ＩＤと語句情報の各要素（一般的には、表記、音声合成の読み、及び音声の認識文法）をフィールドとして有する語句テーブルとで実現できる。もちろん、リレーショナルデータベースに限定されるものではなく、同様のデータ構造を記憶することができ、概念ＩＤ、語句情報等に基づいて検索可能なデータベースであれば、何でも良い。

図７は、本発明の実施の形態１に係る対話システムの対話制御装置１におけるＣＰＵ１１の動作手順を示すフローチャートである。図７では、対話シナリオ記憶部１２１から対話シナリオが読み出されてＲＡＭ１３上に展開されており、ユーザからの入力待ち状態であることを前提として説明する。

ＣＰＵ１１は、入力手段１５からの入力情報を受け付け（ステップＳ７０１）、受け付けた入力情報について、どのような意味内容を有する入力情報であるのか解析する（ステップＳ７０２）。ＣＰＵ１１は、解析結果に基づいて概念語句データベース１２２を照会し、受け付けた入力情報を概念ＩＤに変換する（ステップＳ７０３）。例えば、受け付けた入力情報が表記で表されていると解析された場合、受け付けた入力情報の表記と一致する語句情報を、概念語句データベース１２２から抽出して、一致した語句情報に対応する概念ＩＤを抽出する。

なお、１つの語句情報に対して複数の概念ＩＤが対応付けて記憶されている場合には、１つの概念ＩＤのみを抽出しても良いし、該当する全ての概念ＩＤを候補として抽出しても良い。

ＣＰＵ１１は、解析結果に基づいて、ユーザからの入力情報を受け付けたモーダルが音声モーダルであるか否かを判断する（ステップＳ７０４）。ＣＰＵ１１が、ユーザからの入力情報を受け付けたモーダルが音声モーダルであると判断した場合（ステップＳ７０４：ＹＥＳ）、変換した概念ＩＤを用いて、概念語句データベース１２２から具体的な語句情報として、音声合成の読み及び認識文法の語句情報を抽出する（ステップＳ７０５）。ＣＰＵ１１は、抽出した音声合成の読みの語句情報を用いてシステム発話内容を生成し、音声認識の文法の語句情報を用いて認識文法を生成する。

ＣＰＵ１１が、ユーザからの入力情報を受け付けたモーダルが音声モーダルでないと判断した場合（ステップＳ７０４：ＮＯ）、ＣＰＵ１１は、解析結果に基づいて、ユーザからの入力情報を受け付けたモーダルが画面モーダルであるか否かを判断する（ステップＳ７０６）。ＣＰＵ１１が、ユーザからの入力情報を受け付けたモーダルが画面モーダルであると判断した場合（ステップＳ７０６：ＹＥＳ）、変換した概念ＩＤを用いて、概念語句データベース１２２から具体的な語句情報として、表記の語句情報を抽出する（ステップＳ７０７）。ＣＰＵ１１は、抽出した表記の語句情報を用いて表示内容を生成する。

ＣＰＵ１１は、抽出した音声合成の読み及び認識文法の語句情報、又は表記の語句情報に基づいて生成したシステム発話内容及び認識文法、又は表示内容を用いて、ＲＡＭ１３に展開してある対話シナリオを更新する（ステップＳ７０８）。すなわち、概念ＩＤを用いて記載されている対話シナリオの概念ＩＤ部分を、抽出した語句情報に置換することにより、ユーザに対する対話可能な対話シナリオへとＲＡＭ１３上で変換することが可能となる。対話シナリオ変換後、ＣＰＵ１１は、システム発話又は画面表示によりユーザに対して対話進行のための情報を出力する（ステップＳ７０９）。情報の出力完了時点でＣＰＵ１１はユーザからの入力の待ち状態となる。

複数のモーダルを併用する（以下、マルチモーダルという）場合、例えば音声及び画面のマルチモーダルの場合、入力情報を受け付けたモーダルにより抽出する語句情報を変更せず、例えば音声合成の読み、認識文法、及び表記の語句情報をすべて抽出しておき、出力手段１６の種類に応じて対話シナリオの入力情報及び出力情報を更新すれば良い。これにより、例えばユーザが画面から入力した結果を、画面に表示すると同時に音声で復唱したり、逆に音声での入力に対して、音声で応答すると同時に画面も更新したり、といった処理を実現することも可能となる。

例えば、図８は対話シナリオ中における、ＸＭＬ言語により記述された入出力情報の例示図である。各モーダルは、入出力情報から必要な部分を抜き出して利用する。例えば音声モーダルである場合、図８のプロンプトの内容をVoiceXMLのプロンプト（<prompt>）に含め、<selection>内の<item>それぞれを入力候補として認識文法（<grammar>）に含める。そして、<statement>からは表記を、<concept>からは認識文法を抽出して、語句への変換を行う。<selection>の内容もプロンプトに含めて、候補を読み上げるようにしても良い。この場合、<concept>からは読みを抽出して用いる。

また、画面モーダルである場合、プロンプトの内容をページの見出しとし、<selection>の内容を選択ボックスの選択候補として用いる。この場合、すべての<statement>及び<concept>について、表記が用いられる。

上述した例からも明らかなように、モーダルの追加、削除等を対話シナリオとは無関係に行うことができ、各モーダルは、それぞれのモーダルに適したデータ形式で出力を行うことが可能となる。

なお、対話シナリオ記憶部１２１、概念語句データベース１２２は、対話制御装置１と同一コンピュータ上に記憶しておいても良いし、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。

以上のように本実施の形態１によれば、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。

（実施の形態２）
以下、本発明の実施の形態２に係る対話システムについて図面に基づいて具体的に説明する。図９は、本発明の実施の形態２に係る対話システムで用いる対話制御装置１の構成図である。本実施の形態２に係る対話システムで用いる対話制御装置１の構成は実施の形態１と同様であることから、同一の符号を付することで詳細な説明は省略する。実施の形態２では、テンプレートを用いる点に特徴を有する。

本発明の実施の形態２に係る対話システムで用いるテンプレートは、記憶手段１２のテンプレート記憶部１２３に記憶してある。図１０は、本発明の実施の形態２に係る対話システムでのテンプレート記憶部１２３に記憶するレコードの例示図である。図１０に示すように、テンプレートは、テンプレートを識別する情報であるテンプレートＩＤと、該テンプレートに対応付けたテンプレート情報とで構成されている。

テンプレート情報は、例えば複数のフラグメント、及び各フラグメントに対応付けた語句情報とで定義してある。フラグメントは、固定フラグメント及び可変フィールドに区別してあり、固定フラグメントには、モーダルの種類に応じて対応可能な語句情報を対応付けて記憶しておく。

一方、可変フィールドには識別情報であるフィールドＩＤを付与し、フィールドＩＤに対応付けて、概念ＩＤを記憶しておく。これにより、ＣＰＵ１１が、テンプレートＩＤに基づいてテンプレート記憶部１２３を照会した場合、受け付けた入力がどのフィールドＩＤに対応しており、該入力に対応する概念ＩＤを容易に抽出することが可能となる。

テンプレートを用いる場合、対話シナリオは、テンプレートＩＤ、フィールドＩＤ、及び概念ＩＤを用いて記述しておき、対話開始時には、対話制御装置１のＣＰＵ１１がＲＡＭ１３に展開しておく。

図１１は、本発明の実施の形態２に係る対話システムの対話制御装置１におけるＣＰＵ１１の動作手順を示すフローチャートである。図１１では、対話シナリオ記憶部１２１から対話シナリオが読み出されてＲＡＭ１３上に展開されており、ユーザからの入力待ち状態であることを前提として説明する。

ＣＰＵ１１は、入力手段１５からの入力情報を受け付け（ステップＳ１１０１）、受け付けた入力情報を解析して（ステップＳ１１０２）、テンプレートＩＤを抽出する（ステップＳ１１０３）。ＣＰＵ１１は、抽出したテンプレートＩＤに基づいてテンプレート情報記憶部１２３を照会して、テンプレートを取得する（ステップＳ１１０４)。

ＣＰＵ１１は、取得したテンプレートに基づいて、フィールドＩＤに対応付けた概念ＩＤを抽出し（ステップＳ１１０５）、ＣＰＵ１１は、ユーザからの入力情報を受け付けたモーダルが音声モーダルであるか否かを判断する（ステップＳ１１０６）。

ＣＰＵ１１が、ユーザからの入力情報を受け付けたモーダルが音声モーダルであると判断した場合（ステップＳ１１０６：ＹＥＳ）、ＣＰＵ１１は、抽出した概念ＩＤを用いて、概念語句データベース１２２から具体的な語句情報として、音声合成の読み及び認識文法の語句情報を抽出する（ステップＳ１１０７）。ＣＰＵ１１は、抽出した音声合成の読みの語句情報を用いてシステム発話内容を生成し、音声認識の文法の語句情報を用いて認識文法を生成する。

ＣＰＵ１１が、ユーザからの入力情報を受け付けたモーダルが音声モーダルでないと判断した場合（ステップＳ１１０６：ＮＯ）、ＣＰＵ１１は、ユーザからの入力情報を受け付けたモーダルが画面モーダルであるか否かを判断する（ステップＳ１１０８）。ＣＰＵ１１が、ユーザからの入力情報を受け付けたモーダルが画面モーダルであると判断した場合（ステップＳ１１０８：ＹＥＳ）、ＣＰＵ１１は、抽出した概念ＩＤを用いて、概念語句データベース１２２から具体的な語句情報として、表記の語句情報を抽出する（ステップＳ１１０９）。ＣＰＵ１１は、抽出した表記の語句情報を用いて表示内容を生成する。

ＣＰＵ１１は、抽出した音声合成の読み及び認識文法の語句情報、又は表記の語句情報に基づいて生成したシステム発話内容及び認識文法、又は表示内容を用いて、ＲＡＭ１３に展開してある対話シナリオを更新する（ステップＳ１１１０）。すなわち、テンプレートに含まれる可変フィールドを、抽出した語句情報に置換することにより、ユーザに対する対話可能な対話シナリオへとＲＡＭ１３上で変換することが可能となる。対話シナリオ変換後、ＣＰＵ１１は、システム発話又は画面表示によりユーザに対して対話を進行する情報を出力する（ステップＳ１１１１）。情報の出力完了時点でＣＰＵ１１はユーザからの入力待ち状態となる。

図１２は、対話システムで用いるテンプレート情報記憶部１２３に記憶するレコードの他の例示図である。図１２では、「○の○は？」というテンプレート（○は可変フィールドを示す）を想定しており、可変フィールド“weather”には、あらかじめ概念ＩＤ“weather”が対応付けられている。そして、可変フィールド“place”に対して、概念ＩＤ“kobe”、“osaka”、“akashi”を、それぞれ対応付けている。概念ＩＤ“kobe”、“osaka”、“akashi”に対応付けている語句情報のうち、ＣＰＵ１１が、認識文法の語句情報を抽出することにより、「こうべのてんきは」、「おおさかのてんきは」、「あかしのてんきは」の３つの入力を受け付ける認識文法を生成することができる。

また、文末の「は」に対応する固定フラグメントに複数の語句情報を対応付けておくことにより、例えば「こうべのてんきはどう」のように末尾の異なる入力も受け付けることが可能となる。

以上のように本実施の形態２によれば、テンプレートの変更部分のみ、各モーダルから情報を受け付ければ足りることから、受け付けた情報の解析処理の演算負荷を軽減することができ、単語だけでなく文章全体について、モーダルの種類に依存せずに対話シナリオを記述することができることにより、より柔軟に表現の変更、モーダルの変更等を行うことが可能になる。

また、概念語句データベース１２２及びテンプレート情報記憶部１２３は、言い回し、方言等の相違によって交換可能であることが好ましい。本実施の形態２では、同じ概念ＩＤ、テンプレートＩＤを有する対話シナリオについて、異なる概念語句データベース１２２及びテンプレート情報記憶部１２３を容易に組み合わせることができ、対話シナリオを修正することなく、言い回し、方言等を切り替えることも可能となる。

なお、上述のように、対話制御装置１が概念語句データベース１２２及びテンプレート情報記憶部１２３を内蔵する構成に限定されるものではなく、概念語句データベース１２２及びテンプレート情報記憶部１２３を、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。

また、テンプレート情報の構造は、上述したようにフラグメントが直列に並ぶ構造に限定されるものではなく、分岐を有するツリー状の構造であっても良いし、自然言語の構文を利用したより複雑な構造であっても良い。

（実施の形態３）
以下、本発明の実施の形態３に係る対話システムについて図面に基づいて具体的に説明する。図１３は、本発明の実施の形態３に係る対話システムで用いる対話制御装置１の構成図である。本実施の形態３に係る対話システムの対話制御装置１の構成は実施の形態１と同様であることから、同一の符号を付することで詳細な説明は省略する。実施の形態３では、入力手段１５で受け付けた入力に基づいて概念ＩＤを抽出する場合、概念ＩＤに対応付けた複数の語句情報のうち、どの語句情報が抽出されたかを記録する語句履歴データベース１２４を記憶手段１２に有する点に特徴を有する。

図１４及び図１５は、本発明の実施の形態３に係る対話システムで用いる語句履歴データベース１２４に記憶するレコードの例示図である。図１４に示すように、例えば直近に抽出された語句情報の各々に語句情報ＩＤを付与しておき、概念ＩＤに対して一意な語句情報ＩＤを対応付けて記憶しておく。また、図１５に示すように、例えば概念ＩＤに対して抽出された語句情報ＩＤ毎に抽出回数を記憶しておいても良い。

語句履歴データベース１２４を用いて、ＣＰＵ１１は、対話シナリオの更新用に抽出する語句情報をより適切に選択することができる。例えば、図１４に示すレコード形式で記憶してある語句履歴データベース１２４を用いる場合、最後に抽出した語句情報を用いて発話内容を生成する。具体的には、ＣＰＵ１１が、「あす」、「あした」という複数の読み（語句情報）を有する「明日」という単語の入力を受け付けた場合、ＣＰＵ１１は、全ての語句情報を用いて、「あす」、「あした」の両方を認識可能な認識文法を生成する。ＣＰＵ１１が対話シナリオ生成用として抽出した語句情報が「あした」である場合、ＣＰＵ１１は、語句情報「あした」に対応する語句情報ＩＤを、概念ＩＤに対応付けて語句履歴データベース１２４に記憶する。

このようにすることで、ＣＰＵ１１が、入力内容を復唱するような内容の出力情報を生成した場合、ＣＰＵ１１は語句履歴データベース１２４を参照し、「明日」を表す概念ＩＤに対して「あした」を表す語句情報を抽出することができ、出力すべき発話内容を生成する。

また、図１５に示すレコード形式で記憶してある語句履歴データベース１２４を用いることで、より多くの回数抽出された語句情報を用いて対話シナリオを更新することもできる。例えばＣＰＵ１１は、「はい」、「うん」、「そう」等の複数の言い方（語句情報）を有する概念ＩＤ“yes”に対して、全ての語句情報を用いて認識文法を生成する。ＣＰＵ１１は、ユーザから「はい」、「うん」等との発声入力を受け付ける毎に、語句履歴データベース１２４に記録されている語句情報ＩＤに対応する使用回数をインクリメントする。

このようにすることで、ＣＰＵ１１は、認識文法の生成を行う場合に語句履歴データベース１２４を参照し、抽出頻度の低い語句情報ＩＤを認識文法から省くことができ、認識文法のサイズを減らすことができる。不要な認識文法を省くことによって、処理負荷が減少するだけでなく、音声認識の認識率も向上する。

画面モーダルを用いる場合も同様に、ＣＰＵ１１は、候補文字列を決定する場合に、語句情報ＩＤの中から抽出頻度の低い語句情報ＩＤを省くことができる。不要な語句情報ＩＤをドロップダウンリストから省くことにより、ユーザは、希望する文字列をより容易に選択することが可能となる。

以上のように本実施の形態３によれば、言い回しが複数存在する単語について、ユーザがどの言い回しを用いたか過去の実績に対応して、システム側の言い回しを変えることが可能となる。すなわち、ユーザが直近にどの言い回しを用いたか、又はユーザが過去に最も多く抽出した言い回しを優先的に出力することにより、システム側の言い回しを変えることが可能となる。

なお、上述のように、対話制御装置１が概念語句データベース１２２及び語句履歴データベース１２４を内蔵する構成に限定されるものではなく、概念語句データベース１２２及び語句履歴データベース１２４を、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。

（実施の形態４）
以下、本発明の実施の形態４に係る対話システムについて図面に基づいて具体的に説明する。本実施の形態４に係る対話システムで用いる対話制御装置１の構成は、実施の形態１と同様であることから、以下の説明中で同一の符号を付することで詳細な説明は省略する。実施の形態４では、所定の特殊概念に対する処理を有する点に特徴を有する。

対話においては、例えば数値、時刻等の特殊な概念が用いられる場合がある。上述した実施の形態１乃至３では、対話制御装置１は、数値、時刻等の取り得る値全てについて概念ＩＤを割り当て、各概念ＩＤに対応付けた語句情報を概念語句データベース１２２に記憶しておく必要がある。しかし、記憶手段１２には記憶容量という物理的な制約も存在し、語句情報の抽出効率の観点からも、概念語句データベース１２２をより効率的なデータベースとして維持する必要がある。

例えば、数値、時刻等の特殊な概念が用いられる場合、語句情報も汎用的な形式で決定することができる。そこで、例えば特殊概念が時刻である場合、概念語句データベース１２２に記憶することなく概念ＩＤをＣＰＵ１１が生成して、語句情報を生成する。

より具体的には、例えば８時３０分という時刻を表す概念である場合、ＣＰＵ１１は、概念ＩＤ“time0830”を生成する。ＣＰＵ１１は、概念ＩＤ“time0830”から、「８時」、「３０分」という語句情報を抽出して、「８時３０分」という表記や、「はちじさんじゅっぷん」という認識文法等を生成する。これにより、２４時間の任意の時刻について、表現を生成することが可能となる。

逆に、ＣＰＵ１１は、画面モーダルにおける「８時３０分」という表記を解析することにより、「８時」、「３０分」という語句情報を抽出し、概念ＩＤ“time0830”を生成することも可能である。

一方、対話シナリオで扱う語句は、「はい」「いいえ」のような、複数のサービス間で共通に利用される一般的な語句、例えば地名のような、同じ分野のサービスで共通に利用される語句、及びサービス特有の固有名詞のような特定のサービスでのみ使われる語句に分類することができる。複数のサービス間で共通に使われる語句については、概念語句データベース１２２も共有できることが望ましい。

図１６は、概念語句データベース１２２を共有する場合の概念ＩＤの例示図である。図１６に示すように、概念ＩＤを、上述した概念ＩＤと、該概念ＩＤに対応付けた概念のカテゴリを示すネームスペースとで構成している。概念ＩＤに対応する語句情報は、概念ＩＤに対応付けてあるネームスペース毎に１つの概念語句データベースとして記憶しておく。

ＣＰＵ１１は、概念ＩＤの抽出時にネームスペースも抽出し、ネームスペースが合致する概念語句データベースを選択する。図１７は、ネームスペースに対応付けた概念語句データベースの例示図である。

図１７に示すように、ＣＰＵ１１は、ネームスペースが合致する概念語句データベースを選択し、選択した概念語句データベースを用いて語句情報を抽出して、対話シナリオを具体化する。これにより、対話シナリオには、対話シナリオが想定するサービスに固有の語句、一般的な語句等を混成して記述することができ、対話シナリオ記述の自由度が広がるという格別の効果を奏する。

なお、上述のように、対話制御装置１が概念語句データベース１２２を内蔵する構成に限定されるものではなく、概念語句データベース１２２を、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。これにより、ネットワークを介して複数の対話システムが特定目的の概念語句データベース１２２を共有することが可能となる。

なお、上述した対話システムは、パーソナルコンピュータ、ＰＤＡ、情報家電、車載コンピュータ等、種々の形態のコンピュータ上で実現可能である。例えばＰＤＡである場合、音声、画面、音楽等、扱う対象毎に個別のモーダルとして取り扱い、音声及び画面を通じて各種アプリケーションを使えるようにすることができる。例えば情報家電である場合、機器本来の機能及び音声を個別のモーダルとして取り扱い、音声によって機器の動作を制御することができる。例えば車載コンピュータである場合、音声、画面、オーディオ、ナビゲーションシステム等の車載機器類を個別のモーダルとして取り扱う。

本発明の実施の形態１に係る対話システムの対話制御装置の構成図である。本発明の実施の形態１に係る対話システムで用いる概念語句データベースに記憶するレコードの例示図である。地図情報を利用する機器を１つのモーダルとして使用する場合の概念語句データベースに記憶するレコードの例示図である。表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベースに記憶するレコードの例示図である。表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベースに記憶するレコードの他の例示図である。リレーショナルデータベース化した概念語句データベースの例示図である。本発明の実施の形態１に係る対話システムの対話制御装置におけるＣＰＵの動作手順を示すフローチャートである。対話シナリオ中における、ＸＭＬ言語により記述された入出力情報の例示図である。本発明の実施の形態２に係る対話システムの対話制御装置の構成図である。本発明の実施の形態２に係る対話システムでのテンプレート記憶部に記憶するレコードの例示図である。本発明の実施の形態２に係る対話システムの対話制御装置におけるＣＰＵの動作手順を示すフローチャートである。テンプレート情報記憶部に記憶するレコードの他の例示図である。本発明の実施の形態３に係る対話システムの対話制御装置の構成図である。本発明の実施の形態３に係る対話システムで用いる語句履歴データベースに記憶するレコードの例示図である。本発明の実施の形態３に係る対話システムで用いる語句履歴データベースに記憶するレコードの例示図である。概念語句データベースを共有する場合の概念ＩＤの例示図である。ネームスペースに対応付けた概念語句データベースの例示図である。

符号の説明

１１ＣＰＵ
１２記憶手段
１３ＲＡＭ
１４通信手段
１５入力手段
１６出力手段
１７補助記憶手段
１２１対話シナリオ記憶部
１２２概念語句データベース
１２３テンプレート情報記憶部
１２４語句履歴データベース

Claims

外部からの入力情報を受け付ける情報受付部と、
対話を進行させる対話シナリオを記憶する対話シナリオ記憶部と、
記憶してある対話シナリオに沿って対話の進行を制御する対話制御部と、
前記対話シナリオに沿って外部へ出力情報を出力する情報出力部とを備える対話システムにおいて、
前記対話シナリオ記憶部は、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、
前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておく手段と、
前記入力情報を解析し、意味を識別する情報を導出する手段と、
導出した意味を識別する情報に基づいて、対応する語句を抽出する手段とを備え、
前記情報出力部は、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする対話システム。
外部へ出力する出力情報の固定部分及び意味を識別する情報で特定してある変更部分を指定するテンプレートを、該テンプレートを識別する情報に対応付けて記憶しておき、
前記情報出力部は、テンプレートを識別する情報及び意味を識別する情報に基づいて前記テンプレートの変更部分に対応する語句を挿入し、前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする請求項１記載の対話システム。
前記意味を識別する情報に複数の語句が対応付けて記憶してある場合、前記意味を識別する情報に対応付けた複数の語句から選択された語句の履歴に関する履歴情報を記憶しておき、
前記履歴情報に基づいて、前記意味を識別する情報に対応付けた語句を選択することを特徴とする請求項１記載の対話システム。
前記履歴情報に基づいて、直近に選択された語句を選択することを特徴とする請求項３記載の対話システム。
前記履歴情報に基づいて、選択回数が最も大きい語句を選択することを特徴とする請求項３記載の対話システム。
受け付けた入力情報の解析結果に基づいて、モーダルの種類を特定する手段を備え、前記語句を抽出する手段は、導出した意味を識別する情報に加えて、特定したモーダルの種類に基づいて、対応する語句を抽出するようにしてあることを特徴とする請求項１乃至５のいずれか一項に記載の対話システム。
外部からの入力情報を受け付けるステップと、
対話を進行させる対話シナリオを記憶するステップと、
記憶してある対話シナリオに沿って対話の進行を制御するステップと、
前記対話シナリオに沿って外部へ出力情報を出力するステップとを含む対話システム実行方法において、
前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、
前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、
前記入力情報を解析し、意味を識別する情報を導出するステップと、
導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、
抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とする対話システム実行方法。
外部からの入力情報を受け付けるステップと、
対話を進行させる対話シナリオを記憶するステップと、
記憶してある対話シナリオに沿って対話の進行を制御するステップと、
前記対話シナリオに沿って外部へ出力情報を出力するステップとを含むコンピュータで実行可能なコンピュータプログラムにおいて、
前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、
前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、
前記入力情報を解析し、意味を識別する情報を導出するステップと、
導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、
抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とするコンピュータプログラム。