JP2005321730A - 対話システム、対話システム実行方法、及びコンピュータプログラム - Google Patents

対話システム、対話システム実行方法、及びコンピュータプログラム Download PDF

Info

Publication number
JP2005321730A
JP2005321730A JP2004141582A JP2004141582A JP2005321730A JP 2005321730 A JP2005321730 A JP 2005321730A JP 2004141582 A JP2004141582 A JP 2004141582A JP 2004141582 A JP2004141582 A JP 2004141582A JP 2005321730 A JP2005321730 A JP 2005321730A
Authority
JP
Japan
Prior art keywords
information
dialogue
phrase
identifying
scenario
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004141582A
Other languages
English (en)
Inventor
Ryosuke Miyata
亮介 宮田
Toshiyuki Fukuoka
俊之 福岡
Hideshi Kitagawa
英志 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004141582A priority Critical patent/JP2005321730A/ja
Priority to US10/952,807 priority patent/US7742924B2/en
Publication of JP2005321730A publication Critical patent/JP2005321730A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 汎用的な対話シナリオを有することにより、対話シナリオの入力情報及び出力情報の更新が容易であり、複数のモーダルを変更することが容易である対話システム、対話システム実行方法及びコンピュータプログラムを提供する。
【解決手段】 外部からの入力情報を受け付け、対話を進行させる対話シナリオを記憶し、記憶してある対話シナリオに沿って対話の進行を制御し、対話シナリオに沿って外部へ出力情報を出力する対話システムにおいて、入力情報及び出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、意味を識別する情報に対応付けて一又は複数の語句を記憶しておき、入力情報を解析し、意味を識別する情報を導出し、導出した意味を識別する情報に基づいて、対応する語句を抽出し、抽出した語句に基づいて記憶してある対話シナリオに沿った出力情報を出力する。
【選択図】 図6

Description

本発明は、コンピュータとユーザとの間で情報のやり取りを円滑に行うことができる対話システム、対話システム実行方法及びコンピュータプログラムに関する。
近年のコンピュータによる処理能力の急速な向上、及びインターネット等の通信環境の普及によって、ユーザがコンピュータを通じて情報を取得する機会、コンピュータがユーザへ情報を通知する機会等が急増している。したがって、コンピュータに精通している技術者だけでなく、必ずしもコンピュータに精通していない一般家庭においても、コンピュータと対話を行いながら各種の情報サービスを享受することができるような対話インタフェースの開発が急務となっている。
各種の情報サービスを提供する対話システムは、特定のサービスに対応した対話手順を設定する。このように個別のサービス毎に対話手順を設定することは、対話システム開発者にとって作業が煩雑になり、対話システムの開発コストの上昇を招くことから、昨今では、多くのサービスに適用可能な汎用的な対話シナリオを有する対話システムが多々開発されている。
例えば、入力部から入力されるユーザの入力情報、出力部に対して出力される出力情報(画面や音声の情報)、及びユーザの入力情報に対するシステムの処理手順を対話シナリオに記述しておく。斯かる対話シナリオを複数のサービスに適用することで、個別のサービス毎に対話手順を設定する必要がなくなる。
対話シナリオを記述する言語としては、例えば画面を用いた対話を実現するHTML、音声を用いた対話を実現するVoiceXML等が代表的である。また、単一のモーダルを実現する記述言語、例えば画面のみ、あるいは音声のみを扱う記述言語だけでなく、画面及び音声を組み合わせたマルチモーダルを実現するX+V、SALT等の記述言語、画面及び音声以外への拡張も可能なXISL等の記述言語も使用されている(特許文献1参照)。
対話シナリオは、対話システムがユーザに対して出力する表現を示す表現データ、ユーザからの入力を受け付けるための認識データ、及び表現と入力とを実行する手順である実行手順データで構成される。例えばVoiceXMLの場合、表現データとして音声合成するべき文字列を示すプロンプトを、認識データとして音声認識文法を、実行手順データとしてプロンプトの出力と音声の認識を実行する手順を、それぞれ記述している。
特開平8−234789号公報
しかし、上述した対話シナリオでは、表現データ、認識データ及び実行手順データが渾然一体として記述されており、それぞれ独立して内容を変更することが困難であるという問題点があった。すなわち、音声モーダル、画面モーダル等の個々のモーダルに対して出力を行うための表現データ、あるいは個々のモーダルから入力を行うための認識データ等が対話シナリオの中に直接埋め込まれており、対話の進行を維持しつつ入出力表現だけを更新する場合、モーダルを変更する場合等は、対話シナリオを全面的に修正する必要があった。
例えば、音声モーダルを利用する場合、ユーザとの対話でやり取りされる全ての単語について、音声合成のための読みデータ、及び音声認識のための文法データが必要となる。また、画面モーダルを利用する場合、上述した表記データが必要となる。したがって、音声の言い回しを変更する、方言を変える等の処理を行う場合、記述言語で記載されている対話シナリオから該当する読みデータ、文法データ等を抽出して修正する必要があり、変更処理には多大な労力が必要となる。さらに、同じ対話シナリオを用いて複数の言語をサポートするマルチリンガルを実現するには、全ての言語に関する読みデータ、文法データを対話シナリオに含めなければならない。
また、音声で入力された単語を認識して画面に表示する処理、画面上で選択した単語を音声を用いて読み上げる処理等のように、複数のモーダル間で情報を送受信する処理を実現することも困難であった。かかる処理を実現するためには、例えば各モーダルに対応したデータ間の相互変換をすべて対話シナリオ内に記述する必要があり、モーダルの数、単語の数、及び対話シナリオの数が過大となった場合、記述言語による記載が非常に冗長となり、モーダルの変更に対応することがより困難になるという問題がある。
本発明は斯かる事情に鑑みてなされたものであり、汎用的な対話シナリオを有することにより、対話シナリオの入力情報及び出力情報の更新が容易であり、複数のモーダルを変更することが容易である対話システム、対話システム実行方法及びコンピュータプログラムを提供することを目的とする。
上記目的を達成するために第1発明に係る対話システムは、外部からの入力情報を受け付ける情報受付部と、対話を進行させる対話シナリオを記憶する対話シナリオ記憶部と、記憶してある対話シナリオに沿って対話の進行を制御する対話制御部と、前記対話シナリオに沿って外部へ出力情報を出力する情報出力部とを備える対話システムにおいて、前記対話シナリオ記憶部は、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておく手段と、前記入力情報を解析し、意味を識別する情報を導出する手段と、導出した意味を識別する情報に基づいて、対応する語句を抽出する手段とを備え、前記情報出力部は、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする。
第1発明に係る対話システムでは、対話シナリオを、用いる語句の意味内容を示す識別情報、例えば概念IDを用いて記述しておき、外部からの入力情報を受け付けた場合、受け付けた入力情報を解析して概念IDを求め、求めた概念IDに対応する適切な語句を抽出して対話のための出力情報を外部へ出力する。これにより、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。
また、第2発明に係る対話システムは、第1発明において、外部へ出力する出力情報の固定部分及び意味を識別する情報で特定してある変更部分を指定するテンプレートを、該テンプレートを識別する情報に対応付けて記憶しておき、前記情報出力部は、テンプレートを識別する情報及び意味を識別する情報に基づいて前記テンプレートの変更部分に対応する語句を挿入し、前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする。
第2発明に係る対話システムでは、外部との入出力対象となる情報を固定部分及び変更部分に分割してあるテンプレートを用い、テンプレートを識別する情報に基づいて対話シナリオに沿った情報の入出力を行う。これにより、テンプレートの変更部分のみ、各モーダルから入力情報を受け付ければ足りることから、受け付けた入力情報の解析処理の演算負荷を軽減することができ、単語だけでなく文章全体について、モーダルの種類に依存せずに対話シナリオを記述することができることにより、より柔軟に表現の変更、モーダルの変更等を行うことが可能になる。
また、第3発明に係る対話システムは、第1発明において、前記意味を識別する情報に複数の語句が対応付けて記憶してある場合、前記意味を識別する情報に対応付けた複数の語句から選択された語句の履歴に関する履歴情報を記憶しておき、前記履歴情報に基づいて、前記意味を識別する情報に対応付けた語句を選択することを特徴とする。
第3発明に係る対話システムでは、意味を識別する情報、すなわち概念IDに対応付けた複数の語句から選択された語句の履歴に関する履歴情報を記憶しておき、履歴情報に基づいて、概念IDに対応付けた語句を選択する。これにより、例えば言い回しが複数存在する単語について、ユーザが用いた言い回しの過去の実績に対応して、システム側の言い回しを変えることが可能となる。
すなわち、ユーザが「ディズニーランド」について「東京ディズニーランド」と入力した場合、システムからの出力についても「東京ディズニーランド」と出力することが可能となる。また、「長田」のように複数の読み方が存在する名前について、「ながた」という読みを持つ語句情報と「おさだ」という読みを持つ語句情報を概念IDに対応付けて記憶しておくことで、ユーザが直前に「ながた」と入力した場合には「ながた」を、「おさだ」と入力した場合には「おさだ」を、それぞれ出力することが可能となる。
また、第4発明に係る対話システムは、第3発明において、前記履歴情報に基づいて、直近に選択された語句を選択することを特徴とする。
第4発明に係る対話システムでは、履歴情報に基づいて、直近に選択された語句を概念IDに対応付けた語句として選択する。これにより、例えば言い回しが複数存在する単語について、ユーザが直近に選択した言い回しに対応して、システム側の言い回しを変えることが可能となる。
すなわち、ユーザが「ディズニーランド」について直近に「東京ディズニーランド」と入力した場合、システムからの出力についても「東京ディズニーランド」と出力することが可能となる。
第5発明に係る対話システムは、第3発明において、前記履歴情報に基づいて、選択回数が最も大きい語句を選択することを特徴とする。
第5発明に係る対話システムでは、履歴情報に基づいて、選択回数が最も大きい語句を抽出する。これにより、例えば言い回しが複数存在する単語について、ユーザが過去に最も多く選択した言い回しを優先的に出力することにより、システム側の言い回しを変えることが可能となる。
すなわち、ユーザが「ディズニーランド」について、「東京ディズニーランド」と入力したことが最も多かった場合、システムからの出力についても「東京ディズニーランド」と出力することが可能となる。
第6発明に係る対話システムは、第1発明乃至第5発明のいずれかにおいて、受け付けた入力情報の解析結果に基づいて、モーダルの種類を特定する手段を備え、前記語句を抽出する手段は、導出した意味を識別する情報に加えて、特定したモーダルの種類に基づいて、対応する語句を抽出するようにしてあることを特徴とする。
第6発明に係る対話システムでは、入力情報に応じて、例えば音声モーダルであるか、画面モーダルであるか、あるいは他のモーダルであるか特定し、特定したモーダルの種類に応じて意味を識別する情報に対応する語句を抽出する。これにより、モーダルの種類に応じて最適な語句を抽出することができ、例えば口語表現、文語表現の区別等を含めた出力情報を出力することが可能となる。
また、第7発明に係る対話システム実行方法は、外部からの入力情報を受け付けるステップと、対話を進行させる対話シナリオを記憶するステップと、記憶してある対話シナリオに沿って対話の進行を制御するステップと、前記対話シナリオに沿って外部へ出力情報を出力するステップとを含む対話システム実行方法において、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、前記入力情報を解析し、意味を識別する情報を導出するステップと、導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とする。
第7発明に係る対話システム実行方法では、対話シナリオを、用いる語句の意味内容を示す識別情報、例えば概念IDを用いて記述しておき、外部からの入力情報を受け付けた場合、受け付けた入力情報を解析して概念IDを求め、求めた概念IDに対応する適切な語句を抽出して対話のための出力情報を外部へ出力する。これにより、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。
また、第8発明に係るコンピュータプログラムは、外部からの入力情報を受け付けるステップと、対話を進行させる対話シナリオを記憶するステップと、記憶してある対話シナリオに沿って対話の進行を制御するステップと、前記対話シナリオに沿って外部へ出力情報を出力するステップとを含むコンピュータで実行可能なコンピュータプログラムにおいて、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、前記入力情報を解析し、意味を識別する情報を導出するステップと、導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とする。
第8発明に係るコンピュータプログラムでは、対話シナリオを、用いる語句の意味内容を示す識別情報、例えば概念IDを用いて記述しておき、外部からの入力情報を受け付けた場合、受け付けた入力情報を解析して概念IDを求め、求めた概念IDに対応する適切な語句を抽出して対話のための出力情報を外部へ出力する。これにより、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。
第1発明、第7発明、及び第8発明によれば、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。
第2発明によれば、テンプレートの変更部分のみ、各モーダルから入力情報を受け付ければ足りることから、受け付けた入力情報の解析処理の演算負荷を軽減することができ、単語だけでなく文章全体について、モーダルの種類に依存せずに対話シナリオを記述することができることにより、より柔軟に表現の変更、モーダルの変更等を行うことが可能になる。
第3発明によれば、例えば言い回しが複数存在する単語について、ユーザが用いた言い回しの過去の実績に対応して、システム側の言い回しを変えることが可能となる。
第4発明によれば、例えば言い回しが複数存在する単語について、ユーザが直近に用いた言い回しに対応して、システム側の言い回しを変えることが可能となる。
第5発明によれば、例えば言い回しが複数存在する単語について、ユーザが過去に最も多く選択した言い回しを優先的に出力することにより、システム側の言い回しを変えることが可能となる。
第6発明によれば、モーダルの種類に応じて最適な語句を抽出することができ、例えば口語表現、文語表現の区別等を含めた出力情報を出力することが可能となる。
(実施の形態1)
以下、本発明の実施の形態1に係る対話システムについて図面に基づいて具体的に説明する。図1は、本発明の実施の形態1に係る対話システムの対話制御装置1の構成図である。図1に示すように、本実施の形態1に係る対話システムは、ユーザによる音声入力、キーボード打鍵によるテキスト入力等の入力手段と、音声による出力、画像表示する表示装置等の出力手段を備えた対話制御装置1を用いることにより具現化される。
対話制御装置1は、少なくとも、CPU(中央演算装置)11、記憶手段12、RAM13、インターネットのような外部の通信手段と接続する通信手段14、入力手段15、出力手段16及びDVD、CD等の可搬型記録媒体4を用いる補助記憶手段17で構成する。
CPU11は、内部バス18を介して対話制御装置1の上述したようなハードウェア各部と接続されており、上述したハードウェア各部を制御するとともに、記憶手段12に記憶されている処理プログラム、例えばプログラムローダとして、プログラムをロードして実行するプログラムに従って、種々のソフトウェア的機能を実行する。
記憶手段12は、内蔵される固定型記憶装置(ハードディスク)、ROM等で構成され、通信手段14を介した外部のコンピュータ、又はDVD、CD−ROM等の可搬型記録媒体4から、必要な処理プログラムを取得する。記憶手段12には、対話を制御する対話シナリオを記憶する対話シナリオ記憶部121、語句の意味内容を識別する情報である概念IDに対応付けた語句情報をデータベース化してある概念語句データベース122等が記憶してある。なお、対話シナリオ記憶部121に記憶してある対話シナリオは、概念IDを用いて所定の記述言語で記載されており、対話実行時にCPU11により読み出され、RAM13上に展開される。
RAM13は、SRAM、フラッシュメモリ等で構成され、ソフトウェアの実行時に発生する一時的なデータを記憶する。通信手段14は内部バス18に接続されており、LAN、WAN等のケーブルに接続されることにより、処理に必要とされるデータを送受信する。
入力手段15は、モーダルの種類に応じて相違する。すなわち入力手段15は、音声モーダルの場合、ユーザによる音声を入力するマイクロフォン等であり、画面モーダルの場合、画面上に表示された単語を選択するマウス等のポインティングデバイス、又は画面上でテキストデータを打鍵により入力するキーボード等である。
同様に出力手段16も、モーダルの種類に応じて相違する。すなわち出力手段16は、音声モーダルの場合、ユーザへ合成音声等を出力するスピーカであり、画面モーダルの場合、ユーザへ画像を表示出力する液晶表示装置(LCD)、表示ディスプレイ(CRT)等の表示装置である。
補助記憶手段17は、CD、DVD等の可搬型記録媒体4を用い、記憶手段12へ、CPU11が処理するプログラム、データ等をダウンロードする。また、CPU11が処理したデータをバックアップすべく書き込むことも可能である。
以下、上述した構成の対話制御装置1を用いた対話システムの動作について説明する。図2は、本発明の実施の形態1に係る対話システムで用いる概念語句データベース122に記憶するレコードの例示図である。
概念語句データベース122は、語句の意味内容、特に対話シナリオ記憶部121に記憶されている対話シナリオ中での意味内容を識別する情報である概念IDと、対話シナリオを用いて出力手段16へ出力すべき語句に関する情報である語句情報とを対応付けて記憶してある。概念IDは、語句の意味内容を一意に識別することができるIDであれば特に制約はない。
また、1つの概念IDに対して、複数の語句情報を対応付けても良い。例えば、図2に示すように、東京駅を表す概念ID“tokyo_station”に対して、「東京駅」という表記の他に「東京」という表記もあり得ることから、これら2つの語句情報を概念ID“tokyo_station”に対応付けて記憶する。また、同じ語句情報が複数の概念IDに対応する場合もありうる。前述の「東京」という表記は、東京都を表す概念ID“pref_tokyo”に対しても対応付けられている。
語句情報には、実際の対話システムの構成に合わせて様々なデータを記憶することができる。例えば、対話システムが画面及び音声を用いるモーダルである場合、表記、音声合成の読み、及び音声の認識文法が必要となる。したがって、図2に示すように、語句情報として、表記、音声合成の読み、及び音声の認識文法を一対のデータとして概念IDに対応付けて記憶しておく。これにより、モーダルの種類に応じて必要なデータを抽出することが可能となる。
また、カーナビゲーションシステム等の地図情報を利用する機器を1つのモーダルとして使用する場合、例えば場所を表す概念IDに対して、緯度及び経度に関する情報を語句情報として記憶する必要がある。図3は、地図情報を利用する機器を1つのモーダルとして使用する場合の概念語句データベース122に記憶するレコードの例示図である。図3に示すように、場所を表す概念ID“tokyo_station”及び“pref_tokyo”に対して、緯度及び経度に関する情報を語句情報として記憶してある。
さらに、表記、音声合成の読み、音声の認識文法等の語句情報を一対のデータとしてではなく、個別のデータとして記憶しておいても良い。図4は、表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベース122に記憶するレコードの例示図である。
例えば「永田」、「長田(ながた)」、「長田(おさだ)」という人名を対話システムで扱う場合、それぞれに異なる概念IDが割り当てられる。しかし、音声合成の読み及び音声の認識文法は「永田」と「長田(ながた)」とでは共通であり、表記は「長田(ながた)」と「長田(おさだ)」と共通である。したがって、図4に示すように、表記、音声合成の読み、及び音声の認識文法を、それぞれ個別の語句情報として、概念IDと対応付けて記憶しておく。
なお、概念語句データベース122の記憶するレコードは、図4に示すように、同音異義語であり、しかも同表記異議語である語句に限定されるものではない。図5は、表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベース122に記憶するレコードの他の例示図である。
図5(a)は、例えば「four」と「for」のように同音異義語の場合のレコードの一例である。この場合、図4と同様、それぞれに異なる概念IDが割り当てられている。しかし、音声合成の読みは「four」と「for」とでは共通である。したがって、図5(a)に示すように、表記、音声合成の読み、及び音声の認識文法を、それぞれ個別の語句情報として、概念IDと対応付けて記憶しておく。
図5(b)は、例えば「bow(おじぎ)」と「bow(弓)」のように同表記異議語の場合のレコードの一例である。この場合、図4と同様、それぞれに異なる概念IDが割り当てられている。しかし、表記は「bow(おじぎ)」と「bow(弓)」four」とでは共通である。したがって、図5(b)に示すように、表記、音声合成の読み、及び音声の認識文法を、それぞれ個別の語句情報として、概念IDと対応付けて記憶しておく。
上述した概念語句データベース122は、例えばリレーショナルデータベースによって実現することができる。図6は、リレーショナルデータベース化した概念語句データベース122の例示図である。図6に示すように、概念語句データベース122は、概念IDと語句IDをフィールドとして有する概念テーブルと、語句IDと語句情報の各要素(一般的には、表記、音声合成の読み、及び音声の認識文法)をフィールドとして有する語句テーブルとで実現できる。もちろん、リレーショナルデータベースに限定されるものではなく、同様のデータ構造を記憶することができ、概念ID、語句情報等に基づいて検索可能なデータベースであれば、何でも良い。
図7は、本発明の実施の形態1に係る対話システムの対話制御装置1におけるCPU11の動作手順を示すフローチャートである。図7では、対話シナリオ記憶部121から対話シナリオが読み出されてRAM13上に展開されており、ユーザからの入力待ち状態であることを前提として説明する。
CPU11は、入力手段15からの入力情報を受け付け(ステップS701)、受け付けた入力情報について、どのような意味内容を有する入力情報であるのか解析する(ステップS702)。CPU11は、解析結果に基づいて概念語句データベース122を照会し、受け付けた入力情報を概念IDに変換する(ステップS703)。例えば、受け付けた入力情報が表記で表されていると解析された場合、受け付けた入力情報の表記と一致する語句情報を、概念語句データベース122から抽出して、一致した語句情報に対応する概念IDを抽出する。
なお、1つの語句情報に対して複数の概念IDが対応付けて記憶されている場合には、1つの概念IDのみを抽出しても良いし、該当する全ての概念IDを候補として抽出しても良い。
CPU11は、解析結果に基づいて、ユーザからの入力情報を受け付けたモーダルが音声モーダルであるか否かを判断する(ステップS704)。CPU11が、ユーザからの入力情報を受け付けたモーダルが音声モーダルであると判断した場合(ステップS704:YES)、変換した概念IDを用いて、概念語句データベース122から具体的な語句情報として、音声合成の読み及び認識文法の語句情報を抽出する(ステップS705)。CPU11は、抽出した音声合成の読みの語句情報を用いてシステム発話内容を生成し、音声認識の文法の語句情報を用いて認識文法を生成する。
CPU11が、ユーザからの入力情報を受け付けたモーダルが音声モーダルでないと判断した場合(ステップS704:NO)、CPU11は、解析結果に基づいて、ユーザからの入力情報を受け付けたモーダルが画面モーダルであるか否かを判断する(ステップS706)。CPU11が、ユーザからの入力情報を受け付けたモーダルが画面モーダルであると判断した場合(ステップS706:YES)、変換した概念IDを用いて、概念語句データベース122から具体的な語句情報として、表記の語句情報を抽出する(ステップS707)。CPU11は、抽出した表記の語句情報を用いて表示内容を生成する。
CPU11は、抽出した音声合成の読み及び認識文法の語句情報、又は表記の語句情報に基づいて生成したシステム発話内容及び認識文法、又は表示内容を用いて、RAM13に展開してある対話シナリオを更新する(ステップS708)。すなわち、概念IDを用いて記載されている対話シナリオの概念ID部分を、抽出した語句情報に置換することにより、ユーザに対する対話可能な対話シナリオへとRAM13上で変換することが可能となる。対話シナリオ変換後、CPU11は、システム発話又は画面表示によりユーザに対して対話進行のための情報を出力する(ステップS709)。情報の出力完了時点でCPU11はユーザからの入力の待ち状態となる。
複数のモーダルを併用する(以下、マルチモーダルという)場合、例えば音声及び画面のマルチモーダルの場合、入力情報を受け付けたモーダルにより抽出する語句情報を変更せず、例えば音声合成の読み、認識文法、及び表記の語句情報をすべて抽出しておき、出力手段16の種類に応じて対話シナリオの入力情報及び出力情報を更新すれば良い。これにより、例えばユーザが画面から入力した結果を、画面に表示すると同時に音声で復唱したり、逆に音声での入力に対して、音声で応答すると同時に画面も更新したり、といった処理を実現することも可能となる。
例えば、図8は対話シナリオ中における、XML言語により記述された入出力情報の例示図である。各モーダルは、入出力情報から必要な部分を抜き出して利用する。例えば音声モーダルである場合、図8のプロンプトの内容をVoiceXMLのプロンプト(<prompt>)に含め、<selection>内の<item>それぞれを入力候補として認識文法(<grammar>)に含める。そして、<statement>からは表記を、<concept>からは認識文法を抽出して、語句への変換を行う。<selection>の内容もプロンプトに含めて、候補を読み上げるようにしても良い。この場合、<concept>からは読みを抽出して用いる。
また、画面モーダルである場合、プロンプトの内容をページの見出しとし、<selection>の内容を選択ボックスの選択候補として用いる。この場合、すべての<statement>及び<concept>について、表記が用いられる。
上述した例からも明らかなように、モーダルの追加、削除等を対話シナリオとは無関係に行うことができ、各モーダルは、それぞれのモーダルに適したデータ形式で出力を行うことが可能となる。
なお、対話シナリオ記憶部121、概念語句データベース122は、対話制御装置1と同一コンピュータ上に記憶しておいても良いし、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。
以上のように本実施の形態1によれば、対話シナリオを記述する際に、外部からの入力を期待する語句を具体的に特定しておく必要がなくなり、意味内容に応じた汎用的な対話シナリオを記述することで対話モーダルの種類に対応した適切な情報の入出力を行うことができ、しかも保守、更新作業等が容易な対話システムを実現することが可能となる。
(実施の形態2)
以下、本発明の実施の形態2に係る対話システムについて図面に基づいて具体的に説明する。図9は、本発明の実施の形態2に係る対話システムで用いる対話制御装置1の構成図である。本実施の形態2に係る対話システムで用いる対話制御装置1の構成は実施の形態1と同様であることから、同一の符号を付することで詳細な説明は省略する。実施の形態2では、テンプレートを用いる点に特徴を有する。
本発明の実施の形態2に係る対話システムで用いるテンプレートは、記憶手段12のテンプレート記憶部123に記憶してある。図10は、本発明の実施の形態2に係る対話システムでのテンプレート記憶部123に記憶するレコードの例示図である。図10に示すように、テンプレートは、テンプレートを識別する情報であるテンプレートIDと、該テンプレートに対応付けたテンプレート情報とで構成されている。
テンプレート情報は、例えば複数のフラグメント、及び各フラグメントに対応付けた語句情報とで定義してある。フラグメントは、固定フラグメント及び可変フィールドに区別してあり、固定フラグメントには、モーダルの種類に応じて対応可能な語句情報を対応付けて記憶しておく。
一方、可変フィールドには識別情報であるフィールドIDを付与し、フィールドIDに対応付けて、概念IDを記憶しておく。これにより、CPU11が、テンプレートIDに基づいてテンプレート記憶部123を照会した場合、受け付けた入力がどのフィールドIDに対応しており、該入力に対応する概念IDを容易に抽出することが可能となる。
テンプレートを用いる場合、対話シナリオは、テンプレートID、フィールドID、及び概念IDを用いて記述しておき、対話開始時には、対話制御装置1のCPU11がRAM13に展開しておく。
図11は、本発明の実施の形態2に係る対話システムの対話制御装置1におけるCPU11の動作手順を示すフローチャートである。図11では、対話シナリオ記憶部121から対話シナリオが読み出されてRAM13上に展開されており、ユーザからの入力待ち状態であることを前提として説明する。
CPU11は、入力手段15からの入力情報を受け付け(ステップS1101)、受け付けた入力情報を解析して(ステップS1102)、テンプレートIDを抽出する(ステップS1103)。CPU11は、抽出したテンプレートIDに基づいてテンプレート情報記憶部123を照会して、テンプレートを取得する(ステップS1104)。
CPU11は、取得したテンプレートに基づいて、フィールドIDに対応付けた概念IDを抽出し(ステップS1105)、CPU11は、ユーザからの入力情報を受け付けたモーダルが音声モーダルであるか否かを判断する(ステップS1106)。
CPU11が、ユーザからの入力情報を受け付けたモーダルが音声モーダルであると判断した場合(ステップS1106:YES)、CPU11は、抽出した概念IDを用いて、概念語句データベース122から具体的な語句情報として、音声合成の読み及び認識文法の語句情報を抽出する(ステップS1107)。CPU11は、抽出した音声合成の読みの語句情報を用いてシステム発話内容を生成し、音声認識の文法の語句情報を用いて認識文法を生成する。
CPU11が、ユーザからの入力情報を受け付けたモーダルが音声モーダルでないと判断した場合(ステップS1106:NO)、CPU11は、ユーザからの入力情報を受け付けたモーダルが画面モーダルであるか否かを判断する(ステップS1108)。CPU11が、ユーザからの入力情報を受け付けたモーダルが画面モーダルであると判断した場合(ステップS1108:YES)、CPU11は、抽出した概念IDを用いて、概念語句データベース122から具体的な語句情報として、表記の語句情報を抽出する(ステップS1109)。CPU11は、抽出した表記の語句情報を用いて表示内容を生成する。
CPU11は、抽出した音声合成の読み及び認識文法の語句情報、又は表記の語句情報に基づいて生成したシステム発話内容及び認識文法、又は表示内容を用いて、RAM13に展開してある対話シナリオを更新する(ステップS1110)。すなわち、テンプレートに含まれる可変フィールドを、抽出した語句情報に置換することにより、ユーザに対する対話可能な対話シナリオへとRAM13上で変換することが可能となる。対話シナリオ変換後、CPU11は、システム発話又は画面表示によりユーザに対して対話を進行する情報を出力する(ステップS1111)。情報の出力完了時点でCPU11はユーザからの入力待ち状態となる。
図12は、対話システムで用いるテンプレート情報記憶部123に記憶するレコードの他の例示図である。図12では、「○の○は?」というテンプレート(○は可変フィールドを示す)を想定しており、可変フィールド“weather”には、あらかじめ概念ID“weather”が対応付けられている。そして、可変フィールド“place”に対して、概念ID“kobe”、“osaka”、“akashi”を、それぞれ対応付けている。概念ID“kobe”、“osaka”、“akashi”に対応付けている語句情報のうち、CPU11が、認識文法の語句情報を抽出することにより、「こうべのてんきは」、「おおさかのてんきは」、「あかしのてんきは」の3つの入力を受け付ける認識文法を生成することができる。
また、文末の「は」に対応する固定フラグメントに複数の語句情報を対応付けておくことにより、例えば「こうべのてんきはどう」のように末尾の異なる入力も受け付けることが可能となる。
以上のように本実施の形態2によれば、テンプレートの変更部分のみ、各モーダルから情報を受け付ければ足りることから、受け付けた情報の解析処理の演算負荷を軽減することができ、単語だけでなく文章全体について、モーダルの種類に依存せずに対話シナリオを記述することができることにより、より柔軟に表現の変更、モーダルの変更等を行うことが可能になる。
また、概念語句データベース122及びテンプレート情報記憶部123は、言い回し、方言等の相違によって交換可能であることが好ましい。本実施の形態2では、同じ概念ID、テンプレートIDを有する対話シナリオについて、異なる概念語句データベース122及びテンプレート情報記憶部123を容易に組み合わせることができ、対話シナリオを修正することなく、言い回し、方言等を切り替えることも可能となる。
なお、上述のように、対話制御装置1が概念語句データベース122及びテンプレート情報記憶部123を内蔵する構成に限定されるものではなく、概念語句データベース122及びテンプレート情報記憶部123を、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。
また、テンプレート情報の構造は、上述したようにフラグメントが直列に並ぶ構造に限定されるものではなく、分岐を有するツリー状の構造であっても良いし、自然言語の構文を利用したより複雑な構造であっても良い。
(実施の形態3)
以下、本発明の実施の形態3に係る対話システムについて図面に基づいて具体的に説明する。図13は、本発明の実施の形態3に係る対話システムで用いる対話制御装置1の構成図である。本実施の形態3に係る対話システムの対話制御装置1の構成は実施の形態1と同様であることから、同一の符号を付することで詳細な説明は省略する。実施の形態3では、入力手段15で受け付けた入力に基づいて概念IDを抽出する場合、概念IDに対応付けた複数の語句情報のうち、どの語句情報が抽出されたかを記録する語句履歴データベース124を記憶手段12に有する点に特徴を有する。
図14及び図15は、本発明の実施の形態3に係る対話システムで用いる語句履歴データベース124に記憶するレコードの例示図である。図14に示すように、例えば直近に抽出された語句情報の各々に語句情報IDを付与しておき、概念IDに対して一意な語句情報IDを対応付けて記憶しておく。また、図15に示すように、例えば概念IDに対して抽出された語句情報ID毎に抽出回数を記憶しておいても良い。
語句履歴データベース124を用いて、CPU11は、対話シナリオの更新用に抽出する語句情報をより適切に選択することができる。例えば、図14に示すレコード形式で記憶してある語句履歴データベース124を用いる場合、最後に抽出した語句情報を用いて発話内容を生成する。具体的には、CPU11が、「あす」、「あした」という複数の読み(語句情報)を有する「明日」という単語の入力を受け付けた場合、CPU11は、全ての語句情報を用いて、「あす」、「あした」の両方を認識可能な認識文法を生成する。CPU11が対話シナリオ生成用として抽出した語句情報が「あした」である場合、CPU11は、語句情報「あした」に対応する語句情報IDを、概念IDに対応付けて語句履歴データベース124に記憶する。
このようにすることで、CPU11が、入力内容を復唱するような内容の出力情報を生成した場合、CPU11は語句履歴データベース124を参照し、「明日」を表す概念IDに対して「あした」を表す語句情報を抽出することができ、出力すべき発話内容を生成する。
また、図15に示すレコード形式で記憶してある語句履歴データベース124を用いることで、より多くの回数抽出された語句情報を用いて対話シナリオを更新することもできる。例えばCPU11は、「はい」、「うん」、「そう」等の複数の言い方(語句情報)を有する概念ID“yes”に対して、全ての語句情報を用いて認識文法を生成する。CPU11は、ユーザから「はい」、「うん」等との発声入力を受け付ける毎に、語句履歴データベース124に記録されている語句情報IDに対応する使用回数をインクリメントする。
このようにすることで、CPU11は、認識文法の生成を行う場合に語句履歴データベース124を参照し、抽出頻度の低い語句情報IDを認識文法から省くことができ、認識文法のサイズを減らすことができる。不要な認識文法を省くことによって、処理負荷が減少するだけでなく、音声認識の認識率も向上する。
画面モーダルを用いる場合も同様に、CPU11は、候補文字列を決定する場合に、語句情報IDの中から抽出頻度の低い語句情報IDを省くことができる。不要な語句情報IDをドロップダウンリストから省くことにより、ユーザは、希望する文字列をより容易に選択することが可能となる。
以上のように本実施の形態3によれば、言い回しが複数存在する単語について、ユーザがどの言い回しを用いたか過去の実績に対応して、システム側の言い回しを変えることが可能となる。すなわち、ユーザが直近にどの言い回しを用いたか、又はユーザが過去に最も多く抽出した言い回しを優先的に出力することにより、システム側の言い回しを変えることが可能となる。
なお、上述のように、対話制御装置1が概念語句データベース122及び語句履歴データベース124を内蔵する構成に限定されるものではなく、概念語句データベース122及び語句履歴データベース124を、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。
(実施の形態4)
以下、本発明の実施の形態4に係る対話システムについて図面に基づいて具体的に説明する。本実施の形態4に係る対話システムで用いる対話制御装置1の構成は、実施の形態1と同様であることから、以下の説明中で同一の符号を付することで詳細な説明は省略する。実施の形態4では、所定の特殊概念に対する処理を有する点に特徴を有する。
対話においては、例えば数値、時刻等の特殊な概念が用いられる場合がある。上述した実施の形態1乃至3では、対話制御装置1は、数値、時刻等の取り得る値全てについて概念IDを割り当て、各概念IDに対応付けた語句情報を概念語句データベース122に記憶しておく必要がある。しかし、記憶手段12には記憶容量という物理的な制約も存在し、語句情報の抽出効率の観点からも、概念語句データベース122をより効率的なデータベースとして維持する必要がある。
例えば、数値、時刻等の特殊な概念が用いられる場合、語句情報も汎用的な形式で決定することができる。そこで、例えば特殊概念が時刻である場合、概念語句データベース122に記憶することなく概念IDをCPU11が生成して、語句情報を生成する。
より具体的には、例えば8時30分という時刻を表す概念である場合、CPU11は、概念ID“time0830”を生成する。CPU11は、概念ID“time0830”から、「8時」、「30分」という語句情報を抽出して、「8時30分」という表記や、「はちじさんじゅっぷん」という認識文法等を生成する。これにより、24時間の任意の時刻について、表現を生成することが可能となる。
逆に、CPU11は、画面モーダルにおける「8時30分」という表記を解析することにより、「8時」、「30分」という語句情報を抽出し、概念ID“time0830”を生成することも可能である。
一方、対話シナリオで扱う語句は、「はい」「いいえ」のような、複数のサービス間で共通に利用される一般的な語句、例えば地名のような、同じ分野のサービスで共通に利用される語句、及びサービス特有の固有名詞のような特定のサービスでのみ使われる語句に分類することができる。複数のサービス間で共通に使われる語句については、概念語句データベース122も共有できることが望ましい。
図16は、概念語句データベース122を共有する場合の概念IDの例示図である。図16に示すように、概念IDを、上述した概念IDと、該概念IDに対応付けた概念のカテゴリを示すネームスペースとで構成している。概念IDに対応する語句情報は、概念IDに対応付けてあるネームスペース毎に1つの概念語句データベースとして記憶しておく。
CPU11は、概念IDの抽出時にネームスペースも抽出し、ネームスペースが合致する概念語句データベースを選択する。図17は、ネームスペースに対応付けた概念語句データベースの例示図である。
図17に示すように、CPU11は、ネームスペースが合致する概念語句データベースを選択し、選択した概念語句データベースを用いて語句情報を抽出して、対話シナリオを具体化する。これにより、対話シナリオには、対話シナリオが想定するサービスに固有の語句、一般的な語句等を混成して記述することができ、対話シナリオ記述の自由度が広がるという格別の効果を奏する。
なお、上述のように、対話制御装置1が概念語句データベース122を内蔵する構成に限定されるものではなく、概念語句データベース122を、ネットワークを介してアクセス可能な他のコンピュータ上に記憶しておいても良い。これにより、ネットワークを介して複数の対話システムが特定目的の概念語句データベース122を共有することが可能となる。
なお、上述した対話システムは、パーソナルコンピュータ、PDA、情報家電、車載コンピュータ等、種々の形態のコンピュータ上で実現可能である。例えばPDAである場合、音声、画面、音楽等、扱う対象毎に個別のモーダルとして取り扱い、音声及び画面を通じて各種アプリケーションを使えるようにすることができる。例えば情報家電である場合、機器本来の機能及び音声を個別のモーダルとして取り扱い、音声によって機器の動作を制御することができる。例えば車載コンピュータである場合、音声、画面、オーディオ、ナビゲーションシステム等の車載機器類を個別のモーダルとして取り扱う。
本発明の実施の形態1に係る対話システムの対話制御装置の構成図である。 本発明の実施の形態1に係る対話システムで用いる概念語句データベースに記憶するレコードの例示図である。 地図情報を利用する機器を1つのモーダルとして使用する場合の概念語句データベースに記憶するレコードの例示図である。 表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベースに記憶するレコードの例示図である。 表記、音声合成の読み、音声の認識文法等の語句情報を個別のデータとして記憶する場合の概念語句データベースに記憶するレコードの他の例示図である。 リレーショナルデータベース化した概念語句データベースの例示図である。 本発明の実施の形態1に係る対話システムの対話制御装置におけるCPUの動作手順を示すフローチャートである。 対話シナリオ中における、XML言語により記述された入出力情報の例示図である。 本発明の実施の形態2に係る対話システムの対話制御装置の構成図である。 本発明の実施の形態2に係る対話システムでのテンプレート記憶部に記憶するレコードの例示図である。 本発明の実施の形態2に係る対話システムの対話制御装置におけるCPUの動作手順を示すフローチャートである。 テンプレート情報記憶部に記憶するレコードの他の例示図である。 本発明の実施の形態3に係る対話システムの対話制御装置の構成図である。 本発明の実施の形態3に係る対話システムで用いる語句履歴データベースに記憶するレコードの例示図である。 本発明の実施の形態3に係る対話システムで用いる語句履歴データベースに記憶するレコードの例示図である。 概念語句データベースを共有する場合の概念IDの例示図である。 ネームスペースに対応付けた概念語句データベースの例示図である。
符号の説明
11 CPU
12 記憶手段
13 RAM
14 通信手段
15 入力手段
16 出力手段
17 補助記憶手段
121 対話シナリオ記憶部
122 概念語句データベース
123 テンプレート情報記憶部
124 語句履歴データベース

Claims (8)

  1. 外部からの入力情報を受け付ける情報受付部と、
    対話を進行させる対話シナリオを記憶する対話シナリオ記憶部と、
    記憶してある対話シナリオに沿って対話の進行を制御する対話制御部と、
    前記対話シナリオに沿って外部へ出力情報を出力する情報出力部とを備える対話システムにおいて、
    前記対話シナリオ記憶部は、前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、
    前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておく手段と、
    前記入力情報を解析し、意味を識別する情報を導出する手段と、
    導出した意味を識別する情報に基づいて、対応する語句を抽出する手段とを備え、
    前記情報出力部は、抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする対話システム。
  2. 外部へ出力する出力情報の固定部分及び意味を識別する情報で特定してある変更部分を指定するテンプレートを、該テンプレートを識別する情報に対応付けて記憶しておき、
    前記情報出力部は、テンプレートを識別する情報及び意味を識別する情報に基づいて前記テンプレートの変更部分に対応する語句を挿入し、前記対話シナリオに沿った出力情報を出力するようにしてあることを特徴とする請求項1記載の対話システム。
  3. 前記意味を識別する情報に複数の語句が対応付けて記憶してある場合、前記意味を識別する情報に対応付けた複数の語句から選択された語句の履歴に関する履歴情報を記憶しておき、
    前記履歴情報に基づいて、前記意味を識別する情報に対応付けた語句を選択することを特徴とする請求項1記載の対話システム。
  4. 前記履歴情報に基づいて、直近に選択された語句を選択することを特徴とする請求項3記載の対話システム。
  5. 前記履歴情報に基づいて、選択回数が最も大きい語句を選択することを特徴とする請求項3記載の対話システム。
  6. 受け付けた入力情報の解析結果に基づいて、モーダルの種類を特定する手段を備え、前記語句を抽出する手段は、導出した意味を識別する情報に加えて、特定したモーダルの種類に基づいて、対応する語句を抽出するようにしてあることを特徴とする請求項1乃至5のいずれか一項に記載の対話システム。
  7. 外部からの入力情報を受け付けるステップと、
    対話を進行させる対話シナリオを記憶するステップと、
    記憶してある対話シナリオに沿って対話の進行を制御するステップと、
    前記対話シナリオに沿って外部へ出力情報を出力するステップとを含む対話システム実行方法において、
    前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、
    前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、
    前記入力情報を解析し、意味を識別する情報を導出するステップと、
    導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、
    抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とする対話システム実行方法。
  8. 外部からの入力情報を受け付けるステップと、
    対話を進行させる対話シナリオを記憶するステップと、
    記憶してある対話シナリオに沿って対話の進行を制御するステップと、
    前記対話シナリオに沿って外部へ出力情報を出力するステップとを含むコンピュータで実行可能なコンピュータプログラムにおいて、
    前記入力情報及び前記出力情報で用いる語句の意味を識別する情報を用いて記述してある対話シナリオを記憶してあり、
    前記意味を識別する情報に対応付けて一又は複数の語句を記憶しておくステップと、
    前記入力情報を解析し、意味を識別する情報を導出するステップと、
    導出した意味を識別する情報に基づいて、対応する語句を抽出するステップとを含み、
    抽出した語句に基づいて記憶してある前記対話シナリオに沿った出力情報を出力することを特徴とするコンピュータプログラム。
JP2004141582A 2004-05-11 2004-05-11 対話システム、対話システム実行方法、及びコンピュータプログラム Pending JP2005321730A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004141582A JP2005321730A (ja) 2004-05-11 2004-05-11 対話システム、対話システム実行方法、及びコンピュータプログラム
US10/952,807 US7742924B2 (en) 2004-05-11 2004-09-30 System and method for updating information for various dialog modalities in a dialog scenario according to a semantic context

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004141582A JP2005321730A (ja) 2004-05-11 2004-05-11 対話システム、対話システム実行方法、及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2005321730A true JP2005321730A (ja) 2005-11-17

Family

ID=35310481

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004141582A Pending JP2005321730A (ja) 2004-05-11 2004-05-11 対話システム、対話システム実行方法、及びコンピュータプログラム

Country Status (2)

Country Link
US (1) US7742924B2 (ja)
JP (1) JP2005321730A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108083A (ja) * 2009-11-19 2011-06-02 Fujitsu Advanced Engineering Ltd 音声シナリオ生成プログラム及び音声シナリオ生成装置
JP2012099032A (ja) * 2010-11-05 2012-05-24 Oki Electric Ind Co Ltd 文生成装置及びプログラム
JP2016062550A (ja) * 2014-09-22 2016-04-25 ソフトバンク株式会社 会話処理システム及びプログラム
WO2017199486A1 (ja) * 2016-05-16 2017-11-23 ソニー株式会社 情報処理装置
WO2020110744A1 (ja) * 2018-11-28 2020-06-04 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7359979B2 (en) 2002-09-30 2008-04-15 Avaya Technology Corp. Packet prioritization and associated bandwidth and buffer management techniques for audio over IP
US20040073690A1 (en) 2002-09-30 2004-04-15 Neil Hepworth Voice over IP endpoint call admission
US7978827B1 (en) 2004-06-30 2011-07-12 Avaya Inc. Automatic configuration of call handling based on end-user needs and characteristics
US9396185B2 (en) * 2006-10-31 2016-07-19 Scenera Mobile Technologies, Llc Method and apparatus for providing a contextual description of an object
CN101075435B (zh) * 2007-04-19 2011-05-18 深圳先进技术研究院 一种智能聊天系统及其实现方法
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
US8218751B2 (en) 2008-09-29 2012-07-10 Avaya Inc. Method and apparatus for identifying and eliminating the source of background noise in multi-party teleconferences
US20110015921A1 (en) * 2009-07-17 2011-01-20 Minerva Advisory Services, Llc System and method for using lingual hierarchy, connotation and weight of authority
EP2299440B1 (en) * 2009-09-11 2012-10-31 Vodafone Holding GmbH Method and Device for automatic recognition of given keywords and/or terms within voice data
CN104951433B (zh) * 2015-06-24 2018-01-23 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统
CN106951468B (zh) * 2017-03-02 2018-12-28 腾讯科技(深圳)有限公司 对话生成方法及装置
US10593423B2 (en) * 2017-12-28 2020-03-17 International Business Machines Corporation Classifying medically relevant phrases from a patient's electronic medical records into relevant categories
US11169668B2 (en) * 2018-05-16 2021-11-09 Google Llc Selecting an input mode for a virtual assistant
CN109002477B (zh) * 2018-06-19 2022-04-12 深圳市元征科技股份有限公司 信息处理方法、装置、终端及介质
JP2022047550A (ja) * 2019-01-23 2022-03-25 ソニーグループ株式会社 情報処理装置、及び情報処理方法
US11410649B2 (en) * 2019-10-31 2022-08-09 International Business Machines Corporation Voice commands to facilitate in-game communication
CN110808028B (zh) * 2019-11-22 2022-05-17 芋头科技(杭州)有限公司 嵌入式语音合成方法、装置以及控制器和介质
CN113377937A (zh) * 2021-06-22 2021-09-10 读书郎教育科技有限公司 一种即时生成英语对话训练的系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104962A (ja) * 1993-10-06 1995-04-21 Toshiba Corp 対話システム
JPH07175496A (ja) * 1993-12-18 1995-07-14 Ricoh Co Ltd 文生成装置
JPH09218770A (ja) * 1996-02-14 1997-08-19 Toshiba Corp 対話処理装置および対話処理方法
JPH10260976A (ja) * 1997-03-18 1998-09-29 Ricoh Co Ltd 音声対話方法
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
WO2000019307A1 (fr) * 1998-09-25 2000-04-06 Hitachi, Ltd. Procede et dispositif d'interaction de traitement
JP2003108376A (ja) * 2001-10-01 2003-04-11 Denso Corp 応答メッセージ生成装置、及び端末装置
JP2003140688A (ja) * 2001-11-07 2003-05-16 Matsushita Electric Ind Co Ltd 情報配信システムおよび情報配信方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5182709A (en) * 1986-03-31 1993-01-26 Wang Laboratories, Inc. System for parsing multidimensional and multidirectional text into encoded units and storing each encoded unit as a separate data structure
US5239617A (en) * 1990-01-05 1993-08-24 International Business Machines Corporation Method and apparatus providing an intelligent help explanation paradigm paralleling computer user activity
US5283737A (en) * 1990-09-21 1994-02-01 Prolab Software Inc. Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
US5864844A (en) * 1993-02-18 1999-01-26 Apple Computer, Inc. System and method for enhancing a user interface with a computer based training tool
US5623609A (en) * 1993-06-14 1997-04-22 Hal Trust, L.L.C. Computer system and computer-implemented process for phonology-based automatic speech recognition
JP3375449B2 (ja) 1995-02-27 2003-02-10 シャープ株式会社 統合認識対話装置
US5708822A (en) * 1995-05-31 1998-01-13 Oracle Corporation Methods and apparatus for thematic parsing of discourse
US6629087B1 (en) * 1999-03-18 2003-09-30 Nativeminds, Inc. Methods for creating and editing topics for virtual robots conversing in natural language
US20020032564A1 (en) * 2000-04-19 2002-03-14 Farzad Ehsani Phrase-based dialogue modeling with particular application to creating a recognition grammar for a voice-controlled user interface
US6513006B2 (en) * 1999-08-26 2003-01-28 Matsushita Electronic Industrial Co., Ltd. Automatic control of household activity using speech recognition and natural language
US6598018B1 (en) * 1999-12-15 2003-07-22 Matsushita Electric Industrial Co., Ltd. Method for natural dialog interface to car devices
US20020042707A1 (en) * 2000-06-19 2002-04-11 Gang Zhao Grammar-packaged parsing
US7398209B2 (en) * 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07104962A (ja) * 1993-10-06 1995-04-21 Toshiba Corp 対話システム
JPH07175496A (ja) * 1993-12-18 1995-07-14 Ricoh Co Ltd 文生成装置
JPH09218770A (ja) * 1996-02-14 1997-08-19 Toshiba Corp 対話処理装置および対話処理方法
JPH10260976A (ja) * 1997-03-18 1998-09-29 Ricoh Co Ltd 音声対話方法
JPH1124813A (ja) * 1997-07-03 1999-01-29 Fujitsu Ltd マルチモーダル入力統合システム
WO2000019307A1 (fr) * 1998-09-25 2000-04-06 Hitachi, Ltd. Procede et dispositif d'interaction de traitement
JP2003108376A (ja) * 2001-10-01 2003-04-11 Denso Corp 応答メッセージ生成装置、及び端末装置
JP2003140688A (ja) * 2001-11-07 2003-05-16 Matsushita Electric Ind Co Ltd 情報配信システムおよび情報配信方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011108083A (ja) * 2009-11-19 2011-06-02 Fujitsu Advanced Engineering Ltd 音声シナリオ生成プログラム及び音声シナリオ生成装置
JP2012099032A (ja) * 2010-11-05 2012-05-24 Oki Electric Ind Co Ltd 文生成装置及びプログラム
JP2016062550A (ja) * 2014-09-22 2016-04-25 ソフトバンク株式会社 会話処理システム及びプログラム
WO2017199486A1 (ja) * 2016-05-16 2017-11-23 ソニー株式会社 情報処理装置
JPWO2017199486A1 (ja) * 2016-05-16 2019-03-14 ソニー株式会社 情報処理装置
WO2020110744A1 (ja) * 2018-11-28 2020-06-04 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
US20050256717A1 (en) 2005-11-17
US7742924B2 (en) 2010-06-22

Similar Documents

Publication Publication Date Title
JP2005321730A (ja) 対話システム、対話システム実行方法、及びコンピュータプログラム
US10037758B2 (en) Device and method for understanding user intent
CN102549652B (zh) 信息检索装置
EP2956931B1 (en) Facilitating development of a spoken natural language interface
JP5142720B2 (ja) デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
JP4058071B2 (ja) 用例翻訳装置、用例翻訳方法および用例翻訳プログラム
JP5166661B2 (ja) 計画に基づくダイアログを実行する方法および装置
US5991719A (en) Semantic recognition system
US11016968B1 (en) Mutation architecture for contextual data aggregator
US20050071171A1 (en) Method and system for unified speech and graphic user interfaces
EP2455936A1 (en) Speech translation system, dictionary server device, and program
JPWO2007069762A1 (ja) 類似文検索方法、類似文検索システム及び類似文検索用プログラム
JPH06332493A (ja) 音声対話型情報検索装置及び方法
JP2013109061A (ja) 音声データ検索システムおよびそのためのプログラム
JPH07222248A (ja) 携帯型情報端末における音声情報の利用方式
JP2005043461A (ja) 音声認識方法及び音声認識装置
JP5396530B2 (ja) 音声認識装置および音声認識方法
JP5160594B2 (ja) 音声認識装置および音声認識方法
KR20120052591A (ko) 연속어 음성인식 시스템에서 오류수정 장치 및 방법
JP2003162293A (ja) 音声認識装置及び方法
JP5300576B2 (ja) 検索装置、検索方法、および検索プログラム
JP2017187797A (ja) テキスト生成装置、方法、及びプログラム
JP4537755B2 (ja) 音声対話システム
JP4012228B2 (ja) 情報入力方法、情報入力装置及び記憶媒体
US7054813B2 (en) Automatic generation of efficient grammar for heading selection

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060404

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090707

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110104

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110426