JP4509039B2

JP4509039B2 - 音声対話インターフェース装置及び方法

Info

Publication number: JP4509039B2
Application number: JP2006025544A
Authority: JP
Inventors: 炳 ▲クヮン▼ 郭; 在原李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2005-02-15
Filing date: 2006-02-02
Publication date: 2010-07-21
Anticipated expiration: 2026-02-02
Also published as: US20060184370A1; US7725322B2; JP2006227611A; KR20060091469A; KR100679043B1

Description

本発明は、音声対話インターフェースに係り、より詳細には、音声対話システムにおいて、従来のフレーム基盤モデルとプラン基盤モデルとの長所を利用することによって、多様な対話現象に対する処理が可能な対話モデルを提示し、それを通じてドメイン間の移動性及びサービスの拡張性にも能動的に対処できる音声対話インターフェース装置及び方法に関する。

図１は、従来の音声対話インターフェース装置の動作を示すブロック図であり、まず、ユーザの発話から音声認識を行う（１１０）。次いで、認識された音声を分析して、ユーザが話した言葉を解釈した後（１２０）、解釈された言葉を利用して対話処理を行う（１３０）。
例えば、解釈された言葉が特定機器を制御する制御命令である場合には、該当する機器を制御する動作を行うようにする（１５０）。このような動作を、以下では’サービス実行’と称する。

サービス実行には、特定機器を制御すること以外にもユーザの音声による要請によって情報検索を行うことも含みうる。すなわち、サービス実行は、ユーザが音声を通じて要請する特定の動作を行うことを意味する。
一方、前記音声対話インターフェース装置が対話処理（１３０）を行うに当って、プラン管理（１４０）を行わせうるが、それは、特定のサービスを実行するために要求される一連の細部動作を管理及び計画することを意味する。すなわち、前記音声対話インターフェース装置は、対話処理を行うとき、プラン管理によって状況に合うサービスを順に実行するように構成できる。

音声対話インターフェース装置は、ユーザの音声を理解できなかった場合やサービス実行に対する結果を受信した場合には、その結果をユーザに知らせる必要がある。
したがって、既設定された音声対話モデルによってユーザに応答する言葉を発生し（１６０）、発生した言葉を所定のディスプレイ装置を通じてユーザに知らせるか（１８０）、あるいは、前記応答する言葉を音声に変換する音声合成過程（１７０）を経て、スピーカを通じてユーザに知らせる。

図１に示すような方法は、ユーザの音声を認識し、認識された音声を解釈して特定の機能を行った後、その結果を再びユーザに音声で知らせる音声対話インターフェース装置に一般的に使われている方法である。ただし、解釈された言葉をいかなる方法で処理するかについての対話処理（１３０）については、多様な音声対話モデルが提示されており、図２〜図５では、このような音声対話モデルのうち、代表的な４つのモデルについて例示している。

図２は、パターンマッチング方法による従来の音声対話モデルを示す例示図である。
まず、ユーザの音声から複数のキーワードを抽出し（２１０）、抽出されたキーワードリスト及び対話スクリプトＤＢ２２０に保存された対話パターン情報を利用して、パターンマッチング動作を行う（２３０）。マッチングするパターンが存在している場合には、該当する対話スクリプトを選択し、選択された対話スクリプトにあるテンプレートを利用して応答を生成する（２４０）。次いで、音声対話インターフェース装置は、生成された応答をユーザに伝達する。

パターンマッチング方式による音声対話モデルについては、特許文献１に開示されている。
図３は、有限状態モデルによる従来の音声対話モデルの一例を示す模式図である。
有限状態モデルにおいて、それぞれの状態で、音声対話インターフェース装置はユーザに質疑し、この質疑に対するユーザからの応答を解釈する。このとき、それぞれの状態において、音声対話インターフェイス装置は、それより以前の状態を認識した状態で処理を実行する。例えば、図３に図示された状態−４段階では、状態−１及び状態−２の結果を認識した状態でユーザとの対話が行われる。

有限状態モデルでの対話は、主に音声対話インターフェース装置により主導されるが、このような例として、自動応答システム（ＡＲＳ）がある。有限状態モデルによる音声対話モデルについては、特許文献２に開示されている。
図４は、フレーム基盤モデルによる従来の音声対話モデルを示す例示図である。
フレーム基盤モデルは、図４で図示したテーブル形態のフレーム４００に基づいて音声対話を行う。

このとき、フレーム４００は、音声対話インターフェース装置がユーザの言葉を認識するときに必要なパラメータフィールド４１０と、パラメータフィールド４１０にセットされた値によってユーザに応答する内容が設定された応答フィールド４２０とを含む。
例えば、図４では、飛行機予約のためのフレーム基盤音声対話インターフェース装置におけるフレーム構造を示している。

パラメータフィールド４１０には、それぞれ出発地、出発時間、到着地、飛行機Ｎｏ．、現在予約状態を表すフィールドを含んでおり、例えば、音声対話インターフェース装置は、ユーザの音声から出発地、出発時間に関する情報のみ認識した場合に、その応答としてユーザに到着地がどこであるかを質問する。さらに他の実施形態として、音声対話インターフェース装置は、ユーザの音声から出発地、出発時間、到着地に関する情報を認識したケースに該当する飛行機Ｎｏ．及び予約状態を、飛行機予約状況に関するＤＢを検索してユーザに知らせる。

フレーム基盤モデルによる音声対話モデルについては、特許文献３に開示されている。
図５は、プラン基盤モデルによる従来の音声対話モデルを示す例示図である。
プラン基盤モデルでは階層的なツリー構造を利用するが、この階層的なツリー構造では、ユーザの最終的な目的が最上位階層に位置し、その目的を達成するために必要な要素が下位階層に位置する。

図５では、列車旅行に関するツリー構造を例としているが、例えば、列車旅行のための列車選択、列車票購入、搭乗時間及び搭乗口に関する情報が下位階層に位置しており、ユーザが列車旅行に関するサービス要請を行う時、プラン基盤音声対話インターフェース装置は、図５に図示したツリー構造によってユーザに応答する。
プラン基盤モデルによる音声対話モデルについては、特許文献４に開示されている。前記のような音声対話インターフェースを行うための音声対話モデルのうち、図２に図示したパターンマッチングによる音声対話モデルは対話知識を構築しやすい一方、単純なパターンマッチングのみを行うために多様な対話処理が難しいという問題点がある。また、図５に図示したプラン基盤による音声対話モデルは多様な対話処理が可能な一方、多様な対話のためのぼう大な対話知識が構築されねばならないという問題点がある。そして、このように構築された対話知識の維持補修も容易でないという問題点がある。

したがって、多様な対話処理が可能であり、しかも対話知識の構築が容易な音声対話モデルが必要である。
米国特許第６，６０４，０９０号明細書米国特許第６，３５６，８６９号明細書米国特許第６，０４４，３４７号明細書米国特許第６，７８６，６５１号明細書

本発明は、前記問題点に鑑みてなされたものであり、本発明は、ドメインアクションフレームを利用してツリー構造の対話知識を構築し、バックオフ方式を利用して応答生成を行うことにより、対話知識の構築が容易であり、かつ多様な対話処理が可能な音声対話インターフェース装置及び方法を提供するところに目的がある。
本発明の目的は、以上で言及した目的に制限されず、言及されていない他の目的は下の記載から当業者に明確に理解されうる。

前記目的を達成するために、本発明の実施形態による音声対話インターフェース装置は、サウンド信号から人間の音声を認識する音声認識モジュールと、前記認識された音声から文章を抽出してユーザの意図を解釈するユーザ意図解釈モジュールと、前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するユーザ意図選択モジュールと、前記選択されたユーザの意図に対応するシステム応答文章を生成するシステム応答生成モジュールとを含み、前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含むとともに階層化されたツリー構造を持つように構成される。

また、前記目的を達成するために、本発明の実施形態による音声対話インターフェース方法は、サウンド信号から人間の音声を認識するステップと、前記認識された音声から文章を抽出してユーザの意図を解釈するステップと、前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するステップと、前記選択されたユーザの意図に対応するシステム応答文章を生成するステップとを含み、前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含むとともに、階層化されたツリー構造を維持するように構成される。

その他の実施例の具体的な事項は詳細な説明及び図面に含まれている。

本発明の実施によって、ドメイン間の移動性及び拡張性を向上させ、ユーザと音声対話インターフェース装置との間に多様な対話現象を処理できる。

本発明の利点及び特徴、そしてこれを達成する方法は添付された図面に基づいて詳細に後述されている実施例を参照すれば明確になる。しかし、本発明は以下で開示される実施例に限定されるものではなく、この実施例から外れて多様な形に具現でき、本明細書で説明する実施例は本発明の開示を完全にし、本発明が属する技術分野における当業者に発明の範ちゅうを完全に示すために提供されるものであり、本発明は請求項及び発明の詳細な説明により定義されるだけである。一方、明細書全体に亙って同一の参照符号は同一の構成要素を示す。

以下、添付した図面を参照して本発明の望ましい実施形態について詳細に説明する。ここで図示したフローチャートの各ブロックとフロ−チャートの組合わせは、コンピュータプログラムインストラクションにより実行可能であることを示す。これらコンピュータプログラムインストラクションは、汎用コンピュータ、特殊コンピュータまたはその他のプログラマブルデータプロセッシング装備のプロセッサーに搭載されうるので、コンピュータまたはその他のプログラマブルデータプロセッシング装備のプロセッサーを通じて実行されるそのインストラクションが、フローチャートのブロックで説明された機能を行う手段を生成するように構成することができる。これらコンピュータプログラムインストラクションは、特定方式で機能を具現するために、コンピュータまたはその他のプログラマブルデータプロセッシング装備を指向できるコンピュータ利用可能またはコンピュータ判読可能メモリに保存されることも可能なので、そのコンピュータ利用可能またはコンピュータ判読可能メモリに保存されたインストラクションは、フローチャートのブロックで説明された機能を行うインストラクション手段を内包する製造品目を生産することも可能である。コンピュータプログラムインストラクションは、コンピュータまたはその他のプログラム可能なデータプロセッシング装備上に搭載することも可能なので、コンピュータまたはその他のプログラマブルデータプロセッシング装備上で一連の動作段階が実行されてコンピュータで実行されるプロセスを生成し、コンピュータまたはその他のプログラマブルデータプロセッシング装備を行うインストラクションはフローチャートのブロックで説明された機能を実行するための段階を提供することも可能である。

また、各ブロックは特定の論理的機能を行うための１つ以上の実行可能なインストラクションを含むモジュール、セグメントまたはコードの一部とすることができる。また、いくつかの代替実行例では、本明細書で記載している以外の順で各ブロックの機能を処理することも可能である。例えば、連続して図示されている２つのブロックは、実質的に同時に行われてもよく、またはそのブロックが他のブロックの機能と逆順に実行されてもよい。

図６は、本発明の実施による音声対話インターフェース装置を示すブロック図である。
音声対話インターフェース装置６００は、音声認識モジュール６１０、言葉解釈モジュール６２０、対話管理モジュール６３０、プラン管理モジュール６５０、サービス実行モジュール６６０及び音声合成モジュール６７０を含む。
また、対話管理モジュール６３０は、ユーザ意図解釈モジュール６３２、文脈復元モジュール６３４、ユーザ意図選択モジュール６３６、システム意図選択モジュール６３８、システム応答生成モジュール６４０、対話モデル保存モジュール６４２、ドメインアクションフレーム保存モジュール６４４及びバックオフ応答モデル保存モジュール６４６を含む。

この時、’モジュール’は、ソフトウェアまたはＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）または注文型半導体（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ；ＡＳＩＣ）のような所定の役割を行うハードウェア構成要素を意味する。しかし、モジュールはソフトウェアまたはハードウェアに限定されるものではない。モジュールは、アドレッシング可能な保存媒体に存在すべく構成されても良く、１つまたはそれ以上のプロセッサーを実行させるように構成されても良い。したがって、一例としてモジュールは、ソフトウェア構成要素、客体指向ソフトウェア構成要素、クラス構成要素及びタスク構成要素のような構成要素と、プロセス、関数、属性、プロシージャ、サブルーチン、プログラムコードのセグメント、ドライバー、ファームウェア、マイクロコード、回路、データ、データベース、データ構造、テーブル、アレイ及び変数を含む。構成要素とモジュールから提供される機能は、より少数の構成要素及びモジュールで結合されるか、追加的な構成要素とモジュールにさらに分離されうる。

以下、前記モジュール間の動作を具体的に説明する。
まず、音声認識モジュール６１０は、サウンド信号からユーザの音声を認識する。このとき、音声認識モジュール６１０がユーザの音声を認識する方法は、従来の多様な音声認識アルゴリズムを利用できる。音声認識モジュール６１０により音声が認識されると、言葉解釈モジュール６２０は、認識された音声からテキスト文章を抽出し、抽出された文章からユーザが話した言葉を解釈する。このとき、同じ言葉でもユーザが話す状況により異なって解釈される。例えば、ユーザが単純に電源を消せという言葉を言う時、音声対話インターフェース装置はＴＶの電源を消せということなのか、オーディオの電源を消せということなのかが分からなくなる。したがって、言葉解釈モジュール６２０では、解釈可能なＮ個のセマンティック形式をユーザ意図解釈モジュール６３２に伝達し、ユーザ意図解釈モジュール６３２では、対話モデル保存モジュール６４２に保存された多様な形態の対話モデルを参照して、Ｎ個のセマンティック形式に対するユーザの対話意図を決定する。

一方、一般的に人間は縮めて話す習慣があるので、直前に話したことは繰り返さない傾向がある。したがって、文脈復元モジュール６３４は、このような特性を利用して以前にユーザが話した内容に関する履歴を管理し、それを参照してユーザが話した内容の文脈を復元する役割を行う。
ユーザ意図選択モジュール６３６は、最終的にＮ個のセマンティック形式からユーザの意図であると判断される１個のセマンティック形式を選択する。このとき、ユーザ意図選択モジュール６３６は、ドメインアクションフレーム保存モジュール６４４から選択されたセマンティック形式に該当するドメインアクションフレームを抽出して、システム意図選択モジュール６３８に伝達する。ここで、ドメインアクションフレーム保存モジュール６４４は、任意のドメインで提供するサービスを１つのノードとして把握し、各ノードが階層化されたツリー形態のデータ構造を持つように認識する。ここで’ドメイン’とは、例えば、音声対話インターフェース装置を利用して宅内にある家電機器を制御しようとする時、制御対象となるＴＶ、冷蔵庫、ＤＶＤプレーヤー、オーディオなどをそれぞれ１つのドメインとして取扱う。そして、それぞれのドメイン、例えば、ＴＶドメインでＴＶの電源をオンまたはオフにするか、チャンネルを変更するか、またはボリュームを調節することは、ＴＶドメインで提供される’サービス’または’ドメインアクション’と見なしうる。図７では、ノード−１（７１０）に対するドメインアクションフレーム７２０と、ノード−２（７３０）に対するドメインアクションフレーム７４０とを例示している。例えば、ノード−１（７１０）に対するドメインアクションフレーム７２０は、チャンネルを設定するサービスを表す’ドメインアクション’フィールドと、チャンネル設定サービスのために必要なパラメータフィールド（’パラメータ１’フィールド及び’パラメータ２’フィールド）とを含んでいる。

システム意図選択モジュール６３６は、ユーザ意図選択モジュール６３６から受信したドメインアクションフレームと、ユーザ音声から抽出したパラメータとを利用してシステムの意図を決定する。
図７で図示したドメインアクションフレーム７２０を例とすれば、ユーザがチャンネル設定のために、チャンネル設定しようとするデバイス及びチャンネル番号を話し、それを音声対話インターフェース装置６００が認識した場合には、システムの意図は’Ａｃｃｅｐｔ’となり、サービス実行モジュール６６０を動作させてデバイスのチャンネルを設定できる。サービス実行モジュール６６０がデバイスと直接連結されてチャンネルを設定するか、デバイスを制御する他のサーバを動作させてデバイスのチャンネルを設定することもできる。そして、’Ａｃｃｅｐｔ’に該当する応答内容をシステム応答生成モジュール６４０に伝達し、音声合成モジュール６７０は、’Ａｃｃｅｐｔ’に該当する応答内容を音声に変換してユーザに応答する。

もし、ユーザがチャンネル番号のみ話してチャンネルを設定しようとするデバイスの名称を言わない場合には、システム意図選択モジュール６３８はサービス実行モジュール６６０を動作させず、システム応答生成モジュール６４０に、ドメインアクションフレーム７２０に示すように’どのデバイスのチャンネルを調整しましょうか？’という文章を伝達し、音声合成モジュール６７０は、伝達された文章を音声に変換してユーザに応答する。

一方、プラン管理モジュール６５０は、ユーザの要請に基づく処理を行うために必要なドメインアクション等のリストを生成して管理するが、このとき、ドメインアクションフレーム保存モジュール６４４を参照する。ユーザの要請を満足させるために複数のドメインアクション、すなわち、サービスを行わねばならない場合には、システム意図選択モジュール６３８は、プラン管理モジュール６５０から順にドメインアクションを受信して、サービス実行モジュール６６０をして該当するドメインアクションを行わせる。

図６に図示した音声対話インターフェース装置の動作過程を要約すれば、図８に図示したフローチャートに従う。
すなわち、音声対話インターフェース装置６００がユーザから音声を認識し（Ｓ８１０）、認識された音声から文章または単語を抽出して言葉を解釈した後（Ｓ８２０）、ユーザの意図を選択する（Ｓ８３０）。

次いで、選択されたユーザの意図及びそれに該当するドメインアクションフレームを利用して、音声対話インターフェース装置６００がユーザにどの応答をすべきかを選択する（Ｓ８４０）。
もし、このとき、音声対話インターフェース装置６００が応答しようとする内容のうち一部パラメータが欠けている場合には、システム応答生成モジュール６４０は、バックオフ応答モデル保存モジュール６４６を利用して応答を発生させる（Ｓ８５０）。バックオフ応答モデルについては、図９で説明する。

まず、システム意図選択モジュール６３４は、ユーザ意図選択モジュール６３６から受信した情報にエラーが発生していないと判断すると、サービス実行モジュール６６０に、ユーザが要請したドメインアクション、すなわち、サービスを行わせ（Ｓ９２０）、音声対話インターフェース装置６００が応答する対話意図を決定する（Ｓ９３０）。
このとき、システム応答生成モジュール６４０は、応答する内容が図７に示すようなドメインアクションフレームに応答する内容のテンプレートが記述されているかどうかを検査して（Ｓ９５０）、もし、存在している場合には、該当する応答テンプレートを利用して応答を生成し（Ｓ９６０）、生成した応答を音声合成モジュール６７０に伝達する。しかし、もし、応答する内容のテンプレートが存在していない場合には、一般テンプレートを利用して応答を生成し（Ｓ９７０）、生成された応答を音声合成モジュール６７０に伝達する。このとき、システム応答生成モジュール６４０は、バックオフ応答モデル保存モジュール６４６を参照して一般テンプレートを得る。

一方、Ｓ９１０ステップでエラーが発生した場合には、ユーザが要請したドメインアクションを行えないので、システム意図選択モジュール６３８は、音声対話インターフェース装置６００が応答する対話意図を決定し、システム応答生成モジュール６４０は、一般テンプレートを利用して応答を生成する（Ｓ９７０）。
すなわち、バックオフ応答モデルは、音声対話インターフェース装置６００がユーザに対して応答する時、該当するドメインアクションフレームに応答テンプレートが存在していなくても、一般テンプレートを利用して応答を生成できるモデルを意味し、このようなモデルは、図７に図示された階層化されたツリー構造を利用して容易に行われうる。すなわち、それぞれのノードが上位階層へ行くほどさらに一般化された応答テンプレートを持つように設計することによって、例えば、任意のノードに対するドメインアクションフレームで応答テンプレートが存在していない場合、上位ノードに対するドメインアクションフレームから応答テンプレートを得ることができる。このようなツリー構造は、特定のドメインアクションに対するドメインアクションフレームの再使用性を高め、ユーザがさらに容易に対話知識を構築可能にする。

以上、本発明について詳細に記述したが、本発明が属する技術分野の当業者ならば、特許請求の範囲に定義された本発明の精神及び範囲を外れずに本発明を多様に変形または変更して実施できることは自明であり、よって本発明の実施例に係る単純な変更は本発明の技術を逸脱できない。

本発明は、音声対話インターフェース装置の関連技術分野に好適に用いられる。

従来の音声対話インターフェース装置の動作を示すブロック図である。パターンマッチング方法による従来の音声対話モデルを示す例示図である。有限状態モデルによる従来の音声対話モデルを示す例示図である。フレーム基盤モデルによる従来の音声対話モデルを示す例示図である。プラン基盤モデルによる従来の音声対話モデルを示す例示図である。本発明の実施による音声対話インターフェース装置のブロック図である。本発明の実施によるドメインアクションフレームの構造を示す例示図である。本発明の実施による音声対話インターフェース方法を示すフローチャートである。本発明の実施によるバックオフ過程を示すフローチャートである。

符号の説明

６００音声対話インターフェース装置
６１０音声認識モジュール
６２０言葉解釈モジュール
６３０対話管理モジュール
６３６ユーザ意図選択モジュール
６３８システム意図選択モジュール
６４０システム応答生成モジュール
６４４ドメインアクションフレーム保存モジュール
６４６バックオフ応答モデル保存モジュール
６５０プラン管理モジュール
６６０サービス実行モジュール
６７０音声合成モジュール

Claims

サウンド信号から人間の音声を認識する音声認識モジュールと、
前記認識された音声から文章を抽出してユーザの意図を解釈するユーザ意図解釈モジュールと、
前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するユーザ意図選択モジュールと、
前記選択されたユーザの意図に対応するシステム応答文章を生成するシステム応答生成モジュールと、
を含み、
前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含み、それぞれのドメインアクションフレームは、上位階層へ行くほどさらに一般化されるように階層化されたツリー構造で構成され、
前記システム応答文書は、前記ドメインアクションフレームに設定され、
該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する音声対話インターフェース装置。
前記システム応答生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成モジュールをさらに含む請求項１に記載の音声対話インターフェース装置。
前記ユーザ意図選択モジュールにより選択されたユーザの意図によるサービスを行い、その結果を伝達するシステム意図選択モジュールをさらに含み、前記システム応答生成モジュールは、前記システム意図選択モジュールにより伝達される結果に対応するシステム応答文章を生成する請求項１に記載の音声対話インターフェース装置。
前記システム応答文章は、前記ドメインアクションフレームに設定される請求項３に記載の音声対話インターフェース装置。
該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する請求項４に記載の音声対話インターフェース装置。
前記システム応答生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成モジュールをさらに含む請求項３に記載の音声対話インターフェース装置。
サウンド信号から人間の音声を認識するステップと、
前記認識された音声から文章を抽出してユーザの意図を解釈するステップと、
前記解釈されたユーザの意図及び所定のドメインアクションフレーム情報を利用してユーザの意図を選択するステップと、
前記選択されたユーザの意図に対応するシステム応答文章を生成するステップと、
を含み、
前記ドメインアクションフレームは、ユーザが要請したサービス情報及び前記サービスを行うためのパラメータ情報を含み、それぞれのドメインアクションフレームは、上位階層へ行くほどさらに一般化されるように階層化されたツリー構造で構成され、
前記システム応答文章は、前記ドメインアクションフレームに設定され、
該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答文章を生成ステップは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する音声対話インターフェース方法。
前記生成モジュールにより生成されたシステム応答文章を音声に変換してユーザに出力する音声合成段階をさらに含む請求項７に記載の音声対話インターフェース方法。
前記システム応答生成段階は前記選択されたユーザの意図によるサービスを行い、その結果を伝達する段階と、前記伝えられた結果に対応するシステム応答文章を生成する段階と、
をさらに備える請求項７に記載の音声対話インターフェース方法。
前記システム応答文章は、前記ドメインアクションフレームに設定される請求項９に記載の音声対話インターフェース方法。
該当するシステム応答文章が前記ドメインアクションフレームに存在していない場合、前記システム応答生成モジュールは、前記階層化されたツリー構造で上位階層に存在しているドメインアクションフレームを参照してシステム応答文章を生成する段階を備える請求項１０に記載の音声対話インターフェース方法。
前記生成されたシステム応答文章を音声に変換してユーザに出力する音声合成段階をさらに含む請求項９に記載の音声対話インターフェース方法。