JP4401155B2

JP4401155B2 - ユーザとエージェント間の対話管理方法及び装置

Info

Publication number: JP4401155B2
Application number: JP2003413065A
Authority: JP
Inventors: 俊我朴; 暎晋洪; 在原李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2002-12-11
Filing date: 2003-12-11
Publication date: 2010-01-20
Anticipated expiration: 2023-12-11
Also published as: DE60334599D1; JP2004206704A; US20040122673A1; US7734468B2; KR20040050928A; EP1431960A1; EP1431960B1; KR100580619B1

Description

本発明は、音声対話システムに係り、特に音声情報、表情情報及び遅延時間情報を利用して、迅速かつ正確にユーザとエージェント間の対話順序を管理するための方法及び装置と、これを利用した音声対話システムに関する。

エージェントは、コンピュータ画面上でインターフェースの役割を行うソフトウェアエージェントと、人間や動物形態のヒューマノイド型の玩具やロボットまたはペット型玩具やロボットなどのハードウェアエージェントがある。このようなエージェントは搭載されたプログラムによりユーザと対話が可能である。対話形態としては、一般的に、エージェントの質問に対してユーザが応答したり、ユーザの質問に対してエージェントが応答したり、またユーザの命令をエージェントが行うような単調なものである。また、エージェントに搭載されたプログラムによって作られるシナリオにより対話内容が制限されるので、対話の自由度がかなり低くなり、ユーザとエージェント間の対話交換が不自由で、対話が不自然となる傾向がある。

このような対話の単調さと不自然さとを解消するため、タイマとカウンタとにより計測される認識待ち時間、すなわちエージェントから音声が発せられた後、ユーザがこの発話した音声を認識するのにかかる時間を基準にして、ユーザとエージェント間の対話を展開する技術が知られている（特許文献１参照）。しかし、このような対話装置は、ユーザが音声を発することなく認識待ち時間が経過した後にのみ作動するので、ユーザとエージェント間の対話交換が速やかに行われず、その結果対話の展開が遅延され、ユーザがもどかしさを感じるという問題点がある。
特開２００２−１９６７８９号公報

よって、本発明が解決しようとする技術的課題は、ユーザの音声情報、表情情報及び遅延時間情報のようなマルチモダル（ｍｕｌｔｉ-ｍｏｄａｌ）情報を利用し、迅速かつ正確にユーザとエージェント間の対話順序を管理するための方法及び装置を提供することである。
本発明が解決しようとする他の技術的課題は、前記対話順序管理装置を適用した音声対話システムを提供することである。

前記技術的課題を解決する本発明によるユーザとエージェント間の対話順序管理方法は、音声対話システムにおいて、（ａ）ユーザが発話した音声から分析された対話情報を利用して第１対話順序情報を生成するステップと、（ｂ）ユーザの顔映像から分析された表情情報を利用して第２対話順序情報を生成するステップと、（ｃ）前記第１対話順序情報、前記第２対話順序情報、システムの状態情報、ユーザの音声入力の有無及びユーザの無応答時間を利用して、最終的な対話順序を決定するステップとを含む。

前記技術的課題を解決する本発明によるユーザとエージェント間の対話順序管理装置は、音声対話システムにおいて、ユーザが発話した音声から分析された対話情報を利用して第１対話順序情報を生成する対話分析部と、ユーザの顔映像から分析された表情情報を利用して第２対話順序情報を生成する表情分析部と、所定の加重値情報を利用して、前記対話分析部で生成された前記第１対話順序情報と前記表情分析部で生成された前記第２対話順序情報のうち１つを選択する対話順序判定部と、前記対話順序判定部で選択された対話順序情報、システムの状態情報、ユーザの音声入力の有無及びユーザの無応答時間を利用して最終的な対話順序を決定する、前記システムとユーザ間の対話を制御する対話制御部とを含む。

前記他の技術的課題を解決する本発明による音声対話システムは、マイクを介して入力されるユーザの発話音声を所定レベルに増幅させる音声入力部と、前記音声入力部からの音声信号を認識して文字列信号を出力する音声認識部と、カメラにより撮影されたユーザの顔映像を入力する映像入力部と、ユーザの無応答時間を所定時間計数するタイマと、前記音声認識部の文字列信号から分析された対話情報を利用して第１対話順序情報を生成し、前記映像入力部の顔映像から分析された表情情報を利用して第２対話順序情報を生成し、前記第１対話順序情報、前記第２対話順序情報、システムの状態情報、前記音声入力部の出力信号及び前記タイマの出力信号を利用して、最終的な対話順序を決定する対話管理部と、前記対話管理部の制御により、対話モデルデータベースを参照して前記音声認識部の文字列信号に対応する応答文を生成する応答文生成部とを含む。

本発明によれば、音声対話システムにおいてユーザの音声情報、表情情報及び遅延時間情報のようなマルチモダル情報を利用し、迅速かつ正確にユーザとエージェント間の対話順序を管理することにより、より自然に対話を展開できるので、ユーザの興味を誘発することが可能となる。

次に、添付された図面を参照して本発明の望ましい実施例について詳細に説明する。
図１は本発明による音声対話システムの一実施例の構成を示したブロック図であり、マイク１１１、音声入力部１１２、音声認識部１１３、カメラ１１４、映像入力部１１５、タイマ１１６、対話管理部１１７、対話モデルデータベース１１８及び応答生成部１１９からなる。また、対話管理部１１７は、対話分析部１２１、表情分析部１２２、対話順序判定部１２３及び対話制御部１２４からなる。

図１に示すように、マイク１１１はユーザが発した音声を検出し、検出された音声信号を音声入力部１１２に送る。音声入力部１１２は、入力された音声信号を所望のレベルに増幅させて、音声認識部１１３に送る。

音声認識部１１３は、音声入力部１１２から出力される音声信号の特徴パラメータを抽出し、抽出された特徴パラメータのベクトルを、マッチングアルゴリズムを利用して、標準単語音声パターンとして認識辞書データベースに登録されている特徴パラメータのベクトルと比較する。マッチングアルゴリズムでは、例えば抽出された特徴パラメータのベクトルと標準単語音声パターンのベクトルとの距離をそれぞれ算出し、その総和を求める。求めた総和は、音声入力部１１２から提供される音声信号のパターンと標準単語音声パターンとの距離Ｘとする。次に、距離Ｘが最小である場合に最高スコア（例えば、１００）となるように正規化し、これを認識文字列の信頼度Ｙとする。そして、信頼度Ｙが最も高い標準単語音声パターンに対応する認識文字列と、信頼度Ｙとを認識結果として出力し、認識結果による文字列信号を対話管理部１１７の対話分析部１２１に提供する。

カメラ１１４は、ユーザの正面顔を含むように撮影し、該当する映像信号を映像入力部１１５に送る。映像入力部１１５では、入力される映像信号をフィルタリングして雑音を除去し、フィルタリングされた映像信号を対話管理部１１７の表情分析部１２２に送る。

タイマ１１６は、ユーザの音声を認識した結果に応じて、応答生成部１１９から応答文が発せられた時点からユーザが次の音声を発する時点までの無応答時間を設定するためのものである。無応答時間は、所定時間、例えば２０秒と設定される。

対話管理部１１７は、音声入力部１１２の出力信号、音声認識部１１３からの文字信号、映像入力部１１５からのユーザの顔映像信号、及びタイマ１１６の出力信号を入力として、システムの対話順序を、対話受け（ｔｕｒｎ−ｔａｋｅ）、待機（ｔｕｒｎ−ｗａｉｔ）、対話出し（ｔｕｒｎ−ｇｉｖｅ）のうちの１つと判定する。

対話モデルデータベース１１８は、話行（ｓｐｅｅｃｈａｃｔ）を基に対話が進行されうる状況をあらかじめ想定して記憶しておくものである。応答生成部１１９は、音声認識部１１３での音声認識結果及び対話管理部１１７で判定された対話順序により、対話モデルデータベース１１８を参照して応答文を決定し、決定された応答文に該当するテキストとジェスチャとを生成する。

図２は、図１に示す対話分析部１２１の細部的な構成を示したブロック図であり、辞書データベース２１１、形態素分析部２１２、キーワード抽出部２１３、文型パターンデータベース２１４、文型パターン検索部２１５、対話履歴データベース２１６、及び候補対話順序選択部２１７からなる。

図２に示すように、形態素分析部２１２は、辞書データベース２１１を参照して、音声認識部１１３からの文字列信号を実質形態素と形式形態素とに分析する。キーワード抽出部２１３は、形態素分析部２１２で分類された実質形態素と形式形態素とを基に、文型情報、様相（ｍｏｄａｌ）情報、談話標識情報、及び用言情報のようなキーワードを抽出する。ここで、文型情報は特定話行の実現時に使われる文章類型、例えば、断言文（ａｓｓｅｒｔ）、質疑文（ｙｎ−ｑｕｅｓｔ、ｗｈ−ｑｕｅｓｔ）、命令文（ｉｍｐｅｒａｔｉｖｅ）などを意味する。様相情報は「したい」（ｗａｎｔ）、「して」（ｒｅｑｕｅｓｔ）、「できる」（ｐｏｓｓｉｂｌｅ）のような述語を意味し、談話標識情報は「ところが」、「それで」、「それでは」のような接続詞を意味する。用言情報は一般動詞（ｐｖｇ）、性状形容詞（ｐａａ）、指示形容詞（ｐａｄ）などがある。

文型パターンデータベース２１４は、文型情報、様相情報、談話標識情報による話行情報及び対話順序を統計的または実験的にデータベース化したものであり、その一例を次の表１に示す。

文型パターン検索部２１５は、キーワード抽出部２１３で抽出されたキーワード、すなわち文型情報、様相情報及び談話標識情報を基に、文型パターンデータベース２１４から該当する（話行情報、対話順序）組み合わせを抽出する。この場合、表１に示すように、文型情報と様相情報が同一であっても様々な話行が存在することが分かる。例えば、文型情報が断言文であって、様相情報が「したい」に該当する場合、話行が行為要求（ｒｅｑｕｅｓｔ−ａｃｔ）、情報提供（ｉｎｆｏｒｍ）、応答（ｒｅｓｐｏｎｓｅ）のうちの１つに該当し、これにより対話順序がそれぞれ対話受け、待機、待機となる。従って、文型パターン検索部２１５では少なくとも１つ以上の（話行情報、対話順序）組み合わせが抽出されうる。

対話履歴データベース２１６は、過去の対話文章の話行情報をデータベース化したものであり、最新の対話文章から参照できるスタック構造を有する。その理由は、状況に応じて１つの文型パターンが他の話行を意味する場合には、過去の対話文章の内容が重要なヒントとなるからである。

候補対話順序選択部２１７は、文型パターン検索部２１５から抽出された少なくとも１つ以上の（話行情報、対話順序）組み合わせに対して、対話履歴データベース２１６を参照して現在認識された音声に該当する（話行情報、対話順序）組み合わせを決定する。すなわち、文型パターン検索部２１５から１つの（話行情報、対話順序）組み合わせが抽出される場合には、対話履歴データベース２１６を参照する必要がないが、２つ以上の（話行情報、対話順序）組み合わせが抽出される場合には、対話履歴データベース２１６を参照し、直前の文章の話行情報に対応する（話行情報、対話順序）組み合わせを決定する。候補対話順序選択部２１７は、決定された（話行情報、対話順序）組み合わせから対話順序情報、すなわち対話受けまたは待機信号を抽出して、対話順序判定部１２３に出力する。

図３は、図１に示す表情分析部１２２の細部的な構成を示したブロック図であり、映像正規化部３１１、顔パターンデータベース３１２、顔パターン検索部３１３、動き情報生成部３１４、表情パターンデータベース３１５、及び表情情報検索部３１６からなる。

図３を参照すれば、映像正規化部３１１は、映像入力部１１５からの映像信号に対して一定のサイズ、一定の色相及び一定の明るさを有するように正規化し、正規化された映像信号を顔パターン検索部３１３に出力する。

顔パターンデータベース３１２は、顔パターン認識に用いる特徴点についてのデータが保存されている。特徴点は、映像情報から顔情報を検出するのに使用される。すなわち、顔パターンデータベース３１２には、顔パターンに関わる特徴点データと、特に顔パターンのうちでも目、眉毛、まぶたパターンについて学習過程を通じて生成された特徴点データとが保存されている。

顔パターン検索部３１３は、顔パターン情報が損失しないように、映像正規化部３１１で正規化された映像信号から特徴ベクトルを抽出する。顔パターン認識のための特徴点抽出技術としては、ＰＣＡ（ＰｒｉｎｃｉｐｌｅＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）、ＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）、ウェーブレットカーバフィルタリング（ＷａｖｅｌｅｔＧａｂｏｒｆｉｌｔｅｒｉｎｇ）等の様々な方法が適用できる。正規化された映像信号から抽出された特徴ベクトルと事前に学習して顔パターンデータベース３１２に貯蔵しておいた特徴点データとを利用して映像信号に顔パターンがあるか否かを判定し、顔パターンがある場合には、その顔パターン内の目、眉毛、まぶたパターンを検索し、各パターンの特徴点の位置情報を得る。ここで、顔パターン検索部３１３では、顔パターン認識のために線形分類器だけでなはく、神経回路網やＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）のような非線形型分類器も適用できる。

動き情報生成部３１４は、顔パターン検索部３１３で検索された顔パターン、目、眉毛、まぶたパターンの特徴点の位置情報から時空間的な動きを検出して動き情報を生成する。この時、目を開けて正面を向いた基本顔パターンでの目、眉毛、まぶたパターンの各特徴点の位置情報と、顔パターン検索部３１３で検索された顔パターン、目、眉毛、まぶたパターンの各特徴点の位置情報とを比較して、所定時間の変位情報により各部分の動き情報を生成する。

表情パターンデータベース３１５は、現在の発話者、表情パターン及び対話順序を統計的または実験的にデータベース化したものであり、その一例は次の表２の通りである。

例えば、まず目パターンの各特徴点の変位情報が「０」に近ければ、動きなしに目が正面、すなわちエージェント側を向いて見ていると判断して、表情パターンをアイコンタクト（「ｃｏｎｔａｃｔｅｙｅ−ｅｙｅ」）に設定する。表情パターンは、顔、目、眉毛、まぶたパターンの特徴点のうち一定部分の変位情報により、まばたき（「ｂｌｉｎｋｅｙｅ」）、うなずき（「ｎｏｄｄｉｎｇ」）、眉毛を上げた状態（「ｒａｉｓｅｅｙｅｂｒｏｗ」）、視線をそらした状態（「ｌｏｏｋａｗａｙ」）などと分類される。そして分類された各表情パターンについて、現在の発話者が誰であるかによって、最終対話順序を決定して表情パターンデータベース３１５に保存する。

表情情報検索部３１６は、動き情報生成部３１４から提供される動き情報、すなわち変位情報及び現発話者情報を利用して、表情パターンデータベース３１５を検索することにより、表情パターンによる対話順序を抽出する。表２に示すように、例えば、表情パターンがアイコンタクとで現発話者がユーザである場合、表情情報検索部３１６は対話順序をエージェント、すなわちシステムの対話受けと判断する。現発話者がシステムで、ユーザの表情パターンが視線をそらした状態である場合、表情情報検索部３１６は対話順序をユーザの対話受け、すなわちシステムの対話出しと判断する。また、現発話者がシステムで、ユーザが眉毛を上げた状態であれば、表情情報検索部３１６はシステムの待機と判断する。

図４は、図１に示す対話順序判定部１２３の細部的な構成を示したブロック図であり、組合わせ部４１１、加重値データベース４１２、及び加重値検索部４１３からなる。

図４に示すように、組合わせ部４１１は、対話分析部１２１からの対話順序情報と表情分析部１２２からの対話順序情報とを組み合わせ、加重値検索部４１３に出力する。一方、対話分析部１２１と表情分析部１２２から同じ対話順序情報を受けた場合、組合わせ部４１１は、直ちにその対話順序情報を対話制御部１２４に送る。

加重値データベース４１２は、前者の場合、すなわち、対話分析部１２１と表情分析部１２２から異なる対話順序情報が送られる場合に、異なる対話順序情報についてそれぞれ割り当てられる加重値を統計的及び実験的にデータベース化したものである。例えば、対話分析部１２１の対話順序情報が対話受けであり、表情分析部１２２の対話順序情報が待機からなる組み合わせである場合、対話分析部１２１の判定結果と表情分析部１２２の判定結果に、それぞれ０．７と０．３が割り当てられる。

加重値検索部４１３は、組合わせ部４１１からの対話順序情報の組み合わせに対応する加重値を加重値データベース４１２から検索し、加重値の高い対話順序情報を対話制御部１２４に送る。

図５は、図１に示す対話制御部１２４の動作を示すフローチャートである。対話制御部１２４は、システムの状態情報、音声入力部１１２の出力信号、タイマ１１６の出力信号と対話順序判定部１２３の対話順序情報とから最終的な対話順序を決定し、決定された対話順序により応答生成部１１９の動作を制御する。

図５を参照すると、ステップ５１１において、対話制御部１２４が現在のシステム状態を判定する。判定の結果、システムが発話中ならばステップ５１２に移行し、システムが発話中でなければステップ５１７に移行する。

ステップ５１２では、音声入力部１１２から供給されるユーザの音声信号が存在しているか否かを判定し、音声信号が存在する場合には、対話制御部１２４はユーザとシステムが同時に発話していると判定し、システムの発話を中止させる（ステップ５１３）。一方、ステップ５１２における判定の結果、音声入力部１１２から供給される音声信号が存在しない場合には、現在システムが発話している応答文の残量が所定時間、例えば５秒以内に終了するか、すなわち５秒以内にシステムが応答文の発話を完了できるか否かを判定する（ステップ５１４）。ステップ５１４における判定の結果、応答文の残量が５秒以上である場合にはステップ５１２に戻り、引き続き音声入力部１１２からの出力信号をモニタリングする。

ステップ５１５においては、ステップ５１４での判定の結果、応答文の残量が５秒以内である場合、対話順序判定部１２３からの対話順序情報を参照し、対話順序情報が対話出し及び／または待機に該当すれば、システムの発話を中止させる（ステップ５１３）。一方、ステップ５１５において、対話順序判定部１２３からの対話順序情報が対話受けである場合には、システムの発話を続ける（ステップ５１６）。

ステップ５１７では、ステップ５１１での判定の結果、システムが発話中でない場合、タイマ１１６の出力信号と音声入力部１１２の出力信号とをモニタリングし、システムが応答文を発話した時点から計数したユーザの無応答時間が一定時間、例えば２０秒を経過しているか否かを判定する。ステップ５１７での判定の結果、無応答時間が２０秒を経過した場合、システムが発話を開始するように制御し、無応答時間が２０秒を経過していない場合、ステップ５１５に移行する。

前述した本発明の実施例は、コンピュータで実行できるプログラムとして作成可能であり、コンピュータで読み取れる記録媒体を利用して前記プログラムを動作させる汎用デジタルコンピュータで実現することもできる。このような記録媒体は、例えばＲＯＭ、フロッピーディスク、ハードディスクのような磁気的貯蔵媒体、例えばＣＤ−ＲＯＭ、ＤＶＤのような光学的判読媒体、例えばインターネットを介した伝送等の搬送波を含む。

本発明について、上述した実施例を参照して詳述したが、本発明はこのような実施例に限定されるものではなく、当業者であれば、特許請求の範囲に記載された発明に基づいて様々に変形又は変更することが可能である。

本発明のユーザとエージェント間の対話管理方法及び装置は、人間や動物形態のヒューマノイド型玩具やロボットまたはペット型玩具やロボットなどのハードウェアエージェントに搭載され、迅速かつ正確にユーザとエージェント間の対話順序を管理することができる。そして、より迅速で且つ自然な「人間−機械」間の対話システムの実現に、効果的に適用可能である。

本発明による音声対話システムの一実施例の構成を示したブロック図である。図１に示す対話分析部の細部構成を示したブロック図である。図１に示す表情分析部の細部構成を示したブロック図である。図１に示す対話順序判定部の細部構成を示したブロック図である。図１に示す対話制御部の動作を説明するためのフローチャートである。

符号の説明

１１１マイク
１１２音声入力部
１１３音声認識部
１１４カメラ
１１５映像入力部
１１６タイマ
１１７対話管理部
１１８対話生成部
１１９応答生成部
１２１対話分析部
１２２表情分析部
１２３対話順序判定部
１２４対話制御部

Claims

音声対話システムにおいて、
（ａ）ユーザが発話した音声から分析された対話情報を利用して第１対話順序情報を生成するステップと、
（ｂ）ユーザの顔映像から分析された表情情報を利用して第２対話順序情報を生成するステップと、
（ｃ）前記第１対話順序情報と前記第２対話順序情報のうち、１つを選択し、選択された対話順序情報、システムの状態情報、ユーザの音声入力の有無及びユーザの無応答時間を利用して、最終的な対話順序を決定するステップと、を含み、
前記第１対話順序情報と前記第２対話順序情報とが互いに異なる場合、前記第１対話順序情報と前記第２対話順序情報とを組合わせ、対話順序情報の組合わせ別に前記第１及び第２対話順序情報に各々加重値が割当てられて既に保存されているデータベースを検索し、検索された前記対話順序情報の組合わせからさらに高い加重値が割当てられた対話順序情報を選択するユーザとエージェント間の対話順序管理方法。
前記（ａ）ステップは、
（ａ１）ユーザが発話した音声を認識して形態素を分析するステップと、
（ａ２）分析された形態素を利用して文型情報、様相情報及び談話標識情報を抽出するステップと、
（ａ３）抽出された文型情報、様相情報及び談話標識情報を利用して、前記第１対話順序情報を生成するステップと、を含む請求項１に記載のユーザとエージェント間の対話順序管理方法。
前記（ａ）ステップは、
（ａ４）前記抽出された文型情報、様相情報及び談話標識情報に対応する対話順序情報が少なくとも１つ以上存在する場合、直前の対話履歴を参照して前記第１対話順序情報を生成するステップをさらに含む請求項２に記載のユーザとエージェント間の対話順序管理方法。
前記（ｂ）ステップは、
（ｂ１）ユーザの顔映像から顔パターン、目パターン、眉毛パターン及びまぶたパターン情報を得るステップと、
（ｂ２）前記（ｂ１）ステップで得られた顔パターン、目パターン、眉毛パターン及びまぶたパターン情報と基準パターン情報とを比較して、ユーザの動き情報を生成するステップと、
（ｂ３）前記（ｂ２）ステップで生成されたユーザの動き情報を利用して、前記第２対話順序情報を生成するステップと、を含む請求項１に記載のユーザとエージェント間の対話順序管理方法。
前記（ｃ）ステップは、
（ｃ１）所定の加重値情報を利用して、前記第１対話順序情報と前記第２対話順序情報のうち１つを選択するステップと、
（ｃ２）前記システムの状態情報から前記システムが発話中であるか否かを判定するステップと、
（ｃ３）前記システムが発話中であると判定すると、ユーザの音声入力の有無及び前記（ｃ１）ステップで選択された対話順序情報により、最終的な対話順序を決定するステップと、
（ｃ４）前記システムが発話中でないと判定すると、前記ユーザの無応答時間または前記（ｃ１）ステップで選択された対話順序情報により最終的な対話順序を決定するステップと、を含む請求項１に記載のユーザとエージェント間の対話順序管理方法。
前記（ｃ３）ステップは、
（ｃ３１）ユーザの音声が現在入力されているか否かを判定するステップと、
（ｃ３２）前記（ｃ３１）ステップでの判定の結果、ユーザの音声が現在入力されている場合、前記システムの発話を中止させるステップと、
（ｃ３３）前記（ｃ３１）ステップでの判定の結果、ユーザの音声が現在入力されていない場合、前記（ｃ１）ステップで選択された対話順序情報により前記システムを発話中止、発話保持及び発話開始のうちの１つに制御するステップと、を含む請求項５に記載のユーザとエージェント間の対話順序管理方法。
前記（ｃ３３）ステップは、ユーザの音声が現在入力されていないと判定すると、現在システムによって発話中である応答文の残量を確認し、その残量が所定時間内に完了する分量であれば、前記（ｃ１）ステップで選択された対話順序情報を判定する請求項６に記載のユーザとエージェント間の対話順序管理方法。
前記（ｃ４）ステップは、
（ｃ４１）前記ユーザの無応答時間が一定時間を経過しているか否かを判定するステップと、
（ｃ４２）前記（ｃ４１）ステップでの判定の結果、無応答時間が一定時間を経過した場合、前記システムを発話開始として制御するステップと、
（ｃ４３）前記（ｃ４１）ステップでの判定の結果、無応答時間が一定時間を経過していない場合、前記（ｃ１）ステップで選択された対話順序情報により前記システムを発話中止、発話保持及び発話開始のうちの１つに制御するステップと、を含む請求項５に記載のユーザとエージェント間の対話順序管理方法。
請求項１乃至請求項８のいずれか１項に記載の方法をコンピュータで実行させるプログラムを記録したコンピュータ読取り可能な記録媒体。
音声対話システムにおいて、
ユーザが発話した音声から分析された対話情報を利用して、第１対話順序情報を生成する対話分析部と、
ユーザの顔映像から分析された表情情報を利用して、第２対話順序情報を生成する表情分析部と、
前記対話分析部で生成された前記第１対話順序情報と前記表情分析部で生成された前記第２対話順序情報のうち、いずれか１つを選択する対話順序判定部と、
前記対話順序判定部で選択された対話順序情報、システムの状態情報、ユーザの音声入力の有無及びユーザの無応答時間を利用して最終的な対話順序を決定する、前記システムとユーザ間の対話を制御する対話制御部と、を含み、
前記対話順序判定部は、前記第１対話順序情報と前記第２対話順序情報とが互いに異なる場合、前記第１対話順序情報と前記第２対話順序情報とを組合わせ、対話順序情報の組合わせ別に前記第１及び第２対話順序情報に各々加重値が割当てられて既に保存されているデータベースを検索し、検索された前記対話順序情報の組合わせからさらに高い加重値が割当てられた対話順序情報を選択するユーザとエージェント間の対話順序管理装置。
前記対話分析部は、
認識されたユーザの発話音声から形態素を分析する形態素分析部と、
前記形態素分析部で分析された形態素を利用して、文型情報、様相情報及び談話標識情報を抽出するキーワード抽出部と、
文型情報、様相情報及び談話標識情報による話行情報及び対話順序をデータベース化した文型パターンデータベースと、
前記文型情報、様相情報及び談話標識情報を利用して、前記文型パターンデータベースを検索し、前記第１対話順序情報を生成する文型パターン検索部と、を含む請求項１０に記載のユーザとエージェント間の対話順序管理装置。
前記対話分析部は、
直前の対話文章の話行情報をデータベース化した対話履歴データベースと、
前記文型パターン検索部での検索の結果、前記文型パターンデータベースから少なくとも１つ以上の対話順序情報が検索されると、前記対話履歴データベースを参照して、前記第１対話順序情報を選択する候補対話順序選択部と、をさらに含む請求項１１に記載のユーザとエージェント間の対話順序管理装置。
前記表情分析部は、
ユーザの顔映像を一定のサイズと色相に正規化する映像正規化部と、
顔パターン、目パターン、眉毛パターン及びまぶたパターンの認識のための特徴点に対してデータが保存される顔パターンデータベースと、
前記顔パターンデータベースを検索し、前記正規化された顔映像に対する顔パターン、目パターン、眉毛パターン及びまぶたパターンの位置情報を得る顔パターン検索部と、
前記顔パターン検索部で得られた位置情報を基準パターンと比較して、動き情報を生成する動き情報生成部と、
決定された動き情報と現発話者の対話順序に対応する表情パターン情報をデータベース化した表情パターンデータベースと、
前記動き情報を利用して、前記表情パターンデータベースを検索し、前記第２対話順序情報を生成する表情パターン検索部と、を含む請求項１０に記載のユーザとエージェント間の対話順序管理装置。
前記対話制御部は、
前記システムの状態情報から、前記システムが発話中状態であるか否かを判定し、
前記システムが発話中であると判定すると、ユーザの音声入力の有無及び前記対話順序判定部で選択された対話順序情報により、最終的な対話順序を決定し、
前記システムが発話中でないと判定すると、前記ユーザの無応答時間及び前記対話順序判定部で選択された対話順序情報により、最終的な対話順序を決定することを特徴とする請求項１０に記載のユーザとエージェント間の対話順序管理装置。
マイクを介して入力されるユーザの発話音声を所定レベルに増幅させる音声入力部と、
前記音声入力部からの音声信号を認識して、文字列信号を出力する音声認識部と、
カメラにより撮影されたユーザの顔映像を入力する映像入力部と、
ユーザの無応答時間を所定時間計数するタイマと、
前記音声認識部の文字列信号から分析された対話情報を利用して、第１対話順序情報を生成し、前記映像入力部の顔映像から分析された表情情報を利用して、第２対話順序情報を生成し、前記第１対話順序情報と前記第２対話順序情報のうち、１つを選択し、選択された対話順序情報、システムの状態情報、前記音声入力部の出力信号及び前記タイマの出力信号を利用して、最終的な対話順序を決定する対話管理部と、
前記対話管理部の制御により、対話モデルデータベースを参照して前記音声認識部の文字列信号に対応する応答文を生成する応答文生成部と、を含み、
前記対話管理部は、第１対話順序情報と前記第２対話順序情報とが互いに異なる場合、前記第１対話順序情報と前記第２対話順序情報とを組合わせ、対話順序情報の組合わせ別に前記第１及び第２対話順序情報に各々加重値が割当てられて既に保存されているデータベースを検索し、検索された前記対話順序情報の組合わせからさらに高い加重値が割当てられた対話順序情報を選択する音声対話システム。