JP3941299B2 - 音声対話装置 - Google Patents
音声対話装置 Download PDFInfo
- Publication number
- JP3941299B2 JP3941299B2 JP28931699A JP28931699A JP3941299B2 JP 3941299 B2 JP3941299 B2 JP 3941299B2 JP 28931699 A JP28931699 A JP 28931699A JP 28931699 A JP28931699 A JP 28931699A JP 3941299 B2 JP3941299 B2 JP 3941299B2
- Authority
- JP
- Japan
- Prior art keywords
- dialog state
- transition destination
- transition
- hypothesis
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【産業上の利用分野】
この発明は,自然言語によるマン・マシン・インタフェースに用いられる音声対話処理装置に関するものである。
【0002】
【従来の技術】
音声での対話により,利用者が必要とする情報を得るような音声対話装置の重要性が高まっている。このような音声対話装置においては,利用者の入力中に含まれるキーワードを高い精度で認識し,かつ必要な情報を利用者が効率的に得るための対話制御を行うことが重要である。
【0003】
従来,高い正解率でキーワードを認識するために,入力音声に含まれる複数のキーワード間の関連性を利用する方法が提案されている。例えば,図14は特開平7-92994号に示された認識候補抽出装置である。このように構成された従来の認識候補抽出装置においては,音声認識装置が,関連性を持った複数のキーワードを含んだ連続音声から複数のキーワードを認識し,認識尤度の高い順に各キーワードの認識結果を複数出力する。
【0004】
候補抽出処理装置が,音声認識装置から出力される認識結果から,予め定めたキーワード間の組合わせ情報を用いて,組合わせ情報と一致するキーワードの組のみを抽出して認識候補として出力し,関連性のないキーワードの組合わせを棄却することで認識候補の正解率が向上する。
【0005】
さらに,確定処理装置が,候補抽出処理装置から出力される認識候補を利用者に復唱確認することで確定し,復唱した認識候補が正しくないと判定された場合には,複数のキーワードのうち第1のキーワードを音声認識装置で認識し,この認識結果を確定処理装置で確定した後,第2のキーワード以降の認識では確定したキーワードと組合わせ可能なキーワードのみを認識候補として抽出するため認識候補の正解率が向上する。
【0006】
【発明が解決しようとする課題】
しかしながら,上記のような従来の候補抽出処理装置では,複数の発話に跨ったキーワード相互の関係は考慮しておらず,利用者との数回のやり取りによって得られる全入力項目の認識率を向上させ対話成功率を高めるためには,一発話毎に利用者へ確認を行い確定的に対話を進める必要があり,確認対話が多くなり利用者の利便性および対話の自然性を損なうという課題があった。
【0007】
この発明は,上述のような課題を解決するためになされたもので,一つの発話毎に確定処理を行わずとも認識率を向上できる音声対話装置を得ることを目的とするものである。
【0008】
【課題を解決するための手段】
この発明に係る音声対話装置は,音声認識部と,対話手順記憶部と,遷移先対話状態確定動作決定部と,対話動作実行部とを備え,音声での対話により,利用者が必要とする情報を得る音声対話装置であって,
対話手順記憶部は,各対話状態における認識対象語彙,システム応答と,システム応答に想定される答え及びその答えに応じた遷移先対話状態を規定して記憶し,
音声認識部は,入力音声に対して,対話手順記憶部に記憶された各対話状態に応じた認識対象語彙を用いて音声認識を行って,複数の認識結果を出力し,
遷移先対話状態確定動作決定部は,前記音声認識部からの認識結果と対話手順記憶部の内容により遷移先対話状態を定め、その遷移先対話状態の仮説が予め定められた所定条件を満たす場合は一つに確定し、所定条件を満たさない場合は確定を保留する決定をすると共に遷移先対話状態仮説を出力し,
対話動作実行部は、仮説を一つに確定する場合、遷移先対話状態確定動作決定部からの遷移先対話状態仮説の認識結果を確認するシステム応答を出力し、確定を保留する場合は、遷移先対話状態仮説のシステム応答を出力するものである。
【0009】
また,この発明に係る音声対話装置は,対話状態遷移記憶部と,遷移先対話状態確定部と,暫定遷移先対話状態決定部とを付加し、
遷移先対話状態確定動作決定部は,音声認識部からの認識結果と対話状態遷移記憶部又は対話手順記憶部の内容とから定まる遷移先対話状態の仮説を一つに確定するか、確定を保留するかを決定し,遷移先対話状態仮説を出力し,
遷移先対話状態確定部は,遷移先対話状態確定動作決定部からの遷移先対話状態仮説を一つに確定する場合にその遷移先対話状態仮説を入力とし,利用者に認識結果を確認することにより遷移先対話状態を確定して出力するとともに,対話状態遷移記憶部に対し,記憶されている遷移先対話状態仮説をを書変え,
暫定遷移先対話状態決定部は,遷移先対話状態確定動作決定部からの遷移先対話状態仮説を保留する場合にその遷移先対話状態仮説を入力とし,暫定的な遷移先対話状態を決定して出力するとともに,対話状態遷移記憶部に対し遷移先対話状態仮説を書変え,
対話状態遷移記憶部は,対話開始時点からの対話状態遷移履歴と遷移先対話状態確定部又は,暫定遷移先対話状態決定部からの遷移先対話状態仮説を記憶し,
対話動作実行部は,前記遷移先対話状態確定部または暫定遷移先対話状態決定部からの遷移先対話状態を入力とし,該遷移先対話状態に規定されたシステム応答を出力するとともに,該遷移先対話状態に規定された認識対象語彙を前記音声認識部に出力し,
音声認識部は,入力音声に対して,対話動作実行部から入力される認識対象語彙を用いて音声認識を行い,複数の認識結果を出力するものである。
【0010】
また,この発明に係る音声対話装置は,音声認識部は,複数の認識結果とその認識結果のスコアを出力するように構成され、
遷移先対話状態確定動作決定部は,音声認識部からの入力された認識結果のスコアに応じて確定動作を行うか否かを決定するものである。
【0011】
また,この発明に係る音声対話装置は,対話手順記憶部に記憶された各対話状態には,他の対話状態から該対話状態へ状態遷移を行うために予め確定動作を行う必要があるか否かを記述し,遷移先対話状態確定動作決定部は,前記音声認識部から入力される認識結果と前記対話状態遷移記憶部の内容と前記対話手順とから定まる遷移先対話状態の仮説が,予め確定動作を行う必要があるものの場合に確定動作を行うと決定するものである。
【0012】
また,この発明に係る音声対話装置は,遷移先対話状態確定動作決定部は,利用者からの入力項目がすべて入力されていなくても,音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に確定動作を行うと決定するものである。
【0013】
また,この発明に係る音声対話装置は,遷移先対話状態確定動作決定部は,遷移先対話状態仮説に規定されたシステム応答に応じて確定動作を行うか否かを決定するものである。
【0014】
また,この発明に係る音声対話装置は,遷移先対話状態確定動作決定部は,遷移先対話状態仮説に共通のシステム応答が存在しない場合に確定動作を行うと決定し,遷移先対話状態仮説に共通のシステム応答が存在する場合には,共通のシステム発話を持つ遷移先対話状態仮説のみを遷移先対話状態仮説として出力するものである。
【0015】
また,この発明に係る音声対話装置は,対話手順記憶部に記憶された各対話状態には,複数のシステム応答を記述でき,対話動作実行部は,暫定遷移先対話状態決定部から遷移先対話状態が入力された場合,入力された遷移先対話状態に規定されたシステム応答のうち,前記対話状態遷移記憶部に記憶された遷移先対話状態仮説に規定されたシステム応答と共通のものを出力するものである。
【0016】
また,この発明に係る音声対話装置は,遷移先対話状態確定動作決定部は,遷移先対話状態仮説の全ての認識対象語彙を合計した語彙の規模が予め定めた基準より大きい場合に確定動作を行うと決定するものである。
【0017】
また,この発明に係る音声対話装置は,遷移先対話状態確定動作決定部は,前記対話状態遷移記憶部を参照して,確定した対話状態から遷移先対話状態仮説までの遷移系列の長さが予め定めた基準値以上の場合に確定動作を行うと決定するものである。
【0018】
【発明の実施の形態】
実施の形態1.
図1はこの発明の音声対話装置の実施の形態1の構成図を示すものである。
1は,入力音声に対して,後述する対話動作実行部から入力される認識対象語彙を用いて音声認識を行い,複数の認識結果および認識結果のスコアを出力する音声認識部,2は,各対話状態における認識対象語彙,システム応答,音声認識結果に応じた遷移先対話状態を規定した対話手順記憶部,3は,対話開始時点からの対話状態遷移履歴および遷移先対話状態仮説を記憶する対話状態遷移記憶部,4は,前記音声認識部からの認識結果を入力とし,該認識結果と前記対話状態遷移記憶部の内容と前記対話手順とから定まる遷移先対話状態の仮説を一つに確定するか否かを決定し,確定する場合には後述する遷移先対話状態確定部に遷移先対話状態仮説を出力し,確定を保留する場合には暫定遷移先対話状態決定部に遷移先対話状態仮説を出力する遷移先対話状態確定動作決定部である。
【0019】
5は,前記遷移先対話状態確定動作決定部からの遷移先対話状態仮説を入力とし,利用者へ認識結果を確認することにより遷移先対話状態を確定して出力するとともに,前記対話状態遷移記憶部に対し,記憶されている遷移先対話状態仮説をすべて削除し,該確定した遷移先対話状態を書き加える遷移先対話状態確定部である。
【0020】
6は,前記確定動作決定部からの遷移先対話状態仮説を入力とし,認識結果のスコアに基づいて暫定的な遷移先対話状態を決定して出力するとともに,前記対話状態遷移記憶部に対し遷移先対話状態仮説を書き加える暫定遷移先対話状態決定部,7は,前記遷移先対話状態確定部あるいは暫定遷移先対話状態決定部からの遷移先対話状態を入力とし,該遷移先対話状態に規定されたシステム応答を出力するとともに,該遷移先対話状態に規定された認識対象語彙と,前記対話状態遷移記憶部に記憶された遷移先対話状態仮説に規定された認識対象語彙を前記音声認識部に出力する対話動作実行部である。
【0021】
以下,この発明を電話番号案内音声対話装置として用いた場合について具体的な動作説明を行う。電話番号案内音声対話装置とは,利用者が装置と音声で対話することで,電話番号案内に必要な都道府県名,市区町村名,業種,対象名などの項目値を入力し,装置は入力された項目値に基づき電話番号の検索を行い,利用者に電話番号を案内するものである。
【0022】
図2は対話手順記憶部に保持された対話状態の一例を示すものである。例えば,対話状態S1においては,システム応答としてR1「県名をどうぞ」が,認識対象語彙V1として都道府県名が規定されている。また,認識結果が「北海道」の場合の遷移先対話状態としてS2が規定されている。以下,音声認識部が出力する認識結果の個数Nを5,遷移先対話状態確定動作決定部で用いる一位の認識結果のスコアに対する閾値を0.5,対話開始状態がS1の場合を例に説明する。
【0023】
対話開始状態S1に基づいて,対話動作実行部がシステム応答R1「都道府県名をどうぞ」を利用者に出力し,認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【0024】
利用者が音声入力を行うと,音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合,認識結果として「滋賀(0.88),佐賀(0.87),香川(0.73),神奈川(0.52),鹿児島(0.50)」の5つの候補を出力する。括弧内の数値は各認識候補に対するスコアであり1に近いほど良いスコアを表す。
【0025】
認識結果が入力されると,遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブル T1 を参照して,前述の5つの認識結果に対する遷移先対話状態の仮説として 5つの対話状態 S15, S16, S17, S18, S19 を得る。次に,一位の認識結果「滋賀」のスコアが 0.88 で閾値以上であるため確定を保留すると決定し,5つの遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【0026】
暫定遷移先対話状態決定部は,入力された遷移先対話状態仮説から認識結果のスコアに基づいて暫定的な遷移先対話状態仮説を一つ選択する。例えば,前述の5つの遷移先対話状態仮説 S15, S16, S17, S18, S19 に対しては,スコアの最も良い「滋賀」に対する遷移先対話状態仮説S16を選択し,対話動作実行部へ出力する。さらに,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える.例えば,図3は5つの遷移先対話状態仮説 S15, S16, S17, S18,S19 を対話状態遷移記憶部に書き加えた結果を示している。
【0027】
暫定遷移先対話状態決定部から対話状態S16が入力されると,対話動作実行部はシステム応答R16「市名をどうぞ」を利用者に出力するとともに,対話状態S16に規定された認識対象語彙V16と,対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説S15,S17,S18,S19に規定された認識対象語彙V15,V17,V18,V19を音声認識部に出力する。
【0028】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して,利用者が「伊万里市です」と入力した場合,音声認識部は認識対象語彙V15,V16,V17,V18,V19を用いて音声認識処理を行い,認識結果として「伊万里(0.91),出水(0.76),伊勢原(0.30),八日市(0.11),平塚(0.09)」を出力する。
【0029】
遷移先対話状態確定動作決定部は,遷移先対話状態仮説 S15, S16, S17, S18,S19 に規定された遷移テーブル T15, T16, T17, T18, T19 を参照して,認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163,S182, S192 を得る。現在の対話状態S16からの遷移先対話状態仮説であるS163 に対する認識結果「八日市」のスコアは0.11で閾値以下のため,遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し,遷移先対話状態仮説S152, S153, S163, S182, S192 を遷移先対話状態確定部に出力する。
【0030】
遷移先対話状態確定部は,遷移先対話状態の仮説が入力されると,例えばスコアの良い認識結果から順に利用者に確認を行い遷移先対話状態を確定する。遷移先対話状態仮説 S152, S153, S163, S182, S192 が入力された場合には,利用者にまず「伊万里市ですか」と確認を行い,利用者がこれに対して「はい」と応答することにより遷移先対話状態が S182 に確定する。
【0031】
遷移先対話状態が確定した後,遷移先対話状態確定部は確定した対話状態 S182 を対話動作実行部に出力するとともに対話状態 S182 を対話状態遷移記憶部に書き加え,さらに対話状態遷移記憶部に記憶されていた遷移先対話状態仮説 S15, S16, S17, S19 を対話状態遷移記憶部から削除する。以上の動作を行った後の対話状態遷移記憶部は図4に示すものとなる。
【0032】
対話状態 S182 が入力されると,対話動作実行部はシステム応答 R182「町名をどうぞ」を利用者に出力するとともに,対話状態 S182 に規定された認識対象語彙 V182 を音声認識部に出力し対話を継続する。
【0033】
以上の動作により,対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し,遷移先対話状態確定動作決定部が,現在選択している仮説に対する認識スコアが閾値より悪くなったときに遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0034】
なお、上記実施の形態1の構成から対話状態遷移記憶部と,遷移先対話状態確定部と,暫定遷移先対話状態決定部とを省き,音声認識部と,対話手順記憶部と,遷移先対話状態確定動作決定部と,対話動作実行部とで構成することも可能である。
この音声対話装置にあって,対話手順記憶部は,各対話状態における認識対象語彙,システム応答と,システム応答に想定される答え及びその答えに応じた遷移先対話状態を規定して記憶する。
【0035】
音声認識部は,入力音声に対して,対話手順記憶部に記憶された各対話状態に応じた認識対象語彙を用いて音声認識を行って,複数の認識結果を出力する。
遷移先対話状態確定動作決定部は,前記音声認識部からの認識結果と対話手順記憶部の内容により遷移先対話状態を定め、その遷移先対話状態の仮説が予め定められた所定条件を満たす場合は一つに確定し、所定条件を満たさない場合は確定を保留する決定をすると共に遷移先対話状態仮説を出力する。
対話動作実行部は、仮説を一つに確定する場合、遷移先対話状態確定動作決定部からの遷移先対話状態仮説の認識結果を確認するシステム応答を出力し、確定を保留する場合は、遷移先対話状態仮説のシステム応答を出力する。
【0036】
以上のような構成の音声対話装置にあっては,利用者が音声入力を行うと,音声認識部は対話手順記憶部に記憶された認識対象語彙V1を用いて音声認識処理を行い認識結果を出力する。例えば利用者が「佐賀です」と入力した場合,認識結果として「滋賀(0.88),佐賀(0.87),香川(0.73),神奈川(0.52),鹿児島(0.50)」の5つの候補を出力する。括弧内の数値は予め定められた所定条件としての各認識候補に対するスコアであり1に近いほど良いスコアを表す。
【0037】
認識結果が入力されると,遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブル T1 を参照して,前述の5つの認識結果に対する遷移先対話状態の仮説として 5つの対話状態 S15, S16, S17, S18, S19 を得,フラグをたてる。次に,予め定められた所定条件が認識結果のスコアであるとすると,一位の認識結果「滋賀」のスコアが 0.88 で所定条件の閾値以上であるため確定を保留すると決定する。
【0038】
次に遷移先対話状態確定動作決定部は,遷移先対話状態仮説から認識結果のスコアに基づいて暫定的な遷移先対話状態仮説を一つ選択する。例えば,前述の5つの遷移先対話状態仮説 S15, S16, S17, S18, S19 に対しては,スコアの最も良い「滋賀」に対する遷移先対話状態仮説S16を選択し,対話動作実行部へ出力する。
【0039】
対話動作実行部は遷移先対話状態仮説S16のシステム応答R16「市名をどうぞ」を利用者に出力する。
【0040】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して,利用者が「伊万里市です」と入力した場合,音声認識部は対話手順記憶部の認識対象語彙V15,V16,V17,V18,V19を用いて音声認識処理を行い,認識結果として「伊万里(0.91),出水(0.76),伊勢原(0.30),八日市(0.11),平塚(0.09)」を出力する。
【0041】
遷移先対話状態確定動作決定部は,遷移先対話状態仮説 S15, S16, S17, S18,S19 に規定された遷移テーブル T15, T16, T17, T18, T19 を参照して,認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163,S182, S192 を得る。
【0042】
現在の対話状態S16からの遷移先対話状態仮説であるS163 に対する認識結果「八日市」のスコアは0.11で所定条件の閾値以下のため,遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定する。
【0043】
対話動作実行部は、例えばスコアの良い認識結果から順に利用者に確認を行い遷移先対話状態を確定する。遷移先対話状態仮説 S152, S153, S163, S182, S192 が入力された場合には,利用者にまず「伊万里市ですか」と確認を行い,利用者がこれに対して「はい」と応答することにより遷移先対話状態が S182 に確定する。
【0044】
対話状態 S182 が入力されると,対話動作実行部はシステム応答 R182「町名をどうぞ」を利用者に出力するとともに,対話状態 S182 に規定された認識対象語彙 V182 を音声認識部に出力し対話を継続する。
以上のように,遷移先対話状態確定動作決定部が遷移先対話状態の仮説を一つに確定するまで、動作を繰り返す。
【0045】
実施の形態2.
実施の形態2は上述の実施の形態1とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態1と同様である。以下,図1の対話手順記憶部と遷移先対話状態確定動作決定部の動作について説明する。
【0046】
図2,図5および図6は対話手順記憶部に保持された対話状態の一例である。図6の対話状態 S18231,S18241, S18251, S18281 に規定された語彙 V18231, V18241, V18251, V18281の規模は大きく,他の対話状態の認識対象語彙と同時に音声認識処理を行うことが望ましくなくいため,これらの対話状態に遷移する前に対話状態の確定動作を行う必要があるという条件が規定されている。
【0047】
以下,装置と利用者が対話状態 S1 から対話を開始した後,実施の形態1と同様に対話を行い,現在の対話状態が S182 である場合を例に説明する。
【0048】
対話動作実行部が出力したシステム応答「町名をどうぞ」に対して,利用者が「黒川です」と入力した場合,音声認識部は認識対象語彙 V182 を用いて音声認識処理を行い,認識結果として「黒川(0.95),大川(0.88),大川内(0.70),大坪(0.11),立花(0.03)」を出力する。
【0049】
遷移先対話状態確定動作決定部は遷移テーブル T182 を参照して遷移先対話状態仮説 S1825, S1822, S1823, S1824, S1828 を得る。次に,一位の認識結果「黒川」のスコアが閾値以上であるため,遷移先対話状態の確定動作の保留を決定して遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【0050】
暫定遷移先対話状態決定部は,スコアの最も良い「黒川」に対する遷移先対話状態仮説 S1825 を選択して対話動作実行部へ出力するとともに,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。これらの処理後,対話状態遷移記憶部は図7に示すものとなる。
【0051】
暫定遷移先対話状態決定部から対話状態 S1825 が入力されると,対話動作実行部はシステム応答 R1825「業種をどうぞ」を利用者に出力するとともに,対話状態 S1825 に規定された認識対象語彙 V1825 と,対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説に規定された認識対象語彙 V1822, V1823, V1824,V1828 を音声認識部に出力する。
【0052】
システム応答「業種をどうぞ」に対して,利用者が「旅館です」と入力した場合,音声認識部は認識対象語彙 V1825, V1822, V1823, V1824, V1828 を用いて音声認識処理を行い,認識結果として「旅館(0.95),理容(0.62),旅行業(0.51),リュウマチ科(0.27),療養所(0.10),猟銃(0.02)」を出力する。
【0053】
遷移先対話状態確定動作決定部は遷移テーブル T1825, T1822, T1823, T1824,T1828 を参照して,認識結果に対する遷移先対話状態の仮説として9つの対話状態 S18231, S18232, S18241, S18242, S18243, S18251, S18252, S18281, S18282 を得る。スコアの最もよい認識結果「旅館」のスコアは0.95で閾値以上であるが,「旅館」に対する遷移先対話状態仮説 S18231, S18241, S18251, S18281 はすべて予め確定動作を行う必要がある対話状態のため,遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し,遷移先対話状態仮説を遷移先対話状態確定部に出力する。
【0054】
遷移先対話状態確定部は利用者に「業種は旅館ですか」と確認を行い,利用者がこれに対して「はい」と応答することにより遷移先対話状態がS18231,S18241, S18251, S18281 に確定されるため,対話状態遷移記憶部に記憶された遷移先対話状態仮説 S1822を削除する。さらに,遷移対話状態仮説 S1823,S1824, S1825, S1828 が存在するため,遷移先対話状態確定部は利用者に町名を確認することにより仮説の確定を行う。まず,最もスコアの良い対話状態S1825 に対する認識結果について「町名は黒川ですか」と利用者に確認する。この確認に対し利用者が「はい」と応答し対話状態S182が確定する。これにより最終的な遷移先対話状態は S18251 に決定される。
【0055】
対話状態 S18251 が入力されると,対話動作実行部は認識対象語彙 V18251 を音声認識部に出力し,システム応答R18251「旅館の名前は何ですか」を利用者に出力して対話を継続する。
【0056】
以上の動作により,規定された認識対象語彙が大きいため他の対話状態の認識対象語彙と同時に音声認識処理を行うことが望ましくなく,該対話状態に遷移する直前に予め確定動作を行う必要がある対話状態に対して,遷移先対話状態確定動作決定部が確定動作実行を決定し,遷移先対話状態決定部が遷移先対話状態を確定するため,認識対象語彙を限定でき認識率が向上する。
【0057】
実施の形態3.
実施の形態3は上述の実施の形態1とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態1と同様である。以下,図1の遷移先対話状態確定動作決定部の動作について,対話手順記憶部に記憶された対話状態が図8,電話番号データベースが図9,音声認識部が出力する認識結果の個数Nが3 の場合を例に説明する。
【0058】
対話開始状態S1に基づいて,対話動作実行部がシステム応答R1「どこの電話番号をお調べですか」を利用者に出力し,認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【0059】
利用者が音声入力を行うと,音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「甘太郎です」と入力した場合,認識結果として「アマタ(0.88),甘太郎(0.87),天城(0.73)」の3つの候補を出力する。
【0060】
認識結果が入力されると,遷移先対話状態確定動作決定部は遷移テーブル T1 を参照して,遷移先対話状態仮説として S2, S3, S4 を得る。次に,音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まるか否かを検査する。本実施の形態においては利用者の入力項目は,都道府県名,市区町村名,業種,対象名である。現時点では対象名のみが入力された状態であり,図9の電話番号データベースを参照することにより,認識結果として得られた対象名のみから未入力項目が一意に定まるか否かを検査すればよい。認識候補「アマタ」に対しては,データ番号 5, 6 の二つのデータが存在するが,未入力項目である県名は認識結果を確定しただけでは一意には定まらない。他の認識結果「甘太郎」「天城」についても同様であり,すべての認識候補に対して未入力項目が一意には定まらないため,遷移先対話状態の確定を保留すると決定し,3つの遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【0061】
暫定遷移先対話状態決定部は,例えばスコアの最も良い「アマタ」に対する遷移先対話状態仮説S3を選択して対話動作実行部へ出力する。さらに,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【0062】
暫定遷移先対話状態決定部から対話状態S3が入力されると,対話動作実行部はシステム応答R3「何県でしょうか」を利用者に出力するとともに,対話状態S3に規定された認識対象語彙V3と,対話状態遷移記憶部に記憶された2つの遷移先対話状態仮説 S2, S4 に規定された認識対象語彙 V2, V4 を音声認識部に出力する。
【0063】
対話動作実行部が出力したシステム応答「何県でしょうか」に対して,利用者が「神奈川県です」と入力した場合,音声認識部は認識対象語彙 V2, V3, V4 を用いて音声認識処理を行い,認識結果として「神奈川(0.95),香川(0.72),佐賀(0.41)」を出力する。
【0064】
遷移先対話状態確定動作決定部は,遷移テーブル T2, T3, T4 を参照して,認識結果に対する遷移先対話状態の仮説として9つの対話状態 S22, S23, S24,S32, S33, S34, S42, S43, S44 を得る。次に,音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まるか否かを検査する。現時点では対象名と県名が入力された状態であり,図9の電話番号データベースを参照すると,名称「アマタ」,県名「神奈川」であるデータはデータ番号 5, 6 の二つであるが,県名を確定しただけでは未入力項目である市名は一意に確定しない。同様に,名称が「甘太郎」,県名が「神奈川」のデータ 1,2, 3も市名が一意に確定しないため,遷移先対話状態の確定を保留すると決定し,9つの遷移先対話状態仮説を暫定遷移先対話状態決定部に出力する。
【0065】
暫定遷移先対話状態決定部は,現在の対話状態 S2 からスコアの最も良い「神奈川」に対する遷移先対話状態仮説 S32 を選択して対話動作実行部へ出力する。さらに,すべての9つの遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【0066】
暫定遷移先対話状態決定部から対話状態S32が入力されると,対話動作実行部はシステム応答R32「何市ですか」を利用者に出力するとともに,対話状態S32に規定された認識対象語彙V32と,対話状態遷移記憶部に記憶された8つの遷移先対話状態仮説 S22, S42, S23, S33, S43, S24, S34, S44 に規定された認識対象語彙 V22, V42, V23, V33, V43, V24, V34, V44 を音声認識部に出力する。
【0067】
対話動作実行部が出力したシステム応答「何市ですか」に対して,利用者が「鎌倉市です」と入力した場合,音声認識部は認識対象語彙 V22, V32, V42, V23,V33, V43, V24, V34, V44 を用いて音声認識処理を行い,認識結果として「鎌倉(0.87),川崎(0.66),唐津(0.28)」を出力する。
【0068】
遷移先対話状態確定動作決定部は,遷移テーブル T22, T32, T42, T23, T33,T43, T24, T34, T44 を参照して,認識結果に対する遷移先対話状態の仮説として9つの対話状態 S222, S223, S322, S323, S422, S423, S243, S343, S443 を得る。次に,音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まるか否かを検査する。現時点では対象名,県名,市名が入力された状態であり,図9の電話番号データベースを参照すると,名称「アマタ」,県名「神奈川」,市名「鎌倉」というデータは存在しない。
【0069】
一方,名称「甘太郎」,県名「神奈川」,市名「鎌倉」に対しては,データ番号 1のデータが存在し,市名を確定することにより,未入力項目である町名,業種が一意に確定する。したがって,遷移先対話状態の確定を行うと決定し,遷移先対話状態仮説 S222, S223, S322, S323, S422, S423, S243, S343, S443 を遷移先対話状態確定部に出力する。
【0070】
遷移先対話状態確定部は,遷移先対話状態の仮説が入力されると,最もスコアの良い認識結果である「鎌倉」を確認することで遷移先対話状態を S223 に確定し,対話動作実行部に対話状態S223を出力する。
【0071】
対話動作実行部は対話状態 S223 が入力されると,対話状態遷移記憶部に記憶された対話遷移系列と,図の電話番号データベースから,全入力項目に対する項目値が,名称「甘太郎」,県名「神奈川」,市名「鎌倉」,町名「大船」,業種「居酒屋」と決定し,電話番号「0467-00-0000」が一意に定まるため,該電話番号を利用者に応答する。
【0072】
以上の動作により,利用者の入力に対する対話状態遷移の仮説を複数保持し,利用者からの入力項目がすべて入力されていなくても,認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0073】
実施の形態4.
実施の形態4は上述の実施の形態1とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態1と同様である。以下,図1の遷移先対話状態確定動作決定部の動作について,対話手順記憶部に図10の対話状態が保持されている場合を例に説明する。
【0074】
対話開始状態S1に基づいて,対話動作実行部がシステム応答R1「都道府県名をどうぞ」を利用者に出力し,認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【0075】
利用者が音声入力を行うと,音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合,認識結果として「佐賀(0.92),滋賀(0.80),香川(0.73),神奈川(0.52),鹿児島(0.50)」の5つの候補を出力する。
【0076】
認識結果が入力されると,遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブルT1を参照して,前述の5つの認識結果に対する遷移先対話状態の仮説として5つの対話状態 S15, S16, S17, S18, S19 を得る。次に,一位の認識結果「佐賀」のスコアが0.92で閾値以上であるため確定を保留すると決定し,共通のシステム応答を持つ5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【0077】
暫定遷移先対話状態決定部は,スコアの最も良い「佐賀」に対する遷移先対話状態仮説 S18 を選択し対話動作実行部へ出力し,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【0078】
暫定遷移先対話状態決定部から対話状態 S18 が入力されると,対話動作実行部はシステム応答 R18 「市名をどうぞ」を利用者に出力するとともに,認識対象語彙 V18と,対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S15,S16, S17, S19 に規定された認識対象語彙 V15, V16, V17, V19 を音声認識部に出力する。
【0079】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して,利用者が「伊万里市です」と入力した場合,音声認識部は認識対象語彙 V15, V16,V17, V18, V19 を用いて音声認識処理を行い,認識結果として「伊万里(0.91),出水(0.76),伊勢原(0.30),八日市(0.11),平塚(0.09)」を出力する。
【0080】
遷移先対話状態確定動作決定部は,遷移テーブル T15, T16, T17, T18, T19 を参照して,認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。スコアの最も良い認識結果「伊万里」のスコアは閾値以上であるが,遷移先対話状態仮説 S152, S153, S163, S182,S192 に共通のシステム応答が存在しないため,遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し,遷移先対話状態仮説 S152, S153, S163, S182, S192 を遷移先対話状態確定部に出力する。
【0081】
遷移先対話状態確定部は実施例1と同様に動作し,遷移先対話状態を S182に確定して対話動作実行部に出力する。遷移先対話状態 S182 が入力されると,対話動作実行部も実施例1と同様に動作して利用者との対話を継続する。
【0082】
以上の動作により,対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し,遷移先対話状態確定動作決定部が,遷移先対話状態仮説に共通のシステム発話が存在しなくなった場合に遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0083】
実施の形態5.
実施の形態5は上述の実施の形態1とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態1と同様である。以下,図1の遷移先対話状態確定動作決定部の動作を,対話手順記憶部に図11の対話状態が保持されている場合を例に説明する。図11に示した例では,対話状態 S152 において複数のシステム応答 R152-1「伊勢原市の何町ですか」とR152-2「町名をどうぞ」が規定されている。
【0084】
まず,実施の形態4と同様に,対話開始状態S1から対話を開始し,対話状態 S18 に至り,利用者がシステム応答 R18 「市名をどうぞ」に対し「伊万里市です」と応答して音声認識部が認識結果「伊万里(0.91),出水(0.76),伊勢原(0.30),八日市(0.11),平塚(0.09)」を出力した場合について説明する。
【0085】
遷移先対話状態確定動作決定部は,遷移テーブル T15, T16, T17, T18, T19 を参照して,実施の形態4と同様に認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。スコアの最も良い認識結果「伊万里」のスコアは閾値以上であり,かつ遷移先対話状態仮説 S152,
S153, S163, S182, S192 に共通のシステム応答「町名をどうぞ」が存在するため,遷移先対話状態確定動作決定部は遷移先対話状態の確定を保留すると決定し,遷移先対話状態仮説 S152, S153, S163, S182, S192 を暫定遷移先対話状態決定部に出力する。
【0086】
暫定遷移先対話状態決定部は遷移先対話状態仮説 S152, S153, S163, S182,S192 が入力されると,最もスコアのよい認識結果「伊万里」に対する対話状態S182 を暫定遷移先対話状態と決定して対話動作実行部に出力する。
【0087】
対話動作実行部は対話状態 S182 が入力されると,対話状態 S182 に規定された複数のシステム応答のなかから,遷移先対話状態仮説 S152, S153, S163,S192に規定されたシステム応答と共通の R182-2「町名をどうぞ」をシステム応答として出力して対話を継続する。
【0088】
一方,実施の形態1と同様に,対話開始状態S1から対話を開始し,対話状態 S16 に至り,システム応答 R16「市名をどうぞ」に対し利用者が「伊万里市です」と応答したため,遷移先対話状態決定部が利用者に確認を行い,遷移先対話状態を S182 に決定した場合について説明する。
【0089】
対話状態 S182 が入力されると,対話動作実行部は対話状態 S182 に規定されたシステム応答 R182-1「伊万里市の何町ですか」およびR182-2「町名をどうぞ」のうち,例えば,最初に定義されている R182-1 をシステム応答として出力し対話を継続する。
【0090】
以上の動作により,対話手順記憶部に記憶された各対話状態に複数のシステム応答を記述することで,遷移先対話状態仮説に共通のシステム発話が存在する場合は,遷移先対話状態確定動作決定部は確認による確定動作を行わず,各遷移先対話状態仮説に共通のシステム発話を出力して対話を継続し,一方,遷移先対話状態確定部で遷移先対話状態が確定した場合には,確定した対話状態に固有のシステム応答を行えるため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに対話状態遷移に応じた自然な応答を行えるため,利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0091】
実施の形態6.
実施の形態6は上述の実施の形態1とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態1と同様である。以下,図1の遷移先対話状態確定動作決定部の動作について,対話手順記憶部に図2,5の対話状態が保持されている場合を例に,遷移先対話状態確定動作決定部で確定動作決定に用いる語彙規模の閾値が 300の場合について説明する。
【0092】
対話開始状態 S1 に基づいて,対話動作実行部がシステム応答 R1 「都道府県名をどうぞ」を利用者に出力し,認識対象語彙 V1 を音声認識部に出力することにより対話を開始する。
【0093】
利用者が音声入力を行うと,音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合,認識結果として「佐賀(0.92),滋賀(0.80),香川(0.73),神奈川(0.52),鹿児島(0.50)」の5つの候補を出力する。
【0094】
認識結果が入力されると,遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブルT1を参照して,前述の5つの認識結果に対する遷移先対話状態の仮説として5つの対話状態 S15, S16, S17, S18, S19 を得る。次に,遷移先対話状態仮説の全ての認識対象語彙 V15, V16, V17, V18, V19 を合計した語彙を求める。V15, V16, V17, V18, V19 はそれぞれ,神奈川県の市名,滋賀県の市名,香川県の市名,佐賀県の市名,鹿児島県の市名のため,合計の語彙はこれら5県のすべての市名であり,これらの異なる5県で同一の市名は存在しないため,その語彙の規模は 52である。
【0095】
これは閾値の 300 より小さいため,遷移先対話状態確定動作決定部は遷移先対話状態仮説の確定を保留すると決定し,共通のシステム応答を持つ5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【0096】
暫定遷移先対話状態決定部は,スコアの最も良い「佐賀」に対する遷移先対話状態仮説 S18 を選択し対話動作実行部へ出力し,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。
【0097】
暫定遷移先対話状態決定部から対話状態 S18 が入力されると,対話動作実行部はシステム応答 R18 「市名をどうぞ」を利用者に出力するとともに,認識対象語彙 V18 と,対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S15, S16, S17, S19 に規定された認識対象語彙 V15, V16, V17, V19 を音声認識部に出力する。
【0098】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して,利用者が「伊万里市です」と入力した場合,音声認識部は認識対象語彙 V15, V16,V17, V18, V19 を用いて音声認識処理を行い,認識結果として「伊万里(0.91),出水(0.76),伊勢原(0.30),八日市(0.11),平塚(0.09)」を出力する。
【0099】
遷移先対話状態確定動作決定部は,遷移テーブル T15, T16, T17, T18, T19 を参照して,認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。次に,遷移先対話状態仮説の全ての認識対象語彙 V152, V153, V163, V182, V192 を合計した語彙を求める。V152,V153, V163, V182, V192 はそれぞれ,神奈川県伊勢原市の町名,神奈川県平塚市の町名,滋賀県八日市市の町名,佐賀県伊万里市の町名,鹿児島県出水市の町名のため,合計の語彙はこれら5市のすべての町名である。その総数は 332 であるが,これら異なる5市に同一の町名が存在するため異なり語数は 327 である。
【0100】
これは閾値の 300 より大きいため,遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し,遷移先対話状態仮説 S152, S153, S163, S182,S192 を遷移先対話状態確定部に出力する。
【0101】
遷移先対話状態確定部は実施例1と同様に動作し,遷移先対話状態を S182に確定して対話動作実行部に出力する。遷移先対話状態 S182 が入力されると,対話動作実行部も実施例1と同様に動作して利用者との対話を継続する。
【0102】
以上の動作により,遷移先対話状態仮説に規定された認識対象語彙の規模が大きく,認識率が低下する恐れがある場合に遷移先対話状態確定動作決定部が確定動作実行を決定し,遷移先対話状態決定部が遷移先対話状態を確定するため,認識対象語彙を限定でき認識率が向上する。
【0103】
実施の形態7.
実施の形態7は上述の実施の形態1とは遷移先対話状態確定動作決定部の動作が異なるものであり、他は上述の実施の形態1と同様である。以下,図1の遷移先対話状態確定動作決定部の動作について,対話手順記憶部に図2および図5の対話状態が保持されており,遷移先対話状態確定動作決定部が確定動作決定に用いる遷移系列の長さの閾値が 2 である場合について説明する。
【0104】
対話開始状態S1に基づいて,対話動作実行部がシステム応答R1「都道府県名をどうぞ」を利用者に出力し,認識対象語彙V1を音声認識部に出力することにより対話を開始する。
【0105】
利用者が音声入力を行うと,音声認識部は認識対象語彙V1を用いて音声認識処理を行い認識結果とスコアを出力する。例えば利用者が「佐賀です」と入力した場合,認識結果として「佐賀(0.92),滋賀(0.80),香川(0.73),神奈川(0.52),鹿児島(0.50)」の5つの候補を出力する。
【0106】
認識結果が入力されると,遷移先対話状態確定動作決定部は現在の対話状態S1に規定された遷移テーブルT1を参照して,前述の5つの認識結果に対する遷移先対話状態の仮説として5つの対話状態 S15, S16, S17, S18, S19 を得る。遷移先対話状態確定動作決定部は,遷移先対話状態仮説の遷移系列の長さを対話状態遷移記憶部を参照して得る。この時点では対話開始状態 S1 からの遷移先対話状態仮説は対話状態遷移記憶部にはなにも記憶されていないため,遷移系列の長さは 0 であり閾値の 2 より小さい。したがって,遷移先対話状態確定動作決定部は遷移先対話状態の確定を保留すると決定し,5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【0107】
暫定遷移先対話状態決定部は,スコアの最も良い「佐賀」に対する遷移先対話状態仮説 S18 を選択し対話動作実行部へ出力し,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加える。以上の動作の結果,対話状態遷移記憶部の内容は図12に示すものとなる。
【0108】
暫定遷移先対話状態決定部から対話状態 S18 が入力されると,対話動作実行部はシステム応答 R18 「市名をどうぞ」を利用者に出力するとともに,認識対象語彙V18と,対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S15,S16, S17, S19 に規定された認識対象語彙 V15, V16, V17, V19 を音声認識部に出力する。
【0109】
対話動作実行部が出力したシステム応答「市名をどうぞ」に対して,利用者が「伊万里市です」と入力した場合,音声認識部は認識対象語彙 V15, V16,V17, V18, V19 を用いて音声認識処理を行い,認識結果として「伊万里(0.91),出水(0.76),伊勢原(0.30),八日市(0.11),平塚(0.09)」を出力する。
【0110】
遷移先対話状態確定動作決定部は,遷移テーブル T15, T16, T17, T18, T19 を参照して,認識結果に対する遷移先対話状態の仮説として5つの対話状態 S152, S153, S163, S182, S192 を得る。次に,図12に示す対話状態遷移記憶部の内容を参照すると,対話開始状態S1から現在の対話状態 S18 までの遷移系列の長さは 1 であり,閾値である 2 より小さい。したがって,遷移先対話状態確定動作決定部は遷移先対話状態の確定を保留すると決定し,5つの遷移先対話状態仮説すべてを暫定遷移先対話状態決定部に出力する。
【0111】
暫定遷移先対話状態決定部は遷移先対話状態仮説 S152, S153, S163, S182,S192 が入力されると,最もスコアのよい認識結果「伊万里」に対する対話状態 S182 を暫定遷移先対話状態と決定して対話動作実行部に出力する。さらに,すべての遷移先対話状態仮説を対話状態遷移記憶部に書き加え,対話状態遷移記憶部の内容は図13に示すものとなる。
【0112】
暫定遷移先対話状態決定部から対話状態 S182 が入力されると,対話動作実行部はシステム応答 R182 「町名をどうぞ」を利用者に出力するとともに,認識対象語彙 V182 と,対話状態遷移記憶部に記憶された4つの遷移先対話状態仮説 S152, S153, S163, S192 に規定された認識対象語彙 V152, V153, V163, V192 を音声認識部に出力する。
【0113】
対話動作実行部が出力したシステム応答「町名をどうぞ」に対して,利用者が「黒川です」と入力した場合,音声認識部は認識対象語彙 V182, V152, V153,V163, V192 を用いて音声認識処理を行い,認識結果として「黒川(0.90),広川(0.64),大川(0.42),串橋(0.13),黒部丘(0.11)」を出力する。
【0114】
遷移先対話状態確定動作決定部は遷移テーブル T182 を参照して遷移先対話状態仮説 S1825, S1822, S1823, S1824, S1828 を得る。次に,図13に示す対話状態遷移記憶部の内容を参照すると,対話開始対話状態 S1 から現在の対話状態 S182 までの遷移系列の長さは 2 であり閾値と等しい。したがって,遷移先対話状態確定動作決定部は遷移先対話状態の確定を行うと決定し,5つの遷移先対話状態仮説を遷移先対話状態確定部に出力する。
【0115】
遷移先対話状態確定部は遷移先対話状態仮説 S1825, S1822, S1823, S1824,S1828 が入力されると,最もスコアのよい「黒川」を利用者に確認することで遷移先対話状態を S1825 に確定し,対話動作実行部に出力する。
【0116】
対話動作実行部は,対話状態 S1825 が入力されると,認識対象語彙 V1825 を音声認識部に出力し,システム応答 R1825 「業種をどうぞ」を利用者に出力して対話を継続する。
【0117】
以上の動作により,対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し,遷移先対話状態確定動作決定部が,最も最近に確定した対話状態からの対話状態遷移仮説系列の長さが閾値以上になった場合に遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0118】
【発明の効果】
【0119】
以上のように、この発明によれば,遷移先対話状態確定動作決定部が,現在選択している仮説が所定の条件を満たすときに遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0120】
また、この発明によれば,対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し,遷移先対話状態確定動作決定部が,現在選択している仮説に対する認識スコアが閾値より悪くなったときに遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0121】
また、この発明によれば,規定された認識対象語彙が大きいため他の対話状態の認識対象語彙と同時に音声認識処理を行うことが望ましくなく,該対話状態に遷移する直前に予め確定動作を行う必要がある対話状態に対して,遷移先対話状態確定動作決定部が確定動作実行を決定し,遷移先対話状態決定部が遷移先対話状態を確定するため,認識対象語彙を限定でき認識率が向上する。
【0122】
また、この発明によれば,利用者の入力に対する対話状態遷移の仮説を複数保持し,利用者からの入力項目がすべて入力されていなくても,認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0123】
また、この発明によれば,対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し,遷移先対話状態確定動作決定部が,遷移先対話状態仮説に共通のシステム発話が存在しなくなった場合に遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0124】
また、この発明によれば,対話手順記憶部に記憶された各対話状態に複数のシステム応答を記述することで,遷移先対話状態仮説に共通のシステム発話が存在する場合は,遷移先対話状態確定動作決定部は確認による確定動作を行わず,各遷移先対話状態仮説に共通のシステム発話を出力して対話を継続し,一方,遷移先対話状態確定部で遷移先対話状態が確定した場合には,確定した対話状態に固有のシステム応答を行えるため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに対話状態遷移に応じた自然な応答を行えるため,利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【0125】
また、この発明によれば,遷移先対話状態仮説に規定された認識対象語彙の規模が大きく,認識率が低下する恐れがある場合に遷移先対話状態確定動作決定部が確定動作実行を決定し,遷移先対話状態決定部が遷移先対話状態を確定するため,認識対象語彙を限定でき認識率が向上する。
【0126】
また、この発明によれば,対話状態遷移記憶部が利用者の入力に対する対話状態遷移の仮説を複数保持し,遷移先対話状態確定動作決定部が,最も最近に確定した対話状態からの対話状態遷移仮説系列の長さが閾値以上になった場合に遷移先対話状態を一つに確定するため,一発話毎に利用者へ確認を行なって確定的に対話を進めなくても認識率を向上でき,さらに確認対話の回数が減るため利用者と装置との自然な対話が実現でき利用者の利便性が向上する。
【図面の簡単な説明】
【図1】 この発明の実施の形態1である音声対話装置の構成図。
【図2】 実施の形態1における対話手順記憶部に保持された対話状態の一例を示す説明図。
【図3】 実施の形態1における遷移先対話状態仮説を対話状態遷移記憶部に書き加えた結果の説明図。
【図4】 実施の形態1における遷移先対話状態仮説確定結果の対話状態遷移記憶部の説明図。
【図5】 実施の形態2における対話手順記憶部に保持された対話状態の一例を示す説明図。
【図6】 実施の形態2における対話手順記憶部に保持された対話状態の一例を示す説明図。
【図7】 実施の形態2における遷移先対話状態仮説を対話状態遷移記憶部に書き加えた結果の説明図。
【図8】 実施の形態3における対話手順記憶部に記憶された対話状態の説明図。
【図9】 実施の形態3における電話番号データベースの説明図。
【図10】 実施の形態4における対話手順記憶部に記憶された対話状態の説明図。
【図11】 実施の形態5における対話手順記憶部に記憶された対話状態の説明図。
【図12】 実施の形態7における遷移先対話状態仮説を対話状態遷移記憶部に書き加えた結果の説明図。
【図13】 実施の形態7における対話状態遷移記憶部の対話開始対話状態から現対話状態までの遷移系列の説明図。
【図14】 従来の認識候補抽出装置の構成図。
【符号の説明】
1:音声認識部,2:対話手順記憶部,3:対話状態遷移記憶部,4:遷移先対話状態確定動作決定部,5:遷移先対話状態確定部,6:暫定遷移先対話状態決定部,7:対話動作実行部。
Claims (10)
- 音声認識部と,対話手順記憶部と,遷移先対話状態確定動作決定部と,対話動作実行部とを備え,音声での対話により,利用者が必要とする情報を得る音声対話装置であって,
対話手順記憶部は,各対話状態における認識対象語彙,システム応答と,システム応答に想定される答え及びその答えに応じた遷移先対話状態を規定して記憶し,
音声認識部は,入力音声に対して,対話手順記憶部に記憶された各対話状態に応じた認識対象語彙を用いて音声認識を行って,複数の認識結果を出力し,
遷移先対話状態確定動作決定部は,前記音声認識部からの認識結果と対話手順記憶部の内容により遷移先対話状態を定め、その遷移先対話状態の仮説が予め定められた所定条件を満たす場合は一つに確定し、所定条件を満たさない場合は確定を保留する決定をすると共に遷移先対話状態仮説を出力し,
対話動作実行部は、仮説を一つに確定する場合、遷移先対話状態確定動作決定部からの遷移先対話状態仮説の認識結果を確認するシステム応答を出力し、確定を保留する場合は、遷移先対話状態仮説のシステム応答を出力することを特徴とする音声対話装置。 - 対話状態遷移記憶部と,遷移先対話状態確定部と,暫定遷移先対話状態決定部とを付加し、
遷移先対話状態確定動作決定部は,音声認識部からの認識結果と対話状態遷移記憶部又は対話手順記憶部の内容とから定まる遷移先対話状態の仮説を一つに確定するか、確定を保留するかを決定し,遷移先対話状態仮説を出力し,
遷移先対話状態確定部は,遷移先対話状態確定動作決定部からの遷移先対話状態仮説を一つに確定する場合にその遷移先対話状態仮説を入力とし,利用者に認識結果を確認することにより遷移先対話状態を確定して出力するとともに,対話状態遷移記憶部に対し,記憶されている遷移先対話状態仮説をを書変え,
暫定遷移先対話状態決定部は,遷移先対話状態確定動作決定部からの遷移先対話状態仮説を保留する場合にその遷移先対話状態仮説を入力とし,暫定的な遷移先対話状態を決定して出力するとともに,対話状態遷移記憶部に対し遷移先対話状態仮説を書変え,
対話状態遷移記憶部は,対話開始時点からの対話状態遷移履歴と遷移先対話状態確定部又は,暫定遷移先対話状態決定部からの遷移先対話状態仮説を記憶し,
対話動作実行部は,遷移先対話状態確定部または暫定遷移先対話状態決定部からの遷移先対話状態を入力とし,該遷移先対話状態に規定されたシステム応答を出力するとともに,該遷移先対話状態に規定された認識対象語彙を前記音声認識部に出力し,
音声認識部は,入力音声に対して,対話動作実行部から入力される認識対象語彙を用いて音声認識を行い,複数の認識結果を出力することを特徴とする請求項1記載の音声対話装置。 - 音声認識部は,複数の認識結果とその認識結果のスコアを出力するように構成され、
遷移先対話状態確定動作決定部は,音声認識部からの入力された認識結果のスコアに応じて確定動作を行うか否かを決定することを特徴とする請求項1又は2記載の音声対話装置。 - 対話手順記憶部に記憶された各対話状態には,他の対話状態から該対話状態へ状態遷移を行うために予め確定動作を行う必要があるか否かを記述し,遷移先対話状態確定動作決定部は,音声認識部から入力される認識結果と対話状態遷移記憶部の内容と対話手順とから定まる遷移先対話状態の仮説が,予め確定動作を行う必要があるものの場合に確定動作を行うと決定することを特徴とする請求項1〜3いずれか記載の音声対話装置。
- 遷移先対話状態確定動作決定部は,利用者からの入力項目がすべて入力されていなくても,音声認識部からの認識結果を確定することにより未入力項目に対する項目値が一意に定まる場合に確定動作を行うと決定することを特徴とする請求項1〜4いずれか記載の音声対話装置。
- 遷移先対話状態確定動作決定部は,遷移先対話状態仮説に規定されたシステム応答に応じて確定動作を行うか否かを決定する
ことを特徴とする請求項1〜5いずれか記載の音声対話装置。 - 遷移先対話状態確定動作決定部は,遷移先対話状態仮説に共通のシステム応答が存在しない場合に確定動作を行うと決定し,遷移先対話状態仮説に共通のシステム応答が存在する場合には,共通のシステム発話を持つ遷移先対話状態仮説のみを遷移先対話状態仮説として出力する
ことを特徴とする請求項6記載の音声対話装置。 - 対話手順記憶部に記憶された各対話状態には,複数のシステム応答を記述でき,対話動作実行部は,暫定遷移先対話状態決定部から遷移先対話状態が入力された場合,入力された遷移先対話状態に規定されたシステム応答のうち,対話状態遷移記憶部に記憶された遷移先対話状態仮説に規定されたシステム応答と共通のものを出力する
ことを特徴とする請求項5または6記載の音声対話装置。 - 遷移先対話状態確定動作決定部は,遷移先対話状態仮説の全ての認識対象語彙を合計した語彙の規模が予め定めた基準より大きい場合に確定動作を行うと決定する
ことを特徴とする請求項1〜7いずれか記載の音声対話装置。 - 遷移先対話状態確定動作決定部は,対話状態遷移記憶部を参照して,確定した対話状態から遷移先対話状態仮説までの遷移系列の長さが予め定めた基準値以上の場合に確定動作を行うと決定する
ことを特徴とする請求項1〜8いずれか記載の音声対話装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28931699A JP3941299B2 (ja) | 1999-10-12 | 1999-10-12 | 音声対話装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP28931699A JP3941299B2 (ja) | 1999-10-12 | 1999-10-12 | 音声対話装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2001109493A JP2001109493A (ja) | 2001-04-20 |
JP3941299B2 true JP3941299B2 (ja) | 2007-07-04 |
Family
ID=17741621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28931699A Expired - Fee Related JP3941299B2 (ja) | 1999-10-12 | 1999-10-12 | 音声対話装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3941299B2 (ja) |
Families Citing this family (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4680691B2 (ja) * | 2005-06-15 | 2011-05-11 | 富士通株式会社 | 対話システム |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
AU2012232977A1 (en) * | 2011-09-30 | 2013-04-18 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
JP6895037B2 (ja) * | 2016-11-06 | 2021-06-30 | ナレルシステム株式会社 | 音声認識方法、コンピュータプログラム及び装置 |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US11438452B1 (en) | 2019-08-09 | 2022-09-06 | Apple Inc. | Propagating context information in a privacy preserving manner |
-
1999
- 1999-10-12 JP JP28931699A patent/JP3941299B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2001109493A (ja) | 2001-04-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3941299B2 (ja) | 音声対話装置 | |
JP4680691B2 (ja) | 対話システム | |
ES2526698T3 (es) | Procedimiento, sistema y programa informático para recoger múltiples fragmentos de información durante un diálogo de usuario | |
US7043420B2 (en) | Trainable dynamic phrase reordering for natural language generation in conversational systems | |
CN111212190B (zh) | 一种基于话术策略管理的对话管理方法、装置和系统 | |
WO2015075975A1 (ja) | 対話制御装置及び対話制御方法 | |
JP5554304B2 (ja) | オートマトン決定化方法、オートマトン決定化装置およびオートマトン決定化プログラム | |
JP2008203559A (ja) | 対話装置及び方法 | |
US9361589B2 (en) | System and a method for providing a dialog with a user | |
US20020193907A1 (en) | Interface control | |
CN115129878B (zh) | 一种对话业务执行方法、装置、存储介质及电子设备 | |
JP3124277B2 (ja) | 音声認識システム | |
JP2000293191A (ja) | 音声認識装置及び音声認識方法並びにその方法に用いられる木構造辞書の作成方法 | |
US20020169618A1 (en) | Providing help information in a speech dialog system | |
CN103918027B (zh) | 用于语音应用中的最优有限状态转换机(fst)的有效渐进修改 | |
JPH04242800A (ja) | 文法規則に基づいた照合値制約を用いた高性能音声認識方法並びに音声認識回路 | |
CN113987149A (zh) | 任务型机器人的智能会话方法、系统及存储介质 | |
JP2003208195A5 (ja) | ||
CN111986653A (zh) | 一种语音意图识别方法、装置及设备 | |
US20010002465A1 (en) | Speech recognition device implementing a syntactic permutation rule | |
JP2009104047A (ja) | 情報処理方法及び情報処理装置 | |
Liu et al. | Efficient dynamic wfst decoding for personalized language models | |
JP4220151B2 (ja) | 音声対話装置 | |
JP3265864B2 (ja) | 音声認識装置 | |
JP4095577B2 (ja) | 対話装置、音声対話装置、対話プログラム、音声対話プログラムおよび記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20040625 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20070226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070326 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100413 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110413 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120413 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130413 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140413 Year of fee payment: 7 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |