JP3530109B2 - 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 - Google Patents

大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体

Info

Publication number
JP3530109B2
JP3530109B2 JP2000160635A JP2000160635A JP3530109B2 JP 3530109 B2 JP3530109 B2 JP 3530109B2 JP 2000160635 A JP2000160635 A JP 2000160635A JP 2000160635 A JP2000160635 A JP 2000160635A JP 3530109 B2 JP3530109 B2 JP 3530109B2
Authority
JP
Japan
Prior art keywords
recognition
voice
search key
user
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000160635A
Other languages
English (en)
Other versions
JP2001125592A (ja
Inventor
久美子 大森
正信 東田
紀子 水澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000160635A priority Critical patent/JP3530109B2/ja
Publication of JP2001125592A publication Critical patent/JP2001125592A/ja
Application granted granted Critical
Publication of JP3530109B2 publication Critical patent/JP3530109B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ユーザとの音声に
よる対話を通してユーザが意図する情報の検索を目的と
した音声対話型情報検索方法、装置およびプログラム記
録媒体に関する。
【0002】
【従来の技術】機械による音声認識処理は、ユーザ入力
音声と認識対象データベースを照合し、データベース中
の全語彙に対して入力音声との類似度を認識尤度として
算出する処理である。認識技術の現状は、対話処理実時
間内に認識結果を出力することのできる認識対象語数に
限界があり、これを越える語数を認識対象とする場合に
は、ユーザに応答を返すまでに多大の時間を必要とす
る。また、認識対象語数の増加による認識精度の低下は
避けることができない。さらに、認識精度は、発話者や
発話環境に大きく依存し、認識装置の性能及び精度が高
い場合でも、周囲の雑音混入による精度の低下や、発話
者自身の入力音声が不完全であるための精度の低下な
ど、常に100%の精度が得られる保証はない。
【0003】従来の音声対話型情報検索システムは、ユ
ーザの入力音声に対して音声認識装置を用いて認識処理
を行い、処理が終了するまでユーザを待機させ、認識の
結果算出された候補を、認識尤度の高い順にユーザに提
示し、正解が確認できるまで候補の提示を繰り返すもの
であった。
【0004】一方、音声を情報提供サービスのインタフ
ェースとして利用する場合は、リアルタイム性及び正確
さが要求される。認識対象語数が多い場合は、目的情報
を複数の階層から構成される属性ツリーに分類する。下
位階層の属性になるほど、対話処理実時間内に処理可能
な数を越える属性値数を持つ可能性が大きい。ユーザが
意図する目的情報確定のためには、各階層の属性値の特
定が必要となるが、下位階層の属性値が特定できれば上
位階層の属性値はツリーを辿ることにより自動的に特定
可能である(特定できた下位階層の属性値と関連する下
位階層の属性値が1対1で重複がない場合)。従って、
より下位階層の属性値から確定することができれば、短
時間に目的情報の確定が期待できる。
【0005】しかし従来の音声対話型情報検索システム
は、ユーザとの対話に不自然さを生じさせない時間内に
処理可能な語数及び誤認識を考慮して、ユーザに対して
最初から下位階層の属性値の入力を許容せずに、まず始
めに属性値数の少ない上位階層の属性から順に尋ねて入
力を要求し、入力された属性値が特定できるまで認識の
結果算出された認識尤度の高い順に候補の提示を繰り返
して属性値を特定し、次階層の属性値の中から特定した
上位属性値と関連性を持つ属性値のみを認識対象として
選択することにより、認識対象語数を対話処理実時間内
に処理可能なデータ数に縮小する方法を採用せざるを得
なかった。
【0006】このような従来の方法は、上位階層属性値
が特定できないと次階層の認識対象属性値を絞込めない
ことから、上位階層の属性値が特定できるまでユーザに
対して候補の提示を繰り返すが、情報確定のためには、
目的情報を構成する属性の階層が深ければ深いほどより
多くの階層数分の属性値の入力要求、属性毎の属性値確
定までの候補提示確認、および属性確定後の次階層の属
性値の絞込みが必要となるため、効率的な目的情報の確
定が困難であった。
【0007】
【発明が解決しようとする課題】対話処理実時間内に処
理可能な数を超える語数からなる情報データベースの中
から目的情報の確定を行うシステムにおいて、目的情報
の確定を行うことができる(下位の)属性値を特定する
ために、認識処理の間ユーザを待機させ認識結果を上位
から提示することにより正誤確認をするが、誤認識のた
めに正解属性値がなかなか導けずにユーザを待機させた
にもかかわらず正誤確認を繰り返し行うことは、対話の
不自然さにつながりユーザにとっては大きなストレスと
なる。
【0008】従って、音声認識技術の現状を踏まえたシ
ステムの現状においては、ユーザに待機時間を与えずあ
る程度の精度を持った応答を返すために下位階層の属性
値から順の入力を許容することは不可能であり、ユーザ
に対して上位階層の属性値から順の入力を要求し、属性
値の特定を繰り返すことになる。上位階層属性値を特定
することにより下位階層の認識対象語数の絞込みを行う
ことから、上位階層属性値が特定できるまで対話を先へ
進めることができない。つまり、入力された属性値が特
定できるまでの正誤確認が各階層毎に必要となる。
【0009】もし下位階層の属性値から確定することが
可能であれば、上位階層の属性値も自動的に定まり目的
情報の確定を効率的に行うことができることから考える
と、現状のように上位階層から順に質問、確定、及び各
質問に対する確定までの正誤確認を繰返すことは、ユー
ザにとって非常に回りくどいプロセスである。特に、下
位階層の属性値から入力することができずに上位階層か
らの入力を強制されること、また誤認識のために正解が
最上位候補として出力されない場合に提示確認が繰り返
されること、さらに数回の提示確認によって入力が確定
しても目的情報が確定できるまで(最下位の属性値が特
定できるまで)階層数分の属性値の入力や正誤確認が繰
り返されることは、システムにとっては必須であって
も、短時間かつ自然なやりとりを望むユーザにとっては
非常に回りくどく余分なプロセスであり、ストレスにつ
ながる。
【0010】ユーザのストレス軽減につながる目的情報
確定方法は、より下位の属性値からの入力を許容するこ
とであるが、そのためには対話処理実時間内に処理可能
な数を超える認識対象語数を持つ属性値を特定すること
が必要になる。
【0011】また、機械による音声認識処理では、特に
不特定話者の音声、話速が一定でない発話に対する音声
は認識が困難であり、さらに周囲の雑音などによる音質
の劣化が原因となり、100%の音声認識精度が得られ
ないことから、ユーザが音声により入力した音声検索キ
ーを音声認識処理のみを用いて瞬時に同定することは困
難である。
【0012】また、音声対話型情報検索システムにおい
ては、ユーザとの間に自然な対話を実現するために、ユ
ーザの入力に対して人間が不自然さを感じないような実
時間で応答を返すことが大前提となる。しかし、与えら
れた一定時間内に音声認識処理可能な語彙数には限界が
ある。そのため、一定時間内に処理不可能な語彙数を有
する大規模データベースを認識対象とする場合、システ
ムが音声認識処理の際にデータベース検索に要する処理
時間をユーザに感じさせず、かつシステムの音声認識精
度の欠陥をも感じさせずに、ユーザとシステムの自然な
対話の中で一定時間にユーザが要求するタスクを達成す
ることは困難であり、ユーザはシステムが認識処理結果
を出力するまでの間待機する必要があり、さらには提示
された結果が誤認識の場合、再度認識結果が提示される
まで待機しなければならないことになり、オペレータ対
応と同等の迅速さ、正確さを有し音声を入力インタフェ
ースとしたシステムの構築は、現在の音声認識技術では
困難とされている。
【0013】また、実時間内に処理不可能な大規模デー
タベースに対する、ユーザが要求する検索キーの同定を
目的とした従来の音声対話型情報検索方法は、実時間内
に認識処理可能なデータ数に制限があることから、最初
から要求検索キーを入力させるのではなく、認識対象を
大規模データベース全体から実時間内に処理可能なデー
タ数に縮小できるような、検索キー候補の絞込みにつな
がる、検索補助キーの入力を促す。但し、検索補助キー
としては、実時間内で処理可能なデータ数で構成され、
ユーザが要求する検索キーは必ず1つの検索補助キーを
上位キーとして持ち、ユーザにとって自分が検索を要求
しようとしている検索キーの検索補助キー(上位キー)
は単純明快なものであり、1つの検索補助キーが有する
下位キー(ユーザが検索要求する検索キー)は実時間内
に処理可能なデータ数で構成されるようなデータを検索
補助キーとして選択することにより検索キーの同定を行
う。
【0014】また、ユーザが音声入力により要求する検
索キーの同定を目的とした従来の音声対話型情報検索方
法では、まず始めに、検索補助キー(上位キー)に対し
て音声認識処理し、出力された検索補助キー(上位キ
ー)候補を、正解という応答が得られるまで認識尤度の
高い順にユーザに提示する。検索補助キーが同定できた
ら、該当検索補助キーを上位キーとする検索キー(下位
キー)候補を認識対象データとして抽出し、ユーザに対
して、本来検索要求したかった検索キー(下位キー)の
入力を促す。検索キーに対しても検索補助キー同様に、
音声認識処理の結果出力された候補を、認識尤度の高い
順に正解という応答が得られるまでユーザに提示するこ
とで、検索キーの同定を行う。
【0015】このように、現状の音声認識技術では、実
時間内に音声認識用データベースを照合して認識尤度を
算出し、認識結果を出力することのできる語彙数に限界
があり、認識対象語彙数が増えれば増えるほど認識時間
を要する。入力インタフェースとして音声を利用した音
声検索システムにおいて、認識対象が大規模なデータベ
ースの場合、システムの音声認識処理の間、ユーザを待
機させることはストレスにつながることから、現状のシ
ステムは実時間内に認識結果を出力するために、認識対
象である各データが持つ属性項目の属性値を利用して認
識対象の絞込みを行っている。
【0016】しかし、音声認識技術の現状は、認識対象
を実時間処理可能な語彙数に絞り込んでも音声認識精度
は100%にはならない。特に、不特定話者の音声、話
速が一定でない発話に対する音声、雑音が多い環境化で
の発話は認識が困難であることから、入力音声確定のた
めには、認識結果の正誤性をユーザに対して確認する確
認プロセスが必要不可欠である。確認プロセスとは、音
声認識処理において算出された認識尤度の高い順に認識
候補を順にユーザに提示するプロセスのことであり、入
力音声の認識精度が悪ければ悪いほど確認プロセス回数
は多くなる。ユーザは入力インタフェースに対してオペ
レータ同様の対応を求めることから、確認プロセスの繰
り返しはユーザストレスにつながる。
【0017】大規模データベースを認識対象とした現状
の音声対話型情報検索システムは、ユーザに対して、認
識対象を実時間処理可能な語彙数に絞り込むための属性
項目の属性値入力、認識対象を属性値から絞り込めた時
点でユーザの要求検索キー入力を促すことから、属性値
及び検索キーに対してそれぞれ確認プロセスを要する。
属性値入力はシステムにとっては実時間内認識処理のた
めのやむをえないプロセスであるが、ユーザにとっては
検索要求したい検索キーからの入力ができないことがま
わりくどく、さらに確認プロセスの繰り返しが属性値確
定及び検索キー確定の2回行われることからさらなるス
トレスにつながる。
【0018】また、音声を入力インターフェースとする
大規模データベースを認識及び検索対象とした検索シス
テムは、ユーザにオペレータと対話しているかのような
錯覚を与えるくらいの迅速かつ正確な応答を目標とする
ことから、認識処理時間と認識精度を補うようなシステ
ムにとって効果的に認識対象語彙数の絞込みにつながる
ような質問形式を採用せざるを得ない。そのために、ユ
ーザが本当に検索を要求している検索キーを最初から入
力させずに、検索キーの絞込みにつながる前記検索補助
キーの同定を最初に行う。しかし、ユーザにとっては、
最終的に検索要求したい検索キーではなく検索補助キー
の入力を最初に強制され、検索補助キーが確定できてか
ら検索キーを入力することは、入力したい検索キーの入
力までにユーザにとっては余計なやりとり(システムに
とっては必要不可欠なやりとり)を強制されているよう
でストレスにつながる。
【0019】従って本発明は、ユーザに「待たされた」
という気持ちを抱かせず、ユーザが許容できる範囲の精
度を持った応答を返すことが可能な認識対象語の絞込み
方法、及び認識候補が絞込まれていることをユーザに感
じさせずに、正誤確認回数の減少あるいは正誤確認の省
略を実現するような入力確定方式を利用して、目的情報
確定のために必要な属性値を特定する過程において、認
識対象とする属性値が与えられた一定期間内には認識処
理可能な数を越える数からなる属性値であっても、これ
を特定することを可能とし、ユーザに対して音声認識処
理及び検索に要する時間を感じさせることなく、かつユ
ーザとの間に音声認識処理の欠陥などによる不自然な対
話を生じさせることなく、属性値を特定して目的情報の
確定を行う音声対話型情報検索方法、装置およびプログ
ラム記録媒体を提供することを目的とする。
【0020】また、本発明は、ユーザが入力する音声検
索キーの同定をタスクとするオペレータレス音声対話型
情報検索システムにおいて、ユーザに待機時間を感じさ
せずに、オペレータ対応のシステム同様の迅速性及び自
然性を兼ね備えた対話を通してタスクを達成できるよう
に、与えられた一定時間内に処理不可能な検索対象語彙
数を有する大規模検索データベースを用いて、ユーザに
対して音声認識処理及びデータベース照合時間を感じさ
せることなく、かつユーザとの間に音声認識処理の欠陥
などによる不自然な対話を生じさせることなく、ユーザ
が入力した検索キーの同定を、自然な対話を通して実現
する対話制御による音声対話を用いたオペレータレス音
声対話型情報検索方法、装置およびプログラム記録媒体
を提供することを目的とする。
【0021】また、本発明は、属性値確定を行わずに検
索キー確定を実現することにより、属性値確定のための
確認プロセスを無くして、確認プロセスによるまわりく
どさ及び検索キー確定にかかる処理時間を軽減し、大規
模データベースを認識対象とした、ユーザストレスの解
消につながる音声入力による検索キー確定方式を用いた
音声対話型情報検索方法、装置、およびプログラム記録
媒体を提供することを目的とする。
【0022】また、本発明は、大規模データベースを認
識対象として、ユーザが入力する検索キーの同定を目的
とする検索において、大規模データベース中のデータの
アクセス頻度の偏りを利用して、ユーザが本当に検索を
要求している検索キーを最初から入力してもユーザに認
識の間、待機時間を与えずかつ認識精度の欠陥を感じさ
せずに認識及び検索を実行し、大規模データベースの中
から該当検索キーを同定する迅速性及び自然性を兼ね備
えた検索に用いられる検索データベースを記録した記録
媒体並びに音声認識を用いた音声対話型情報検索方法、
装置およびプログラム記録媒体を提供することを目的と
する。
【0023】
【課題を解決するための手段】まず、本発明の第一の方
式では、情報データベース中の、対話処理実時間内に処
理可能な数を超える属性値候補数を有する属性の属性値
を特定する際、検索目的である属性からの入力に対し
て、ユーザがストレス及び不自然さを感じない程度の時
間内に、ユーザが許容できる範囲の精度を持った応答を
返すために、該属性の認識対象属性値の集合(認識対象
語)に対して過去のアクセス頻度の偏りなどを利用して
重要度を定め、重要度の高いデータに対して優先的な認
識処理を行う。
【0024】重要度に基づき、音声認識装置が対話処理
実時間内に処理可能な属性値数(システム規定数、N語
とする)を優先認識対象語として選択し、優先的に音声
認識処理を行う。
【0025】認識結果に基づき算出された各属性値候補
に対する認識尤度と、規定閾値との比較などにより、あ
らかじめ規定したユーザとの確認処理のみで属性値特定
可能と判断できる条件を満たす場合は、ユーザに対して
結果を提示し正誤確認を試みる。
【0026】優先認識対象語に対する認識処理は、本来
は対話処理実時間内に処理可能な数を超える数の属性値
を有する属性に対して、優先認識対象語はアクセスされ
る可能性の高い属性値で構成することから、大多数のユ
ーザに対しては多くの場合適切な認識結果を提示するこ
とができる。
【0027】前記確認処理のみで属性値特定可能な条件
を満たさない場合は、優先認識対象語に目的属性値が含
まれていないか、あるいは認識装置の精度が非常に低
く、正解が上位候補として出力されなかったかのどちら
かである。この場合、関連情報質問へ対話を進め、例え
ば階層的に隣接する別属性を尋ね、別属性の認識結果を
併用して総合的に判断することで、従来のような確定ま
での上位候補からの正誤確認の繰り返しは行わず、ユー
ザのストレスを回避する。
【0028】この第一の方式の特徴は、残りの非優先認
識対象語中に目的属性値が含まれている場合に対応すべ
く、関連情報質問へ対話を進めることでユーザには、優
先認識対象語に対する認識結果のみを基にそれまでの応
対を行っていたことは知らせずに、関連情報質問対話時
間を利用して、非優先認識対象語に対する認識処理を平
行して行う。関連情報質問の応答に対して認識処理を行
い認識結果が算出された時点で、平行して認識処理をし
ていた非優先認識対象語の認識処理が終了しているとこ
ろまでを、優先認識対象語の認識結果と足し合わせ、関
連情報質問の応答の認識結果との関連性を参照し認識結
果を絞込む。
【0029】但し、非優先認識対象語が対話処理実時間
内に処理可能な語数(N語)以上からなる場合、1回の
関連情報質問の応答が得られた時点において、非優先認
識対象語に対する認識処理が終了しておらず、終了まで
続けるとユーザを待機させてしまうことを考慮して、非
優先認識対象語をN語単位とする集合(セットと呼ぶ)
に分割する。そして、重要度の高い順に1セットずつ認
識装置に認識対象語として提供し、認識処理を行う。関
連情報質問に対してユーザから応答が入力される時点ま
での非優先認識対象語のセットに対する認識結果を、そ
れまでに得られている結果に足しこむ。
【0030】このように関連情報質問は、ユーザに対し
ては待機時間、正誤確認の繰り返しというプロセスでは
なく、質問されても不自然でないことを聞かれそれに答
えると言う自然な対話を実現するという効果を生む。一
方、システムにとっては、その関連情報質問対話時間を
非優先認識対象語に対する認識時間を稼ぐ手段として利
用することに加えて、さらに属性値どうしの関連性から
特定目的である属性値の絞込みにつながる情報が得られ
た場合は、得られた関連情報を絞込みのための情報とし
て利用するという2つの効果がある。
【0031】次に、関連情報質問の結果と統合した結果
に対して、再び、確認処理のみで目的属性値が特定可能
と判断できる条件を満たしているかどうかを判定し、満
たしている場合は正誤確認を試み、そうでない場合は、
さらに別の関連情報を尋ねる。非優先認識対象語に対す
る認識処理が終了していない場合は、まだ認識処理が終
了していない属性値の中に目的属性値が含まれている可
能性を考慮して、関連情報質問対話時間を利用して認識
処理を続ける。尋ねるべき関連情報が存在しない場合
は、同様の関連情報質問を何回か繰り返したり、関連情
報質問の応答の認識結果を提示してより確実な関連情報
獲得を目指すなど、非優先認識対象語に対する認識処理
時間を稼ぐ手段を構じる。
【0032】ユーザには、システム内部の処理状態は一
切通知せずに気付かれないように対話を進めるため、自
然な対話の流れの中で属性値の特定、及び目的情報確定
が実現する。すなわち、この第一の方式により、ユーザ
に対してはあくまでも全属性値に対して認識処理を行
い、その結果に基づいた応答であるかのように見せかけ
ることが可能となる。優先認識対象語に対してのみの認
識結果で最初の応答を返していること、目的属性値が優
先認識対象語に含まれていない可能性もあることなど
は、ユーザに気づかれないように関連情報質問へ対話を
進める。そして、関連情報質問の結果を統合しながら、
徐々に認識が終了する非優先認識対象語の認識結果を足
し込むことで、ユーザとの自然な対話を維持することが
でき、対話処理実時間内に処理可能な数を超える数の認
識対象語に対しても、ユーザに不自然さかつストレスを
感じさせずに適切な時間内に、入力された属性値を特定
し、目的情報を確定する方法を提供する。
【0033】この第一の方式により、ユーザにとっては
目的情報の確定を効率的に行うことができると思われる
下位階層の属性値からの入力を許容することが可能にな
り、不用意な正誤確認が繰り返されないことから、ユー
ザのストレス軽減が期待できる。また、高精度な自然性
を兼ね備えた、ユーザに待機時間及び認識精度上の問題
を感じさせない、情報検索プロセスが実現できる。
【0034】次に、本発明の第二の方式では、ユーザと
システム間のタスク達成のために行われる対話応答に自
然さを保つために、与えられた一定時間内に処理不可能
な大規模認識対象語彙数を有する音声認識用データベー
スに対して、過去のアクセス頻度や使用頻度などの統計
的情報により、データベース中の各データに対して重要
度を定め、最も重要度の高いデータから順に所定数のデ
ータを選択して部分データベースを作成し、部分データ
ベースを、下位階層ほど含有データ数が多く、最下位階
層は前記音声認識用データベースの全データを含むよう
に階層構造化した複数の統計階層データベースとして保
持する。
【0035】実時間性を仮想的に実現するために、各階
層のデータ数の相違による処理時間の差異を利用して、
統計階層データベースの各階層に対し、並列に音声認識
処理及び音声認識尤度に基づく音声検索キー候補の抽出
を行い、処理が速く終了する最上位の統計階層データベ
ースから得られる結果から順に、ユーザとの対話誘導を
行いながら他の階層の処理を続ける。
【0036】この第二の方式において使用する統計階層
データベースとしては、この方式において音声検索キー
の絞込みを行うために音声検索キーが有する関連属性情
報を尋ねる検索キー確定関連質問を行う際、検索対象で
ある音声認識用データベースの全データに対して、各デ
ータの特徴を表す属性項目の属性値を、関連属性情報と
して保持している検索キー属性データベースを使用す
る。
【0037】またこの第二の方式において、音声検索キ
ーの有力候補から候補の絞込みを行うために、検索キー
確定関連質問から得られる複数の関連属性情報候補と、
絞込みの対象としている音声検索キー有力候補との間の
関連性が、検索キー属性データベースを参照することに
より認められた場合、検索キー認識尤度と関連情報認識
尤度を正規化及び乗算することで、候補の同定を実現す
る。
【0038】この第二の方式では、音声検索キーの同定
を目的とする音声対話型情報検索装置において、音声検
索キー同定のためにユーザとの間で行われる対話に自然
さを保つ範囲の一定時間内に音声認識処理及びデータベ
ース照合不可能な大規模音声認識対象語彙数を有する音
声認識用データベースを検索対象とする場合、オペレー
タ対応のシステム同様ユーザに音声認識処理及びデータ
ベース照合時間、音声認識精度の欠陥を感じさせること
なく、さらにユーザとの対話において、自然性を重視し
た対話制御方式を用いて音声検索キーの同定を実現す
る。
【0039】この第二の方式の音声対話型情報検索方法
では、検索対象データベースが大規模であるため、検索
対象データベースを重要度の高い順に階層構造化して複
数の統計階層データベースとして保持し、第n階層に対
する認識結果を基にした音声検索キー同定のための対話
がユーザとの間で行われている間に、第(n+1)階層
に対する音声認識及び検索キー認識尤度の算出、音声認
識結果テーブルの作成が終了するよう各統計階層のデー
タ含有数を構成し、各統計階層のデータ数の相違による
処理時間の差異を利用することで、ユーザに不自然さを
感じない一定時間内での、音声検索キーに対する音声認
識処理及び認識候補の出力を仮想的に実現する。
【0040】即ち、音声認識精度の欠陥をユーザに感じ
させず、あたかも人間対人間の対話のような対話を対シ
ステム間においても成立させるために、前記統計階層デ
ータベースの各階層に対して並列に音声認識処理を行
い、各階層毎に音声検索キー候補の抽出を行い、データ
数が最小かつ統計的に重要度の高い音声検索キー候補を
含む最上位の統計階層データベースに対する音声認識処
理が最も早く終了することを利用して、最上位の統計階
層データベースの音声認識結果テーブルから順に参照
し、規定尤度しきい値を越える音声検索キー有力候補数
に応じて、ユーザに対する対話誘導方法を決定する。
【0041】音声検索キー有力候補数が、所定数以下か
つ0でない場合は、有力候補の中から候補を絞込むため
の検索キー確定関連質問を行い、得られる関連属性情報
候補との関連性が認められた、音声検索キー有力候補を
音声検索キーに同定しユーザに提示する。
【0042】上記音声検索キー有力候補が所定数よりも
多い場合、或いは存在しない場合、或いは上記のユーザ
に提示した音声検索キーが該当する候補ではないとユー
ザから否定された場合、或いは、上記検索キー確定関連
質問により得られた関連属性情報候補と関連性のある候
補が音声検索キー有力候補の中に存在しなかった場合、
該当音声検索キーが最上位統計階層データベース中に存
在しない可能性があることから、この時点で音声認識処
理が終了している次階層(下位)統計階層データベース
に検索対象を移動する。ユーザには、検索対象データベ
ースが下位に移動したことを感じさせない。
【0043】検索対象データベースを下位に移動した時
点で、上記のユーザに提示した音声検索キーが該当する
候補ではないとユーザから否定された場合、或いは、上
記検索キー確定関連質問により得られた関連属性情報候
補と関連性のある候補が音声検索キー有力候補の中に存
在しなかった場合は、既に検索キー確定関連質問で得ら
れている関連属性情報候補を再び利用して、上記音声検
索キー有力候補が所定数よりも多い場合、或いは存在し
ない場合は、新たに検索キー確定関連質問を行い、得ら
れた関連属性情報を利用して、今認識対象としてなって
いる第二統計階層データベース中の音声検索キー候補の
中で、関連属性情報候補との関連性が認められた候補に
対しては認識尤度の統合を行い、新たな認識尤度を定め
る。
【0044】再び、音声検索キー有力候補数を見て、有
力候補が所定数以下かつ0でないならば、再び別の関連
属性情報を尋ねる検索キー確定関連質問をして、新たに
得られる関連属性情報候補も併せて利用して、第二統計
階層データベース中の音声検索キー有力候補の絞込みを
行い、最上位統計階層データベースと同様に、認識尤度
を統合した結果、最も大きな検索キー認識尤度を持つ音
声検索キーをユーザに提示する。
【0045】二番目の統計階層データベースの認識結果
が、上記音声検索キー有力候補が所定数よりも多い場
合、或いは存在しない場合、或いは上記のユーザに提示
した音声検索キーが該当する候補ではないとユーザから
否定された場合、或いは、上記検索キー確定関連質問に
より得られた関連属性情報候補と関連性のある候補が音
声検索キー有力候補の中に存在しなかった場合のいづれ
かを満たす場合は、最上位統計階層データベースの場合
と同様に、第三統計階層データベースへと検索対象を移
動し同様の対話誘導を、音声検索キーが同定できるまで
繰り返す。
【0046】各統計階層データベースにおいて、音声検
索キー有力候補が所定数以下かつ0でない場合の対話誘
導においては、検索キー確定関連質問を行うことにより
有力候補の持つ検索キー認識尤度の信頼性を高め、効果
的に候補を絞込むことができ、検索対象データベースを
下位階層へ移動する対話誘導においては、下位階層ほど
音声認識対象語彙数が多く認識精度の悪化が考えられる
が、検索対象を下位に移動する時点までに獲得している
すべての関連属性情報候補との関連性を考慮することに
より、より多くの情報を組み合わせて絞込みを行うこと
でデータ数増加による認識精度の悪化を補うことができ
る。
【0047】また、この第二の方式の音声対話型情報検
索方法は、音声認識精度が100%でないことから音声
検索キーを100%の精度で同定することが不可能であ
るので、音声検索キーの持つ関連属性情報を用いて該当
する音声検索キーの同定を試みる。しかし、関連属性情
報も検索キー確定関連質問の応答に対して音声認識を行
うことで獲得するので、100%の精度で得られるわけ
ではない。
【0048】そこで考えられる音声検索キー候補と関連
属性情報候補の認識尤度を正規化、統合することで音声
認識精度の欠陥を補い、検索キー確定関連質問を行い候
補の絞込みを行いながら自然性を重視した対話制御方式
を用いることで、ユーザには音声認識精度の欠陥を感じ
させないように音声検索キー候補の絞込みを行う。
【0049】音声認識用データベースの階層構造化、音
声認識尤度の正規化、統合を利用した対話制御方式に基
づいて、ユーザとの対話を行うことにより、高精度な自
然性を兼ね備えた、ユーザに待機時間及び認識精度の欠
陥を感じさせない、オペレータ対応しているような音声
対話型情報検索装置の実現が可能になる。
【0050】次に、本発明の第三の方式では、音声認識
用データベースが実時間内に処理不可能な認識対象語彙
数を持つことから、ユーザに対して検索キーの持つ属性
項目の属性値の入力を促し、属性値から認識対象を絞り
込むことによって、実時間内の音声認識処理及び検索キ
ーの確定を実現する過程において、属性値を一意に確定
せずに認識対象の絞り込みを実現する。
【0051】この第三の方式では、従来と同様に、音声
認識用データベース中の認識対象検索キー候補が持つ属
性を利用して、検索キー候補を実時間処理可能な語彙数
からなるグループに分類して、ユーザに対して要求検索
キーの属性を尋ねることで認識対象グループを限定し
て、認識対象を絞り込むことで実時間内の音声認識処理
及び検索キーの確定を実現する。その際、現状の音声認
識精度が100%でないことから、入力された属性値は
一意に定まらず、属性値に対する音声認識処理の結果、
認識尤度の大きい順に属性値候補を出力する。
【0052】ここで、第三の方式では、属性値を一意に
確定するための確認プロセスを行わずに、規定尤度閾値
以上の認識尤度を持つ属性値を属性値有力候補とし、音
声認識用データベースから属性値有力候補に属する全て
の検索キー候補を認識対象として抽出する。すなわち、
属性値有力候補数がnならば、音声認識用データベース
から、属性値によってグループ化されたグループのう
ち、属性値有力候補による分類に該当するn個のグルー
プ内の検索キー候補を認識対象として抽出する。そし
て、ユーザに対して検索要求対象の検索キーの音声入力
を促し、先の検索キー候補を認識対象として該検索キー
に対する音声認識処理の結果算出した認識尤度の高い順
に、ユーザに正誤性を問う確認質問をすることで、検索
キー候補から検索キーの確定を試みる。
【0053】このように、本発明の第三の方式は、大規
模音声認識用データベースから認識対象を絞り込むため
に、検索キーの持つ属性項目の属性値の入力をユーザに
最初に要求する過程において、属性値を一意に確定する
ための確認プロセスを実行しないことで、ユーザへの確
認プロセスは検索キー確定の1回だけになり、従来の属
性値確定に要した確認プロセスによるまわりくどさが解
消し、さらに処理時間の短縮につながる。
【0054】次に、本発明の第四の方式では、ユーザが
検索キーを入力することにより音声対話型情報検索装置
が検索キーを同定するために用いられる検索データベー
スを記録した記録媒体において、検索データベースは2
階層構造であり、上位階層データはシステムが規定した
実時間内に認識処理可能な対象データ数になるように構
成し、下位階層データは、検索キーを含むと共に、前記
実時間内に認識処理が不可能なデータ数を含み、下位階
層に含まれる各データは、必ず1つの上位階層中のデー
タに概念依存し、かつ1つの上位階層中のデータに概念
依存する下位階層のデータ数は前記実時間内に認識処理
が可能なデータ数から構成し、さらに、下位階層中の各
データのアクセス頻度の偏りを示すアクセス頻度情報を
持ち、下位階層データはアクセス頻度の高い方から順
に、高頻度アクセスデータ群と、その他残りのデータを
区別して保持する。
【0055】また、この第四の方式では、ユーザが音声
入力する検索キーに対して音声認識処理を行い、音声認
識用データベースの中から、入力された検索キーを検索
して同定することを目的とした音声認識を用いた音声対
話型情報検索方法においてユーザから要求検索キーが音
声入力されると、前記下位階層データの中の、高頻度ア
クセスデータ群に対して優先的に認識及び検索処理を行
い(手順1)、検索キーに対する音声認識処理の結果算
出した認識尤度の高い順に検索結果候補をユーザに正誤
性を問う確認質問をする(手順2)。手順2において、
所定回数以下の確認質問で検索キーが同定できる場合は
同定し(手順3)、手順3における所定回数の確認質問
が、ユーザから該当検索キーでないとすべて否定された
場合には、ユーザに対して、上位階層データを認識対象
として、該当検索キーが依存する上位概念を尋ねる関連
質問を行う(手順4)。つぎに関連質問に対するユーザ
の応答を音声認識することにより、算出した上位概念候
補の認識尤度を利用して、認識尤度の高い順に上位概念
が同定できるまでユーザに正誤性を問う確認質問を行い
(手順5)、上位概念が同定できた時点で、同定した上
位階層データに依存している下位階層データを認識対象
データと限定して抽出する(手順6)。そしてユーザが
入力した検索キーに対して再び音声認識処理を行い、認
識尤度の高い順にユーザに対して正誤性を問う確認質問
をすることで、音声検索キーの同定を行う(手順7)。
【0056】この第四の方式は、高頻度アクセスデータ
群に該当検索キーが含まれていれば、検索キーの補助と
なる上位概念を尋ねる関連質問をせずに、ユーザが本来
検索要求する検索キーの入力のみで、かつ実時間内に検
索キー同定が可能であり、該当検索キーが高頻度アクセ
スデータ群に含まれていない場合も、ユーザにとっては
従来と違ってシステムにとって効果的な絞込みを行うた
めの上位概念を尋ねる補助的な質問から強制的にスター
トするのではなく、本来検索要求する検索キーを始めに
入力し、次に補助的な上位概念の入力をするという自然
さを兼ね備えた高速検索手法である。また、ユーザに音
声認識処理に要する時間及び認識精度の欠陥を感じさせ
ることなく、かつユーザが検索を要求している検索キー
を最初に入力させるという自然なシステムとのやりとり
のもとに、実時間内に処理不可能なアクセス頻度に偏り
を有するデータから構成される大規模音声認識用データ
ベースの中から、ユーザが音声入力する検索キーを同定
できる。
【0057】音声認識精度が、100%であると仮定し
た場合、実時間で認識処理を実現するために、ユーザが
本来検索要求したい検索キーからではなく、認識対象語
彙数を縮小化するために上位概念を検索補助キーとして
初めに尋ね、上位概念が同定できたら上位概念に依存し
ている下位概念を検索対象として抽出して検索キーの入
力を促す従来の手法は、実時間音声認識処理による候補
確定にT1(秒)かかるとすると、ユーザとの間で上位
概念(検索補助キー)と検索キーの2度の同定作業が行
われることから2×T1(秒)要することになる。一
方、下位階層の高頻度アクセスデータ群を80%のアク
セス頻度を有するデータで構成し、ユーザが本来検索要
求したい検索キーの入力を最初に促し、高頻度アクセス
データ群に対して優先的に検索処理を行うこの第四の方
式は、高頻度アクセスデータ群に該当検索キーが含まれ
ている場合はT1(秒)、含まれていない場合は上位概
念を次に尋ね絞り込む上記手法をとることから2×T1
(秒)要することから、全体で0.8×T1+0.2×
2×T1=1.2×T1(秒)要することになり、この
第四の方式の方が検索キー同定に要する期待値は小さく
なる。
【0058】実際に、音声認識精度は100%でないこ
とから上記の処理時間で検索処理が終了することは困難
であるが、音声認識装置が50%の確率で1位に正解候
補を出力、40%の確率で2位に正解候補を出力、10
%の確率で3位に正解候補を出力するという認識精度を
有し、音声認識用データベース中に正解が含まれている
場合は、3位までに正解候補を出力すると仮定した場
合、ユーザに対して出力候補が正解かどうか問うのにT
1(秒)要するとすると、従来の手法は、上位概念の同
定に0.5×T1+0.4×2×T1+0.1×3×T
1=1.6×T1(秒)(正解が2位の場合、正誤性を
2回問うことから、2×T1(秒)が正誤確認時間とな
る)要する。そして、上位概念を用いて認識対象を実時
間処理可能な語彙数に絞り込み、ユーザの要求している
検索キーの同定に1.6×T1(秒)要することから合
計で1.6×T1+1.6×T1(秒)要する。一方、
この第四の方式は、同様の音声認識精度の下で、高頻度
アクセスデータ群を80%のアクセス頻度を有するデー
タで構成する場合、高頻度アクセスデータ群に該当検索
キーが含まれている場合、下位階層から得られる検索キ
ー候補の正誤を問う確認質問を2回までとすると、2位
までに正解検索キー候補が出力される場合は検索キー同
定に0.8×0.5×T1+0.8×0.4×2×T1
=1.04×T1(秒)要し、高頻度アクセスデータ群
に該当検索キーが含まれていても上位2位までに正解検
索キーが出力されない場合は上位概念を尋ね、検索範囲
を絞り込む従来の手法をとることから0.5×T1+
0.4×2×T1+0.1×3×T1=1.6×T1
(秒)要するのが全体の10%(3位に正解候補が出力
される確率)なので、1.6×T1×0.1=0.16
×T1(秒)要する。また該当検索キーが高頻度アクセ
スデータ群に含まれていない場合も従来の手法をとるこ
とから1.6×T1(秒)要し、これが全体の20%
(アクセス頻度が20%に満たない単語が該当検索キー
である場合)なので1.6×T1×0.2=0.32×
T1(秒)要する。従って音声認識精度が100%では
ない場合、この第四の方式は合計で、1.04×T1+
0.16×T1+0.32×T1=1.52×T1
(秒)要することになり、この第四の方式の方が従来方
法と比較して検索キーの同定に要する時間の期待値が半
分以下に押さえられ、さらにシステムにとって効率のよ
い絞込みにつながる補助的な質問から始まるのでなく、
ユーザが本来要求している検索キーを最初に入力すると
いう自然性も兼ね備えている。
【0059】従って、本発明は、ユーザの入力した検索
キーを音声認識処理を用いて確定することによりユーザ
の目的情報を確定して検索する音声対話型情報検索方法
であって、(a)音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を認識
対象語として音声認識用データベースに格納し、認識対
象語を、認識対象語に対して規定された統計情報に基づ
く重要度が比較的高く音声認識処理により所定の処理時
間内に処理可能な数のデータからなる優先認識対象語
と、それら以外の非優先認識対象語とに分けておき、
(b)ユーザとの音声対話を用いてユーザに検索キーを
示す音声入力を入れるように要求し、優先認識対象語に
対する該音声入力の音声認識処理を行って認識結果を得
て、(c)前記認識結果がユーザとの確認処理のみで検
索キーを確定できると判断する所定の条件を満たす場合
には、該認識結果に基いてユーザとの音声対話を用いて
確認処理を行って検索キーを確定し、(d)前記認識結
果が所定の条件を満たさない場合には、ユーザとの音声
対話を用いてユーザに検索キーの関連情報を示す別の音
声入力を入れるように要求する関連情報質問を行い、
(e)前記別の音声入力の音声認識処理を行って別の認
識結果を得て、該別の認識結果に基いて前記認識結果を
調整して調整認識結果を得て、(f)検索キーが確定さ
れるまで、前記認識結果の代わりに調整認識結果を用い
て前記ステップ(c)または前記ステップ(d)および
(e)の処理を繰り返すことを特徴とする音声対話型情
報検索方法を提供する。
【0060】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索装置で
あって、音声認識処理により所定の処理時間内に処理不
可能な数のデータからなる検索キー候補を認識対象語と
して格納し、認識対象語を、認識対象語に対して規定さ
れた統計情報に基づく重要度が比較的高く音声認識処理
により所定の処理時間内に処理可能な数のデータからな
る優先認識対象語と、それら以外の非優先認識対象語と
に分けた音声認識用データベースと、音声認識処理を行
う音声認識部と、ユーザとの音声対話を行う対話制御部
とからなり、対話制御部が、ユーザに検索キーを示す音
声入力を入れるように要求する音声対話を行って、音声
認識部が、優先認識対象語に対する該音声入力の音声認
識処理を行って認識結果を得て、対話制御部が、前記認
識結果がユーザとの確認処理のみで検索キーを確定でき
ると判断する所定の条件を満たす場合には、該認識結果
に基いて確認処理の音声対話を行って検索キーを確定
し、対話制御部が、前記認識結果が所定の条件を満たさ
ない場合には、ユーザに検索キーの関連情報を示す別の
音声入力を入れるように要求する関連情報質問の音声対
話を行って、音声認識部が、前記別の音声入力の音声認
識処理を行って別の認識結果を得て、対話制御部が、該
別の認識結果に基いて前記認識結果を調整して調整認識
結果を得て、対話制御部が、検索キーが確定されるま
で、前記認識結果の代わりに調整認識結果を用いて前記
確認処理または前記関連情報質問を繰り返すように音声
対話を制御することを特徴とする音声対話型情報検索装
置を提供する。
【0061】また、本発明は、音声認識処理により所定
の処理時間内に処理不可能な数のデータからなる検索キ
ー候補を認識対象語として格納し、認識対象語を、認識
対象語に対して規定された統計情報に基づく重要度が比
較的高く音声認識処理により所定の処理時間内に処理可
能な数のデータからなる優先認識対象語と、それら以外
の非優先認識対象語とに分けた音声認識用データベース
と音声認識処理を用いて、ユーザの入力した検索キーを
確定することによりユーザの目的情報を確定して検索す
る音声対話型情報検索システムとしてコンピュータ動作
させるプログラムコードを記録した記録媒体であって、
ユーザとの音声対話を用いてユーザに検索キーを示す音
声入力を入れるように要求し、優先認識対象語に対する
該音声入力の音声認識処理を行って認識結果を得る第一
のプログラムコードと、前記認識結果がユーザとの確認
処理のみで検索キーを確定できると判断する所定の条件
を満たす場合には、該認識結果に基いてユーザとの音声
対話を用いて確認処理を行って検索キーを確定する第二
のプログラムコードと、前記認識結果が所定の条件を満
たさない場合には、ユーザとの音声対話を用いてユーザ
に検索キーの関連情報を示す別の音声入力を入れるよう
に要求する関連情報質問を行う第三のプログラムコード
と、前記別の音声入力の音声認識処理を行って別の認識
結果を得て、該別の認識結果に基いて前記認識結果を調
整して調整認識結果を得る第四のプログラムコードと、
(f)検索キーが確定されるまで、前記認識結果の代わ
りに調整認識結果を用いて前記第二のプログラムコード
または前記第三と第四のプログラムコードの処理を繰り
返す第五のプログラムコードと、を記録したことを特徴
とする記録媒体を提供する。
【0062】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索システ
ムにおいて音声認識用データベースとして用いるための
データ構造を記録した記録媒体であって、該データ構造
は、音声認識処理により所定の処理時間内に処理不可能
な数のデータからなる検索キー候補を認識対象語として
音声認識用データベースに格納し、認識対象語を、認識
対象語に対して規定された統計情報に基づく重要度が比
較的高く音声認識処理により所定の処理時間内に処理可
能な数のデータからなる優先認識対象語と、それら以外
の非優先認識対象語とに分けておくことにより構成さ
れ、検索キー候補を下位階層データとして格納し、更に
音声認識処理により所定の処理時間内に処理可能な数の
データからなる上位階層データを格納し、各下位階層デ
ータは一つの上位階層データに依存し、一つの上位階層
データに依存する下位階層データの数は音声認識処理に
より所定の処理時間内に処理可能な数のデータからなる
ことを特徴とする記録媒体を提供する。
【0063】さらに、本発明は、ユーザの入力した検索
キーを音声認識処理を用いて確定することによりユーザ
の目的情報を確定して検索する音声対話型情報検索方法
であって、(a)音声認識処理により所定の処理時間内
に処理可能な数のデータからなる属性値候補を持つ属性
として選択された属性項目の属性値により分類された検
索キー候補を音声認識用データベースに格納し、(b)
ユーザとの音声対話を用いてユーザに検索キーの前記属
性項目の属性値を示す音声入力を入れるように要求し、
該音声入力の音声認識処理を行って、属性値候補とその
認識尤度を示す認識結果を得て、(c)所定の尤度しき
い値を越える認識尤度を有する属性値候補を属性値有力
候補として選択し、属性値有力候補に属する検索キー候
補を新たな認識対象データとして抽出し、(d)ユーザ
との音声対話を用いてユーザに検索キーを示す別の音声
入力を入れるように要求し、新たな認識対象データに対
する該別の音声入力の音声認識処理を行って別の認識結
果を得て、(e)前記別の認識結果に基いてユーザとの
音声対話を用いて確認処理を行って検索キーを確定する
ことを特徴とする音声対話型情報検索方法を提供する。
【0064】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索装置で
あって、音声認識処理により所定の処理時間内に処理可
能な数のデータからなる属性値候補を持つ属性として選
択された属性項目の属性値により分類された検索キー候
補を格納する音声認識用データベースと、音声認識処理
を行う音声認識部と、ユーザとの音声対話を行う対話制
御部とからなり、対話制御部が、ユーザに検索キーの前
記属性項目の属性値を示す音声入力を入れるように要求
する音声対話を行い、音声認識部が、該音声入力の音声
認識処理を行って、属性値候補とその認識尤度を示す認
識結果を得て、対話制御部が、所定の尤度しきい値を越
える認識尤度を有する属性値候補を属性値有力候補とし
て選択し、属性値有力候補に属する検索キー候補を新た
な認識対象データとして抽出し、対話制御部が、ユーザ
に検索キーを示す別の音声入力を入れるように要求する
音声対話を行い、音声認識部が、新たな認識対象データ
に対する該別の音声入力の音声認識処理を行って別の認
識結果を得て、対話制御部が、前記別の認識結果に基い
て確認処理の音声対話を行って検索キーを確定すること
を特徴とする音声対話型情報検索装置を提供する。
【0065】また、本発明は、属性項目の属性値により
分類された検索キー候補を格納した音声認識用データベ
ースと音声認識処理を用いて、ユーザの入力した検索キ
ーを確定することによりユーザの目的情報を確定して検
索する音声対話型情報検索システムとしてコンピュータ
動作させるプログラムコードを記録した記録媒体であっ
て、ユーザとの音声対話を用いてユーザに検索キーの前
記属性項目の属性値を示す音声入力を入れるように要求
し、該音声入力の音声認識処理を行って、属性値候補と
その認識尤度を示す認識結果を得る第一のプログラムコ
ードと、所定の尤度しきい値を越える認識尤度を有する
属性値候補を属性値有力候補として選択し、属性値有力
候補に属する検索キー候補を新たな認識対象データとし
て抽出する第二のプログラムコードと、ユーザとの音声
対話を用いてユーザに検索キーを示す別の音声入力を入
れるように要求し、新たな認識対象データに対する該別
の音声入力の音声認識処理を行って別の認識結果を得る
第三のプログラムコードと、前記別の認識結果に基いて
ユーザとの音声対話を用いて確認処理を行って検索キー
を確定する第四のプログラムコードとを記録したことを
特徴とする記録媒体を提供する。
【0066】さらに、本発明は、ユーザの入力した検索
キーを音声認識処理を用いて確定することによりユーザ
の目的情報を確定して検索する音声対話型情報検索方法
であって、(a)音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を、音
声認識用データベースに設けられた複数の統計階層デー
タベースに認識対象語として格納し、より下位の統計階
層データベースが検索キー候補のより大きな部分を含み
最下位の統計階層データベースが全ての検索キー候補を
含むようにし、(b)ユーザとの音声対話を用いてユー
ザに検索キーを示す音声入力を入れるように要求し、全
ての統計階層データベースに対する該音声入力の音声認
識処理を並列に行って認識検索キー候補とその認識尤度
を示す各認識結果を順次得て、(c)音声認識処理の完
了した各統計階層データベースについて、所定の尤度し
きい値を越える認識尤度を有する認識検索キー候補を認
識検索キー有力候補として選択し、(d)認識検索キー
有力候補の数が所定数以下かつ0でないという所定の条
件が満たされるかどうかにより、ユーザとの次の音声対
話を制御することを特徴とする音声対話型情報検索方法
を提供する。
【0067】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索装置で
あって、音声認識処理により所定の処理時間内に処理不
可能な数のデータからなる検索キー候補を認識対象語と
して格納する複数の統計階層データベースを有し、より
下位の統計階層データベースが検索キー候補のより大き
な部分を含み最下位の統計階層データベースが全ての検
索キー候補を含むようにした音声認識用データベース
と、音声認識処理を行う音声認識部と、ユーザとの音声
対話を行う対話制御部とからなり、対話制御部が、ユー
ザに検索キーを示す音声入力を入れるように要求する音
声対話を行い、音声認識部が、全ての統計階層データベ
ースに対する該音声入力の音声認識処理を並列に行って
認識検索キー候補とその認識尤度を示す各認識結果を順
次得て、対話制御部が、音声認識処理の完了した各統計
階層データベースについて、所定の尤度しきい値を越え
る認識尤度を有する認識検索キー候補を認識検索キー有
力候補として選択し、対話制御部が、認識検索キー有力
候補の数が所定数以下かつ0でないという所定の条件が
満たされるかどうかにより、ユーザとの次の音声対話を
制御することを特徴とする音声対話型情報検索装置を提
供する。
【0068】又、本発明は、音声認識処理により所定の
処理時間内に処理不可能な数のデータからなる検索キー
候補を認識対象語として格納する統計階層データベース
を有し、より下位の統計階層データベースが検索キー候
補のより大きな部分を含み最下位の統計階層データベー
スが全ての検索キー候補を含むようにした音声認識用デ
ータベースと音声認識処理を用いて、ユーザの入力した
検索キーを確定することによりユーザの目的情報を確定
して検索する音声対話型情報検索システムとしてコンピ
ュータ動作させるプログラムコードを記録した記録媒体
であって、ユーザとの音声対話を用いてユーザに検索キ
ーを示す音声入力を入れるように要求し、全ての統計階
層データベースに対する該音声入力の音声認識処理を並
列に行って認識検索キー候補とその認識尤度を示す各認
識結果を順次得る第一のプログラムコードと、音声認識
処理の完了した各統計階層データベースについて、所定
の尤度しきい値を越える認識尤度を有する認識検索キー
候補を認識検索キー有力候補として選択する第二のプロ
グラムコードと、認識検索キー有力候補の数が所定数以
下かつ0でないという所定の条件が満たされるかどうか
により、ユーザとの次の音声対話を制御する第三のプロ
グラムコードとを記録したこと特徴とする記録媒体を提
供する。
【0069】
【発明の実施の形態】まず、図1〜図8を参照して、上
述した本発明の第一の方式に関する第一の実施形態につ
いて説明する。
【0070】図1は、本発明の第一の実施形態における
音声対話型情報検索装置の一構成例を示す。この音声対
話型情報検索装置1は、音声入力部2、音声識別部3、
対話制御部4、音声出力部5から構成される。音声識別
部3は、音声認識部3−1、音声認識結果出力部3−2
から構成される。対話制御部4は結果調整部4−1、対
話誘導部4−2、質問・応答作成部4−3から構成され
る。音声識別部3では音声認識装置6を、音声出力部5
では音声出力装置8を使用する。また、音声識別部3で
の入力音声に対する音声認識処理、及び対話制御部4の
結果調整部4−1、対話誘導部4−2は、システムデー
タベース7を使用する。システムデータベース7は、ユ
ーザが意図する目的情報を記録した情報データベース7
−1、YES/NOデータベース7−2から構成され
る。
【0071】図2に情報データベース7−1の全体像の
一例を示す。情報データベース7−1は、複数の属性と
その属性値から構成される。各属性毎の属性データベー
スの集合で構成され、各属性の属性値数は異なる。各属
性は階層的に相互に関連性を持つ。音声対話型情報検索
装置1は、各属性の属性値候補に対して、アクセス頻度
などの統計的情報に基づいて重要度を定め、重要度の高
い方から対話処理実時間内に音声認識可能と考えられる
数の属性値を優先認識対象語として選択する。残りの非
優先認識対象語に対しては、重要度の高い順に、実時間
対話処理可能な数あるいは、関連情報質問対話時間内に
処理可能な数など、システムがユーザとの対話と並行し
て認識処理をする上で規定した語数ごとに細分化して記
録する。
【0072】なお、対話処理実時間は、ユーザとの対話
においてユーザにストレスや不自然さを感じさせないよ
うな対話の時間としてシステムが規定するものである。
【0073】本実施形態では、音声対話型情報検索装置
1側からユーザに対して、目的情報を構成する属性のう
ち、ユーザの傾向を考慮してより目的情報の確定を効率
的に行うことができるような、対話処理実時間内に処理
可能な数を超える属性値数を持つ属性を尋ねる場合につ
いて述べる。
【0074】図3は、本実施形態の音声対話型情報検索
装置1による目的情報確定の処理プロセスの流れを示
す。
【0075】まず、ユーザが要求する目的情報の属性を
選択する(ステップS1)と、音声対話型情報検索装置
1はユーザに対しその属性の属性値の入力を要求し(ス
テップS2)、ユーザから要求された属性の属性値が音
声入力部2から入力されると、音声識別部3へ送り、音
声識別部3では、音声認識部3−1にて音声認識装置6
を用いて送られてきたユーザ入力に対して優先認識処理
を実行する(ステップS3)。ここで音声認識装置6
は、音声対話型情報検索装置1の処理の場面に合わせ
て、認識対象とするデータベースをシステムデータベー
ス7から選択する。すなわち、属性値入力や関連情報質
問に対する応答に対しては情報データベース7−1を、
正誤確認に対するユーザ応答に対してはYES/NOデ
ータベース7−2を参照する。また、情報データベース
7−1を参照する際は、データベース中の質問対象とな
っている属性の属性値を認識対象語として認識処理を実
行する。
【0076】まず始めに、音声認識部3−1は、情報デ
ータベース7−1の入力要求した属性の優先認識対象語
に指定された属性値に対して認識処理を実行する。音声
認識結果出力部3−2は、認識結果を算出し対話制御部
4へ送る。
【0077】対話制御部4の結果調整部4−1は優先認
識対象語に対する認識結果を保持し、対話誘導部4−2
へ伝える。対話誘導部4−2は、送られてきた認識結果
が、ユーザとの確認処理のみで属性値が特定できるか否
かを判定するための予め認識尤度を基に規定した条件を
満たすかどうかを判断し(ステップS4)、満たす場合
は、ユーザに対して正誤確認を行うよう質問・応答生成
部4−3へ伝える。質問・応答生成部4−3は、正誤確
認を行う質問文を作成し音声出力部5へ送り、音声出力
部5は、ユーザに対して候補を提示し正誤確認を行う質
問文を出力して、確認質問に対する応答を要求する(ス
テップS5)。
【0078】音声入力部2は確認質問に対するユーザの
応答を受け取って音声識別部3へ送り、音声認識部3−
1においてYES/NOデータベース7−2を認識対象
としてユーザ応答を認識し、結果を対話制御部4へ送る
(ステップS6)。
【0079】結果調整部4−1は送られてきた認識結果
を対話誘導部4−2へ伝える。対話誘導部4−2は、ユ
ーザ応答が肯定を表すかどうか判定し(ステップS
7)、肯定を表す応答が得られた場合は属性値が特定で
きた旨を伝える応答文を作成するよう質問・応答作成部
4−3に命じ、この応答文が音声出力部5から出力され
て属性値が特定される(ステップS8)。目的情報を確
定するために、他に特定を必要とする属性があれば同様
の処理を繰り返し、目的情報の確定を行う。
【0080】反対に、確認質問に対して否定を表す応答
が得られた場合(ステップS7NO)、あるいは優先認
識対象語に対する認識結果がユーザとの確認処理のみで
属性値を特定できる規定条件を満たさない場合(ステッ
プS4NO)、対話誘導部4−2は、関連情報質問を行
うことを決定し、関連情報として尋ねる属性をシステム
データベース7中の情報データベース7−1から選択す
る(ステップS9)。質問・応答生成部4−3は選択さ
れた関連情報を尋ねる質問文を作成し、音声出力部5へ
伝えてユーザに属性値の入力を要求する(ステップS1
0)。
【0081】関連情報質問を行うことを決定したと同時
に、対話誘導部4−2は、音声識別部3に対して、残り
の非優先認識対象語のシステム規定数毎に小分けにされ
た集合(セット)に対して認識処理を開始するよう命
じ、音声認識部3−1では、非優先認識対象語の各セッ
トに対して認識処理を開始する(ステップS11)。音
声認識結果出力部3−2は非優先認識対象語のセット1
つ分に対して認識結果を算出するごとに、対話制御部4
へ送り、結果調整部4−1に保持されている優先認識対
象語の認識結果に足し合わせる。
【0082】装置内部で非優先認識対象語に対する認識
処理が行われている間、ユーザに対しては、音声出力部
5から関連情報を尋ねる質問文が出力される。音声入力
部2は関連情報質問に対するユーザ応答を受け取り音声
識別部3へ送って優先認識処理を行う(ステップS1
2)。
【0083】この時点で、非優先認識対象語のセットに
対する認識処理のうち、少なくとも最初の1セット(規
定数からなる属性値の集合1つ分)に対しては認識処理
が終了しているようにセットを構成する規定数を定め
る。
【0084】音声識別部3は、非優先認識対象語に対す
る認識処理において1セットに対する認識処理が終了す
る度に、関連情報質問の進行状況をチェックする。関連
情報質問の対話が続行している場合は、非優先認識対象
語のセットの認識結果を対話制御部4へ送り、結果調整
部4−1に保持してある、それまでに認識が終了してい
る属性値の認識結果に足しこむ。関連情報質問に対する
応答が音声入力部2から送られてくるまでに、できるか
ぎりの非優先認識対象語のセットに対して認識処理、及
び結果の足しこみを行う。
【0085】音声識別部3では、関連情報質問に対する
ユーザの応答を受け取ると、音声認識部3−1がシステ
ムデータベース7中の情報データベース7−1から認識
対象である関連情報(属性値)に対して認識処理を開始
する。音声認識結果出力部3−2は関連情報質問の応答
を認識した結果を対話制御部4へ送る。
【0086】対話制御部4の結果調整部4−1は、送ら
れてきた関連情報の認識結果と保持しているその時点ま
での認識結果が足しこまれた属性値の認識結果を統合す
る(ステップS13)。統合を行う際は、情報データベ
ース7−1の属性間の関連性などを参照することによ
り、各属性値候補の認識尤度に演算を施すなどして各属
性値候補の正解である確からしさを再算出する。対話誘
導部4−2は、再算出された確からしさを基に、ユーザ
との確認処理のみで属性値を特定できる規定条件を満た
しているか否かを判断し(ステップS14)、判断結果
によって候補の提示と確認質問(ステップS5)、ある
いはさらなる関連情報質問(ステップS9)の実施を質
問・応答生成部4−3に命じる。統合結果の提示が否定
された場合も、関連情報質問を実施する。関連情報質問
の応答に対する認識処理をしている間、非優先認識対象
語のセットに対する認識処理は一時停止状態にある。
【0087】また認識処理していない非優先認識対象語
セットが残っている場合は、関連情報質問を行うことを
決定した時点で、再び残りのセットに対して認識処理、
結果の足しこみを続行する。但し、対話制御部4の結果
調整部4−1にて、非優先認識対象語の認識結果を統合
する場合、既になされた関連情報質問により得られてい
る関連情報がある場合は、属性値候補の認識結果を足し
こむ際に、既に得られている関連情報との統合を行って
から足しこむ。
【0088】この一連の操作を属性値が特定できるまで
繰り返すことにより、目的情報の確定を行う。
【0089】以下、本実施形態における音声対話型情報
検索方法ついて具体例を用いて説明する。ここでは、本
実施形態の音声対話型情報検索方法を「住所確定システ
ム」の入力インタフェースに適用した場合について説明
する。本例において、目的情報は住所である。
【0090】日本全国の住所の候補数は、対話処理実時
間内では処理可能な数を超えることから、住所確定に利
用する情報データベースに対して、都道府県(属性数値
47)、都道府県下の市区町村名(属性値数4,10
0)、更にその下の大字名(属性値数18万)を住所を
構成する属性とし、各属性を、都道府県を最上位、次階
層を市区町村、さらに下位階層に大字がくるよう階層構
造化する。住所確定に利用する情報データベースの一例
を図4に示す。
【0091】音声認識技術の現状は、市区町村4,10
0候補、大字18万候補に対する対話処理実時間内の認
識処理は不可能である。そのため従来手法は、都道府県
をまず尋ね、確定するまで確認を繰返し、確定後、該当
都道府県下の市区町村に認識対象を限定して、市区町村
を尋ね、確定する方法を採用せざるを得なかった。しか
し、ユーザにとっては、都道府県名から順に質問される
ことは回りくどく、大字まで指定したい場合には、少な
くとも都道府県、市区町村、大字の3回の入力要求と、
各入力に対して確定までの正誤確認の繰返しが必要とな
る。
【0092】本例においては住所において市区町村名ま
で指定したい場合を考える。音声対話型情報検索装置
は、市区町村に対して、過去のアクセス頻度や大きさ
(人口数)などを基に重要度を定め、対話処理実時間内
に処理可能と考えられる市区町村上位100を優先認識
対象語として選択する。
【0093】ユーザに対して市区町村名の入力を要求す
る。市区町村名の認識結果により、ユーザとの確認処理
のみで市区町村名を特定できるか否かを判断する。本例
においては、認識尤度と規定しきい値を比較し、規定し
きい値を越える認識尤度を持つ検索キー候補の数で判断
するものとする。規定しきい値を超える認識尤度を持つ
検索キー候補が2候補以下かつ0でない場合は、確認処
理のみで検索キーが確定できると判断し提示による正誤
確認を行う。候補が0または3候補以上の場合は関連情
報質問を実施する。
【0094】残りの非優先認識対象語4,000に対し
ては、関連情報質問に要する対話時間を規定し重要度の
高い順に500ずつのセット(8セット)に分けてお
く。本例においては、検索キー確定関連質問が行われて
いる対話時間を利用して認識処理及び結果の足しこみを
行う。1回の関連情報質問対話時間内に2,000候補
(4セット)の認識処理が可能と見込める。
【0095】以下、ユーザ入力「神奈川県茅ヶ崎市」を
確定する場合を説明する。ユーザは要求したい住所の市
区町村名「茅ヶ崎市」を入力する。茅ヶ崎市は、重要度
を上位から数えると500番目と仮定すると、優先認識
対象語の中には含まれていない。
【0096】音声入力部2から「茅ヶ崎市」という音声
検索キーが入力されると、音声識別部3の音声認識部3
−1は、情報データベース7−1の優先認識対象語10
0市区町村に対して、音声認識処理を行う。
【0097】音声認識結果出力部3−2は、優先認識対
象語に対する認識結果を対話制御部4へ送る。認識結果
の一例を図5に示す。結果調整部4−1は結果を保持し
対話誘導部4−2へ送る。対話誘導部4−2は、優先認
識対象語である100市区町村に対して、算出された認
識尤度と規定しきい値を比較する。本例において規定し
きい値を1,000とする。規定しきい値を超える認識
尤度を持つ市区町村候補は、図5より存在しないことが
分かる。従って、対話誘導部4−2は関連情報質問を行
うことを決定し、情報データベース7−1から関連情報
として利用する属性を選択する。本例では、階層的に隣
接する都道府県名を属性として選択する。関連情報質問
を行うことを決定したと同時に、音声認識部3−1は、
残りの非優先認識対象語に対しての認識処理を始める。
非優先認識対象語の500市区町村毎のセットに対して
認識処理を行う。音声認識結果出力部3−2は、500
市区町村毎に認識結果を対話制御部4の結果調整部4−
1へ送り、優先認識対象語100市区町村の認識結果に
足しこむ。本例においては関連情報質問として都道府県
名を尋ね、そのユーザ応答「神奈川県」が入力されるま
での間に2,000候補(4セット分)の認識処理が終
了すると考えられる。非認識対象語4セット分の認識結
果を足しこんだ結果の一例を図6に示す。
【0098】対話誘導部4−2は、質問・応答作成部4
−3に対して、都道府県名を尋ねる関連情報質問の作成
を命じ、音声出力部5より質問文を出力する。
【0099】音声入力部2よりユーザ応答「神奈川県」
が入力された時点で、非優先認識対象語に対する認識処
理を一時停止する。音声識別部3では音声認識部3−1
にて入力された都道府県名を認識し、音声認識結果出力
部3−2は結果を対話制御部4の結果調整部4−1へ送
る。都道府県名の認識結果の一例を図7に示す。
【0100】この時点で結果調整部4−1は、これまで
に認識処理が終了した2,100市区町村(優先認識対
象語100+関連情報質問対話時間内に認識処理が行わ
れた2,000)の結果を保持している(図6)。
【0101】結果調整部4−1は情報データベース7−
1を参照し、市区町村候補と都道府県候補の認識結果を
統合する。本例においては、関連する属性値の相互の認
識尤度の乗算を統合処理と定める。つまり、各市区町村
候補の認識尤度に対して、所属都道府県を情報データベ
ース7ー1を参照して判断し、所属都道府県に対して算
出された認識尤度を乗算する。乗算結果を新たな認識尤
度として保持する。統合した結果の一例を図8に示す。
【0102】乗算した結果、新たに規定したしきい値を
超える属性値候補の数を見ると、規定しきい値(1,0
00,000)を超える検索キー候補が「神奈川県茅ヶ
崎市」と「香川県高松市」の上位2候補であることが図
8より分かる。この2候補を順に提示し正誤確認するこ
とを対話誘導部4−2は決定し、正誤確認の質問文の作
成を質問・応答作成部4−3に命じる。音声出力部5よ
り出力された「神奈川県茅ヶ崎市」の提示に対する応答
が、音声入力部2より入力されると、音声識別部3にて
YES/NO識別データベース7−2を認識対象として
認識処理する。認識の結果、肯定を表す応答が得られた
ので対話誘導部4−2は、目的市区町村「茅ヶ崎市」が
特定できたと判断し、音声出力部5よりその旨を出力す
る。情報データベース7−1の属性間の関連性より、市
区町村名から都道府県を自動的に導くことが可能なの
で、目的住所が確定できたことになる。
【0103】以上の説明からわかるように、音声認識対
象語数が大規模な場合、現在の音声認識技術では認識処
理時間がかかり、さらに認識対象語数が多数なほど認識
装置の精度の低下は避けられないので、ユーザから音声
により要求されるタスクを与えられた一定時間で達成す
ることは困難である。
【0104】本実施形態で説明した本発明の第一の方式
によれば、対話処理時間内に処理可能な数を超える数の
属性値に対して、重要度を定め、重要度の高い属性値を
対話処理実時間内に処理可能な数選択して優先的に認識
する。これにより、見かけ上の認識対象語数を限定でき
るのでユーザを待機させることなく、また、認識対象語
を限定したことによりユーザ許容範囲の精度を持った認
識結果が見込める。さらに、過去のアクセス頻度に基づ
いて重要度を定めた場合、アクセス頻度に偏りがあれば
あるほど、重要度の高い属性値が入力される可能性が高
い。従って、例えば上述した具体例において、従来方法
では、都道府県名、市区町村名と順に確定することしか
できなかったのに対して、ユーザは最初から市区町村名
を入力を許容され、市区町村が特定できれば上位階層の
都道府県も特定可能なことから、市区町村名の入力のみ
で検索処理を終了することが可能になる。これにより、
ユーザ発話回数の減少、全体的な対話時間の短縮が見込
める。
【0105】非優先認識対象語が入力された場合も、関
連情報質問対話時間を利用して非優先認識対象語に対し
て認識処理を行い、結果を足しこみ、得られた関連情報
との関連性から属性値候補を絞り込むことで、対話処理
実時間内に処理可能な数を超える数の属性値に対する認
識処理、及び音声認識精度の欠陥をユーザに気付かれな
いように補完することが可能になる。従来方法では正解
が確定できるまで正誤確認が繰り返されたのに対して、
関連情報質問が行われることによってユーザにとって
は、自然な対話の流れの中での属性値が特定され、しか
も目的情報の確定を効率的に行うことができるような属
性値(ユーザ傾向により合った属性値)からの入力を許
容できるようになる。
【0106】上述した具体例においては、最初に住所を
市区町村まで確定することを例として挙げたが、大字ま
で指定したい場合は、大字を認識対象属性値、都道府
県、市区町村を関連情報として同様の対話を行うことで
18万候補有る大字の特定が可能になる。
【0107】さらに、情報データベース全体から複数属
性(階層)にわたって優先認識対象語を選択し、特定の
属性に限ることなく、複数の属性の属性値からの音声入
力を可能とすることも可能である。これにより、ユーザ
に最初に入力要求する属性をシステム側から規定せずと
も、都道府県、市区町村、大字、全体に対して重要度を
定め、1階層に限定せずに優先認識対象語を選択するこ
とで、どのレベルから入力された属性値に対しても、特
定が可能になる。ユーザに入力要求する属性をシステム
側から規定しないことにより、さらにユーザ傾向にあっ
た音声対話型情報検索方法が実現できる。
【0108】なお、上述した具体例に挙げた住所確定
は、製品の配送や、電話番号検索、郵便番号検索の際の
住所入力に利用可能であり、さらにこの音声対話型情報
検索方法は、オペレータ対応でタスク達成を行ってい
る、チケットの予約やカーナビの目的地検索、駅名検索
に対しても、容易に適用可能である。さらに、人名検索
に対しても、住所、性別、職業、年齢、電話番号などの
複数の属性をあらかじめ関連属性情報として保持し、統
合して利用することでこの音声対話型情報検索方法を適
用可能である。
【0109】次に、図9〜図22を参照して、上述した
本発明の第二の方式に関する第二の実施形態について説
明する。
【0110】図9は、この第二の実施形態における音声
対話型情報検索装置の一構成例を示す。この音声対話型
情報検索装置11は、音声入力部12、音声識別部1
3、対話制御部14、音声検索キー関連性計算部15、
音声出力部16を備えている。音声識別部13は、音声
認識部13−1、音声認識結果出力部13−2から構成
される。対話制御部14は結果調整部14−1、対話誘
導部14−2、質問・応答作成部14−3から構成され
る。音声識別部13では音声認識装置18を、音声出力
部16では音声出力装置19をそれぞれ使用する。ま
た、音声識別部13における入力音声に対する音声認
識、及び対話制御部14の対話誘導部14−2における
次の対話誘導の際、音声認識用データベース17を使用
する。音声認識用データベース17は、複数の統計階層
データベース17−1、検索対象音声検索キーすべてに
ついて各検索キー候補が有する属性項目を記した検索キ
ー属性データベース17−2、関連情報認識結果テーブ
ル保存場所17−3、Yes/Noデータベース17−
4から構成される。
【0111】図10に統計階層データベース17−1の
全体像の一例を示す。統計階層データベース17−1
は、音声認識対象語彙であるすべての音声検索キー候補
に対して、過去のシステム利用者からのアクセス頻度な
どの統計的情報に基づいて重要度を定め、重要度の順に
細分化及び階層構造化することにより作成される。音声
入力部12は、ユーザから入力された音声を音声識別部
13に対して入力する。
【0112】音声識別部13では、まず始めに音声認識
部13−1が、音声入力部12により入力された音声に
対して音声認識装置18を用いて音声認識処理を行う。
その際、音声認識装置18は、入力された音声が対話誘
導のどの場面のものなのかに応じて音声認識用データベ
ース17を参照する。すなわち、音声入力部12から、
検索キー確定関連質問に対する応答が入力された場合は
検索キー属性データベース17−2、及び関連情報認識
結果テーブル保存場所17−3を参照し、音声検索キー
候補の提示に対する応答が入力された場合は、Yes/
Noの認識データベース17−4を参照する。
【0113】ここでは、ユーザから音声検索キーが入力
されると同時に、統計階層データベース17−1の各階
層に対して並列に音声認識処理が走り始める。そして、
音声認識結果出力部13−2は、統計階層データベース
17−1の各階層に対して複数並列に走っている音声認
識処理が終了すると、各階層毎に検索キー候補を、認識
尤度を大きい順に並べた音声認識結果テーブルを作成す
る。図11に最上位統計階層データベースに対する音声
認識結果テーブルの一例を示す。
【0114】認識対象語彙数の相違から、統計階層デー
タベース17−1中の最上位統計階層データベースに対
する音声認識処理及び音声認識結果テーブル作成が最も
早く終了する。最上位の統計階層データベースの音声認
識結果テーブルが作成された時点で、対話制御部14へ
認識結果を送る。この時、下位の統計階層データベース
に対する音声認識処理、及び音声認識結果テーブル作成
は上位の処理が次へ進んでも続けて行う。
【0115】対話制御部14では、音声識別部13の音
声認識結果出力部13−2から送られる最上位統計階層
データベースの音声認識結果テーブル中の規定尤度しき
い値を越える検索キー認識尤度を持つ音声検索キー有力
候補数に応じて、音声対話型情報検索装置11が、ユー
ザに対して次に行うべき対話誘導を決定する。
【0116】結果調整部14−1に、音声検索キーに対
する音声認識結果テーブルが送られてきたとき、認識対
象統計階層データベース中の音声検索キー有力候補が音
声対話型情報検索装置11による所定数以下かつ0でな
い場合は、対話誘導部14−2によって検索キー確定関
連質問を図12に示す検索キー属性データベース17−
2を参照して行うことを決定し、質問・応答作成部14
−3によって、検索キー確定関連質問の作成を行う。次
対話誘導条件としては例えば以下の場合を予め決めてお
く。
【0117】1.音声検索キー有力候補が、所定数より
多く出力された場合。
【0118】2.音声検索キー有力候補が、存在しない
場合。
【0119】3.検索キー確定関連質問から得られた関
連属性情報候補との認識尤度の統合により、音声検索キ
ーと同定して提示した候補が、ユーザから音声検索キー
に該当しないと否定された場合。
【0120】4.音声検索キー有力候補の中で、検索キ
ー確定関連質問から得られた関連属性情報候補との関連
性を持つ候補が、検索キー属性データベースを参照した
結果存在しない場合。
【0121】認識対象統計階層データベース中の認識結
果が前記次対話誘導条件のいずれかに当てはまるとき、
対話制御部14−2は、認識対象が最上位の場合に限り
関連属性情報が1つも得られていない場合は新たに検索
キー確定関連質問を行うことを決定し質問文の作成を質
問・応答作成部14−3に指示する。その他の場合は関
連情報認識結果テーブル保存場所17−3を参照して、
それまでに得られている関連属性情報候補と認識対象統
計階層データベース中の音声検索キー候補との関連性を
検索キー属性データベース17−2を参照して判断し、
認識尤度の正規化及び統合を行う(音声検索キー関連性
計算部15にアクセス)。その結果新たに計算された検
索キー認識尤度が最も大きい音声検索キーを提示する質
問文の作成を質問・応答作成部14−3へ指示する。
【0122】この間も、音声識別部13の音声認識部1
3−1及び音声認識結果出力部13−2によって、統計
階層データベース17−1の各統計階層に対する音声認
識処理、及び音声認識結果テーブル作成の処理は動いて
いる。
【0123】そして、作成したそれぞれの応答文/質問
文を、ユーザに対して音声出力装置19を用いて音声出
力部16から出力し、ユーザの応答を再び音声入力部1
2から得る。音声識別部13は、音声入力部12から入
力された応答文/質問文に対するユーザの応答に対し
て、再び音声認識処理を行い結果を出力する。
【0124】この時点で、第二統計階層データベースに
対する音声認識結果テーブルの作成は終了している。
【0125】音声認識結果出力部13−2は、音声入力
部12から送られてくるユーザの応答が検索キー確定関
連質問への応答である場合、音声認識部13−1で音声
認識処理をした結果から関連情報認識結果テーブルを作
成し、音声認識用データベース17の関連情報認識結果
テーブル保存場所17−3に保存をすると同時に結果調
整部14−1へ結果を送る。図13に関連情報認識結果
テーブルの一例を示す。
【0126】結果調整部14−1に、関連情報認識結果
テーブルが送られた場合は、対話誘導部14−2は、既
に音声認識及び音声認識結果テーブル作成が終了してい
る第二統計階層データベースの音声認識結果テーブルを
参照して、最上位の統計階層データベースに対する対話
誘導同様、規定尤度しきい値を超える検索キー認識尤度
を持つ音声検索キー有力候補数に応じて対話の方針を定
める。
【0127】第二統計階層データベースの音声認識結果
テーブル中の音声検索キー有力候補数が所定数以下且つ
0でない場合は、検索キー確定関連質問による絞込みを
行い、次対話誘導条件のいずれかに当てはまる場合は、
それまでに得られている関連属性情報候補との関連性を
判断して、認識尤度の統合を行い最も大きな検索キー認
識尤度を有する音声検索キー候補を音声検索キーと同定
する。
【0128】結果調整部14−1に、音声検索キーの提
示に対する応答が送られた場合、応答が「Yes」の場
合は、音声検索キーが確定できたことを知らせる応答文
を作成することを対話誘導部14−2は決定し、質問・
応答作成部14−3において応答文作成を行い処理を終
了する。逆に、結果調整部14−1が「No」という応
答を得た場合、次対話誘導条件を満たすことから、結果
調整部14−1は対話誘導部14−2に対してさらなる
対話誘導を指示し第三統計階層データベースの認識結果
を用いた対話誘導が始まる。
【0129】このようにして音声検索キーが同定できる
まで、音声検索キー有力候補数に応じた対話方針に従
い、検索キー確定関連質問により得られる関連属性情報
を利用した認識尤度の正規化、統合を繰り返す。
【0130】図14は、本実施形態の音声対話型情報検
索装置11の対話制御部14による処理の流れを示す。
【0131】まず始めに、最上位の統計階層データベー
スから得られる音声認識結果テーブルがあれば(ステッ
プS21)、規定尤度しきい値以上の検索キー認識尤度
を持つ音声検索キー有力候補が、所定数、例えば2以下
かつ0でない場合は(ステップS22)、音声検索キー
候補絞込み方式に従い、関連属性情報獲得のための検索
キー確定関連質問をユーザに対して行い(ステップS2
3)、検索キー確定関連質問に対するユーザの応答を、
音声認識装置を用いて音声認識処理して関連情報認識結
果テーブルを作成する(ステップS24)。得られた関
連属性情報候補と、今絞込みの対象としている最上位統
計階層データベース中の音声検索キー有力候補との関連
性が、検索キー属性データベースを参照することにより
認められた場合(ステップS25)、当該関連属性情報
の関連情報認識尤度と当該音声検索キー有力候補の検索
キー認識尤度とを統合し、音声検索キー有力候補の新た
な認識尤度と定め(ステップS26)、最も大きな検索
キー認識尤度を有する音声検索キー候補をユーザに提示
し、正誤性を問う(ステップS27)。
【0132】次対話誘導条件としては例えば以下の場合
を予め決めておく。
【0133】1.音声検索キー有力候補が、所定数より
多く出力された場合。
【0134】2.音声検索キー有力候補が、存在しない
場合。
【0135】3.検索キー確定関連質問から得られた関
連属性情報候補との認識尤度の統合により、音声検索キ
ーと同定して提示した候補が、ユーザから音声検索キー
に該当しないと否定された場合。
【0136】4.音声検索キー有力候補の中で、検索キ
ー確定関連質問から得られた関連属性情報候補との関連
性を持つ候補が、検索キー属性データベースを参照した
結果存在しない場合。
【0137】前記音声検索キー有力候補が所定数以下か
つ0でない場合以外であって、前記4つの次対話誘導条
件のいずれかを満たす場合(ステップS28)、既に得
られた関連属性情報候補が存在する場合は(ステップS
29)、次階層認識結果を入手して(ステップS3
2)、その関連属性情報候補との関連性を求め(ステッ
プS33)、存在しない場合は、新たに検索キー確定関
連質問を行い(ステップS30)、関連情報認識結果テ
ーブルを作成して(ステップS31)、次階層認識結果
を入手して(ステップS32)、その関連属性情報候補
との関連性を求める(ステップS33)。この時点まで
に音声認識処理及び音声認識結果テーブル作成が終了し
ている次階層(下位)統計階層データベース中の音声検
索キー有力候補の中で、このようにして得られた関連属
性情報候補との関連性が、検索キー属性データベースを
参照することにより認められた場合、音声検索キー有力
候補に対して、検索キー認識尤度と関連属性情報の関連
情報認識尤度を統合し、新たな検索キー認識尤度を定め
る(ステップS34)。
【0138】認識対象の次階層統計階層データベース中
の音声検索キー有力候補数が、再び所定数以下かつ0で
ないならば(ステップS22)、前記音声検索キー候補
絞込み方式に従って、他の関連属性情報についての検索
キー確定関連質問をユーザに対して行い(ステップS2
3)、検索キー確定関連質問に対するユーザの応答を、
音声認識装置を用いて音声認識処理して関連情報認識結
果テーブルを作成する(ステップS24)。得られた関
連属性情報候補だけでなくそれ以前の検索キー確定関連
質問から得られているすべての関連属性情報候補との関
連性を総合的に判断し(ステップS25)、今認識対象
としている次階層統計階層データベースの音声検索キー
有力候補に対して、関連性のある関連属性情報候補との
認識尤度を統合し(ステップS26)、最も大きい検索
キー認識尤度を持つ音声検索キーを候補と同定してユー
ザに提示し正誤性を問う(ステップS27)。
【0139】さらに、次階層統計階層データベースに対
する音声認識の結果が、前記4つの次対話誘導条件のい
ずれかを満たす場合(ステップS28)、その時点で音
声認識処理及び音声認識結果テーブル作成が終了してい
る、さらに下位の次階層統計階層データベースに対し
て、上位の統計階層データベースに対する処理同様に
(ステップS29,S30,S31,S32)、それま
でに得られているすべての関連属性情報候補との関連性
が認められた場合(ステップS33)は、認識尤度を統
合して、新たな検索キー認識尤度を算出する(ステップ
S34)。
【0140】音声検索キー有力候補数が所定数以下かつ
0でないならば(ステップS22)、音声検索キーが同
定できるまで、検索キー確定関連質問を行い、音声検索
キー候補絞込み方式を適用し、次対話誘導条件を満たす
ならば、さらに次階層統計階層データベースに対して、
それまでに得られているすべての関連属性情報候補との
認識尤度の統合を繰り返し、音声検索キーの同定を行
う。
【0141】以下、本実施形態における音声対話型情報
検索方法ついて具体例を用いて説明する。ここでは、本
実施形態の音声対話型情報検索方法により、コンサート
チケット予約をタスクとする「チケット予約システム」
のユーザが入力したチケット名の同定を行う流れを説明
する。
【0142】チケット予約システムにおいて、システム
が規定する尤度しきい値を3500、システムが対話誘
導のために規定する、規定尤度しきい値以上の有力候補
所定数を2として、規定尤度しきい値3500を超える
認識尤度を持つ検索キー候補が2つ以下の場合にユーザ
に対して検索キー確定関連質問を行い、3つ以上の場合
に認識対象データベースを次階層へと移す。
【0143】以下、ユーザが「group」のコンサー
トチケットを予約する場合の流れを説明する。コンサー
トチケット予約システムにおいて、検索データベース全
体としてコンサート出演者名350名をデータとして有
する。このコンサート出演者350名をアクセス頻度
(実施例の場合、過去1年間のCD売上などを基に発表
されている人気ランキングを利用)を基に、四階層の統
計階層データベースに分割する。図15に示すように、
第一階層(最上位階層)は最も人気があるとされる上位
60名のリスト、第二階層は第一階層のリスト60名に
人気61位から150位までの90名を加えた150名
のリスト、第三階層はさらに150位以下100名を加
えた250名のリスト、第四階層はさらに250以下1
00名を加えた350名全員のリストから構成される。
対象となる音声検索キー「group」は人気ランキン
グ90位であるため最上位の第一統計階層データベース
には存在しない。
【0144】音声入力部12から「group」という
音声検索キーが入力されると、音声識別部13の音声認
識部13−1において、統計階層データベース17−1
の4つのすべての階層に対して音声認識処理プロセスが
同時に走り始める。
【0145】音声認識結果出力部13−2は、最上位の
60名のリストからなる最上位の統計階層データベース
内の出演者名を、音声認識部13−1の音声認識結果を
基に、音声認識結果の検索キー認識尤度の高い順に整列
することにより図16の音声認識結果テーブルを作成
し、対話制御部14へ送る。
【0146】結果調整部14−1は、図16に示した音
声認識結果テーブル中の音声検索キー候補に対して、あ
らかじめ定めた尤度しきい値3500を越える検索キー
認識尤度を持つ音声検索キー有力候補として選択する。
図16において、音声検索キー有力候補は「ジャパニー
ズJr」「キンキンクッツ」「パフェー」「ギリシア歌
劇団」「チェコバレエ団」の5候補存在することがわか
る。
【0147】そこで対話誘導部14−2は、音声検索キ
ー有力候補が所定数2候補以上存在するので、次対話誘
導条件の1を満たすことを把握し、関連属性情報がこの
時点で1つも得られていないことから、関連属性情報獲
得のために検索キー確定関連質問を行うことを決定す
る。図17に示したように、検索キー属性データベース
17−2には、統計階層データベース17−1の全デー
タ(コンサート主催者350名)に対して、各データが
有する属性項目の属性値として、それぞれのコンサート
の主催月日、主催曜日、主催会場、コンサート主催都道
府県、コンサート種別が付与してある。
【0148】対話誘導部14−2は、図17に示した検
索キー属性データベースを基に、コンサート主催月日を
検索キー確定関連質問として尋ねることを決定し、質問
・応答作成部14−3に対して「コンサートの主催月日
はいつですか」という検索キー確定関連質問を作成する
よう指示する。
【0149】音声出力部16は音声出力装置19を用い
てコンサート主催日を尋ねる検索キー確定関連質問を、
ユーザに提示する。
【0150】ユーザからの上記検索キー確定関連質問へ
の応答「3月3日」が、音声入力部2から入力される。
【0151】音声識別部13に送られた、ユーザの応答
「3月3日」に対して、音声認識部13−1は音声認識
装置18を用いて音声認識処理を行い、音声認識結果出
力部13−2は、検索キー属性データベース17−2の
主催月日欄を参照することにより、コンサート主催月日
候補に対して認識尤度の大きい順に並べた関連情報認識
結果テーブル(図18参照)を作成し対話制御部14へ
送る。
【0152】この時点で、第二統計階層データベース
(主催者150名含有)に対する音声認識及び音声認識
結果テーブル作成が終了している。第二統計階層データ
ベースに対する音声認識結果テーブルを図19に示し
た。
【0153】対話制御部14の結果調整部14−1は、
第二統計階層データベースを参照し、コンサート主催日
に関する関連情報認識結果テーブル(図19)内の主催
月日候補と、第二統計階層データベースに対する音声認
識結果テーブル中の各音声検索キー候補との関連性が認
められた音声検索キー候補に対して、音声検索キー候補
の検索キー認識尤度と関連属性情報候補の関連情報認識
尤度を正規化し乗算することを音声検索キー関連性計算
部15へ指示する。
【0154】音声検索キー関連性計算部15はまず始め
に、図19の音声認識結果テーブルにおける検索キー認
識尤度を図19の最右欄のように正規化する。そして、
図19の音声認識結果テーブルの尤度しきい値3500
を超える5つの音声検索キー候補に対して、検索キー属
性データベース17−2を用いて、「グリコ裕三/3月
30日」「イブニング娘/4月10日」「ジャパニーズ
Jr/5月30日」「group/3月3日」「キンキ
ンクッツ/4月10日」というコンサート主催日の情報
を、関連属性情報候補として取得する。そして、図18
に示した関連情報認識結果テーブル内の主催日に対して
も関連情報認識尤度を最右欄のように正規化し、第二統
計階層データベースから得られた音声認識結果テーブル
(図19)中の尤度しきい値3500を越える5つの音
声検索キー候補「グリコ裕三」「イブニング娘」「ジャ
パニーズJr」「group」「キンキンクッツ」のコ
ンサート主催日に該当する場合は、関連情報認識結果テ
ーブル内の正規化した関連情報認識尤度を、音声認識結
果テーブル内の各音声検索キー候補の正規化した検索キ
ー認識尤度とかけあわせ、「グリコ裕三」「イブニング
娘」「ジャパニーズJr」「group」「キンキンク
ッツ」の新たな認識尤度とする。
【0155】つまり、音声検索キー候補である音声認識
結果テーブル(図19)内の「グリコ裕三」と、関連情
報認識結果テーブル内のコンサート主催日の関連性、同
様に、「イブニング娘」や「ジャパニーズJr」や「g
roup」や「キンキンクッツ」と関連情報認識結果テ
ーブル内のコンサート主催日の関連性により、音声検索
キー候補である各コンサート主催者の正規化した検索キ
ー認識尤度と、関連する各コンサートの主催日の正規化
した関連情報認識尤度の積を計算することにより、新た
な認識尤度とする。
【0156】この場合、図20に示すように、「グリコ
裕三」のコンサート主催日である「3月30日」の関連
情報認識結果テーブル内の正規化した関連情報認識尤度
は0.0055であることから、「グリコ裕三」の新た
な認識尤度は0.0080×0.0055で0.000
044、同様に「イブニング娘」の正規化認識尤度0.
0077に対する新たな認識尤度は「4月10日」の正
規化した関連情報認識尤度0.0080との積をとり
0.000062、「ジャパニーズJr」の新たな認識
尤度は「5月30日」の正規化した関連情報認識尤度と
の積をとるのだが、「5月30日」という主催日はこの
例では認識対象語彙データにはないと想定していること
から、認識不可能であるため関連情報認識結果が得られ
ていないので、「ジャパニーズJr」の新たな認識尤度
は0とする。「group」の新たな認識尤度は「3月
3日」の正規化した関連情報認識尤度0.0077との
積をとり0.000056、そして、「キンキンクッ
ツ」の新たな認識尤度は「4月10日」の正規化した関
連情報認識尤度0.0080との積をとり0.0000
54となる。ここで認識尤度を統合した結果を正規化す
ると図20の下段表最右欄のようになる。
【0157】結果調整部14−1は、上記のようにして
定めた第二統計階層データベースの音声検索キー候補に
対して正規化及び統合して新たな認識尤度を計算した結
果を対話誘導部14−2に送る。
【0158】対話誘導部14−2は、正規化した新認識
尤度を見て、第二統計階層データベースに対する検索キ
ー認識尤度の尤度しきい値を0.2590と定める。こ
の尤度しきい値の決定は、例えば最大尤度値より所定値
以下の値とする。そして、尤度しきい値0.2590を
越える尤度の音声検索キー候補の数に応じた対話誘導を
始める。ここでは認識尤度が0.2590を越える音声
検索キー有力候補が、「イブニング娘」と「grou
p」の2候補存在することが図20から分かる。
【0159】そこで、対話誘導部14−2は認識結果テ
ーブル中の音声検索キー有力候補が所定数2以下である
ことから、検索キー属性データベース17−2を参照し
て、新たな関連属性情報を獲得し有力候補からの絞込み
を行うことを決定し、新たな関連属性情報として、コン
サートの主催会場を尋ねることを決定する。
【0160】質問・応答作成部14−3は、コンサート
主催会場を尋ねる「コンサートの主催会場をお答え下さ
い」という検索キー確定関連質問を作成し、音声出力部
6から検索キー確定関連質問が出力される。
【0161】ユーザからの「東京ドーム」という応答音
声が音声入力部12から入力され、音声識別部13へと
送られる。音声識別部13の音声認識部13−1におい
てコンサート主催会場候補の音声認識処理が行われ、音
声認識結果出力部13−2において各候補の関連情報認
識尤度が計算され、関連情報認識結果テーブルが対話制
御部14へ送られる。図21に、関連属性情報として得
られたコンサート主催会場に対する関連情報認識結果テ
ーブルを示す。図21の関連情報認識結果テーブル内の
最右欄は正規化した認識尤度である。
【0162】そして、結果調整部14−1は、今得られ
たコンサート主催会場だけでなく、関連情報認識結果テ
ーブル保存場所に保存されている先ほどのコンサート主
催月日を尋ねることにより得られた主催月日情報の両関
連属性情報と、今絞込みの対象となっている第二統計階
層データベース中の音声検索キー有力候補の関連性を判
断して認識尤度の統合を音声検索キー関連性計算部15
に指示する。
【0163】音声検索キー関連性計算部15は、検索キ
ー属性データベース17−2を参照して「イブニング
娘」「group」の両音声検索キー有力候補と、コン
サート主催日認識結果と新たに得られたコンサート主催
会場認識結果の両関連属性情報候補との関連性が認めら
れた場合、検索キー認識尤度と、各関連属性情報の関連
情報認識尤度の統合を行う。
【0164】すなわち実施例の場合、コンサート主催会
場として、図21に示したように「東京ドーム」「横浜
アリーナ」「福岡ドーム」「大阪城ホール」「NHKホ
ール」などが関連属性情報候補として得られる。図20
の下段表最右欄の「イブニング娘」「group」の正
規化新尤度は、「イブニング娘」「group」の両音
声検索キー有力候補の検索キー認識尤度と、コンサート
主催月日情報の関連情報認識尤度を正規化及び統合した
値であることから、新たに得られたコンサート主催会場
候補の関連情報認識尤度を図20の下段最右欄の値と統
合することで、コンサート主催月日情報と主催会場情報
の2つの関連属性情報との統合を行ったことになる。音
声検索キー有力候補「イブニング娘」「group」の
コンサート主催会場(図21)の関連性を、検索キー属
性データベース17−2から判定する。
【0165】その結果、図22に示すように、「イブニ
ング娘」は「名古屋ドーム」という関連属性を持つこと
から、それぞれの正規化した認識尤度0.2897、
0.0397を乗算し「イブニング娘」の新たな認識尤
度は0.01150、「group」は「東京ドーム」
という関連属性を持つことから、正規化した認識尤度を
乗算して、0.2593×0.0833で「grou
p」の新たな認識尤度は0.02160となる。
【0166】上記結果から、対話誘導部14−2は対話
誘導方式に従い、認識尤度の統合の結果最も大きな検索
キー認識尤度を算出した音声検索キー有力候補「gro
up」を音声検索キーと同定し、質問・応答作成部14
−3にユーザへの提示文作成を指示する。
【0167】音声出力部16は「groupの3月3
日、東京ドームコンサートですね」という同定候補提示
文を出力する。
【0168】ユーザのこの提示に対する「YES」とい
う応答が、音声入力部12から入力され、音声識別部1
3に送られて、音声認識部13−1はYes/Noデー
タベース17−4を用いて音声認識処理をし、音声認識
結果出力部13−2は認識結果を対話制御部14へ送
る。
【0169】結果調整部14ー1は、音声認識結果出力
部13−2から送られてきた「Yes」という認識結果
を対話誘導部14−2へ送り、対話誘導部14−2は正
しい音声検索キーが同定できたことを判断し対話終了を
決定する。
【0170】以上の説明からわかるように、音声認識対
象語彙数が大規模な場合、現在の音声認識技術では認識
処理に時間がかかり、さらに認識精度が100%でない
ことから、ユーザから音声により要求されるタスクを与
えられた一定時間で達成することは困難である。すなわ
ち、ユーザはシステムが音声認識を行っている間、待機
しなければならず、待機した上で提示された候補が誤認
識の場合は、正しい候補が提示されるまで質疑応答を繰
り返したり、再び音声入力を指示され待機することにな
り、対オペレータとの対話のような自然な対話の中でタ
スクを達成することは困難である。
【0171】本実施形態で説明した本発明の第二の方式
によれば、音声認識用データベースを、アクセス頻度な
どの統計的情報に基づいてすべてのデータに重要度を設
け、重要度に基づいてデータを細分化及び階層構造化し
た複数の統計階層データベースとして保持し、各階層デ
ータベース含有データ数の相違による認識時間の差を利
用して音声認識処理の仮想的な実時間性を実現し、さら
に音声認識処理の認識尤度にしきい値を設けることで、
信頼性の高い認識結果が少数の場合は、関連属性情報を
尋ねることで効果的な絞込みを行い、信頼性の高い認識
結果が所定数よりも多い場合、或いは、信頼性の高い認
識結果が存在しない場合、或いは、第一の候補が該当検
索キーではないとユーザから否定された場合などは、最
上位階層の統計階層データベースに該当検索キー候補が
含まれていない可能性があることから、下位の統計階層
データベースに認識対象を移動し、関連属性情報との統
合を行うことで音声認識精度の欠陥を補い、さらには検
索キー確定関連質問で対話をつなぐことにより、あたか
も全データに対して音声認識処理を行っているかのよう
にみせ、自然な対話を実現する。
【0172】尚、オペレータ対応でタスク達成を行って
いる、座席の価格を属性として座席名を同定する座席予
約や、路線名を属性として駅名を同定する駅名検索に対
しても、この音声対話型情報検索方法は容易に適用可能
である。さらに、人名検索などに関しては、住所、性
別、職業、年齢、電話番号などの複数の属性をあらかじ
め関連属性情報として保持し、統合して利用すること
で、検索キーである人名の同定が可能になる。
【0173】次に、図23〜図31を参照して、上述し
た本発明の第三の方式に関する第三の実施形態について
説明する。
【0174】図23は、この第三の実施形態における音
声対話型情報検索装置の一構成例を示す。この音声対話
型情報検索装置は、中央処理装置(CPU)110、メ
モリ装置120、データベース130及びユーザ装置1
40からなる。なお、CPU110とユーザ装置140
はネットワークを介して接続されているものとしてもよ
い。CPU110は情報検索装置本体であり、入力要請
部111、音声認識部112、認識結果調整部113及
びユーザインタフェース(音声インタフェース)114
から構成される。ただし、実際には、これら各部111
〜114は所謂コンピュータのハードウェアとソフトウ
ェアを利用して構築されることは云うまでもない。メモ
リ装置120はCPU110の作業用メモリであり、各
種プログラムや途中処理結果データを保持するのに加
え、ここでは後述の属性値有力候補群121や認識対象
検索キー候補群122を保持するのにも用いる。このメ
モリ装置120はCPU110に内蔵することとしても
よい。データベース130はCPU10の外部記憶装置
であり、ここでは音声認識用データベース131、属性
データベース132及び、Yes/Noデータベース1
33から構成される。ユーザ装置140は音声入力部1
41と音声出力部142を具備し、CPU110とは基
本的に音声でやりとりされる。
【0175】図24に音声認識用データベース131の
構成例を、図25に属性データベース132の構成例を
示す。なお、Yes/Noデータベース133は、基本
的にここでは「はい」、「いいえ」を格納しているだけ
であるため、その構成例を示すのは省略する。音声認識
用データベース131は、図24に示すように、検索キ
ー候補と、各検索キー候補の持つ属性項目の属性値を各
属性項目別に保持している。一般に大規模音声認識用デ
ータベースでは、規定された実時間内に処理不可能な検
索キー候補数から構成される。属性データベース132
は、図25に示すように、属性項目別に属性値候補を保
持している。属性値候補数は一般に実時間内に認識が終
了する個数である。
【0176】図26は、本実施形態における検索キー確
定の処理の流れを示したものである。以下、図26によ
り、図23の音声対話型情報検索装置の動作概要を説明
する。
【0177】入力要請部111は、実時間処理可能な認
識対象語彙数に選択するために属性項目を決定し、該決
定した属性項目を音声認識部112に通知するととも
に、ユーザインタフェース114を介して、ユーザに対
して属性項目の属性値の入力を要請する(ステップS4
1)。ユーザは、属性値の入力要請を音声出力部142
を通して聴き、音声入力部141から属性値を入力する
(ステップS42)。音声認識部112は、ユーザイン
タフェース114を介してユーザからの属性値が入力さ
れると、属性データベース132を参照し、入力属性値
に対して、音声認識処理により当該属性項目の各属性値
候補の認識尤度を算出する(ステップS43)。このと
きの認識尤度は、例えば入力属性値と各属性値候補との
類似度(距離)として算出される。認識結果調整部11
3は、音声認識部112から各属性値候補とその認識尤
度を受け取り、あらかじめ定めたしきい値(規定尤度し
きい値)以上の認識尤度を持つ属性値候補を属性値有力
候補として抽出し、メモリ装置120に保持する(ステ
ップS44)。引き続き、認識結果調整部113では、
この属性値有力候補をキーに音声認識用データベース1
31を検索して、該当属性項目で該属性値有力候補の属
性値を持つ検索キーを抽出し、認識対象の検索キー候補
としてメモリ装置120に保持する(ステップS4
5)。
【0178】以上により、認識対象の検索キー候補が実
時間内に処理可能な語彙数に絞り込まれる。この後、入
力要請部111に再び制御が戻る。
【0179】入力要請部111は、ユーザインタフェー
ス114を介して、ユーザに対して検索キーの入力を要
請する(ステップS46)。ユーザは、検索キーの入力
要請を音声出力部142を通して聴き、音声入力部14
1から目的の検索キーを入力する(ステップS47)。
音声認識部112は、ユーザインタフェース114を介
してユーザからの検索キーが入力されると、該入力検索
キーに対して、メモリ装置120に保持されている検索
キー候補を対象に音声認識処理を行い、各検索キー候補
の認識尤度を算出する(ステップS48)。このときの
認識尤度は、例えば入力検索キーと各検索キー候補の値
の類似度(距離)として算出される。認識結果調整部1
13は、ユーザインタフェース部114を介して、認識
尤度の大きい順(高い順)に検索キー候補をユーザに出
力し、検索キーが確定するまでユーザに正誤性を問う確
認プロセスを実行する(ステップS49)。具体的に
は、認識結果調整部113は、認識尤度の大きい順に検
索キー候補をユーザに出力し、これに対してユーザが入
力する「はい」、「いいえ」を、音声認識部112にお
いて、Yes/Noデータベース133を参照すること
で音声認識し、その結果を認識結果調整部113が受け
取り、これをユーザから「はい」が返るまで繰り返す。
【0180】なお、図26に示したような処理のアルゴ
リズム及び手順は、コンピュータで実行可能な言語で記
述し、検索キー確定プログラムとして、コンピュータが
読み取り可能な記録媒体、例えばフロッピー(登録商
標)ディスク、CD−ROM、メモリカードなどに記録
して提供することが可能である。
【0181】以下に、具体例として、本実施形態の音声
対話型情報検索方法により、日本全国の市区町村4、0
00件の確定を行う流れを説明する。
【0182】市区町村確定は認識対象が4,000であ
ることから、現状の音声認識技術では実時間内認識処理
が不可能である。そこで、ここでは属性項目として所属
都道府県を選択する。都道府県は全対象が47であるこ
とから、実時間内処理が可能である。また、ここでは、
「横浜市」を同定する場合について説明する。
【0183】市区町村確定に用いる音声認識用データベ
ース131の一例を図27に、市区町村確定に用いる属
性データベース132の一例を図28に示す。市区町村
確定の場合、音声認識用データベース131は、図27
に示すように、検索キー候補である4,000件の市区
町村と、各市区町村は、所属都道府県47候補、所属地
方8候補、海に面しているか否かなどの属性項目を持
つ。また、属性データベース132は、図28に示すよ
うに、各属性の属性値候補、すなわち47都道府県、8
地方、海に面しているか否かのまる/ばつを保持してい
る。
【0184】初めに、入力要請部111は、選択した属
性項目である所属都道府県をユーザに尋ねる。ユーザ
は、音声入力部141から「横浜市」の所属都道府県で
ある「神奈川県」を入力する。音声認識部112は属性
データベース132を用いて、「神奈川県」に対して認
識処理をして、47都道府県(属性値候補)の認識尤度
計算を行う。図29は、「神奈川県」に対する認識結果
の一例を認識尤度の大きい順に示したものである。
【0185】認識結果調整部113は、「神奈川県」に
対する認識候補のうち、規定尤度しきい値0.8以上の
認識尤度を持つ属性値候補を属性値有力候補と定める。
図29から、本例における属性値有力候補は、「香川
県」と「神奈川県」の2候補となる。そこで、認識結果
調整部113は、音声認識用データベース131から香
川県、神奈川県下の市区町村を認識対象として抽出す
る。図30に、抽出された認識対象の一覧を示す。
【0186】次に、入力要請部111は、ユーザに検索
キーである目的の市区町村の入力を促す。ユーザは、
「横浜市」を音声入力部141から入力する。音声認識
部112は、認識対象として抽出してある香川県、神奈
川県下の市町村に対して、「横浜市」という入力検索キ
ーに対する尤度計算を行い、認識結果を出力する。認識
結果の一例を図31に示す。認識結果調整部113は、
認識結果の上位から順にユーザに対して検索キーかどう
かの正誤性を問う確認プロセスを行う。例においては、
「横浜市」は認識尤度の上位1位に出力されていること
から、1回の確認プロセスにて横浜市を確定することが
できる。
【0187】上記例において、本実施形態における手法
と、従来の属性値に対しても確認プロセスにて属性値を
一意に確定し認識対象を絞り込む手法を比較すると、従
来手法は、「神奈川県」の確定には、神奈川県は図29
より入力属性値に対する尤度計算の結果、認識結果上位
2位に出力されることから2回の確認プロセスを要し、
検索キー入力までに2回の確認プロセス時間を要するこ
とになるのに対して、本実施形態の手法は、この2回の
確認プロセス時間は不要であることになる。
【0188】以下に、本実施形態と従来技術との処理時
間の比較を具体例で説明する。認識対象語彙数が100
単語以内の場合の音声認識精度を70%、入力音声は必
ず認識尤度上位3位までに出力されると仮定する。すな
わち1位に入力音声を出力する確率が70%、2位に出
力する確率が20%、3位に出力する確率が10%であ
ると仮定する。また、認識対象語彙数が300単語以内
の場合の音声認識精度を60%と仮定し、入力音声は必
ず認識尤度上位4位までに出力されると仮定する。この
場合、1位に入力音声を出力する確率が60%、2位に
出力する確率が25%、3位に出力する確率が10%、
4位に出力する確率が5%であると仮定する。
【0189】属性項目として属性値候補が50以下、各
属性値に属する検索キー候補数は100以下になるよう
な属性項目を選択する。音声認識処理時間は、実時間内
認識可能な語彙数の場合説明簡略化のため、ここではT
≒0と定める。実時間内認識可能な語彙数は300以下
とする。また、1回の確認プロセスの所要時間はS
(秒)と仮定する。
【0190】従来の手法は、属性値候補数が50である
ことから属性値認識は実時間T(秒)で完了、認識尤度
の上位から正誤性を問うことで属性値を確定する際、7
0%の確率で確認プロセスは1回(所要時間S
(秒))、20%の確率で確認プロセスは2回(所要時
間2S(秒))、10%の確率で確認プロセスは3回
(所要時間3S(秒))行われることになり、属性値確
定には、0.7×S+0.2×2S+0.1×3S=
1.4S(秒)要することになる。属性値確定から認識
対象を絞り込むまでに、T+1.4S(秒)≒1.4S
(秒)要する。そして、属性値から認識対象を絞り込み
ユーザに検索キー入力を促す。1つの属性値に属するデ
ータ数は100以下であることから、認識処理には実時
間T(秒)要する。検索キー確定には、認識精度前提か
ら、70%の確率で確認プロセスは1回、20%の確率
で2回、10%の確率で3回必要になることから、属性
値確定の際と同様、平均1.4S(秒)要することか
ら、検索キーの認識及び確定にT+1.4S≒1.4S
(秒)要することになる。従って、上記仮定のもとで
は、検索キー確定にかかる所要時間は1.4S+1.4
S≒2.8S(秒)要することになる。
【0191】一方、本実施形態の手法は、同様の音声認
識精度の下で、属性値認識に同様にT(秒)要し、属性
値候補数は50以下であることから必ず正解が第3位ま
でに出力されることから、認識尤度上位3属性値を属性
値有力候補として保持する。3属性値有力候補に属する
検索キーを認識対象として抽出し、検索キーの入力を促
す。1属性値に属するデータ数は100以下であること
から、認識対象検索キー数は300以下となる。検索キ
ーに対する認識は実時間T(秒)で終了するが、認識対
象検索キー数が300であることから、その確定には、
60%の確率で確認プロセスは1回(所要時間S
(秒))、25%の確率で2回(所要時間2S
(秒))、10%の確率で3回(所要時間3S
(秒))、5%の確率で4回(所要時間4S(秒))必
要となる。従って、検索キー確定には、0.6×S+
0.25×2S+0.1×3S+0.05×4S=1.
6S(秒)要することから、検索キー認識及び確定には
T+1.6S≒1.6S(秒)必要となり、ユーザ入力
開始から検索キー確定までにかかる時間は属性値確定の
所要時間がT≒0(秒)であることから、1.6S
(秒)となる。
【0192】この結果から、属性値を一意に確定してか
ら認識対象を絞り込む従来手法に比べて本実施形態によ
る手法の方が検索キー確定処理時間が大幅におさえられ
ることがわかる。
【0193】以上の説明からわかるように、ユーザから
音声入力される検索キー候補が、実時間認識処理が不可
能な大規模語彙数である場合、現在の音声認識技術では
実時間に処理可能な語彙数には限界があり、語彙数が多
ければ多いほど認識精度が落ちることから、検索キーの
持つ属性項目を利用して、属性値から認識対象を絞り込
むことで実時間内処理を実現する。しかし、認識対象を
絞り込んでも認識精度が100%になることはないの
で、ユーザの入力を確定するためには、ユーザに対して
正誤性を問う確認プロセスが必要となる。属性値入力は
システムにとっては実時間内認識処理のためのやむを得
ないプロセスであるが、ユーザにとっては検索要求した
い検索キーからの入力ができないことがまわりくどく、
さらに確認プロセスの繰り返しが属性値確定及び検索キ
ー確定の2回行われることからさらなるストレスにつな
がる。
【0194】本実施形態で説明した本発明の第三の方式
では、属性値確定を行わずに検索キー確定を実現するこ
とにより、属性値確定のための確認プロセスが無くな
り、確認プロセスによるまわりくどさ及び検索キー確定
にかかる処理時間が軽減してユーザストレスの解消につ
ながるため、特に大規模データベースを認識対象とした
入力音声確定に有効である。
【0195】次に、図32〜図39を参照して、上述し
た本発明の第四の方式に関する第四の実施形態について
説明する。
【0196】図32は、この第四の実施形態における音
声対話型情報検索装置の一構成例を示す。この音声対話
型情報検索装置201は、音声入力部202、認識対象
データ抽出部203、音声認識部204、認識候補出力
部205、音声出力部206から構成される。
【0197】認識対象データ抽出部203において、音
声認識用データベース207−1、応答データベース2
07−2からなる認識データベース207を使用する。
音声認識部204では音声認識装置208を、音声出力
部206では音声出力装置209を使用する。
【0198】図33に本実施形態による記録媒体に記録
する音声認識用データベース207−1の全体像の一例
を示す。
【0199】音声認識用データベース207−1は、上
位概念と下位概念の2階層で構成し、ユーザが検索を要
求する検索キーは下位階層データである。上位階層は実
時間内に処理可能な語彙数を有し、下位階層は実時間内
に処理不可能な大規模語彙数を有する。下位階層データ
は必ず1つの上位階層のデータと依存関係を持ち、1つ
の上位階層データに依存する下位階層データ数は実時間
内に処理できる数で構成される。また、下位階層の大規
模データに対してアクセス頻度の偏りを利用して、アク
セス頻度の高い順に上から、実時間内に処理できるデー
タ数だけ「頻」マーク付けしてその他の「稀」とマーク
付けされたデータとは別メモリに保存することで、高頻
度アクセスデータ群を作成する。
【0200】音声対話型情報検索装置201は、音声入
力部202でユーザから入力された音声が入力される
と、入力された音声に応じて認識対象とするデータの識
別を認識対象データ抽出部203で行う。
【0201】図34は、本実施形態における音声対話型
情報検索装置201の動作の流れを示す。
【0202】ユーザから音声入力部202対して検索キ
ーが入力されると(ステップS51)、認識対象データ
抽出部203では、まず始めに優先的に認識及び検索を
行う音声認識用データベース207−1の下位階層デー
タのうち、高頻度アクセスデータ群を認識対象データに
指定する(ステップS52)。
【0203】音声認識部204で音声認識処理し(ステ
ップS53)、その結果が認識候補出力部205にて出
力される(ステップS54)。この際、算出された認識
尤度の高い順に認識候補は出力される。音声出力部20
6は、認識尤度の高い順に出力された検索キー候補をユ
ーザに提示し正誤を問う(ステップS55)。但し、正
誤を問う回数はあらかじめ音声対話型情報検索装置20
1によって規定されている。音声入力部202から正誤
を問う確認質問に対する応答が入力されると(ステップ
S56)、認識対象データ抽出部203は、認識データ
ベース207の応答データベース207−2を認識対象
データに指定し、「はい」という応答が音声認識部20
4、認識候補出力部205にて認識できたら、音声出力
部206にて検索キーが同定できたことをユーザに知ら
せる(ステップS57)。所定回数の検索キー候補の確
認質問がすべてユーザから否定された(音声認識部20
4、認識候補出力部205にて「いいえ」という応答を
認識)場合(ステップS58NO)、音声出力部206
は、上位階層データに含まれる検索キーの上位概念を尋
ねる関連質問をユーザに対して行う(ステップS5
9)。関連質問に対する応答が、音声入力部202によ
り入力されると、音声認識部204で認識し、認識対象
データ抽出部203は、認識した上位概念に依存してい
る下位階層データを音声認識用データベース207−1
から認識対象として抽出し、ユーザが最初に入力した検
索キーを再び音声認識部204にて認識する(ステップ
S60)。認識候補出力部205にて認識尤度の高い順
に出力された検索キー候補の正誤を尋ねる確認質問を音
声出力部206から出力する(ステップS61)。確認
質問に対してユーザから「はい」という応答が得られる
まで確認を繰り返す(ステップS62)。「はい」とい
う応答が認識できたら検索キーが同定できたことをユー
ザに知らせる(ステップS63)。
【0204】以下に、具体例として、本実施形態の音声
対話型情報検索方法により、日本全国の市区町村の同定
を行う流れを説明する。
【0205】市区町村同定において、高頻度アクセスデ
ータ群を認識対象とした場合に出力された検索キー候補
に対して、認識尤度の高い順にユーザに正誤を確認する
確認質問は3回と規定する。市区町村同定の際の、音声
認識用データベースの一例を図35に示す。検索キーと
なる市区町村は音声認識用データベースの下位階層デー
タであり、上位階層データとして日本全国の都道府県を
選択する。都道府県は47という実時間内に処理可能な
語彙数からなり、下位階層の市区町村は必ず属する都道
府県を有し、1つの都道府県に属する市区町村は最も市
区町村を多く有する場合で50であることから、実時間
内に処理可能である。また、市区町村に対するアクセス
頻度には、電話番号案内などに市区町村同定が使用され
る場合のアクセス頻度を利用して、アクセス頻度の高い
上位50(実時間内に処理可能な語彙数)の市区町村を
高頻度アクセスデータ群に指定する。図36に高頻度ア
クセスデータ群に属する市区町村の一例を示す。
【0206】初めに、「横浜市」を同定する場合につい
て説明する。
【0207】音声入力部202から「横浜市」が入力さ
れると、認識対象データ抽出部203は、音声認識用デ
ータベース207−1の下位階層データのうち高頻度ア
クセスデータ群に属する市区町村を認識対象データとし
て抽出する(例えば、図35において、札幌市、函館
市、中央区、鹿児島市・・・)。「横浜市」は高頻度ア
クセスデータ群に含まれているデータである。音声認識
部204にて音声認識した結果が認識候補出力部205
にて認識尤度の高い順に出力される。図37に出力結果
の一例(1位横須賀市、2位横浜市、3位四つ木市・・
・)を示す。
【0208】音声出力部206は認識尤度の高い順にユ
ーザに対して検索キー候補の正誤を問う。
【0209】図37より正解の横浜市は2位に出力され
ていることから、確認質問を2回繰り返すことにより横
浜市が同定できる。
【0210】次に、「横川市」を同定する場合について
説明する。
【0211】「横川市」は高頻度アクセスデータ群に含
まれていないデータである。音声入力部202から「横
川市」が入力されると、認識対象データ抽出部203は
高頻度アクセスデータ群を認識対象として抽出し、音声
認識部204にて音声認識する。図38に認識候補出力
部205から出力された結果の一例を示す。図38に示
した結果より、「横浜市」「横須賀市」「横山市」の順
にユーザに対して正誤を問う確認質問を音声出力部20
6から出力する。音声入力部202から入力された確認
質問の応答がすべて「いいえ」であることから、音声対
話型情報検索装置201はユーザに対して、検索キーで
ある「横川市」の所属する都道府県の入力を音声出力部
206より促す。ユーザからの応答「群馬県」が音声入
力部202から入力されると、認識対象データ抽出部2
03は群馬県に属する下位階層データ、すなわち群馬県
内の41市区町村を認識対象データとして抽出する。そ
して改めて、音声認識部204にて「横川市」の認識を
行い、認識候補出力部205にて検索キー候補を出力す
る。図39に出力結果の一例を示す。音声出力部206
にて認識尤度の高い順にユーザに正誤を問う確認質問を
行う。「横川市」は認識候補の1位であることから確認
質問を1度することで同定される。
【0212】以上の説明からわかるように、音声認識対
象語彙数が大規模な場合、現在の音声認識技術では実時
間に処理可能な語彙数には限界があり、語彙数が多けれ
ば多いほど認識精度が落ちることから、システムはユー
ザの検索結果要求検索キーではなく、システムにとって
実時間に精度よく認識できるような、小規模な検索対象
語彙数に絞り込むことができるような効率の良い検索補
助キーの入力を最初に強制する。
【0213】本実施形態で説明した本発明の第四の方式
によれば、音声認識用データベースを2階層で構成し、
ユーザが検索を要求する検索キーを下位階層、上位には
下位階層と依存関係にあるような実時間で処理可能な語
彙数からなる検索補助キーを含むように、さらに1つの
上位階層中のデータに依存する下位階層の検索キー候補
は実時間処理可能な語彙数で構成されるよう上位階層を
構成するデータを選択し、下位階層データの中でアクセ
ス頻度の高い上位の実時間処理可能な語彙数は別のメモ
リに保存しておくことで、高頻度アクセスデータ群とし
て優先的に検索及び認識対象とする。本実施形態はこの
ような工夫により、高頻度アクセスデータ群に該当検索
キーが含まれていれば、検索補助キーとなる上位概念を
尋ねる関連質問をせずに、ユーザが本来検索要求する検
索キーの入力のみで、かつ実時間内に検索キー同定が可
能であり、該当検索キーが高頻度アクセスデータ群に含
まれていない場合も、ユーザにとっては従来と違ってシ
ステムにとって効果的な絞込みを行うための上位概念を
尋ねる補助的な質問から強制的にスタートするのではな
く、本来検索要求する検索キーを始めに入力し、次に補
助的な上位概念の入力をするという自然さを兼ね備えて
いる高速検索が可能である。
【0214】なお、上述した各実施形態における装置の
各機能構成はコンピュータによりプログラムを解読実行
させることにより実現することも可能である。
【0215】
【発明の効果】本発明の第一の方式によると、ユーザに
「待たされた」という気持ちを抱かせず、ユーザが許容
できる範囲の精度を持った応答を返すことが可能な認識
対象語の絞込み方法、及び認識候補が絞込まれているこ
とをユーザに感じさせずに、正誤確認回数の減少あるい
は正誤確認の省略を実現するような入力確定方式を利用
して、目的情報確定のために必要な属性値を特定する過
程において、認識対象とする属性値が与えられた一定期
間内には認識処理可能な数を越える数からなる属性値で
あっても、これを特定することを可能とし、ユーザに対
して音声認識処理及び検索に要する時間を感じさせるこ
となく、かつユーザとの間に音声認識処理の欠陥などに
よる不自然な対話を生じさせることなく、属性値を特定
して目的情報の確定を行う音声対話型情報検索方法、装
置およびプログラム記録媒体を提供することが可能とな
る。
【0216】また、本発明の第二の方式によると、ユー
ザが入力する音声検索キーの同定をタスクとするオペレ
ータレス音声対話型情報検索システムにおいて、ユーザ
に待機時間を感じさせずに、オペレータ対応のシステム
同様の迅速性及び自然性を兼ね備えた対話を通してタス
クを達成できるように、与えられた一定時間内に処理不
可能な検索対象語彙数を有する大規模検索データベース
を用いて、ユーザに対して音声認識処理及びデータベー
ス照合時間を感じさせることなく、かつユーザとの間に
音声認識処理の欠陥などによる不自然な対話を生じさせ
ることなく、ユーザが入力した検索キーの同定を、自然
な対話を通して実現する対話制御による音声対話を用い
たオペレータレス音声対話型情報検索方法、装置および
プログラム記録媒体を提供することが可能となる。
【0217】また、本発明の第三の方式によると、属性
値確定を行わずに検索キー確定を実現することにより、
属性値確定のための確認プロセスを無くして、確認プロ
セスによるまわりくどさ及び検索キー確定にかかる処理
時間を軽減し、大規模データベースを認識対象とした、
ユーザストレスの解消につながる音声入力による検索キ
ー確定方式を用いた音声対話型情報検索方法、装置、お
よびプログラム記録媒体を提供することが可能となる。
【0218】また、本発明の第四の方式によると、大規
模データベースを認識対象として、ユーザが入力する検
索キーの同定を目的とする検索において、大規模データ
ベース中のデータのアクセス頻度の偏りを利用して、ユ
ーザが本当に検索を要求している検索キーを最初から入
力してもユーザに認識の間、待機時間を与えずかつ認識
精度の欠陥を感じさせずに認識及び検索を実行し、大規
模データベースの中から該当検索キーを同定する迅速性
及び自然性を兼ね備えた検索に用いられる検索データベ
ースを記録した記録媒体並びに音声認識を用いた音声対
話型情報検索方法、装置およびプログラム記録媒体を提
供することが可能となる。
【0219】このように、本発明の音声対話型情報検索
方式によると、最初にシステムに入力された音声入力の
認識結果における曖昧さと、その後関連情報質問に答え
て入力される音声入力の認識結果における曖昧さが、こ
れら認識結果の関連性を検証する統合処理(クロスチェ
ック)により同時に解消できるようになり、このことが
利用者に短時間で適切な応答を返せるようになることに
寄与している。
【図面の簡単な説明】
【図1】本発明の第一の実施形態における音声対話型情
報検索装置の一構成例を示すブロック図。
【図2】図1の音声対話型情報検索装置で利用する情報
データベースの一例を示す図。
【図3】図1の音声対話型情報検索装置における情報確
定プロセスの流れを示すフローチャート。
【図4】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における情報データベースの一例を示す
図。
【図5】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における優先認識対象語に対する認識結果
の一例を示す図。
【図6】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における関連属性(都道府県名)の認識結
果の一例を示す図。
【図7】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における非優先認識対象語に対する認識結
果を足しこんだ結果の一例を示す図。
【図8】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における属性値候補と、関連情報の統合の
一例を示す図。
【図9】本発明の第二の実施形態における音声対話型情
報検索装置の一構成例を示すブロック図。
【図10】図9の音声対話型情報検索装置で利用する統
計階層データベースの一例を示す図。
【図11】図9の音声対話型情報検索装置で利用する音
声検索キー候補に対する認識尤度を算出した音声認識結
果テーブルの一例を示す図。
【図12】図9の音声対話型情報検索装置で利用する検
索キー属性データベースの一例を示す図。
【図13】図9の音声対話型情報検索装置で利用する検
索キー確定関連質問に対するユーザの応答に対する音声
認識結果を示す関連情報認識結果テーブルの一例を示す
図。
【図14】図9の音声対話型情報検索装置における対話
制御部の処理の流れを示すフローチャート。
【図15】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における音声認識用統計階層データベースの一例を示す
図。
【図16】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第一統計階層データベースに対する音声認識結
果テーブルの一例を示す図。
【図17】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における検索キー属性データベースの一例を示す図。
【図18】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
におけるコンサート主催月日を尋ねる検索キー確定関連
質問に対する応答から得られる関連情報認識結果テーブ
ルの一例を示す図。
【図19】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第二統計階層データベースに対する音声認識結
果テーブルの一例を示す図。
【図20】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第二統計階層データベースと主催月日の関連情
報認識結果テーブルとの統合例を示す図。
【図21】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
におけるコンサート主催会場を尋ねる検索キー確定関連
質問に対する応答から得られる関連情報認識結果テーブ
ルの一例を示す図。
【図22】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第二統計階層データベース中の音声検索キー有
力候補と主催月日、及び主催会場情報の統合例を示す
図。
【図23】本発明の第三の実施形態における音声対話型
情報検索装置の一構成例を示すブロック図。
【図24】図23の音声対話型情報検索装置で利用する
音声認識用データベースの一例を示す図。
【図25】図23の音声対話型情報検索装置で利用する
属性データベースの一例を示す図。
【図26】図23の音声対話型情報検索装置における検
索キー確定処理の流れを示すフローチャート。
【図27】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における音声認
識用データベースの一例を示す図である。
【図28】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における属性デ
ータベースの一例を示す図である。
【図29】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における属性値
の認識結果例を示す図である。
【図30】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における認識対
象の絞込みの一例を示す図である。
【図31】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における検索キ
ーの認識結果例を示す図である。
【図32】本発明の第四の実施形態における音声対話型
情報検索装置の一構成例を示すブロック図。
【図33】図32の音声対話型情報検索装置で利用する
音声認識用データベースの一例を示す図。
【図34】図32の音声対話型情報検索装置における情
報検索処理の流れを示すフローチャート。
【図35】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における音声認識用
データベースの一例を示す図。
【図36】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における高頻度アク
セスデータ群の一例を示す図。
【図37】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における「横浜市」
同定の場合の音声検索キー認識結果を示す図。
【図38】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における高頻度アク
セスデータ群を認識対象とした場合の「横川市」同定の
場合の音声検索キー認識結果を示す図。
【図39】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における群馬県内の
市区町村を認識対象とした場合の「横川市」同定の場合
の音声検索キー認識結果を示す図。
【符号の説明】
1 音声対話型情報検索装置 2 音声入力部 3 音声識別部 3ー1 音声認識部 3ー2 音声認識結果出力部 4 対話制御部 4ー1 結果調整部 4ー2 対話誘導部 4ー3 応答作成部 5 音声出力部 6 音声認識装置 7 システムデータベース 7−1 情報データベース 7−2 Yes/Noデータベース 8 音声出力装置 11 音声対話型検索装置 12 音声入力部 13 音声識別部 13ー1 音声認識部 13ー2 音声認識結果出力部 14 対話制御部 14ー1 結果調整部 14ー2 対話誘導部 14ー3 質問・応答作成部 15 音声検索キー関連性計算部 16 音声出力部 17 音声認識用データベース 17−1 統計階層データベース 17ー2 検索キー属性データベース 17ー3 関連情報認識結果テーブル保存場所 17−4 Yes/Noデータベース 18 音声認識装置 19 音声出力装置 110 中央処理装置(CPU) 111 入力要請部 112 音声認識部 113 認識結果調整部 114 ユーザインタフェース 120 メモリ装置 121 属性値有力候補群 122 検索キー候補群 130 データベース 131 音声認識用データベース 132 属性データベース 133 Yes/Noデータベース 140 ユーザ装置 141 音声入力部 142 音声出力部 201 音声対話型情報検索装置 202 音声入力部 203 認識対象データ抽出部 204 音声認識部 205 認識候補出力部 206 音声出力部 207 認識データベース 207−1 音声認識用データベース 207−2 応答データベース 208 音声認識装置 209 音声出力装置
フロントページの続き (51)Int.Cl.7 識別記号 FI G10L 15/28 G10L 3/00 521W 571A (56)参考文献 特開 平8−202387(JP,A) 特開 平3−177899(JP,A) 特開 平8−320697(JP,A) 特公 平4−2198(JP,B2) 特許2589299(JP,B2) 特許2589300(JP,B2) 大森, 東田,効率的な音声対話制御 方式に関する一考察,情報処理学会研究 報告[音声言語情報処理],日本,2000 年 7月14日,2000−SLP−32, 32 −10,Pages 45−50 (58)調査した分野(Int.Cl.7,DB名) G10L 15/00 - 15/28 G06F 3/16 G06F 17/30 JICSTファイル(JOIS)

Claims (59)

    (57)【特許請求の範囲】
  1. 【請求項1】 ユーザの入力した検索キーを音声認識処
    理を用いて確定することによりユーザの目的情報を確定
    して検索する音声対話型情報検索方法であって、 (a)音声認識処理により所定の処理時間内に処理不可
    能な数のデータからなる検索キー候補を認識対象語とし
    て音声認識用データベースに格納し、認識対象語を、認
    識対象語に対して規定された統計情報に基づく重要度が
    比較的高く音声認識処理により所定の処理時間内に処理
    可能な数のデータからなる優先認識対象語と、それら以
    外の非優先認識対象語とに分けておき、 (b)ユーザとの音声対話を用いてユーザに検索キーを
    示す音声入力を入れるように要求し、優先認識対象語に
    対する該音声入力の音声認識処理を行って認識結果を得
    て、 (c)前記認識結果がユーザとの確認処理のみで検索キ
    ーを確定できると判断する所定の条件を満たす場合に
    は、該認識結果に基いてユーザとの音声対話を用いて確
    認処理を行って検索キーを確定し、 (d)前記認識結果が所定の条件を満たさない場合に
    は、ユーザとの音声対話を用いてユーザに検索キーの関
    連情報を示す別の音声入力を入れるように要求する関連
    情報質問を行い、 (e)前記別の音声入力の音声認識処理を行って別の認
    識結果を得て、該別の認識結果に基いて前記認識結果を
    調整して調整認識結果を得て、 (f)検索キーが確定されるまで、前記認識結果の代わ
    りに調整認識結果を用いて前記ステップ(c)または前
    記ステップ(d)および(e)の処理を繰り返すことを
    特徴とする音声対話型情報検索方法。
  2. 【請求項2】 前記ステップ(d)は更に、ユーザとの
    音声対話を用いた関連情報質問を行っている間に、音声
    認識処理により所定の処理時間内に処理可能な数の非優
    先認識対象語に対する前記音声入力の音声認識処理を行
    って追加認識結果を得て、 前記ステップ(e)は、追加認識結果を足し込むことに
    よっても前記認識結果を調整することを特徴とする請求
    項1記載の音声対話型情報検索方法。
  3. 【請求項3】 非優先認識対象語は、各々が音声認識処
    理により所定の処理時間内に処理可能な数の認識対象語
    を含む複数のセットに分割され、 前記ステップ(d)は、複数のセットに対する前記音声
    入力の音声認識処理を各セットに含まれた認識対象語の
    重要度の順に行うことを特徴とする請求項2記載の音声
    対話型情報検索方法。
  4. 【請求項4】 前記認識結果は認識検索キー候補とその
    認識尤度を示し、前記別の認識結果は認識関連情報候補
    とその認識尤度を示し、 前記ステップ(e)は、前記認識結果の示す認識検索キ
    ー候補の認識尤度と前記別の認識結果の示す認識関連情
    報候補の認識尤度に基いて認識検索キー候補の新たな認
    識尤度を計算することにより前記認識結果を調整するこ
    とを特徴とする請求項1記載の音声対話型情報検索方
    法。
  5. 【請求項5】 前記ステップ(e)は、各認識検索キー
    候補の認識尤度を対応する認識関連情報候補の認識尤度
    と乗算することにより認識検索キー候補の新たな認識尤
    度を計算することを特徴とする請求項4記載の音声対話
    型情報検索方法。
  6. 【請求項6】 前記認識結果は認識検索キー候補とその
    認識尤度を示し、 前記ステップ(c)は、所定の尤度しきい値を越える認
    識尤度を有する認識検索キー有力候補の数が所定数以下
    かつ0でない場合に、前記認識結果が所定の条件を満た
    すと判断することを特徴とする請求項1記載の音声対話
    型情報検索方法。
  7. 【請求項7】 前記ステップ(a)で用いる統計情報
    は、検索キー候補のアクセス頻度であることを特徴とす
    る請求項1記載の音声対話型情報検索方法。
  8. 【請求項8】 前記ステップ(a)で用いる所定の処理
    時間は、予め定められた対話処理実時間であることを特
    徴とする請求項1記載の音声対話型情報検索方法。
  9. 【請求項9】 検索キーは目的情報のある属性の属性値
    を示し、前記ステップ(d)の関連情報質問により要求
    される関連情報は該ある属性とは異なる目的情報の別の
    属性の属性値であることを特徴とする請求項1記載の音
    声対話型情報検索方法。
  10. 【請求項10】 目的情報の属性は階層的になってお
    り、前記別の属性は前記ある属性に階層的に隣接するも
    のであることを特徴とする請求項9記載の音声対話型情
    報検索方法。
  11. 【請求項11】 前記別の属性には、音声認識処理によ
    り所定の処理時間内に処理可能な数のデータからなる属
    性値候補を有する属性が選択されることを特徴とする請
    求項9記載の音声対話型情報検索方法。
  12. 【請求項12】 前記ステップ(a)は、目的情報の複
    数の属性の属性値を示す検索キー候補を格納して、ユー
    ザの入力する検索キーが該複数の属性のいづれの属性値
    を示すことも可能とすることを特徴とする請求項1記載
    の音声対話型情報検索方法。
  13. 【請求項13】 前記ステップ(a)は、検索キー候補
    を下位階層データとして格納し、更に音声認識処理によ
    り所定の処理時間内に処理可能な数のデータからなる上
    位階層データを格納し、各下位階層データは一つの上位
    階層データに依存し、一つの上位階層データに依存する
    下位階層データの数は音声認識処理により所定の処理時
    間内に処理可能な数のデータからなることを特徴とする
    請求項1記載の音声対話型情報検索方法。
  14. 【請求項14】 前記ステップ(c)は、所定回数以下
    の確認質問で検索キーが確定できる場合に前記認識結果
    が所定の条件を満たすと判断することを特徴とする請求
    項13記載の音声対話型情報検索方法。
  15. 【請求項15】 前記ステップ(d)は、ユーザが所定
    回数の確認質問を否定した場合に前記認識結果が所定の
    条件を満たさないと判断することを特徴とする請求項1
    3記載の音声対話型情報検索方法。
  16. 【請求項16】 前記ステップ(d)の関連情報質問で
    要求される関連情報は検索キーが示す下位概念が属する
    上位概念を示す上位階層データであることを特徴とする
    請求項13記載の音声対話型情報検索方法。
  17. 【請求項17】 前記ステップ(e)は、前記別の認識
    結果に基いてユーザとの音声対話を用いた別の確認処理
    を行って上位階層データを確定し、確定した上位階層デ
    ータに依存する下位階層データを新たな認識対象データ
    をして抽出し、新たな認識対象データに対する前記音声
    入力の音声認識処理を行って前記別の認識結果を得るこ
    とにより前記認識結果を調整することを特徴とする請求
    項16記載の音声対話型情報検索方法。
  18. 【請求項18】 ユーザの入力した検索キーを音声認識
    処理を用いて確定することによりユーザの目的情報を確
    定して検索する音声対話型情報検索方法であって、 (a)音声認識処理により所定の処理時間内に処理不可
    能な数のデータからなる検索キー候補を、音声認識用デ
    ータベースに設けられた複数の統計階層データベースに
    認識対象語として格納し、より下位の統計階層データベ
    ースが検索キー候補のより大きな部分を含み最下位の統
    計階層データベースが全ての検索キー候補を含むように
    し、 (b)ユーザとの音声対話を用いてユーザに検索キーを
    示す音声入力を入れるように要求し、全ての統計階層デ
    ータベースに対する該音声入力の音声認識処理を並列に
    行って認識検索キー候補とその認識尤度を示す各認識結
    果を順次得て、 (c)音声認識処理の完了した各統計
    階層データベースについて、所定の尤度しきい値を越え
    る認識尤度を有する認識検索キー候補を認識検索キー有
    力候補として選択し、 (d)認識検索キー有力候補の数が所定数以下かつ0で
    ないという所定の条件が満たされるかどうかにより、ユ
    ーザとの次の音声対話を制御することを特徴とする音声
    対話型情報検索方法。
  19. 【請求項19】 前記ステップ(d)は更に、 (d1)所定の条件が満たされる場合には、ユーザとの
    音声対話を用いてユーザに検索キーの関連情報を示す別
    の音声入力を入れるように要求する関連情報質問を行
    い、 (d2)前記別の音声入力の音声認識処理を行って認識
    関連情報候補とその認識尤度を示す別の認識結果を得
    て、該別の認識結果に基いて前記認識結果を調整して調
    整認識結果を得て、 (d3)前記調整認識結果に基いてユーザとの音声対話
    を用いて確認処理を行って検索キーを確定することを特
    徴とする請求項18記載の音声対話型情報検索方法。
  20. 【請求項20】 前記ステップ(d2)は、前記認識結
    果の示す認識検索キー候補の認識尤度と前記別の認識結
    果の示す認識関連情報候補の認識尤度に基いて認識検索
    キー候補の新たな認識尤度を計算することにより前記認
    識結果を調整することを特徴とする請求項19記載の音
    声対話型情報検索方法。
  21. 【請求項21】 前記ステップ(d2)は、前記認識結
    果の示す認識検索キー候補の認識尤度を正規化し、前記
    別の認識結果の示す認識関連情報候補の認識尤度を正規
    化し、各認識検索キー候補の正規化認識尤度を、各認識
    検索キー候補との関連性が認められた対応する認識関連
    情報候補の正規化認識尤度と乗算することにより認識検
    索キー候補の新たな認識尤度を計算することを特徴とす
    る請求項20記載の音声対話型情報検索方法。
  22. 【請求項22】 (e)所定の次対話誘導条件のいづれ
    かが満たされるかどうかチェックし、所定の次対話誘導
    条件のいづれかが満たされる場合に認識対象を次の下位
    階層の統計階層データベースに移すステップを更に有す
    ることを特徴とする請求項19記載の音声対話型情報検
    索方法。
  23. 【請求項23】 (f)検索キーの関連情報に基いて次
    の下位階層の統計階層データベースの認識結果を調整し
    て別の調整認識結果を得て、 (g)前記別の調整認識結果から、所定の尤度しきい値
    を越える認識尤度を有する認識検索キー候補を認識検索
    キー有力候補として選択し、 (h)認識検索キー有力候補の数が所定数以下かつ0で
    ないという所定の条件が満たされるかどうかにより、ユ
    ーザとの次の音声対話を制御するステップを更に有する
    ことを特徴とする請求項22記載の音声対話型情報検索
    方法。
  24. 【請求項24】 前記ステップ(f)で用いる関連情報
    は、前記ステップ(e)より前に上位階層の統計階層デ
    ータベースの処理中に既に得られていたものであること
    を特徴とする請求項23記載の音声対話型情報検索方
    法。
  25. 【請求項25】 前記ステップ(f)で用いる関連情報
    は、検索キーの関連情報がまだひとつも得られていない
    場合には、ユーザとの音声対話を用いてユーザに検索キ
    ーの関連情報を示す別の音声入力を入れるように要求す
    る関連情報質問を行って得られたものであることを特徴
    とする請求項23記載の音声対話型情報検索方法。
  26. 【請求項26】 前記次対話誘導条件は、 (1)認識検索キー候補の数が所定数以下ではない場
    合、 (2)認識検索キー候補の数が0である場合、 (3)前記調整認識結果に基づく前記ステップ(d3)
    の確認処理においてユーザに提示された認識検索キー候
    補がユーザに否定された場合、 (4)前記ステップ(d2)の音声認識処理によりえら
    れた認識関連情報候補と関連性があると認められる認識
    検索キー有力候補がない場合、 を含むことを特徴とする請求項22記載の音声対話型情
    報検索方法。
  27. 【請求項27】 前記ステップ(a)は、第n階層の統
    計階層データベースを用いて検索キーを確定するための
    ユーザとの音声対話を行っている間に、音声認識処理に
    より処理可能な数の検索キー候補を第(n+1)階層の
    統計階層データベースが含むように検索キー候補を複数
    の統計階層データベースに格納することを特徴とする請
    求項18記載の音声対話型情報検索方法。
  28. 【請求項28】 前記ステップ(a)は、認識対象語に
    対して規定された統計情報に基づく重要度により、上位
    階層の統計階層データベースの認識対象語が下位階層の
    統計階層データベースの認識対象語よりも比較的高い重
    要度を有するように検索キー候補を複数統計階層データ
    ベースに格納することを特徴とする請求項18記載の音
    声対話型情報検索方法。
  29. 【請求項29】 ユーザの入力した検索キーを音声認識
    処理を用いて確定することによりユーザの目的情報を確
    定して検索する音声対話型情報検索装置であって、 音声認識処理により所定の処理時間内に処理不可能な数
    のデータからなる検索キー候補を認識対象語として格納
    し、認識対象語を、認識対象語に対して規定された統計
    情報に基づく重要度が比較的高く音声認識処理により所
    定の処理時間内に処理可能な数のデータからなる優先認
    識対象語と、それら以外の非優先認識対象語とに分けた
    音声認識用データベースと、 音声認識処理を行う音声認識部と、 ユーザとの音声対話を行う対話制御部とからなり、 対話制御部が、ユーザに検索キーを示す音声入力を入れ
    るように要求する音声対話を行って、音声認識部が、優
    先認識対象語に対する該音声入力の音声認識処理を行っ
    て認識結果を得て、 対話制御部が、前記認識結果がユーザとの確認処理のみ
    で検索キーを確定できると判断する所定の条件を満たす
    場合には、該認識結果に基いて確認処理の音声対話を行
    って検索キーを確定し、 対話制御部が、前記認識結果が所定の条件を満たさない
    場合には、ユーザに検索キーの関連情報を示す別の音声
    入力を入れるように要求する関連情報質問の音声対話を
    行って、音声認識部が、前記別の音声入力の音声認識処
    理を行って別の認識結果を得て、対話制御部が、該別の
    認識結果に基いて前記認識結果を調整して調整認識結果
    を得て、 対話制御部が、検索キーが確定されるまで、前記認識結
    果の代わりに調整認識結果を用いて前記確認処理または
    前記関連情報質問を繰り返すように音声対話を制御する
    ことを特徴とする音声対話型情報検索装置。
  30. 【請求項30】 音声対話部は更に、対話制御部がユー
    ザとの音声対話を用いた関連情報質問を行っている間
    に、音声認識処理により所定の処理時間内に処理可能な
    数の非優先認識対象語に対する前記音声入力の音声認識
    処理を行って追加認識結果を得て、 対話制御部は、追加認識結果を足し込むことによっても
    前記認識結果を調整することを特徴とする請求項29記
    載の音声対話型情報検索装置。
  31. 【請求項31】 音声認識用データベースの格納する非
    優先認識対象語は、各々が音声認識処理により所定の処
    理時間内に処理可能な数の認識対象語を含む複数のセッ
    トに分割され、 音声認識部は、複数のセットに対する前記音声入力の音
    声認識処理を各セットに含まれた認識対象語の重要度の
    順に行うことを特徴とする請求項30記載の音声対話型
    情報検索装置。
  32. 【請求項32】 前記認識結果は認識検索キー候補とそ
    の認識尤度を示し、前記別の認識結果は認識関連情報候
    補とその認識尤度を示し、 対話制御部は、前記認識結果の示す認識検索キー候補の
    認識尤度と前記別の認識結果の示す認識関連情報候補の
    認識尤度に基いて認識検索キー候補の新たな認識尤度を
    計算することにより前記認識結果を調整することを特徴
    とする請求項29記載の音声対話型情報検索装置。
  33. 【請求項33】 対話制御部は、各認識検索キー候補の
    認識尤度を対応する認識関連情報候補の認識尤度と乗算
    することにより認識検索キー候補の新たな認識尤度を計
    算することを特徴とする請求項32記載の音声対話型情
    報検索装置。
  34. 【請求項34】 前記認識結果は認識検索キー候補とそ
    の認識尤度を示し、 対話制御部は、所定の尤度しきい
    値を越える認識尤度を有する認識検索キー有力候補の数
    が所定数以下かつ0でない場合に、前記認識結果が所定
    の条件を満たすと判断することを特徴とする請求項29
    記載の音声対話型情報検索装置。
  35. 【請求項35】 音声認識用データベースで用いる統計
    情報は、検索キー候補のアクセス頻度であることを特徴
    とする請求項29記載の音声対話型情報検索装置。
  36. 【請求項36】 音声認識用データベースで用いる所定
    の処理時間は、予め定められた対話処理実時間であるこ
    とを特徴とする請求項29記載の音声対話型情報検索装
    置。
  37. 【請求項37】 検索キーは目的情報のある属性の属性
    値を示し、対話制御部の行う関連情報質問により要求さ
    れる関連情報は該ある属性とは異なる目的情報の別の属
    性の属性値であることを特徴とする請求項29記載の音
    声対話型情報検索装置。
  38. 【請求項38】 目的情報の属性は階層的になってお
    り、前記別の属性は前記ある属性に階層的に隣接するも
    のであることを特徴とする請求項37記載の音声対話型
    情報検索装置。
  39. 【請求項39】 前記別の属性には、音声認識処理によ
    り所定の処理時間内に処理可能な数のデータからなる属
    性値候補を有する属性が選択されることを特徴とする請
    求項37記載の音声対話型情報検索装置。
  40. 【請求項40】 音声認識用データベースは、目的情報
    の複数の属性の属性値を示す検索キー候補を格納して、
    ユーザの入力する検索キーが該複数の属性のいづれの属
    性値を示すことも可能とすることを特徴とする請求項2
    9記載の音声対話型情報検索装置。
  41. 【請求項41】 音声認識用データベースは、検索キー
    候補を下位階層データとして格納し、更に音声認識処理
    により所定の処理時間内に処理可能な数のデータからな
    る上位階層データを格納し、各下位階層データは一つの
    上位階層データに依存し、一つの上位階層データに依存
    する下位階層データの数は音声認識処理により所定の処
    理時間内に処理可能な数のデータからなることを特徴と
    する請求項29記載の音声対話型情報検索装置。
  42. 【請求項42】 対話制御部は、所定回数以下の確認質
    問で検索キーが確定できる場合に前記認識結果が所定の
    条件を満たすと判断することを特徴とする請求項41記
    載の音声対話型情報検索装置。
  43. 【請求項43】 対話制御部は、ユーザが所定回数の確
    認質問を否定した場合に前記認識結果が所定の条件を満
    たさないと判断することを特徴とする請求項41記載の
    音声対話型情報検索装置。
  44. 【請求項44】 対話制御部の行う関連情報質問で要求
    される関連情報は検索キーが示す下位概念が属する上位
    概念を示す上位階層データであることを特徴とする請求
    項41記載の音声対話型情報検索装置。
  45. 【請求項45】 対話制御部は、前記別の認識結果に基
    いてユーザとの音声対話を用いた別の確認処理を行って
    上位階層データを確定し、確定した上位階層データに依
    存する下位階層データを新たな認識対象データをして抽
    出し、新たな認識対象データに対する前記音声入力の音
    声認識処理を行って前記別の認識結果を得ることにより
    前記認識結果を調整することを特徴とする請求項44記
    載の音声対話型情報検索装置。
  46. 【請求項46】 ユーザの入力した検索キーを音声認識
    処理を用いて確定することによりユーザの目的情報を確
    定して検索する音声対話型情報検索装置であって、 音声認識処理により所定の処理時間内に処理不可能な数
    のデータからなる検索キー候補を認識対象語として格納
    する複数の統計階層データベースを有し、より下位の統
    計階層データベースが検索キー候補のより大きな部分を
    含み最下位の統計階層データベースが全ての検索キー候
    補を含むようにした音声認識用データベースと、 音声認識処理を行う音声認識部と、 ユーザとの音声対話を行う対話制御部とからなり、 対話制御部が、ユーザに検索キーを示す音声入力を入れ
    るように要求する音声対話を行い、音声認識部が、全て
    の統計階層データベースに対する該音声入力の音声認識
    処理を並列に行って認識検索キー候補とその認識尤度を
    示す各認識結果を順次得て、 対話制御部が、音声認識処理の完了した各統計階層デー
    タベースについて、所定の尤度しきい値を越える認識尤
    度を有する認識検索キー候補を認識検索キー有力候補と
    して選択し、 対話制御部が、認識検索キー有力候補の数が所定数以下
    かつ0でないという所定の条件が満たされるかどうかに
    より、ユーザとの次の音声対話を制御することを特徴と
    する音声対話型情報検索装置。
  47. 【請求項47】 対話制御部は次の音声対話を、 所定の条件が満たされる場合には、ユーザに検索キーの
    関連情報を示す別の音声入力を入れるように要求する関
    連情報質問の音声対話を行い、音声認識部が前記別の音
    声入力の音声認識処理を行って認識関連情報候補とその
    認識尤度を示す別の認識結果を得て、 該別の認識結果に基いて前記認識結果を調整して調整認
    識結果を得て、 前記調整認識結果に基いて確認処理の音声対話を行って
    検索キーを確定することにより制御することを特徴とす
    る請求項46記載の音声対話型情報検索装置。
  48. 【請求項48】 対話制御部は、前記認識結果の示す認
    識検索キー候補の認識尤度と前記別の認識結果の示す認
    識関連情報候補の認識尤度に基いて認識検索キー候補の
    新たな認識尤度を計算することにより前記認識結果を調
    整することを特徴とする請求項47記載の音声対話型情
    報検索装置。
  49. 【請求項49】 対話制御部は、前記認識結果の示す認
    識検索キー候補の認識尤度を正規化し、前記別の認識結
    果の示す認識関連情報候補の認識尤度を正規化し、各認
    識検索キー候補の正規化認識尤度を、各認識検索キー候
    補との関連性が認められた対応する認識関連情報候補の
    正規化認識尤度と乗算することにより認識検索キー候補
    の新たな認識尤度を計算することを特徴とする請求項4
    8記載の音声対話型情報検索装置。
  50. 【請求項50】 対話制御部は更に、所定の次対話誘導
    条件のいづれかが満たされるかどうかチェックし、所定
    の次対話誘導条件のいづれかが満たされる場合に認識対
    象を次の下位階層の統計階層データベースに移すことを
    特徴とする請求項47記載の音声対話型情報検索装置。
  51. 【請求項51】 対話制御部は更に、検索キーの関連情
    報に基いて次の下位階層の統計階層データベースの認識
    結果を調整して別の調整認識結果を得て、 前記別の調整認識結果から、所定の尤度しきい値を越え
    る認識尤度を有する認識検索キー候補を認識検索キー有
    力候補として選択し、 認識検索キー有力候補の数が所定数以下かつ0でないと
    いう所定の条件が満たされるかどうかにより、ユーザと
    の次の音声対話を制御することを特徴とする請求項50
    記載の音声対話型情報検索装置。
  52. 【請求項52】 前記認識結果を調整するために用いる
    関連情報は、認識対象を次の下位階層の統計階層データ
    ベースに移す前に上位階層の統計階層データベースの処
    理中に既に得られていたものであることを特徴とする請
    求項51記載の音声対話型情報検索装置。
  53. 【請求項53】 前記認識結果を調整するために用いる
    関連情報は、検索キーの関連情報がまだひとつも得られ
    ていない場合には、ユーザとの音声対話を用いてユーザ
    に検索キーの関連情報を示す別の音声入力を入れるよう
    に要求する関連情報質問を行って得られたものであるこ
    とを特徴とする請求項51記載の音声対話型情報検索装
    置。
  54. 【請求項54】 前記次対話誘導条件は、 (1)認識検索キー候補の数が所定数以下ではない場
    合、 (2)認識検索キー候補の数が0である場合、 (3)前記調整認識結果に基づく確認処理においてユー
    ザに提示された認識検索キー候補がユーザに否定された
    場合、 (4)前記音声認識処理によりえられた認識関連情報候
    補と関連性があると認められる認識検索キー有力候補が
    ない場合、 を含むことを特徴とする請求項50記載の音声対話型情
    報検索装置。
  55. 【請求項55】 音声認識用データベースは、第n階層
    の統計階層データベースを用いて検索キーを確定するた
    めのユーザとの音声対話を行っている間に、音声認識処
    理により処理可能な数の検索キー候補を第(n+1)階
    層の統計階層データベースが含むように検索キー候補を
    複数の統計階層データベースに格納することを特徴とす
    る請求項46記載の音声対話型情報検索装置。
  56. 【請求項56】 音声認識用データベースは、認識対象
    語に対して規定された統計情報に基づく重要度により、
    上位階層の統計階層データベースの認識対象語が下位階
    層の統計階層データベースの認識対象語よりも比較的高
    い重要度を有するように検索キー候補を複数統計階層デ
    ータベースに格納することを特徴とする請求項46記載
    の音声対話型情報検索装置。
  57. 【請求項57】 音声認識処理により所定の処理時間内
    に処理不可能な数のデータからなる検索キー候補を認識
    対象語として格納し、認識対象語を、認識対象語に対し
    て規定された統計情報に基づく重要度が比較的高く音声
    認識処理により所定の処理時間内に処理可能な数のデー
    タからなる優先認識対象語と、それら以外の非優先認識
    対象語とに分けた音声認識用データベースと音声認識処
    理を用いて、ユーザの入力した検索キーを確定すること
    によりユーザの目的情報を確定して検索する音声対話型
    情報検索システムとしてコンピュータ動作させるプログ
    ラムコードを記録した記録媒体であって、 ユーザとの音声対話を用いてユーザに検索キーを示す音
    声入力を入れるように要求し、優先認識対象語に対する
    該音声入力の音声認識処理を行って認識結果を得る第一
    のプログラムコードと、 前記認識結果がユーザとの確認処理のみで検索キーを確
    定できると判断する所定の条件を満たす場合には、該認
    識結果に基いてユーザとの音声対話を用いて確認処理を
    行って検索キーを確定する第二のプログラムコードと、 前記認識結果が所定の条件を満たさない場合には、ユー
    ザとの音声対話を用いてユーザに検索キーの関連情報を
    示す別の音声入力を入れるように要求する関連情報質問
    を行う第三のプログラムコードと、 前記別の音声入力の音声認識処理を行って別の認識結果
    を得て、該別の認識結果に基いて前記認識結果を調整し
    て調整認識結果を得る第四のプログラムコードと、 検索キーが確定されるまで、前記認識結果の代わりに調
    整認識結果を用いて前記第二のプログラムコードまたは
    前記第三と第四のプログラムコードの処理を繰り返す第
    五のプログラムコードと、 を記録したことを特徴とする記録媒体。
  58. 【請求項58】 ユーザの入力した検索キーを音声認識
    処理を用いて確定することによりユーザの目的情報を確
    定して検索する音声対話型情報検索システムにおいて音
    声認識用データベースとして用いるためのデータ構造を
    記録した記録媒体であって、 該データ構造は、音声認識処理により所定の処理時間内
    に処理不可能な数のデータからなる検索キー候補を認識
    対象語として音声認識用データベースに格納し、認識対
    象語を、認識対象語に対して規定された統計情報に基づ
    く重要度が比較的高く音声認識処理により所定の処理時
    間内に処理可能な数のデータからなる優先認識対象語
    と、それら以外の非優先認識対象語とに分けておくこと
    により構成され、検索キー候補を下位階層データとして
    格納し、更に音声認識処理により所定の処理時間内に処
    理可能な数のデータからなる上位階層データを格納し、
    各下位階層データは一つの上位階層データに依存し、一
    つの上位階層データに依存する下位階層データの数は音
    声認識処理により所定の処理時間内に処理可能な数のデ
    ータからなることを特徴とする記録媒体。
  59. 【請求項59】 音声認識処理により所定の処理時間内
    に処理不可能な数のデータからなる検索キー候補を認識
    対象語として格納する統計階層データベースを有し、よ
    り下位の統計階層データベースが検索キー候補のより大
    きな部分を含み最下位の統計階層データベースが全ての
    検索キー候補を含むようにした音声認識用データベース
    と音声認識処理を用いて、ユーザの入力した検索キーを
    確定することによりユーザの目的情報を確定して検索す
    る音声対話型情報検索システムとしてコンピュータ動作
    させるプログラムコードを記録した記録媒体であって、
    ユーザとの音声対話を用いてユーザに検索キーを示す
    音声入力を入れるように要求し、全ての統計階層データ
    ベースに対する該音声入力の音声認識処理を並列に行っ
    て認識検索キー候補とその認識尤度を示す各認識結果を
    順次得る第一のプログラムコードと、 音声認識処理の完了した各統計階層データベースについ
    て、所定の尤度しきい値を越える認識尤度を有する認識
    検索キー候補を認識検索キー有力候補として選択する第
    二のプログラムコードと、 認識検索キー有力候補の数が所定数以下かつ0でないと
    いう所定の条件が満たされるかどうかにより、ユーザと
    の次の音声対話を制御する第三のプログラムコードとを
    記録したこと特徴とする記録媒体。
JP2000160635A 1999-05-31 2000-05-30 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体 Expired - Lifetime JP3530109B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000160635A JP3530109B2 (ja) 1999-05-31 2000-05-30 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
JP15085599 1999-05-31
JP22182099 1999-08-04
JP23021699 1999-08-17
JP11-150855 1999-08-17
JP11-230216 1999-08-17
JP11-221820 1999-08-17
JP2000160635A JP3530109B2 (ja) 1999-05-31 2000-05-30 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体

Publications (2)

Publication Number Publication Date
JP2001125592A JP2001125592A (ja) 2001-05-11
JP3530109B2 true JP3530109B2 (ja) 2004-05-24

Family

ID=27473052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000160635A Expired - Lifetime JP3530109B2 (ja) 1999-05-31 2000-05-30 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体

Country Status (1)

Country Link
JP (1) JP3530109B2 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3423296B2 (ja) * 2001-06-18 2003-07-07 沖電気工業株式会社 音声対話インターフェース装置
JP2005292476A (ja) * 2004-03-31 2005-10-20 Jfe Systems Inc 顧客応対方法及び装置
JP4887911B2 (ja) * 2006-05-31 2012-02-29 船井電機株式会社 電子機器
JP5277704B2 (ja) * 2008-04-24 2013-08-28 トヨタ自動車株式会社 音声認識装置及びこれを用いる車両システム
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
EP2691877A4 (en) * 2011-03-31 2015-06-24 Microsoft Technology Licensing Llc LEARNING AND CORRECTION OF A CONVERSATIONAL DIALOGUE
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
WO2015162638A1 (ja) * 2014-04-22 2015-10-29 三菱電機株式会社 ユーザインターフェースシステム、ユーザインターフェース制御装置、ユーザインターフェース制御方法およびユーザインターフェース制御プログラム
JP6787269B2 (ja) * 2017-07-21 2020-11-18 トヨタ自動車株式会社 音声認識システム及び音声認識方法
CN117097901B (zh) * 2023-10-18 2024-01-30 江苏若发科技发展有限公司 一种道路图像数据压缩存储方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2589300B2 (ja) 1987-01-28 1997-03-12 富士通株式会社 単語音声認識装置
JP2589299B2 (ja) 1987-01-28 1997-03-12 富士通株式会社 単語音声認識装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6057395A (ja) * 1983-09-08 1985-04-03 松下電器産業株式会社 音声認識方法
JP3045510B2 (ja) * 1989-12-06 2000-05-29 富士通株式会社 音声認識処理装置
JP3042585B2 (ja) * 1995-01-30 2000-05-15 富士通テン株式会社 音声認識装置
JPH08320697A (ja) * 1995-05-23 1996-12-03 Hitachi Ltd 音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2589300B2 (ja) 1987-01-28 1997-03-12 富士通株式会社 単語音声認識装置
JP2589299B2 (ja) 1987-01-28 1997-03-12 富士通株式会社 単語音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
大森, 東田,効率的な音声対話制御方式に関する一考察,情報処理学会研究報告[音声言語情報処理],日本,2000年 7月14日,2000−SLP−32, 32−10,Pages 45−50

Also Published As

Publication number Publication date
JP2001125592A (ja) 2001-05-11

Similar Documents

Publication Publication Date Title
US6885990B1 (en) Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
JP3530109B2 (ja) 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体
US6385582B1 (en) Man-machine system equipped with speech recognition device
US6018708A (en) Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
US7974835B2 (en) Method, system, and apparatus for natural language mixed-initiative dialogue processing
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
US7328155B2 (en) Method and system for speech recognition using grammar weighted based upon location information
US6598018B1 (en) Method for natural dialog interface to car devices
US6718304B1 (en) Speech recognition support method and apparatus
US20030115289A1 (en) Navigation in a voice recognition system
JP4928701B2 (ja) 目的案内システム内に定義されている入力ダイアログを使って目的地を言語入力するための方法
CN104299623B (zh) 语音应用中用于自动确认和消歧模块的方法和系统
JPH11175568A (ja) 入力システム
US20050004799A1 (en) System and method for a spoken language interface to a large database of changing records
JP2002123284A (ja) 音声認識装置ならびに方法
JPH06208389A (ja) 情報処理方法及び装置
JP2002123290A (ja) 音声認識装置ならびに音声認識方法
JP3420965B2 (ja) 対話型データベース検索方法、装置及び対話型データベース検索プログラムを記録した記録媒体
US8543405B2 (en) Method of operating a speech dialogue system
JP3945187B2 (ja) 対話管理装置
JP3682958B2 (ja) 音声入力された複合名詞の検索装置、検索方法およびデータベース
JP3846896B2 (ja) 音声入力された複合名詞の検索装置、検索方法およびデータベース
JP3663012B2 (ja) 音声による入力装置
US7054813B2 (en) Automatic generation of efficient grammar for heading selection
US7885816B2 (en) Efficient presentation of correction options in a speech interface based upon user selection probability

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20031125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040210

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040226

R150 Certificate of patent or registration of utility model

Ref document number: 3530109

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080305

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090305

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100305

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110305

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120305

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130305

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term