JP3530109B2

JP3530109B2 - 大規模情報データベースに対する音声対話型情報検索方法、装置および記録媒体

Info

Publication number: JP3530109B2
Application number: JP2000160635A
Authority: JP
Inventors: 久美子大森; 正信東田; 紀子水澤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1999-05-31
Filing date: 2000-05-30
Publication date: 2004-05-24
Anticipated expiration: 2020-05-30
Also published as: JP2001125592A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ユーザとの音声に
よる対話を通してユーザが意図する情報の検索を目的と
した音声対話型情報検索方法、装置およびプログラム記
録媒体に関する。

【０００２】

【従来の技術】機械による音声認識処理は、ユーザ入力
音声と認識対象データベースを照合し、データベース中
の全語彙に対して入力音声との類似度を認識尤度として
算出する処理である。認識技術の現状は、対話処理実時
間内に認識結果を出力することのできる認識対象語数に
限界があり、これを越える語数を認識対象とする場合に
は、ユーザに応答を返すまでに多大の時間を必要とす
る。また、認識対象語数の増加による認識精度の低下は
避けることができない。さらに、認識精度は、発話者や
発話環境に大きく依存し、認識装置の性能及び精度が高
い場合でも、周囲の雑音混入による精度の低下や、発話
者自身の入力音声が不完全であるための精度の低下な
ど、常に１００％の精度が得られる保証はない。

【０００３】従来の音声対話型情報検索システムは、ユ
ーザの入力音声に対して音声認識装置を用いて認識処理
を行い、処理が終了するまでユーザを待機させ、認識の
結果算出された候補を、認識尤度の高い順にユーザに提
示し、正解が確認できるまで候補の提示を繰り返すもの
であった。

【０００４】一方、音声を情報提供サービスのインタフ
ェースとして利用する場合は、リアルタイム性及び正確
さが要求される。認識対象語数が多い場合は、目的情報
を複数の階層から構成される属性ツリーに分類する。下
位階層の属性になるほど、対話処理実時間内に処理可能
な数を越える属性値数を持つ可能性が大きい。ユーザが
意図する目的情報確定のためには、各階層の属性値の特
定が必要となるが、下位階層の属性値が特定できれば上
位階層の属性値はツリーを辿ることにより自動的に特定
可能である（特定できた下位階層の属性値と関連する下
位階層の属性値が１対１で重複がない場合）。従って、
より下位階層の属性値から確定することができれば、短
時間に目的情報の確定が期待できる。

【０００５】しかし従来の音声対話型情報検索システム
は、ユーザとの対話に不自然さを生じさせない時間内に
処理可能な語数及び誤認識を考慮して、ユーザに対して
最初から下位階層の属性値の入力を許容せずに、まず始
めに属性値数の少ない上位階層の属性から順に尋ねて入
力を要求し、入力された属性値が特定できるまで認識の
結果算出された認識尤度の高い順に候補の提示を繰り返
して属性値を特定し、次階層の属性値の中から特定した
上位属性値と関連性を持つ属性値のみを認識対象として
選択することにより、認識対象語数を対話処理実時間内
に処理可能なデータ数に縮小する方法を採用せざるを得
なかった。

【０００６】このような従来の方法は、上位階層属性値
が特定できないと次階層の認識対象属性値を絞込めない
ことから、上位階層の属性値が特定できるまでユーザに
対して候補の提示を繰り返すが、情報確定のためには、
目的情報を構成する属性の階層が深ければ深いほどより
多くの階層数分の属性値の入力要求、属性毎の属性値確
定までの候補提示確認、および属性確定後の次階層の属
性値の絞込みが必要となるため、効率的な目的情報の確
定が困難であった。

【０００７】

【発明が解決しようとする課題】対話処理実時間内に処
理可能な数を超える語数からなる情報データベースの中
から目的情報の確定を行うシステムにおいて、目的情報
の確定を行うことができる（下位の）属性値を特定する
ために、認識処理の間ユーザを待機させ認識結果を上位
から提示することにより正誤確認をするが、誤認識のた
めに正解属性値がなかなか導けずにユーザを待機させた
にもかかわらず正誤確認を繰り返し行うことは、対話の
不自然さにつながりユーザにとっては大きなストレスと
なる。

【０００８】従って、音声認識技術の現状を踏まえたシ
ステムの現状においては、ユーザに待機時間を与えずあ
る程度の精度を持った応答を返すために下位階層の属性
値から順の入力を許容することは不可能であり、ユーザ
に対して上位階層の属性値から順の入力を要求し、属性
値の特定を繰り返すことになる。上位階層属性値を特定
することにより下位階層の認識対象語数の絞込みを行う
ことから、上位階層属性値が特定できるまで対話を先へ
進めることができない。つまり、入力された属性値が特
定できるまでの正誤確認が各階層毎に必要となる。

【０００９】もし下位階層の属性値から確定することが
可能であれば、上位階層の属性値も自動的に定まり目的
情報の確定を効率的に行うことができることから考える
と、現状のように上位階層から順に質問、確定、及び各
質問に対する確定までの正誤確認を繰返すことは、ユー
ザにとって非常に回りくどいプロセスである。特に、下
位階層の属性値から入力することができずに上位階層か
らの入力を強制されること、また誤認識のために正解が
最上位候補として出力されない場合に提示確認が繰り返
されること、さらに数回の提示確認によって入力が確定
しても目的情報が確定できるまで（最下位の属性値が特
定できるまで）階層数分の属性値の入力や正誤確認が繰
り返されることは、システムにとっては必須であって
も、短時間かつ自然なやりとりを望むユーザにとっては
非常に回りくどく余分なプロセスであり、ストレスにつ
ながる。

【００１０】ユーザのストレス軽減につながる目的情報
確定方法は、より下位の属性値からの入力を許容するこ
とであるが、そのためには対話処理実時間内に処理可能
な数を超える認識対象語数を持つ属性値を特定すること
が必要になる。

【００１１】また、機械による音声認識処理では、特に
不特定話者の音声、話速が一定でない発話に対する音声
は認識が困難であり、さらに周囲の雑音などによる音質
の劣化が原因となり、１００％の音声認識精度が得られ
ないことから、ユーザが音声により入力した音声検索キ
ーを音声認識処理のみを用いて瞬時に同定することは困
難である。

【００１２】また、音声対話型情報検索システムにおい
ては、ユーザとの間に自然な対話を実現するために、ユ
ーザの入力に対して人間が不自然さを感じないような実
時間で応答を返すことが大前提となる。しかし、与えら
れた一定時間内に音声認識処理可能な語彙数には限界が
ある。そのため、一定時間内に処理不可能な語彙数を有
する大規模データベースを認識対象とする場合、システ
ムが音声認識処理の際にデータベース検索に要する処理
時間をユーザに感じさせず、かつシステムの音声認識精
度の欠陥をも感じさせずに、ユーザとシステムの自然な
対話の中で一定時間にユーザが要求するタスクを達成す
ることは困難であり、ユーザはシステムが認識処理結果
を出力するまでの間待機する必要があり、さらには提示
された結果が誤認識の場合、再度認識結果が提示される
まで待機しなければならないことになり、オペレータ対
応と同等の迅速さ、正確さを有し音声を入力インタフェ
ースとしたシステムの構築は、現在の音声認識技術では
困難とされている。

【００１３】また、実時間内に処理不可能な大規模デー
タベースに対する、ユーザが要求する検索キーの同定を
目的とした従来の音声対話型情報検索方法は、実時間内
に認識処理可能なデータ数に制限があることから、最初
から要求検索キーを入力させるのではなく、認識対象を
大規模データベース全体から実時間内に処理可能なデー
タ数に縮小できるような、検索キー候補の絞込みにつな
がる、検索補助キーの入力を促す。但し、検索補助キー
としては、実時間内で処理可能なデータ数で構成され、
ユーザが要求する検索キーは必ず１つの検索補助キーを
上位キーとして持ち、ユーザにとって自分が検索を要求
しようとしている検索キーの検索補助キー（上位キー）
は単純明快なものであり、１つの検索補助キーが有する
下位キー（ユーザが検索要求する検索キー）は実時間内
に処理可能なデータ数で構成されるようなデータを検索
補助キーとして選択することにより検索キーの同定を行
う。

【００１４】また、ユーザが音声入力により要求する検
索キーの同定を目的とした従来の音声対話型情報検索方
法では、まず始めに、検索補助キー（上位キー）に対し
て音声認識処理し、出力された検索補助キー（上位キ
ー）候補を、正解という応答が得られるまで認識尤度の
高い順にユーザに提示する。検索補助キーが同定できた
ら、該当検索補助キーを上位キーとする検索キー（下位
キー）候補を認識対象データとして抽出し、ユーザに対
して、本来検索要求したかった検索キー（下位キー）の
入力を促す。検索キーに対しても検索補助キー同様に、
音声認識処理の結果出力された候補を、認識尤度の高い
順に正解という応答が得られるまでユーザに提示するこ
とで、検索キーの同定を行う。

【００１５】このように、現状の音声認識技術では、実
時間内に音声認識用データベースを照合して認識尤度を
算出し、認識結果を出力することのできる語彙数に限界
があり、認識対象語彙数が増えれば増えるほど認識時間
を要する。入力インタフェースとして音声を利用した音
声検索システムにおいて、認識対象が大規模なデータベ
ースの場合、システムの音声認識処理の間、ユーザを待
機させることはストレスにつながることから、現状のシ
ステムは実時間内に認識結果を出力するために、認識対
象である各データが持つ属性項目の属性値を利用して認
識対象の絞込みを行っている。

【００１６】しかし、音声認識技術の現状は、認識対象
を実時間処理可能な語彙数に絞り込んでも音声認識精度
は１００％にはならない。特に、不特定話者の音声、話
速が一定でない発話に対する音声、雑音が多い環境化で
の発話は認識が困難であることから、入力音声確定のた
めには、認識結果の正誤性をユーザに対して確認する確
認プロセスが必要不可欠である。確認プロセスとは、音
声認識処理において算出された認識尤度の高い順に認識
候補を順にユーザに提示するプロセスのことであり、入
力音声の認識精度が悪ければ悪いほど確認プロセス回数
は多くなる。ユーザは入力インタフェースに対してオペ
レータ同様の対応を求めることから、確認プロセスの繰
り返しはユーザストレスにつながる。

【００１７】大規模データベースを認識対象とした現状
の音声対話型情報検索システムは、ユーザに対して、認
識対象を実時間処理可能な語彙数に絞り込むための属性
項目の属性値入力、認識対象を属性値から絞り込めた時
点でユーザの要求検索キー入力を促すことから、属性値
及び検索キーに対してそれぞれ確認プロセスを要する。
属性値入力はシステムにとっては実時間内認識処理のた
めのやむをえないプロセスであるが、ユーザにとっては
検索要求したい検索キーからの入力ができないことがま
わりくどく、さらに確認プロセスの繰り返しが属性値確
定及び検索キー確定の２回行われることからさらなるス
トレスにつながる。

【００１８】また、音声を入力インターフェースとする
大規模データベースを認識及び検索対象とした検索シス
テムは、ユーザにオペレータと対話しているかのような
錯覚を与えるくらいの迅速かつ正確な応答を目標とする
ことから、認識処理時間と認識精度を補うようなシステ
ムにとって効果的に認識対象語彙数の絞込みにつながる
ような質問形式を採用せざるを得ない。そのために、ユ
ーザが本当に検索を要求している検索キーを最初から入
力させずに、検索キーの絞込みにつながる前記検索補助
キーの同定を最初に行う。しかし、ユーザにとっては、
最終的に検索要求したい検索キーではなく検索補助キー
の入力を最初に強制され、検索補助キーが確定できてか
ら検索キーを入力することは、入力したい検索キーの入
力までにユーザにとっては余計なやりとり（システムに
とっては必要不可欠なやりとり）を強制されているよう
でストレスにつながる。

【００１９】従って本発明は、ユーザに「待たされた」
という気持ちを抱かせず、ユーザが許容できる範囲の精
度を持った応答を返すことが可能な認識対象語の絞込み
方法、及び認識候補が絞込まれていることをユーザに感
じさせずに、正誤確認回数の減少あるいは正誤確認の省
略を実現するような入力確定方式を利用して、目的情報
確定のために必要な属性値を特定する過程において、認
識対象とする属性値が与えられた一定期間内には認識処
理可能な数を越える数からなる属性値であっても、これ
を特定することを可能とし、ユーザに対して音声認識処
理及び検索に要する時間を感じさせることなく、かつユ
ーザとの間に音声認識処理の欠陥などによる不自然な対
話を生じさせることなく、属性値を特定して目的情報の
確定を行う音声対話型情報検索方法、装置およびプログ
ラム記録媒体を提供することを目的とする。

【００２０】また、本発明は、ユーザが入力する音声検
索キーの同定をタスクとするオペレータレス音声対話型
情報検索システムにおいて、ユーザに待機時間を感じさ
せずに、オペレータ対応のシステム同様の迅速性及び自
然性を兼ね備えた対話を通してタスクを達成できるよう
に、与えられた一定時間内に処理不可能な検索対象語彙
数を有する大規模検索データベースを用いて、ユーザに
対して音声認識処理及びデータベース照合時間を感じさ
せることなく、かつユーザとの間に音声認識処理の欠陥
などによる不自然な対話を生じさせることなく、ユーザ
が入力した検索キーの同定を、自然な対話を通して実現
する対話制御による音声対話を用いたオペレータレス音
声対話型情報検索方法、装置およびプログラム記録媒体
を提供することを目的とする。

【００２１】また、本発明は、属性値確定を行わずに検
索キー確定を実現することにより、属性値確定のための
確認プロセスを無くして、確認プロセスによるまわりく
どさ及び検索キー確定にかかる処理時間を軽減し、大規
模データベースを認識対象とした、ユーザストレスの解
消につながる音声入力による検索キー確定方式を用いた
音声対話型情報検索方法、装置、およびプログラム記録
媒体を提供することを目的とする。

【００２２】また、本発明は、大規模データベースを認
識対象として、ユーザが入力する検索キーの同定を目的
とする検索において、大規模データベース中のデータの
アクセス頻度の偏りを利用して、ユーザが本当に検索を
要求している検索キーを最初から入力してもユーザに認
識の間、待機時間を与えずかつ認識精度の欠陥を感じさ
せずに認識及び検索を実行し、大規模データベースの中
から該当検索キーを同定する迅速性及び自然性を兼ね備
えた検索に用いられる検索データベースを記録した記録
媒体並びに音声認識を用いた音声対話型情報検索方法、
装置およびプログラム記録媒体を提供することを目的と
する。

【００２３】

【課題を解決するための手段】まず、本発明の第一の方
式では、情報データベース中の、対話処理実時間内に処
理可能な数を超える属性値候補数を有する属性の属性値
を特定する際、検索目的である属性からの入力に対し
て、ユーザがストレス及び不自然さを感じない程度の時
間内に、ユーザが許容できる範囲の精度を持った応答を
返すために、該属性の認識対象属性値の集合（認識対象
語）に対して過去のアクセス頻度の偏りなどを利用して
重要度を定め、重要度の高いデータに対して優先的な認
識処理を行う。

【００２４】重要度に基づき、音声認識装置が対話処理
実時間内に処理可能な属性値数（システム規定数、Ｎ語
とする）を優先認識対象語として選択し、優先的に音声
認識処理を行う。

【００２５】認識結果に基づき算出された各属性値候補
に対する認識尤度と、規定閾値との比較などにより、あ
らかじめ規定したユーザとの確認処理のみで属性値特定
可能と判断できる条件を満たす場合は、ユーザに対して
結果を提示し正誤確認を試みる。

【００２６】優先認識対象語に対する認識処理は、本来
は対話処理実時間内に処理可能な数を超える数の属性値
を有する属性に対して、優先認識対象語はアクセスされ
る可能性の高い属性値で構成することから、大多数のユ
ーザに対しては多くの場合適切な認識結果を提示するこ
とができる。

【００２７】前記確認処理のみで属性値特定可能な条件
を満たさない場合は、優先認識対象語に目的属性値が含
まれていないか、あるいは認識装置の精度が非常に低
く、正解が上位候補として出力されなかったかのどちら
かである。この場合、関連情報質問へ対話を進め、例え
ば階層的に隣接する別属性を尋ね、別属性の認識結果を
併用して総合的に判断することで、従来のような確定ま
での上位候補からの正誤確認の繰り返しは行わず、ユー
ザのストレスを回避する。

【００２８】この第一の方式の特徴は、残りの非優先認
識対象語中に目的属性値が含まれている場合に対応すべ
く、関連情報質問へ対話を進めることでユーザには、優
先認識対象語に対する認識結果のみを基にそれまでの応
対を行っていたことは知らせずに、関連情報質問対話時
間を利用して、非優先認識対象語に対する認識処理を平
行して行う。関連情報質問の応答に対して認識処理を行
い認識結果が算出された時点で、平行して認識処理をし
ていた非優先認識対象語の認識処理が終了しているとこ
ろまでを、優先認識対象語の認識結果と足し合わせ、関
連情報質問の応答の認識結果との関連性を参照し認識結
果を絞込む。

【００２９】但し、非優先認識対象語が対話処理実時間
内に処理可能な語数（Ｎ語）以上からなる場合、１回の
関連情報質問の応答が得られた時点において、非優先認
識対象語に対する認識処理が終了しておらず、終了まで
続けるとユーザを待機させてしまうことを考慮して、非
優先認識対象語をＮ語単位とする集合（セットと呼ぶ）
に分割する。そして、重要度の高い順に１セットずつ認
識装置に認識対象語として提供し、認識処理を行う。関
連情報質問に対してユーザから応答が入力される時点ま
での非優先認識対象語のセットに対する認識結果を、そ
れまでに得られている結果に足しこむ。

【００３０】このように関連情報質問は、ユーザに対し
ては待機時間、正誤確認の繰り返しというプロセスでは
なく、質問されても不自然でないことを聞かれそれに答
えると言う自然な対話を実現するという効果を生む。一
方、システムにとっては、その関連情報質問対話時間を
非優先認識対象語に対する認識時間を稼ぐ手段として利
用することに加えて、さらに属性値どうしの関連性から
特定目的である属性値の絞込みにつながる情報が得られ
た場合は、得られた関連情報を絞込みのための情報とし
て利用するという２つの効果がある。

【００３１】次に、関連情報質問の結果と統合した結果
に対して、再び、確認処理のみで目的属性値が特定可能
と判断できる条件を満たしているかどうかを判定し、満
たしている場合は正誤確認を試み、そうでない場合は、
さらに別の関連情報を尋ねる。非優先認識対象語に対す
る認識処理が終了していない場合は、まだ認識処理が終
了していない属性値の中に目的属性値が含まれている可
能性を考慮して、関連情報質問対話時間を利用して認識
処理を続ける。尋ねるべき関連情報が存在しない場合
は、同様の関連情報質問を何回か繰り返したり、関連情
報質問の応答の認識結果を提示してより確実な関連情報
獲得を目指すなど、非優先認識対象語に対する認識処理
時間を稼ぐ手段を構じる。

【００３２】ユーザには、システム内部の処理状態は一
切通知せずに気付かれないように対話を進めるため、自
然な対話の流れの中で属性値の特定、及び目的情報確定
が実現する。すなわち、この第一の方式により、ユーザ
に対してはあくまでも全属性値に対して認識処理を行
い、その結果に基づいた応答であるかのように見せかけ
ることが可能となる。優先認識対象語に対してのみの認
識結果で最初の応答を返していること、目的属性値が優
先認識対象語に含まれていない可能性もあることなど
は、ユーザに気づかれないように関連情報質問へ対話を
進める。そして、関連情報質問の結果を統合しながら、
徐々に認識が終了する非優先認識対象語の認識結果を足
し込むことで、ユーザとの自然な対話を維持することが
でき、対話処理実時間内に処理可能な数を超える数の認
識対象語に対しても、ユーザに不自然さかつストレスを
感じさせずに適切な時間内に、入力された属性値を特定
し、目的情報を確定する方法を提供する。

【００３３】この第一の方式により、ユーザにとっては
目的情報の確定を効率的に行うことができると思われる
下位階層の属性値からの入力を許容することが可能にな
り、不用意な正誤確認が繰り返されないことから、ユー
ザのストレス軽減が期待できる。また、高精度な自然性
を兼ね備えた、ユーザに待機時間及び認識精度上の問題
を感じさせない、情報検索プロセスが実現できる。

【００３４】次に、本発明の第二の方式では、ユーザと
システム間のタスク達成のために行われる対話応答に自
然さを保つために、与えられた一定時間内に処理不可能
な大規模認識対象語彙数を有する音声認識用データベー
スに対して、過去のアクセス頻度や使用頻度などの統計
的情報により、データベース中の各データに対して重要
度を定め、最も重要度の高いデータから順に所定数のデ
ータを選択して部分データベースを作成し、部分データ
ベースを、下位階層ほど含有データ数が多く、最下位階
層は前記音声認識用データベースの全データを含むよう
に階層構造化した複数の統計階層データベースとして保
持する。

【００３５】実時間性を仮想的に実現するために、各階
層のデータ数の相違による処理時間の差異を利用して、
統計階層データベースの各階層に対し、並列に音声認識
処理及び音声認識尤度に基づく音声検索キー候補の抽出
を行い、処理が速く終了する最上位の統計階層データベ
ースから得られる結果から順に、ユーザとの対話誘導を
行いながら他の階層の処理を続ける。

【００３６】この第二の方式において使用する統計階層
データベースとしては、この方式において音声検索キー
の絞込みを行うために音声検索キーが有する関連属性情
報を尋ねる検索キー確定関連質問を行う際、検索対象で
ある音声認識用データベースの全データに対して、各デ
ータの特徴を表す属性項目の属性値を、関連属性情報と
して保持している検索キー属性データベースを使用す
る。

【００３７】またこの第二の方式において、音声検索キ
ーの有力候補から候補の絞込みを行うために、検索キー
確定関連質問から得られる複数の関連属性情報候補と、
絞込みの対象としている音声検索キー有力候補との間の
関連性が、検索キー属性データベースを参照することに
より認められた場合、検索キー認識尤度と関連情報認識
尤度を正規化及び乗算することで、候補の同定を実現す
る。

【００３８】この第二の方式では、音声検索キーの同定
を目的とする音声対話型情報検索装置において、音声検
索キー同定のためにユーザとの間で行われる対話に自然
さを保つ範囲の一定時間内に音声認識処理及びデータベ
ース照合不可能な大規模音声認識対象語彙数を有する音
声認識用データベースを検索対象とする場合、オペレー
タ対応のシステム同様ユーザに音声認識処理及びデータ
ベース照合時間、音声認識精度の欠陥を感じさせること
なく、さらにユーザとの対話において、自然性を重視し
た対話制御方式を用いて音声検索キーの同定を実現す
る。

【００３９】この第二の方式の音声対話型情報検索方法
では、検索対象データベースが大規模であるため、検索
対象データベースを重要度の高い順に階層構造化して複
数の統計階層データベースとして保持し、第ｎ階層に対
する認識結果を基にした音声検索キー同定のための対話
がユーザとの間で行われている間に、第（ｎ＋１）階層
に対する音声認識及び検索キー認識尤度の算出、音声認
識結果テーブルの作成が終了するよう各統計階層のデー
タ含有数を構成し、各統計階層のデータ数の相違による
処理時間の差異を利用することで、ユーザに不自然さを
感じない一定時間内での、音声検索キーに対する音声認
識処理及び認識候補の出力を仮想的に実現する。

【００４０】即ち、音声認識精度の欠陥をユーザに感じ
させず、あたかも人間対人間の対話のような対話を対シ
ステム間においても成立させるために、前記統計階層デ
ータベースの各階層に対して並列に音声認識処理を行
い、各階層毎に音声検索キー候補の抽出を行い、データ
数が最小かつ統計的に重要度の高い音声検索キー候補を
含む最上位の統計階層データベースに対する音声認識処
理が最も早く終了することを利用して、最上位の統計階
層データベースの音声認識結果テーブルから順に参照
し、規定尤度しきい値を越える音声検索キー有力候補数
に応じて、ユーザに対する対話誘導方法を決定する。

【００４１】音声検索キー有力候補数が、所定数以下か
つ０でない場合は、有力候補の中から候補を絞込むため
の検索キー確定関連質問を行い、得られる関連属性情報
候補との関連性が認められた、音声検索キー有力候補を
音声検索キーに同定しユーザに提示する。

【００４２】上記音声検索キー有力候補が所定数よりも
多い場合、或いは存在しない場合、或いは上記のユーザ
に提示した音声検索キーが該当する候補ではないとユー
ザから否定された場合、或いは、上記検索キー確定関連
質問により得られた関連属性情報候補と関連性のある候
補が音声検索キー有力候補の中に存在しなかった場合、
該当音声検索キーが最上位統計階層データベース中に存
在しない可能性があることから、この時点で音声認識処
理が終了している次階層（下位）統計階層データベース
に検索対象を移動する。ユーザには、検索対象データベ
ースが下位に移動したことを感じさせない。

【００４３】検索対象データベースを下位に移動した時
点で、上記のユーザに提示した音声検索キーが該当する
候補ではないとユーザから否定された場合、或いは、上
記検索キー確定関連質問により得られた関連属性情報候
補と関連性のある候補が音声検索キー有力候補の中に存
在しなかった場合は、既に検索キー確定関連質問で得ら
れている関連属性情報候補を再び利用して、上記音声検
索キー有力候補が所定数よりも多い場合、或いは存在し
ない場合は、新たに検索キー確定関連質問を行い、得ら
れた関連属性情報を利用して、今認識対象としてなって
いる第二統計階層データベース中の音声検索キー候補の
中で、関連属性情報候補との関連性が認められた候補に
対しては認識尤度の統合を行い、新たな認識尤度を定め
る。

【００４４】再び、音声検索キー有力候補数を見て、有
力候補が所定数以下かつ０でないならば、再び別の関連
属性情報を尋ねる検索キー確定関連質問をして、新たに
得られる関連属性情報候補も併せて利用して、第二統計
階層データベース中の音声検索キー有力候補の絞込みを
行い、最上位統計階層データベースと同様に、認識尤度
を統合した結果、最も大きな検索キー認識尤度を持つ音
声検索キーをユーザに提示する。

【００４５】二番目の統計階層データベースの認識結果
が、上記音声検索キー有力候補が所定数よりも多い場
合、或いは存在しない場合、或いは上記のユーザに提示
した音声検索キーが該当する候補ではないとユーザから
否定された場合、或いは、上記検索キー確定関連質問に
より得られた関連属性情報候補と関連性のある候補が音
声検索キー有力候補の中に存在しなかった場合のいづれ
かを満たす場合は、最上位統計階層データベースの場合
と同様に、第三統計階層データベースへと検索対象を移
動し同様の対話誘導を、音声検索キーが同定できるまで
繰り返す。

【００４６】各統計階層データベースにおいて、音声検
索キー有力候補が所定数以下かつ０でない場合の対話誘
導においては、検索キー確定関連質問を行うことにより
有力候補の持つ検索キー認識尤度の信頼性を高め、効果
的に候補を絞込むことができ、検索対象データベースを
下位階層へ移動する対話誘導においては、下位階層ほど
音声認識対象語彙数が多く認識精度の悪化が考えられる
が、検索対象を下位に移動する時点までに獲得している
すべての関連属性情報候補との関連性を考慮することに
より、より多くの情報を組み合わせて絞込みを行うこと
でデータ数増加による認識精度の悪化を補うことができ
る。

【００４７】また、この第二の方式の音声対話型情報検
索方法は、音声認識精度が１００％でないことから音声
検索キーを１００％の精度で同定することが不可能であ
るので、音声検索キーの持つ関連属性情報を用いて該当
する音声検索キーの同定を試みる。しかし、関連属性情
報も検索キー確定関連質問の応答に対して音声認識を行
うことで獲得するので、１００％の精度で得られるわけ
ではない。

【００４８】そこで考えられる音声検索キー候補と関連
属性情報候補の認識尤度を正規化、統合することで音声
認識精度の欠陥を補い、検索キー確定関連質問を行い候
補の絞込みを行いながら自然性を重視した対話制御方式
を用いることで、ユーザには音声認識精度の欠陥を感じ
させないように音声検索キー候補の絞込みを行う。

【００４９】音声認識用データベースの階層構造化、音
声認識尤度の正規化、統合を利用した対話制御方式に基
づいて、ユーザとの対話を行うことにより、高精度な自
然性を兼ね備えた、ユーザに待機時間及び認識精度の欠
陥を感じさせない、オペレータ対応しているような音声
対話型情報検索装置の実現が可能になる。

【００５０】次に、本発明の第三の方式では、音声認識
用データベースが実時間内に処理不可能な認識対象語彙
数を持つことから、ユーザに対して検索キーの持つ属性
項目の属性値の入力を促し、属性値から認識対象を絞り
込むことによって、実時間内の音声認識処理及び検索キ
ーの確定を実現する過程において、属性値を一意に確定
せずに認識対象の絞り込みを実現する。

【００５１】この第三の方式では、従来と同様に、音声
認識用データベース中の認識対象検索キー候補が持つ属
性を利用して、検索キー候補を実時間処理可能な語彙数
からなるグループに分類して、ユーザに対して要求検索
キーの属性を尋ねることで認識対象グループを限定し
て、認識対象を絞り込むことで実時間内の音声認識処理
及び検索キーの確定を実現する。その際、現状の音声認
識精度が１００％でないことから、入力された属性値は
一意に定まらず、属性値に対する音声認識処理の結果、
認識尤度の大きい順に属性値候補を出力する。

【００５２】ここで、第三の方式では、属性値を一意に
確定するための確認プロセスを行わずに、規定尤度閾値
以上の認識尤度を持つ属性値を属性値有力候補とし、音
声認識用データベースから属性値有力候補に属する全て
の検索キー候補を認識対象として抽出する。すなわち、
属性値有力候補数がｎならば、音声認識用データベース
から、属性値によってグループ化されたグループのう
ち、属性値有力候補による分類に該当するｎ個のグルー
プ内の検索キー候補を認識対象として抽出する。そし
て、ユーザに対して検索要求対象の検索キーの音声入力
を促し、先の検索キー候補を認識対象として該検索キー
に対する音声認識処理の結果算出した認識尤度の高い順
に、ユーザに正誤性を問う確認質問をすることで、検索
キー候補から検索キーの確定を試みる。

【００５３】このように、本発明の第三の方式は、大規
模音声認識用データベースから認識対象を絞り込むため
に、検索キーの持つ属性項目の属性値の入力をユーザに
最初に要求する過程において、属性値を一意に確定する
ための確認プロセスを実行しないことで、ユーザへの確
認プロセスは検索キー確定の１回だけになり、従来の属
性値確定に要した確認プロセスによるまわりくどさが解
消し、さらに処理時間の短縮につながる。

【００５４】次に、本発明の第四の方式では、ユーザが
検索キーを入力することにより音声対話型情報検索装置
が検索キーを同定するために用いられる検索データベー
スを記録した記録媒体において、検索データベースは２
階層構造であり、上位階層データはシステムが規定した
実時間内に認識処理可能な対象データ数になるように構
成し、下位階層データは、検索キーを含むと共に、前記
実時間内に認識処理が不可能なデータ数を含み、下位階
層に含まれる各データは、必ず１つの上位階層中のデー
タに概念依存し、かつ１つの上位階層中のデータに概念
依存する下位階層のデータ数は前記実時間内に認識処理
が可能なデータ数から構成し、さらに、下位階層中の各
データのアクセス頻度の偏りを示すアクセス頻度情報を
持ち、下位階層データはアクセス頻度の高い方から順
に、高頻度アクセスデータ群と、その他残りのデータを
区別して保持する。

【００５５】また、この第四の方式では、ユーザが音声
入力する検索キーに対して音声認識処理を行い、音声認
識用データベースの中から、入力された検索キーを検索
して同定することを目的とした音声認識を用いた音声対
話型情報検索方法においてユーザから要求検索キーが音
声入力されると、前記下位階層データの中の、高頻度ア
クセスデータ群に対して優先的に認識及び検索処理を行
い（手順１）、検索キーに対する音声認識処理の結果算
出した認識尤度の高い順に検索結果候補をユーザに正誤
性を問う確認質問をする（手順２）。手順２において、
所定回数以下の確認質問で検索キーが同定できる場合は
同定し（手順３）、手順３における所定回数の確認質問
が、ユーザから該当検索キーでないとすべて否定された
場合には、ユーザに対して、上位階層データを認識対象
として、該当検索キーが依存する上位概念を尋ねる関連
質問を行う（手順４）。つぎに関連質問に対するユーザ
の応答を音声認識することにより、算出した上位概念候
補の認識尤度を利用して、認識尤度の高い順に上位概念
が同定できるまでユーザに正誤性を問う確認質問を行い
（手順５）、上位概念が同定できた時点で、同定した上
位階層データに依存している下位階層データを認識対象
データと限定して抽出する（手順６）。そしてユーザが
入力した検索キーに対して再び音声認識処理を行い、認
識尤度の高い順にユーザに対して正誤性を問う確認質問
をすることで、音声検索キーの同定を行う（手順７）。

【００５６】この第四の方式は、高頻度アクセスデータ
群に該当検索キーが含まれていれば、検索キーの補助と
なる上位概念を尋ねる関連質問をせずに、ユーザが本来
検索要求する検索キーの入力のみで、かつ実時間内に検
索キー同定が可能であり、該当検索キーが高頻度アクセ
スデータ群に含まれていない場合も、ユーザにとっては
従来と違ってシステムにとって効果的な絞込みを行うた
めの上位概念を尋ねる補助的な質問から強制的にスター
トするのではなく、本来検索要求する検索キーを始めに
入力し、次に補助的な上位概念の入力をするという自然
さを兼ね備えた高速検索手法である。また、ユーザに音
声認識処理に要する時間及び認識精度の欠陥を感じさせ
ることなく、かつユーザが検索を要求している検索キー
を最初に入力させるという自然なシステムとのやりとり
のもとに、実時間内に処理不可能なアクセス頻度に偏り
を有するデータから構成される大規模音声認識用データ
ベースの中から、ユーザが音声入力する検索キーを同定
できる。

【００５７】音声認識精度が、１００％であると仮定し
た場合、実時間で認識処理を実現するために、ユーザが
本来検索要求したい検索キーからではなく、認識対象語
彙数を縮小化するために上位概念を検索補助キーとして
初めに尋ね、上位概念が同定できたら上位概念に依存し
ている下位概念を検索対象として抽出して検索キーの入
力を促す従来の手法は、実時間音声認識処理による候補
確定にＴ１（秒）かかるとすると、ユーザとの間で上位
概念（検索補助キー）と検索キーの２度の同定作業が行
われることから２×Ｔ１（秒）要することになる。一
方、下位階層の高頻度アクセスデータ群を８０％のアク
セス頻度を有するデータで構成し、ユーザが本来検索要
求したい検索キーの入力を最初に促し、高頻度アクセス
データ群に対して優先的に検索処理を行うこの第四の方
式は、高頻度アクセスデータ群に該当検索キーが含まれ
ている場合はＴ１（秒）、含まれていない場合は上位概
念を次に尋ね絞り込む上記手法をとることから２×Ｔ１
（秒）要することから、全体で０．８×Ｔ１＋０．２×
２×Ｔ１＝１．２×Ｔ１（秒）要することになり、この
第四の方式の方が検索キー同定に要する期待値は小さく
なる。

【００５８】実際に、音声認識精度は１００％でないこ
とから上記の処理時間で検索処理が終了することは困難
であるが、音声認識装置が５０％の確率で１位に正解候
補を出力、４０％の確率で２位に正解候補を出力、１０
％の確率で３位に正解候補を出力するという認識精度を
有し、音声認識用データベース中に正解が含まれている
場合は、３位までに正解候補を出力すると仮定した場
合、ユーザに対して出力候補が正解かどうか問うのにＴ
１（秒）要するとすると、従来の手法は、上位概念の同
定に０．５×Ｔ１＋０．４×２×Ｔ１＋０．１×３×Ｔ
１＝１．６×Ｔ１（秒）（正解が２位の場合、正誤性を
２回問うことから、２×Ｔ１（秒）が正誤確認時間とな
る）要する。そして、上位概念を用いて認識対象を実時
間処理可能な語彙数に絞り込み、ユーザの要求している
検索キーの同定に１．６×Ｔ１（秒）要することから合
計で１．６×Ｔ１＋１．６×Ｔ１（秒）要する。一方、
この第四の方式は、同様の音声認識精度の下で、高頻度
アクセスデータ群を８０％のアクセス頻度を有するデー
タで構成する場合、高頻度アクセスデータ群に該当検索
キーが含まれている場合、下位階層から得られる検索キ
ー候補の正誤を問う確認質問を２回までとすると、２位
までに正解検索キー候補が出力される場合は検索キー同
定に０．８×０．５×Ｔ１＋０．８×０．４×２×Ｔ１
＝１．０４×Ｔ１（秒）要し、高頻度アクセスデータ群
に該当検索キーが含まれていても上位２位までに正解検
索キーが出力されない場合は上位概念を尋ね、検索範囲
を絞り込む従来の手法をとることから０．５×Ｔ１＋
０．４×２×Ｔ１＋０．１×３×Ｔ１＝１．６×Ｔ１
（秒）要するのが全体の１０％（３位に正解候補が出力
される確率）なので、１．６×Ｔ１×０．１＝０．１６
×Ｔ１（秒）要する。また該当検索キーが高頻度アクセ
スデータ群に含まれていない場合も従来の手法をとるこ
とから１．６×Ｔ１（秒）要し、これが全体の２０％
（アクセス頻度が２０％に満たない単語が該当検索キー
である場合）なので１．６×Ｔ１×０．２＝０．３２×
Ｔ１（秒）要する。従って音声認識精度が１００％では
ない場合、この第四の方式は合計で、１．０４×Ｔ１＋
０．１６×Ｔ１＋０．３２×Ｔ１＝１．５２×Ｔ１
（秒）要することになり、この第四の方式の方が従来方
法と比較して検索キーの同定に要する時間の期待値が半
分以下に押さえられ、さらにシステムにとって効率のよ
い絞込みにつながる補助的な質問から始まるのでなく、
ユーザが本来要求している検索キーを最初に入力すると
いう自然性も兼ね備えている。

【００５９】従って、本発明は、ユーザの入力した検索
キーを音声認識処理を用いて確定することによりユーザ
の目的情報を確定して検索する音声対話型情報検索方法
であって、（ａ）音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を認識
対象語として音声認識用データベースに格納し、認識対
象語を、認識対象語に対して規定された統計情報に基づ
く重要度が比較的高く音声認識処理により所定の処理時
間内に処理可能な数のデータからなる優先認識対象語
と、それら以外の非優先認識対象語とに分けておき、
（ｂ）ユーザとの音声対話を用いてユーザに検索キーを
示す音声入力を入れるように要求し、優先認識対象語に
対する該音声入力の音声認識処理を行って認識結果を得
て、（ｃ）前記認識結果がユーザとの確認処理のみで検
索キーを確定できると判断する所定の条件を満たす場合
には、該認識結果に基いてユーザとの音声対話を用いて
確認処理を行って検索キーを確定し、（ｄ）前記認識結
果が所定の条件を満たさない場合には、ユーザとの音声
対話を用いてユーザに検索キーの関連情報を示す別の音
声入力を入れるように要求する関連情報質問を行い、
（ｅ）前記別の音声入力の音声認識処理を行って別の認
識結果を得て、該別の認識結果に基いて前記認識結果を
調整して調整認識結果を得て、（ｆ）検索キーが確定さ
れるまで、前記認識結果の代わりに調整認識結果を用い
て前記ステップ（ｃ）または前記ステップ（ｄ）および
（ｅ）の処理を繰り返すことを特徴とする音声対話型情
報検索方法を提供する。

【００６０】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索装置で
あって、音声認識処理により所定の処理時間内に処理不
可能な数のデータからなる検索キー候補を認識対象語と
して格納し、認識対象語を、認識対象語に対して規定さ
れた統計情報に基づく重要度が比較的高く音声認識処理
により所定の処理時間内に処理可能な数のデータからな
る優先認識対象語と、それら以外の非優先認識対象語と
に分けた音声認識用データベースと、音声認識処理を行
う音声認識部と、ユーザとの音声対話を行う対話制御部
とからなり、対話制御部が、ユーザに検索キーを示す音
声入力を入れるように要求する音声対話を行って、音声
認識部が、優先認識対象語に対する該音声入力の音声認
識処理を行って認識結果を得て、対話制御部が、前記認
識結果がユーザとの確認処理のみで検索キーを確定でき
ると判断する所定の条件を満たす場合には、該認識結果
に基いて確認処理の音声対話を行って検索キーを確定
し、対話制御部が、前記認識結果が所定の条件を満たさ
ない場合には、ユーザに検索キーの関連情報を示す別の
音声入力を入れるように要求する関連情報質問の音声対
話を行って、音声認識部が、前記別の音声入力の音声認
識処理を行って別の認識結果を得て、対話制御部が、該
別の認識結果に基いて前記認識結果を調整して調整認識
結果を得て、対話制御部が、検索キーが確定されるま
で、前記認識結果の代わりに調整認識結果を用いて前記
確認処理または前記関連情報質問を繰り返すように音声
対話を制御することを特徴とする音声対話型情報検索装
置を提供する。

【００６１】また、本発明は、音声認識処理により所定
の処理時間内に処理不可能な数のデータからなる検索キ
ー候補を認識対象語として格納し、認識対象語を、認識
対象語に対して規定された統計情報に基づく重要度が比
較的高く音声認識処理により所定の処理時間内に処理可
能な数のデータからなる優先認識対象語と、それら以外
の非優先認識対象語とに分けた音声認識用データベース
と音声認識処理を用いて、ユーザの入力した検索キーを
確定することによりユーザの目的情報を確定して検索す
る音声対話型情報検索システムとしてコンピュータ動作
させるプログラムコードを記録した記録媒体であって、
ユーザとの音声対話を用いてユーザに検索キーを示す音
声入力を入れるように要求し、優先認識対象語に対する
該音声入力の音声認識処理を行って認識結果を得る第一
のプログラムコードと、前記認識結果がユーザとの確認
処理のみで検索キーを確定できると判断する所定の条件
を満たす場合には、該認識結果に基いてユーザとの音声
対話を用いて確認処理を行って検索キーを確定する第二
のプログラムコードと、前記認識結果が所定の条件を満
たさない場合には、ユーザとの音声対話を用いてユーザ
に検索キーの関連情報を示す別の音声入力を入れるよう
に要求する関連情報質問を行う第三のプログラムコード
と、前記別の音声入力の音声認識処理を行って別の認識
結果を得て、該別の認識結果に基いて前記認識結果を調
整して調整認識結果を得る第四のプログラムコードと、
（ｆ）検索キーが確定されるまで、前記認識結果の代わ
りに調整認識結果を用いて前記第二のプログラムコード
または前記第三と第四のプログラムコードの処理を繰り
返す第五のプログラムコードと、を記録したことを特徴
とする記録媒体を提供する。

【００６２】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索システ
ムにおいて音声認識用データベースとして用いるための
データ構造を記録した記録媒体であって、該データ構造
は、音声認識処理により所定の処理時間内に処理不可能
な数のデータからなる検索キー候補を認識対象語として
音声認識用データベースに格納し、認識対象語を、認識
対象語に対して規定された統計情報に基づく重要度が比
較的高く音声認識処理により所定の処理時間内に処理可
能な数のデータからなる優先認識対象語と、それら以外
の非優先認識対象語とに分けておくことにより構成さ
れ、検索キー候補を下位階層データとして格納し、更に
音声認識処理により所定の処理時間内に処理可能な数の
データからなる上位階層データを格納し、各下位階層デ
ータは一つの上位階層データに依存し、一つの上位階層
データに依存する下位階層データの数は音声認識処理に
より所定の処理時間内に処理可能な数のデータからなる
ことを特徴とする記録媒体を提供する。

【００６３】さらに、本発明は、ユーザの入力した検索
キーを音声認識処理を用いて確定することによりユーザ
の目的情報を確定して検索する音声対話型情報検索方法
であって、（ａ）音声認識処理により所定の処理時間内
に処理可能な数のデータからなる属性値候補を持つ属性
として選択された属性項目の属性値により分類された検
索キー候補を音声認識用データベースに格納し、（ｂ）
ユーザとの音声対話を用いてユーザに検索キーの前記属
性項目の属性値を示す音声入力を入れるように要求し、
該音声入力の音声認識処理を行って、属性値候補とその
認識尤度を示す認識結果を得て、（ｃ）所定の尤度しき
い値を越える認識尤度を有する属性値候補を属性値有力
候補として選択し、属性値有力候補に属する検索キー候
補を新たな認識対象データとして抽出し、（ｄ）ユーザ
との音声対話を用いてユーザに検索キーを示す別の音声
入力を入れるように要求し、新たな認識対象データに対
する該別の音声入力の音声認識処理を行って別の認識結
果を得て、（ｅ）前記別の認識結果に基いてユーザとの
音声対話を用いて確認処理を行って検索キーを確定する
ことを特徴とする音声対話型情報検索方法を提供する。

【００６４】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索装置で
あって、音声認識処理により所定の処理時間内に処理可
能な数のデータからなる属性値候補を持つ属性として選
択された属性項目の属性値により分類された検索キー候
補を格納する音声認識用データベースと、音声認識処理
を行う音声認識部と、ユーザとの音声対話を行う対話制
御部とからなり、対話制御部が、ユーザに検索キーの前
記属性項目の属性値を示す音声入力を入れるように要求
する音声対話を行い、音声認識部が、該音声入力の音声
認識処理を行って、属性値候補とその認識尤度を示す認
識結果を得て、対話制御部が、所定の尤度しきい値を越
える認識尤度を有する属性値候補を属性値有力候補とし
て選択し、属性値有力候補に属する検索キー候補を新た
な認識対象データとして抽出し、対話制御部が、ユーザ
に検索キーを示す別の音声入力を入れるように要求する
音声対話を行い、音声認識部が、新たな認識対象データ
に対する該別の音声入力の音声認識処理を行って別の認
識結果を得て、対話制御部が、前記別の認識結果に基い
て確認処理の音声対話を行って検索キーを確定すること
を特徴とする音声対話型情報検索装置を提供する。

【００６５】また、本発明は、属性項目の属性値により
分類された検索キー候補を格納した音声認識用データベ
ースと音声認識処理を用いて、ユーザの入力した検索キ
ーを確定することによりユーザの目的情報を確定して検
索する音声対話型情報検索システムとしてコンピュータ
動作させるプログラムコードを記録した記録媒体であっ
て、ユーザとの音声対話を用いてユーザに検索キーの前
記属性項目の属性値を示す音声入力を入れるように要求
し、該音声入力の音声認識処理を行って、属性値候補と
その認識尤度を示す認識結果を得る第一のプログラムコ
ードと、所定の尤度しきい値を越える認識尤度を有する
属性値候補を属性値有力候補として選択し、属性値有力
候補に属する検索キー候補を新たな認識対象データとし
て抽出する第二のプログラムコードと、ユーザとの音声
対話を用いてユーザに検索キーを示す別の音声入力を入
れるように要求し、新たな認識対象データに対する該別
の音声入力の音声認識処理を行って別の認識結果を得る
第三のプログラムコードと、前記別の認識結果に基いて
ユーザとの音声対話を用いて確認処理を行って検索キー
を確定する第四のプログラムコードとを記録したことを
特徴とする記録媒体を提供する。

【００６６】さらに、本発明は、ユーザの入力した検索
キーを音声認識処理を用いて確定することによりユーザ
の目的情報を確定して検索する音声対話型情報検索方法
であって、（ａ）音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を、音
声認識用データベースに設けられた複数の統計階層デー
タベースに認識対象語として格納し、より下位の統計階
層データベースが検索キー候補のより大きな部分を含み
最下位の統計階層データベースが全ての検索キー候補を
含むようにし、（ｂ）ユーザとの音声対話を用いてユー
ザに検索キーを示す音声入力を入れるように要求し、全
ての統計階層データベースに対する該音声入力の音声認
識処理を並列に行って認識検索キー候補とその認識尤度
を示す各認識結果を順次得て、（ｃ）音声認識処理の完
了した各統計階層データベースについて、所定の尤度し
きい値を越える認識尤度を有する認識検索キー候補を認
識検索キー有力候補として選択し、（ｄ）認識検索キー
有力候補の数が所定数以下かつ０でないという所定の条
件が満たされるかどうかにより、ユーザとの次の音声対
話を制御することを特徴とする音声対話型情報検索方法
を提供する。

【００６７】また、本発明は、ユーザの入力した検索キ
ーを音声認識処理を用いて確定することによりユーザの
目的情報を確定して検索する音声対話型情報検索装置で
あって、音声認識処理により所定の処理時間内に処理不
可能な数のデータからなる検索キー候補を認識対象語と
して格納する複数の統計階層データベースを有し、より
下位の統計階層データベースが検索キー候補のより大き
な部分を含み最下位の統計階層データベースが全ての検
索キー候補を含むようにした音声認識用データベース
と、音声認識処理を行う音声認識部と、ユーザとの音声
対話を行う対話制御部とからなり、対話制御部が、ユー
ザに検索キーを示す音声入力を入れるように要求する音
声対話を行い、音声認識部が、全ての統計階層データベ
ースに対する該音声入力の音声認識処理を並列に行って
認識検索キー候補とその認識尤度を示す各認識結果を順
次得て、対話制御部が、音声認識処理の完了した各統計
階層データベースについて、所定の尤度しきい値を越え
る認識尤度を有する認識検索キー候補を認識検索キー有
力候補として選択し、対話制御部が、認識検索キー有力
候補の数が所定数以下かつ０でないという所定の条件が
満たされるかどうかにより、ユーザとの次の音声対話を
制御することを特徴とする音声対話型情報検索装置を提
供する。

【００６８】又、本発明は、音声認識処理により所定の
処理時間内に処理不可能な数のデータからなる検索キー
候補を認識対象語として格納する統計階層データベース
を有し、より下位の統計階層データベースが検索キー候
補のより大きな部分を含み最下位の統計階層データベー
スが全ての検索キー候補を含むようにした音声認識用デ
ータベースと音声認識処理を用いて、ユーザの入力した
検索キーを確定することによりユーザの目的情報を確定
して検索する音声対話型情報検索システムとしてコンピ
ュータ動作させるプログラムコードを記録した記録媒体
であって、ユーザとの音声対話を用いてユーザに検索キ
ーを示す音声入力を入れるように要求し、全ての統計階
層データベースに対する該音声入力の音声認識処理を並
列に行って認識検索キー候補とその認識尤度を示す各認
識結果を順次得る第一のプログラムコードと、音声認識
処理の完了した各統計階層データベースについて、所定
の尤度しきい値を越える認識尤度を有する認識検索キー
候補を認識検索キー有力候補として選択する第二のプロ
グラムコードと、認識検索キー有力候補の数が所定数以
下かつ０でないという所定の条件が満たされるかどうか
により、ユーザとの次の音声対話を制御する第三のプロ
グラムコードとを記録したこと特徴とする記録媒体を提
供する。

【００６９】

【発明の実施の形態】まず、図１〜図８を参照して、上
述した本発明の第一の方式に関する第一の実施形態につ
いて説明する。

【００７０】図１は、本発明の第一の実施形態における
音声対話型情報検索装置の一構成例を示す。この音声対
話型情報検索装置１は、音声入力部２、音声識別部３、
対話制御部４、音声出力部５から構成される。音声識別
部３は、音声認識部３−１、音声認識結果出力部３−２
から構成される。対話制御部４は結果調整部４−１、対
話誘導部４−２、質問・応答作成部４−３から構成され
る。音声識別部３では音声認識装置６を、音声出力部５
では音声出力装置８を使用する。また、音声識別部３で
の入力音声に対する音声認識処理、及び対話制御部４の
結果調整部４−１、対話誘導部４−２は、システムデー
タベース７を使用する。システムデータベース７は、ユ
ーザが意図する目的情報を記録した情報データベース７
−１、ＹＥＳ／ＮＯデータベース７−２から構成され
る。

【００７１】図２に情報データベース７−１の全体像の
一例を示す。情報データベース７−１は、複数の属性と
その属性値から構成される。各属性毎の属性データベー
スの集合で構成され、各属性の属性値数は異なる。各属
性は階層的に相互に関連性を持つ。音声対話型情報検索
装置１は、各属性の属性値候補に対して、アクセス頻度
などの統計的情報に基づいて重要度を定め、重要度の高
い方から対話処理実時間内に音声認識可能と考えられる
数の属性値を優先認識対象語として選択する。残りの非
優先認識対象語に対しては、重要度の高い順に、実時間
対話処理可能な数あるいは、関連情報質問対話時間内に
処理可能な数など、システムがユーザとの対話と並行し
て認識処理をする上で規定した語数ごとに細分化して記
録する。

【００７２】なお、対話処理実時間は、ユーザとの対話
においてユーザにストレスや不自然さを感じさせないよ
うな対話の時間としてシステムが規定するものである。

【００７３】本実施形態では、音声対話型情報検索装置
１側からユーザに対して、目的情報を構成する属性のう
ち、ユーザの傾向を考慮してより目的情報の確定を効率
的に行うことができるような、対話処理実時間内に処理
可能な数を超える属性値数を持つ属性を尋ねる場合につ
いて述べる。

【００７４】図３は、本実施形態の音声対話型情報検索
装置１による目的情報確定の処理プロセスの流れを示
す。

【００７５】まず、ユーザが要求する目的情報の属性を
選択する（ステップＳ１）と、音声対話型情報検索装置
１はユーザに対しその属性の属性値の入力を要求し（ス
テップＳ２）、ユーザから要求された属性の属性値が音
声入力部２から入力されると、音声識別部３へ送り、音
声識別部３では、音声認識部３−１にて音声認識装置６
を用いて送られてきたユーザ入力に対して優先認識処理
を実行する(ステップＳ３）。ここで音声認識装置６
は、音声対話型情報検索装置１の処理の場面に合わせ
て、認識対象とするデータベースをシステムデータベー
ス７から選択する。すなわち、属性値入力や関連情報質
問に対する応答に対しては情報データベース７−１を、
正誤確認に対するユーザ応答に対してはＹＥＳ／ＮＯデ
ータベース７−２を参照する。また、情報データベース
７−１を参照する際は、データベース中の質問対象とな
っている属性の属性値を認識対象語として認識処理を実
行する。

【００７６】まず始めに、音声認識部３−１は、情報デ
ータベース７−１の入力要求した属性の優先認識対象語
に指定された属性値に対して認識処理を実行する。音声
認識結果出力部３−２は、認識結果を算出し対話制御部
４へ送る。

【００７７】対話制御部４の結果調整部４−１は優先認
識対象語に対する認識結果を保持し、対話誘導部４−２
へ伝える。対話誘導部４−２は、送られてきた認識結果
が、ユーザとの確認処理のみで属性値が特定できるか否
かを判定するための予め認識尤度を基に規定した条件を
満たすかどうかを判断し（ステップＳ４）、満たす場合
は、ユーザに対して正誤確認を行うよう質問・応答生成
部４−３へ伝える。質問・応答生成部４−３は、正誤確
認を行う質問文を作成し音声出力部５へ送り、音声出力
部５は、ユーザに対して候補を提示し正誤確認を行う質
問文を出力して、確認質問に対する応答を要求する(ス
テップＳ５）。

【００７８】音声入力部２は確認質問に対するユーザの
応答を受け取って音声識別部３へ送り、音声認識部３−
１においてＹＥＳ／ＮＯデータベース７−２を認識対象
としてユーザ応答を認識し、結果を対話制御部４へ送る
(ステップＳ６）。

【００７９】結果調整部４−１は送られてきた認識結果
を対話誘導部４−２へ伝える。対話誘導部４−２は、ユ
ーザ応答が肯定を表すかどうか判定し(ステップＳ
７）、肯定を表す応答が得られた場合は属性値が特定で
きた旨を伝える応答文を作成するよう質問・応答作成部
４−３に命じ、この応答文が音声出力部５から出力され
て属性値が特定される(ステップＳ８）。目的情報を確
定するために、他に特定を必要とする属性があれば同様
の処理を繰り返し、目的情報の確定を行う。

【００８０】反対に、確認質問に対して否定を表す応答
が得られた場合(ステップＳ７ＮＯ）、あるいは優先認
識対象語に対する認識結果がユーザとの確認処理のみで
属性値を特定できる規定条件を満たさない場合（ステッ
プＳ４ＮＯ）、対話誘導部４−２は、関連情報質問を行
うことを決定し、関連情報として尋ねる属性をシステム
データベース７中の情報データベース７−１から選択す
る（ステップＳ９）。質問・応答生成部４−３は選択さ
れた関連情報を尋ねる質問文を作成し、音声出力部５へ
伝えてユーザに属性値の入力を要求する（ステップＳ１
０）。

【００８１】関連情報質問を行うことを決定したと同時
に、対話誘導部４−２は、音声識別部３に対して、残り
の非優先認識対象語のシステム規定数毎に小分けにされ
た集合（セット）に対して認識処理を開始するよう命
じ、音声認識部３−１では、非優先認識対象語の各セッ
トに対して認識処理を開始する(ステップＳ１１）。音
声認識結果出力部３−２は非優先認識対象語のセット１
つ分に対して認識結果を算出するごとに、対話制御部４
へ送り、結果調整部４−１に保持されている優先認識対
象語の認識結果に足し合わせる。

【００８２】装置内部で非優先認識対象語に対する認識
処理が行われている間、ユーザに対しては、音声出力部
５から関連情報を尋ねる質問文が出力される。音声入力
部２は関連情報質問に対するユーザ応答を受け取り音声
識別部３へ送って優先認識処理を行う（ステップＳ１
２）。

【００８３】この時点で、非優先認識対象語のセットに
対する認識処理のうち、少なくとも最初の１セット（規
定数からなる属性値の集合１つ分）に対しては認識処理
が終了しているようにセットを構成する規定数を定め
る。

【００８４】音声識別部３は、非優先認識対象語に対す
る認識処理において１セットに対する認識処理が終了す
る度に、関連情報質問の進行状況をチェックする。関連
情報質問の対話が続行している場合は、非優先認識対象
語のセットの認識結果を対話制御部４へ送り、結果調整
部４−１に保持してある、それまでに認識が終了してい
る属性値の認識結果に足しこむ。関連情報質問に対する
応答が音声入力部２から送られてくるまでに、できるか
ぎりの非優先認識対象語のセットに対して認識処理、及
び結果の足しこみを行う。

【００８５】音声識別部３では、関連情報質問に対する
ユーザの応答を受け取ると、音声認識部３−１がシステ
ムデータベース７中の情報データベース７−１から認識
対象である関連情報（属性値）に対して認識処理を開始
する。音声認識結果出力部３−２は関連情報質問の応答
を認識した結果を対話制御部４へ送る。

【００８６】対話制御部４の結果調整部４−１は、送ら
れてきた関連情報の認識結果と保持しているその時点ま
での認識結果が足しこまれた属性値の認識結果を統合す
る（ステップＳ１３）。統合を行う際は、情報データベ
ース７−１の属性間の関連性などを参照することによ
り、各属性値候補の認識尤度に演算を施すなどして各属
性値候補の正解である確からしさを再算出する。対話誘
導部４−２は、再算出された確からしさを基に、ユーザ
との確認処理のみで属性値を特定できる規定条件を満た
しているか否かを判断し（ステップＳ１４）、判断結果
によって候補の提示と確認質問（ステップＳ５）、ある
いはさらなる関連情報質問(ステップＳ９）の実施を質
問・応答生成部４−３に命じる。統合結果の提示が否定
された場合も、関連情報質問を実施する。関連情報質問
の応答に対する認識処理をしている間、非優先認識対象
語のセットに対する認識処理は一時停止状態にある。

【００８７】また認識処理していない非優先認識対象語
セットが残っている場合は、関連情報質問を行うことを
決定した時点で、再び残りのセットに対して認識処理、
結果の足しこみを続行する。但し、対話制御部４の結果
調整部４−１にて、非優先認識対象語の認識結果を統合
する場合、既になされた関連情報質問により得られてい
る関連情報がある場合は、属性値候補の認識結果を足し
こむ際に、既に得られている関連情報との統合を行って
から足しこむ。

【００８８】この一連の操作を属性値が特定できるまで
繰り返すことにより、目的情報の確定を行う。

【００８９】以下、本実施形態における音声対話型情報
検索方法ついて具体例を用いて説明する。ここでは、本
実施形態の音声対話型情報検索方法を「住所確定システ
ム」の入力インタフェースに適用した場合について説明
する。本例において、目的情報は住所である。

【００９０】日本全国の住所の候補数は、対話処理実時
間内では処理可能な数を超えることから、住所確定に利
用する情報データベースに対して、都道府県（属性数値
４７）、都道府県下の市区町村名（属性値数４，１０
０）、更にその下の大字名（属性値数１８万）を住所を
構成する属性とし、各属性を、都道府県を最上位、次階
層を市区町村、さらに下位階層に大字がくるよう階層構
造化する。住所確定に利用する情報データベースの一例
を図４に示す。

【００９１】音声認識技術の現状は、市区町村４，１０
０候補、大字１８万候補に対する対話処理実時間内の認
識処理は不可能である。そのため従来手法は、都道府県
をまず尋ね、確定するまで確認を繰返し、確定後、該当
都道府県下の市区町村に認識対象を限定して、市区町村
を尋ね、確定する方法を採用せざるを得なかった。しか
し、ユーザにとっては、都道府県名から順に質問される
ことは回りくどく、大字まで指定したい場合には、少な
くとも都道府県、市区町村、大字の３回の入力要求と、
各入力に対して確定までの正誤確認の繰返しが必要とな
る。

【００９２】本例においては住所において市区町村名ま
で指定したい場合を考える。音声対話型情報検索装置
は、市区町村に対して、過去のアクセス頻度や大きさ
（人口数）などを基に重要度を定め、対話処理実時間内
に処理可能と考えられる市区町村上位１００を優先認識
対象語として選択する。

【００９３】ユーザに対して市区町村名の入力を要求す
る。市区町村名の認識結果により、ユーザとの確認処理
のみで市区町村名を特定できるか否かを判断する。本例
においては、認識尤度と規定しきい値を比較し、規定し
きい値を越える認識尤度を持つ検索キー候補の数で判断
するものとする。規定しきい値を超える認識尤度を持つ
検索キー候補が２候補以下かつ０でない場合は、確認処
理のみで検索キーが確定できると判断し提示による正誤
確認を行う。候補が０または３候補以上の場合は関連情
報質問を実施する。

【００９４】残りの非優先認識対象語４，０００に対し
ては、関連情報質問に要する対話時間を規定し重要度の
高い順に５００ずつのセット（８セット）に分けてお
く。本例においては、検索キー確定関連質問が行われて
いる対話時間を利用して認識処理及び結果の足しこみを
行う。１回の関連情報質問対話時間内に２，０００候補
（４セット）の認識処理が可能と見込める。

【００９５】以下、ユーザ入力「神奈川県茅ヶ崎市」を
確定する場合を説明する。ユーザは要求したい住所の市
区町村名「茅ヶ崎市」を入力する。茅ヶ崎市は、重要度
を上位から数えると５００番目と仮定すると、優先認識
対象語の中には含まれていない。

【００９６】音声入力部２から「茅ヶ崎市」という音声
検索キーが入力されると、音声識別部３の音声認識部３
−１は、情報データベース７−１の優先認識対象語１０
０市区町村に対して、音声認識処理を行う。

【００９７】音声認識結果出力部３−２は、優先認識対
象語に対する認識結果を対話制御部４へ送る。認識結果
の一例を図５に示す。結果調整部４−１は結果を保持し
対話誘導部４−２へ送る。対話誘導部４−２は、優先認
識対象語である１００市区町村に対して、算出された認
識尤度と規定しきい値を比較する。本例において規定し
きい値を１，０００とする。規定しきい値を超える認識
尤度を持つ市区町村候補は、図５より存在しないことが
分かる。従って、対話誘導部４−２は関連情報質問を行
うことを決定し、情報データベース７−１から関連情報
として利用する属性を選択する。本例では、階層的に隣
接する都道府県名を属性として選択する。関連情報質問
を行うことを決定したと同時に、音声認識部３−１は、
残りの非優先認識対象語に対しての認識処理を始める。
非優先認識対象語の５００市区町村毎のセットに対して
認識処理を行う。音声認識結果出力部３−２は、５００
市区町村毎に認識結果を対話制御部４の結果調整部４−
１へ送り、優先認識対象語１００市区町村の認識結果に
足しこむ。本例においては関連情報質問として都道府県
名を尋ね、そのユーザ応答「神奈川県」が入力されるま
での間に２，０００候補（４セット分）の認識処理が終
了すると考えられる。非認識対象語４セット分の認識結
果を足しこんだ結果の一例を図６に示す。

【００９８】対話誘導部４−２は、質問・応答作成部４
−３に対して、都道府県名を尋ねる関連情報質問の作成
を命じ、音声出力部５より質問文を出力する。

【００９９】音声入力部２よりユーザ応答「神奈川県」
が入力された時点で、非優先認識対象語に対する認識処
理を一時停止する。音声識別部３では音声認識部３−１
にて入力された都道府県名を認識し、音声認識結果出力
部３−２は結果を対話制御部４の結果調整部４−１へ送
る。都道府県名の認識結果の一例を図７に示す。

【０１００】この時点で結果調整部４−１は、これまで
に認識処理が終了した２，１００市区町村（優先認識対
象語１００＋関連情報質問対話時間内に認識処理が行わ
れた２，０００）の結果を保持している（図６）。

【０１０１】結果調整部４−１は情報データベース７−
１を参照し、市区町村候補と都道府県候補の認識結果を
統合する。本例においては、関連する属性値の相互の認
識尤度の乗算を統合処理と定める。つまり、各市区町村
候補の認識尤度に対して、所属都道府県を情報データベ
ース７ー１を参照して判断し、所属都道府県に対して算
出された認識尤度を乗算する。乗算結果を新たな認識尤
度として保持する。統合した結果の一例を図８に示す。

【０１０２】乗算した結果、新たに規定したしきい値を
超える属性値候補の数を見ると、規定しきい値（１，０
００，０００）を超える検索キー候補が「神奈川県茅ヶ
崎市」と「香川県高松市」の上位２候補であることが図
８より分かる。この２候補を順に提示し正誤確認するこ
とを対話誘導部４−２は決定し、正誤確認の質問文の作
成を質問・応答作成部４−３に命じる。音声出力部５よ
り出力された「神奈川県茅ヶ崎市」の提示に対する応答
が、音声入力部２より入力されると、音声識別部３にて
ＹＥＳ／ＮＯ識別データベース７−２を認識対象として
認識処理する。認識の結果、肯定を表す応答が得られた
ので対話誘導部４−２は、目的市区町村「茅ヶ崎市」が
特定できたと判断し、音声出力部５よりその旨を出力す
る。情報データベース７−１の属性間の関連性より、市
区町村名から都道府県を自動的に導くことが可能なの
で、目的住所が確定できたことになる。

【０１０３】以上の説明からわかるように、音声認識対
象語数が大規模な場合、現在の音声認識技術では認識処
理時間がかかり、さらに認識対象語数が多数なほど認識
装置の精度の低下は避けられないので、ユーザから音声
により要求されるタスクを与えられた一定時間で達成す
ることは困難である。

【０１０４】本実施形態で説明した本発明の第一の方式
によれば、対話処理時間内に処理可能な数を超える数の
属性値に対して、重要度を定め、重要度の高い属性値を
対話処理実時間内に処理可能な数選択して優先的に認識
する。これにより、見かけ上の認識対象語数を限定でき
るのでユーザを待機させることなく、また、認識対象語
を限定したことによりユーザ許容範囲の精度を持った認
識結果が見込める。さらに、過去のアクセス頻度に基づ
いて重要度を定めた場合、アクセス頻度に偏りがあれば
あるほど、重要度の高い属性値が入力される可能性が高
い。従って、例えば上述した具体例において、従来方法
では、都道府県名、市区町村名と順に確定することしか
できなかったのに対して、ユーザは最初から市区町村名
を入力を許容され、市区町村が特定できれば上位階層の
都道府県も特定可能なことから、市区町村名の入力のみ
で検索処理を終了することが可能になる。これにより、
ユーザ発話回数の減少、全体的な対話時間の短縮が見込
める。

【０１０５】非優先認識対象語が入力された場合も、関
連情報質問対話時間を利用して非優先認識対象語に対し
て認識処理を行い、結果を足しこみ、得られた関連情報
との関連性から属性値候補を絞り込むことで、対話処理
実時間内に処理可能な数を超える数の属性値に対する認
識処理、及び音声認識精度の欠陥をユーザに気付かれな
いように補完することが可能になる。従来方法では正解
が確定できるまで正誤確認が繰り返されたのに対して、
関連情報質問が行われることによってユーザにとって
は、自然な対話の流れの中での属性値が特定され、しか
も目的情報の確定を効率的に行うことができるような属
性値（ユーザ傾向により合った属性値）からの入力を許
容できるようになる。

【０１０６】上述した具体例においては、最初に住所を
市区町村まで確定することを例として挙げたが、大字ま
で指定したい場合は、大字を認識対象属性値、都道府
県、市区町村を関連情報として同様の対話を行うことで
１８万候補有る大字の特定が可能になる。

【０１０７】さらに、情報データベース全体から複数属
性（階層）にわたって優先認識対象語を選択し、特定の
属性に限ることなく、複数の属性の属性値からの音声入
力を可能とすることも可能である。これにより、ユーザ
に最初に入力要求する属性をシステム側から規定せずと
も、都道府県、市区町村、大字、全体に対して重要度を
定め、１階層に限定せずに優先認識対象語を選択するこ
とで、どのレベルから入力された属性値に対しても、特
定が可能になる。ユーザに入力要求する属性をシステム
側から規定しないことにより、さらにユーザ傾向にあっ
た音声対話型情報検索方法が実現できる。

【０１０８】なお、上述した具体例に挙げた住所確定
は、製品の配送や、電話番号検索、郵便番号検索の際の
住所入力に利用可能であり、さらにこの音声対話型情報
検索方法は、オペレータ対応でタスク達成を行ってい
る、チケットの予約やカーナビの目的地検索、駅名検索
に対しても、容易に適用可能である。さらに、人名検索
に対しても、住所、性別、職業、年齢、電話番号などの
複数の属性をあらかじめ関連属性情報として保持し、統
合して利用することでこの音声対話型情報検索方法を適
用可能である。

【０１０９】次に、図９〜図２２を参照して、上述した
本発明の第二の方式に関する第二の実施形態について説
明する。

【０１１０】図９は、この第二の実施形態における音声
対話型情報検索装置の一構成例を示す。この音声対話型
情報検索装置１１は、音声入力部１２、音声識別部１
３、対話制御部１４、音声検索キー関連性計算部１５、
音声出力部１６を備えている。音声識別部１３は、音声
認識部１３−１、音声認識結果出力部１３−２から構成
される。対話制御部１４は結果調整部１４−１、対話誘
導部１４−２、質問・応答作成部１４−３から構成され
る。音声識別部１３では音声認識装置１８を、音声出力
部１６では音声出力装置１９をそれぞれ使用する。ま
た、音声識別部１３における入力音声に対する音声認
識、及び対話制御部１４の対話誘導部１４−２における
次の対話誘導の際、音声認識用データベース１７を使用
する。音声認識用データベース１７は、複数の統計階層
データベース１７−１、検索対象音声検索キーすべてに
ついて各検索キー候補が有する属性項目を記した検索キ
ー属性データベース１７−２、関連情報認識結果テーブ
ル保存場所１７−３、Ｙｅｓ／Ｎｏデータベース１７−
４から構成される。

【０１１１】図１０に統計階層データベース１７−１の
全体像の一例を示す。統計階層データベース１７−１
は、音声認識対象語彙であるすべての音声検索キー候補
に対して、過去のシステム利用者からのアクセス頻度な
どの統計的情報に基づいて重要度を定め、重要度の順に
細分化及び階層構造化することにより作成される。音声
入力部１２は、ユーザから入力された音声を音声識別部
１３に対して入力する。

【０１１２】音声識別部１３では、まず始めに音声認識
部１３−１が、音声入力部１２により入力された音声に
対して音声認識装置１８を用いて音声認識処理を行う。
その際、音声認識装置１８は、入力された音声が対話誘
導のどの場面のものなのかに応じて音声認識用データベ
ース１７を参照する。すなわち、音声入力部１２から、
検索キー確定関連質問に対する応答が入力された場合は
検索キー属性データベース１７−２、及び関連情報認識
結果テーブル保存場所１７−３を参照し、音声検索キー
候補の提示に対する応答が入力された場合は、Ｙｅｓ／
Ｎｏの認識データベース１７−４を参照する。

【０１１３】ここでは、ユーザから音声検索キーが入力
されると同時に、統計階層データベース１７−１の各階
層に対して並列に音声認識処理が走り始める。そして、
音声認識結果出力部１３−２は、統計階層データベース
１７−１の各階層に対して複数並列に走っている音声認
識処理が終了すると、各階層毎に検索キー候補を、認識
尤度を大きい順に並べた音声認識結果テーブルを作成す
る。図１１に最上位統計階層データベースに対する音声
認識結果テーブルの一例を示す。

【０１１４】認識対象語彙数の相違から、統計階層デー
タベース１７−１中の最上位統計階層データベースに対
する音声認識処理及び音声認識結果テーブル作成が最も
早く終了する。最上位の統計階層データベースの音声認
識結果テーブルが作成された時点で、対話制御部１４へ
認識結果を送る。この時、下位の統計階層データベース
に対する音声認識処理、及び音声認識結果テーブル作成
は上位の処理が次へ進んでも続けて行う。

【０１１５】対話制御部１４では、音声識別部１３の音
声認識結果出力部１３−２から送られる最上位統計階層
データベースの音声認識結果テーブル中の規定尤度しき
い値を越える検索キー認識尤度を持つ音声検索キー有力
候補数に応じて、音声対話型情報検索装置１１が、ユー
ザに対して次に行うべき対話誘導を決定する。

【０１１６】結果調整部１４−１に、音声検索キーに対
する音声認識結果テーブルが送られてきたとき、認識対
象統計階層データベース中の音声検索キー有力候補が音
声対話型情報検索装置１１による所定数以下かつ０でな
い場合は、対話誘導部１４−２によって検索キー確定関
連質問を図１２に示す検索キー属性データベース１７−
２を参照して行うことを決定し、質問・応答作成部１４
−３によって、検索キー確定関連質問の作成を行う。次
対話誘導条件としては例えば以下の場合を予め決めてお
く。

【０１１７】１．音声検索キー有力候補が、所定数より
多く出力された場合。

【０１１８】２．音声検索キー有力候補が、存在しない
場合。

【０１１９】３．検索キー確定関連質問から得られた関
連属性情報候補との認識尤度の統合により、音声検索キ
ーと同定して提示した候補が、ユーザから音声検索キー
に該当しないと否定された場合。

【０１２０】４．音声検索キー有力候補の中で、検索キ
ー確定関連質問から得られた関連属性情報候補との関連
性を持つ候補が、検索キー属性データベースを参照した
結果存在しない場合。

【０１２１】認識対象統計階層データベース中の認識結
果が前記次対話誘導条件のいずれかに当てはまるとき、
対話制御部１４−２は、認識対象が最上位の場合に限り
関連属性情報が１つも得られていない場合は新たに検索
キー確定関連質問を行うことを決定し質問文の作成を質
問・応答作成部１４−３に指示する。その他の場合は関
連情報認識結果テーブル保存場所１７−３を参照して、
それまでに得られている関連属性情報候補と認識対象統
計階層データベース中の音声検索キー候補との関連性を
検索キー属性データベース１７−２を参照して判断し、
認識尤度の正規化及び統合を行う（音声検索キー関連性
計算部１５にアクセス）。その結果新たに計算された検
索キー認識尤度が最も大きい音声検索キーを提示する質
問文の作成を質問・応答作成部１４−３へ指示する。

【０１２２】この間も、音声識別部１３の音声認識部１
３−１及び音声認識結果出力部１３−２によって、統計
階層データベース１７−１の各統計階層に対する音声認
識処理、及び音声認識結果テーブル作成の処理は動いて
いる。

【０１２３】そして、作成したそれぞれの応答文／質問
文を、ユーザに対して音声出力装置１９を用いて音声出
力部１６から出力し、ユーザの応答を再び音声入力部１
２から得る。音声識別部１３は、音声入力部１２から入
力された応答文／質問文に対するユーザの応答に対し
て、再び音声認識処理を行い結果を出力する。

【０１２４】この時点で、第二統計階層データベースに
対する音声認識結果テーブルの作成は終了している。

【０１２５】音声認識結果出力部１３−２は、音声入力
部１２から送られてくるユーザの応答が検索キー確定関
連質問への応答である場合、音声認識部１３−１で音声
認識処理をした結果から関連情報認識結果テーブルを作
成し、音声認識用データベース１７の関連情報認識結果
テーブル保存場所１７−３に保存をすると同時に結果調
整部１４−１へ結果を送る。図１３に関連情報認識結果
テーブルの一例を示す。

【０１２６】結果調整部１４−１に、関連情報認識結果
テーブルが送られた場合は、対話誘導部１４−２は、既
に音声認識及び音声認識結果テーブル作成が終了してい
る第二統計階層データベースの音声認識結果テーブルを
参照して、最上位の統計階層データベースに対する対話
誘導同様、規定尤度しきい値を超える検索キー認識尤度
を持つ音声検索キー有力候補数に応じて対話の方針を定
める。

【０１２７】第二統計階層データベースの音声認識結果
テーブル中の音声検索キー有力候補数が所定数以下且つ
０でない場合は、検索キー確定関連質問による絞込みを
行い、次対話誘導条件のいずれかに当てはまる場合は、
それまでに得られている関連属性情報候補との関連性を
判断して、認識尤度の統合を行い最も大きな検索キー認
識尤度を有する音声検索キー候補を音声検索キーと同定
する。

【０１２８】結果調整部１４−１に、音声検索キーの提
示に対する応答が送られた場合、応答が「Ｙｅｓ」の場
合は、音声検索キーが確定できたことを知らせる応答文
を作成することを対話誘導部１４−２は決定し、質問・
応答作成部１４−３において応答文作成を行い処理を終
了する。逆に、結果調整部１４−１が「Ｎｏ」という応
答を得た場合、次対話誘導条件を満たすことから、結果
調整部１４−１は対話誘導部１４−２に対してさらなる
対話誘導を指示し第三統計階層データベースの認識結果
を用いた対話誘導が始まる。

【０１２９】このようにして音声検索キーが同定できる
まで、音声検索キー有力候補数に応じた対話方針に従
い、検索キー確定関連質問により得られる関連属性情報
を利用した認識尤度の正規化、統合を繰り返す。

【０１３０】図１４は、本実施形態の音声対話型情報検
索装置１１の対話制御部１４による処理の流れを示す。

【０１３１】まず始めに、最上位の統計階層データベー
スから得られる音声認識結果テーブルがあれば（ステッ
プＳ２１）、規定尤度しきい値以上の検索キー認識尤度
を持つ音声検索キー有力候補が、所定数、例えば２以下
かつ０でない場合は（ステップＳ２２）、音声検索キー
候補絞込み方式に従い、関連属性情報獲得のための検索
キー確定関連質問をユーザに対して行い（ステップＳ２
３）、検索キー確定関連質問に対するユーザの応答を、
音声認識装置を用いて音声認識処理して関連情報認識結
果テーブルを作成する（ステップＳ２４）。得られた関
連属性情報候補と、今絞込みの対象としている最上位統
計階層データベース中の音声検索キー有力候補との関連
性が、検索キー属性データベースを参照することにより
認められた場合（ステップＳ２５）、当該関連属性情報
の関連情報認識尤度と当該音声検索キー有力候補の検索
キー認識尤度とを統合し、音声検索キー有力候補の新た
な認識尤度と定め（ステップＳ２６）、最も大きな検索
キー認識尤度を有する音声検索キー候補をユーザに提示
し、正誤性を問う（ステップＳ２７）。

【０１３２】次対話誘導条件としては例えば以下の場合
を予め決めておく。

【０１３３】１．音声検索キー有力候補が、所定数より
多く出力された場合。

【０１３４】２．音声検索キー有力候補が、存在しない
場合。

【０１３５】３．検索キー確定関連質問から得られた関
連属性情報候補との認識尤度の統合により、音声検索キ
ーと同定して提示した候補が、ユーザから音声検索キー
に該当しないと否定された場合。

【０１３６】４．音声検索キー有力候補の中で、検索キ
ー確定関連質問から得られた関連属性情報候補との関連
性を持つ候補が、検索キー属性データベースを参照した
結果存在しない場合。

【０１３７】前記音声検索キー有力候補が所定数以下か
つ０でない場合以外であって、前記４つの次対話誘導条
件のいずれかを満たす場合（ステップＳ２８）、既に得
られた関連属性情報候補が存在する場合は（ステップＳ
２９）、次階層認識結果を入手して（ステップＳ３
２）、その関連属性情報候補との関連性を求め（ステッ
プＳ３３）、存在しない場合は、新たに検索キー確定関
連質問を行い（ステップＳ３０）、関連情報認識結果テ
ーブルを作成して（ステップＳ３１）、次階層認識結果
を入手して（ステップＳ３２）、その関連属性情報候補
との関連性を求める（ステップＳ３３）。この時点まで
に音声認識処理及び音声認識結果テーブル作成が終了し
ている次階層（下位）統計階層データベース中の音声検
索キー有力候補の中で、このようにして得られた関連属
性情報候補との関連性が、検索キー属性データベースを
参照することにより認められた場合、音声検索キー有力
候補に対して、検索キー認識尤度と関連属性情報の関連
情報認識尤度を統合し、新たな検索キー認識尤度を定め
る（ステップＳ３４）。

【０１３８】認識対象の次階層統計階層データベース中
の音声検索キー有力候補数が、再び所定数以下かつ０で
ないならば（ステップＳ２２）、前記音声検索キー候補
絞込み方式に従って、他の関連属性情報についての検索
キー確定関連質問をユーザに対して行い（ステップＳ２
３）、検索キー確定関連質問に対するユーザの応答を、
音声認識装置を用いて音声認識処理して関連情報認識結
果テーブルを作成する（ステップＳ２４）。得られた関
連属性情報候補だけでなくそれ以前の検索キー確定関連
質問から得られているすべての関連属性情報候補との関
連性を総合的に判断し（ステップＳ２５）、今認識対象
としている次階層統計階層データベースの音声検索キー
有力候補に対して、関連性のある関連属性情報候補との
認識尤度を統合し（ステップＳ２６）、最も大きい検索
キー認識尤度を持つ音声検索キーを候補と同定してユー
ザに提示し正誤性を問う（ステップＳ２７）。

【０１３９】さらに、次階層統計階層データベースに対
する音声認識の結果が、前記４つの次対話誘導条件のい
ずれかを満たす場合（ステップＳ２８）、その時点で音
声認識処理及び音声認識結果テーブル作成が終了してい
る、さらに下位の次階層統計階層データベースに対し
て、上位の統計階層データベースに対する処理同様に
（ステップＳ２９，Ｓ３０，Ｓ３１，Ｓ３２）、それま
でに得られているすべての関連属性情報候補との関連性
が認められた場合（ステップＳ３３）は、認識尤度を統
合して、新たな検索キー認識尤度を算出する（ステップ
Ｓ３４）。

【０１４０】音声検索キー有力候補数が所定数以下かつ
０でないならば（ステップＳ２２）、音声検索キーが同
定できるまで、検索キー確定関連質問を行い、音声検索
キー候補絞込み方式を適用し、次対話誘導条件を満たす
ならば、さらに次階層統計階層データベースに対して、
それまでに得られているすべての関連属性情報候補との
認識尤度の統合を繰り返し、音声検索キーの同定を行
う。

【０１４１】以下、本実施形態における音声対話型情報
検索方法ついて具体例を用いて説明する。ここでは、本
実施形態の音声対話型情報検索方法により、コンサート
チケット予約をタスクとする「チケット予約システム」
のユーザが入力したチケット名の同定を行う流れを説明
する。

【０１４２】チケット予約システムにおいて、システム
が規定する尤度しきい値を３５００、システムが対話誘
導のために規定する、規定尤度しきい値以上の有力候補
所定数を２として、規定尤度しきい値３５００を超える
認識尤度を持つ検索キー候補が２つ以下の場合にユーザ
に対して検索キー確定関連質問を行い、３つ以上の場合
に認識対象データベースを次階層へと移す。

【０１４３】以下、ユーザが「ｇｒｏｕｐ」のコンサー
トチケットを予約する場合の流れを説明する。コンサー
トチケット予約システムにおいて、検索データベース全
体としてコンサート出演者名３５０名をデータとして有
する。このコンサート出演者３５０名をアクセス頻度
（実施例の場合、過去１年間のＣＤ売上などを基に発表
されている人気ランキングを利用）を基に、四階層の統
計階層データベースに分割する。図１５に示すように、
第一階層（最上位階層）は最も人気があるとされる上位
６０名のリスト、第二階層は第一階層のリスト６０名に
人気６１位から１５０位までの９０名を加えた１５０名
のリスト、第三階層はさらに１５０位以下１００名を加
えた２５０名のリスト、第四階層はさらに２５０以下１
００名を加えた３５０名全員のリストから構成される。
対象となる音声検索キー「ｇｒｏｕｐ」は人気ランキン
グ９０位であるため最上位の第一統計階層データベース
には存在しない。

【０１４４】音声入力部１２から「ｇｒｏｕｐ」という
音声検索キーが入力されると、音声識別部１３の音声認
識部１３−１において、統計階層データベース１７−１
の４つのすべての階層に対して音声認識処理プロセスが
同時に走り始める。

【０１４５】音声認識結果出力部１３−２は、最上位の
６０名のリストからなる最上位の統計階層データベース
内の出演者名を、音声認識部１３−１の音声認識結果を
基に、音声認識結果の検索キー認識尤度の高い順に整列
することにより図１６の音声認識結果テーブルを作成
し、対話制御部１４へ送る。

【０１４６】結果調整部１４−１は、図１６に示した音
声認識結果テーブル中の音声検索キー候補に対して、あ
らかじめ定めた尤度しきい値３５００を越える検索キー
認識尤度を持つ音声検索キー有力候補として選択する。
図１６において、音声検索キー有力候補は「ジャパニー
ズＪｒ」「キンキンクッツ」「パフェー」「ギリシア歌
劇団」「チェコバレエ団」の５候補存在することがわか
る。

【０１４７】そこで対話誘導部１４−２は、音声検索キ
ー有力候補が所定数２候補以上存在するので、次対話誘
導条件の１を満たすことを把握し、関連属性情報がこの
時点で１つも得られていないことから、関連属性情報獲
得のために検索キー確定関連質問を行うことを決定す
る。図１７に示したように、検索キー属性データベース
１７−２には、統計階層データベース１７−１の全デー
タ（コンサート主催者３５０名）に対して、各データが
有する属性項目の属性値として、それぞれのコンサート
の主催月日、主催曜日、主催会場、コンサート主催都道
府県、コンサート種別が付与してある。

【０１４８】対話誘導部１４−２は、図１７に示した検
索キー属性データベースを基に、コンサート主催月日を
検索キー確定関連質問として尋ねることを決定し、質問
・応答作成部１４−３に対して「コンサートの主催月日
はいつですか」という検索キー確定関連質問を作成する
よう指示する。

【０１４９】音声出力部１６は音声出力装置１９を用い
てコンサート主催日を尋ねる検索キー確定関連質問を、
ユーザに提示する。

【０１５０】ユーザからの上記検索キー確定関連質問へ
の応答「３月３日」が、音声入力部２から入力される。

【０１５１】音声識別部１３に送られた、ユーザの応答
「３月３日」に対して、音声認識部１３−１は音声認識
装置１８を用いて音声認識処理を行い、音声認識結果出
力部１３−２は、検索キー属性データベース１７−２の
主催月日欄を参照することにより、コンサート主催月日
候補に対して認識尤度の大きい順に並べた関連情報認識
結果テーブル（図１８参照）を作成し対話制御部１４へ
送る。

【０１５２】この時点で、第二統計階層データベース
（主催者１５０名含有）に対する音声認識及び音声認識
結果テーブル作成が終了している。第二統計階層データ
ベースに対する音声認識結果テーブルを図１９に示し
た。

【０１５３】対話制御部１４の結果調整部１４−１は、
第二統計階層データベースを参照し、コンサート主催日
に関する関連情報認識結果テーブル（図１９）内の主催
月日候補と、第二統計階層データベースに対する音声認
識結果テーブル中の各音声検索キー候補との関連性が認
められた音声検索キー候補に対して、音声検索キー候補
の検索キー認識尤度と関連属性情報候補の関連情報認識
尤度を正規化し乗算することを音声検索キー関連性計算
部１５へ指示する。

【０１５４】音声検索キー関連性計算部１５はまず始め
に、図１９の音声認識結果テーブルにおける検索キー認
識尤度を図１９の最右欄のように正規化する。そして、
図１９の音声認識結果テーブルの尤度しきい値３５００
を超える５つの音声検索キー候補に対して、検索キー属
性データベース１７−２を用いて、「グリコ裕三／３月
３０日」「イブニング娘／４月１０日」「ジャパニーズ
Ｊｒ／５月３０日」「ｇｒｏｕｐ／３月３日」「キンキ
ンクッツ／４月１０日」というコンサート主催日の情報
を、関連属性情報候補として取得する。そして、図１８
に示した関連情報認識結果テーブル内の主催日に対して
も関連情報認識尤度を最右欄のように正規化し、第二統
計階層データベースから得られた音声認識結果テーブル
（図１９）中の尤度しきい値３５００を越える５つの音
声検索キー候補「グリコ裕三」「イブニング娘」「ジャ
パニーズＪｒ」「ｇｒｏｕｐ」「キンキンクッツ」のコ
ンサート主催日に該当する場合は、関連情報認識結果テ
ーブル内の正規化した関連情報認識尤度を、音声認識結
果テーブル内の各音声検索キー候補の正規化した検索キ
ー認識尤度とかけあわせ、「グリコ裕三」「イブニング
娘」「ジャパニーズＪｒ」「ｇｒｏｕｐ」「キンキンク
ッツ」の新たな認識尤度とする。

【０１５５】つまり、音声検索キー候補である音声認識
結果テーブル（図１９）内の「グリコ裕三」と、関連情
報認識結果テーブル内のコンサート主催日の関連性、同
様に、「イブニング娘」や「ジャパニーズＪｒ」や「ｇ
ｒｏｕｐ」や「キンキンクッツ」と関連情報認識結果テ
ーブル内のコンサート主催日の関連性により、音声検索
キー候補である各コンサート主催者の正規化した検索キ
ー認識尤度と、関連する各コンサートの主催日の正規化
した関連情報認識尤度の積を計算することにより、新た
な認識尤度とする。

【０１５６】この場合、図２０に示すように、「グリコ
裕三」のコンサート主催日である「３月３０日」の関連
情報認識結果テーブル内の正規化した関連情報認識尤度
は０．００５５であることから、「グリコ裕三」の新た
な認識尤度は０．００８０×０．００５５で０．０００
０４４、同様に「イブニング娘」の正規化認識尤度０．
００７７に対する新たな認識尤度は「４月１０日」の正
規化した関連情報認識尤度０．００８０との積をとり
０．００００６２、「ジャパニーズＪｒ」の新たな認識
尤度は「５月３０日」の正規化した関連情報認識尤度と
の積をとるのだが、「５月３０日」という主催日はこの
例では認識対象語彙データにはないと想定していること
から、認識不可能であるため関連情報認識結果が得られ
ていないので、「ジャパニーズＪｒ」の新たな認識尤度
は０とする。「ｇｒｏｕｐ」の新たな認識尤度は「３月
３日」の正規化した関連情報認識尤度０．００７７との
積をとり０．００００５６、そして、「キンキンクッ
ツ」の新たな認識尤度は「４月１０日」の正規化した関
連情報認識尤度０．００８０との積をとり０．００００
５４となる。ここで認識尤度を統合した結果を正規化す
ると図２０の下段表最右欄のようになる。

【０１５７】結果調整部１４−１は、上記のようにして
定めた第二統計階層データベースの音声検索キー候補に
対して正規化及び統合して新たな認識尤度を計算した結
果を対話誘導部１４−２に送る。

【０１５８】対話誘導部１４−２は、正規化した新認識
尤度を見て、第二統計階層データベースに対する検索キ
ー認識尤度の尤度しきい値を０．２５９０と定める。こ
の尤度しきい値の決定は、例えば最大尤度値より所定値
以下の値とする。そして、尤度しきい値０．２５９０を
越える尤度の音声検索キー候補の数に応じた対話誘導を
始める。ここでは認識尤度が０．２５９０を越える音声
検索キー有力候補が、「イブニング娘」と「ｇｒｏｕ
ｐ」の２候補存在することが図２０から分かる。

【０１５９】そこで、対話誘導部１４−２は認識結果テ
ーブル中の音声検索キー有力候補が所定数２以下である
ことから、検索キー属性データベース１７−２を参照し
て、新たな関連属性情報を獲得し有力候補からの絞込み
を行うことを決定し、新たな関連属性情報として、コン
サートの主催会場を尋ねることを決定する。

【０１６０】質問・応答作成部１４−３は、コンサート
主催会場を尋ねる「コンサートの主催会場をお答え下さ
い」という検索キー確定関連質問を作成し、音声出力部
６から検索キー確定関連質問が出力される。

【０１６１】ユーザからの「東京ドーム」という応答音
声が音声入力部１２から入力され、音声識別部１３へと
送られる。音声識別部１３の音声認識部１３−１におい
てコンサート主催会場候補の音声認識処理が行われ、音
声認識結果出力部１３−２において各候補の関連情報認
識尤度が計算され、関連情報認識結果テーブルが対話制
御部１４へ送られる。図２１に、関連属性情報として得
られたコンサート主催会場に対する関連情報認識結果テ
ーブルを示す。図２１の関連情報認識結果テーブル内の
最右欄は正規化した認識尤度である。

【０１６２】そして、結果調整部１４−１は、今得られ
たコンサート主催会場だけでなく、関連情報認識結果テ
ーブル保存場所に保存されている先ほどのコンサート主
催月日を尋ねることにより得られた主催月日情報の両関
連属性情報と、今絞込みの対象となっている第二統計階
層データベース中の音声検索キー有力候補の関連性を判
断して認識尤度の統合を音声検索キー関連性計算部１５
に指示する。

【０１６３】音声検索キー関連性計算部１５は、検索キ
ー属性データベース１７−２を参照して「イブニング
娘」「ｇｒｏｕｐ」の両音声検索キー有力候補と、コン
サート主催日認識結果と新たに得られたコンサート主催
会場認識結果の両関連属性情報候補との関連性が認めら
れた場合、検索キー認識尤度と、各関連属性情報の関連
情報認識尤度の統合を行う。

【０１６４】すなわち実施例の場合、コンサート主催会
場として、図２１に示したように「東京ドーム」「横浜
アリーナ」「福岡ドーム」「大阪城ホール」「ＮＨＫホ
ール」などが関連属性情報候補として得られる。図２０
の下段表最右欄の「イブニング娘」「ｇｒｏｕｐ」の正
規化新尤度は、「イブニング娘」「ｇｒｏｕｐ」の両音
声検索キー有力候補の検索キー認識尤度と、コンサート
主催月日情報の関連情報認識尤度を正規化及び統合した
値であることから、新たに得られたコンサート主催会場
候補の関連情報認識尤度を図２０の下段最右欄の値と統
合することで、コンサート主催月日情報と主催会場情報
の２つの関連属性情報との統合を行ったことになる。音
声検索キー有力候補「イブニング娘」「ｇｒｏｕｐ」の
コンサート主催会場（図２１）の関連性を、検索キー属
性データベース１７−２から判定する。

【０１６５】その結果、図２２に示すように、「イブニ
ング娘」は「名古屋ドーム」という関連属性を持つこと
から、それぞれの正規化した認識尤度０．２８９７、
０．０３９７を乗算し「イブニング娘」の新たな認識尤
度は０．０１１５０、「ｇｒｏｕｐ」は「東京ドーム」
という関連属性を持つことから、正規化した認識尤度を
乗算して、０．２５９３×０．０８３３で「ｇｒｏｕ
ｐ」の新たな認識尤度は０．０２１６０となる。

【０１６６】上記結果から、対話誘導部１４−２は対話
誘導方式に従い、認識尤度の統合の結果最も大きな検索
キー認識尤度を算出した音声検索キー有力候補「ｇｒｏ
ｕｐ」を音声検索キーと同定し、質問・応答作成部１４
−３にユーザへの提示文作成を指示する。

【０１６７】音声出力部１６は「ｇｒｏｕｐの３月３
日、東京ドームコンサートですね」という同定候補提示
文を出力する。

【０１６８】ユーザのこの提示に対する「ＹＥＳ」とい
う応答が、音声入力部１２から入力され、音声識別部１
３に送られて、音声認識部１３−１はＹｅｓ／Ｎｏデー
タベース１７−４を用いて音声認識処理をし、音声認識
結果出力部１３−２は認識結果を対話制御部１４へ送
る。

【０１６９】結果調整部１４ー１は、音声認識結果出力
部１３−２から送られてきた「Ｙｅｓ」という認識結果
を対話誘導部１４−２へ送り、対話誘導部１４−２は正
しい音声検索キーが同定できたことを判断し対話終了を
決定する。

【０１７０】以上の説明からわかるように、音声認識対
象語彙数が大規模な場合、現在の音声認識技術では認識
処理に時間がかかり、さらに認識精度が１００％でない
ことから、ユーザから音声により要求されるタスクを与
えられた一定時間で達成することは困難である。すなわ
ち、ユーザはシステムが音声認識を行っている間、待機
しなければならず、待機した上で提示された候補が誤認
識の場合は、正しい候補が提示されるまで質疑応答を繰
り返したり、再び音声入力を指示され待機することにな
り、対オペレータとの対話のような自然な対話の中でタ
スクを達成することは困難である。

【０１７１】本実施形態で説明した本発明の第二の方式
によれば、音声認識用データベースを、アクセス頻度な
どの統計的情報に基づいてすべてのデータに重要度を設
け、重要度に基づいてデータを細分化及び階層構造化し
た複数の統計階層データベースとして保持し、各階層デ
ータベース含有データ数の相違による認識時間の差を利
用して音声認識処理の仮想的な実時間性を実現し、さら
に音声認識処理の認識尤度にしきい値を設けることで、
信頼性の高い認識結果が少数の場合は、関連属性情報を
尋ねることで効果的な絞込みを行い、信頼性の高い認識
結果が所定数よりも多い場合、或いは、信頼性の高い認
識結果が存在しない場合、或いは、第一の候補が該当検
索キーではないとユーザから否定された場合などは、最
上位階層の統計階層データベースに該当検索キー候補が
含まれていない可能性があることから、下位の統計階層
データベースに認識対象を移動し、関連属性情報との統
合を行うことで音声認識精度の欠陥を補い、さらには検
索キー確定関連質問で対話をつなぐことにより、あたか
も全データに対して音声認識処理を行っているかのよう
にみせ、自然な対話を実現する。

【０１７２】尚、オペレータ対応でタスク達成を行って
いる、座席の価格を属性として座席名を同定する座席予
約や、路線名を属性として駅名を同定する駅名検索に対
しても、この音声対話型情報検索方法は容易に適用可能
である。さらに、人名検索などに関しては、住所、性
別、職業、年齢、電話番号などの複数の属性をあらかじ
め関連属性情報として保持し、統合して利用すること
で、検索キーである人名の同定が可能になる。

【０１７３】次に、図２３〜図３１を参照して、上述し
た本発明の第三の方式に関する第三の実施形態について
説明する。

【０１７４】図２３は、この第三の実施形態における音
声対話型情報検索装置の一構成例を示す。この音声対話
型情報検索装置は、中央処理装置（ＣＰＵ）１１０、メ
モリ装置１２０、データベース１３０及びユーザ装置１
４０からなる。なお、ＣＰＵ１１０とユーザ装置１４０
はネットワークを介して接続されているものとしてもよ
い。ＣＰＵ１１０は情報検索装置本体であり、入力要請
部１１１、音声認識部１１２、認識結果調整部１１３及
びユーザインタフェース（音声インタフェース）１１４
から構成される。ただし、実際には、これら各部１１１
〜１１４は所謂コンピュータのハードウェアとソフトウ
ェアを利用して構築されることは云うまでもない。メモ
リ装置１２０はＣＰＵ１１０の作業用メモリであり、各
種プログラムや途中処理結果データを保持するのに加
え、ここでは後述の属性値有力候補群１２１や認識対象
検索キー候補群１２２を保持するのにも用いる。このメ
モリ装置１２０はＣＰＵ１１０に内蔵することとしても
よい。データベース１３０はＣＰＵ１０の外部記憶装置
であり、ここでは音声認識用データベース１３１、属性
データベース１３２及び、Ｙｅｓ／Ｎｏデータベース１
３３から構成される。ユーザ装置１４０は音声入力部１
４１と音声出力部１４２を具備し、ＣＰＵ１１０とは基
本的に音声でやりとりされる。

【０１７５】図２４に音声認識用データベース１３１の
構成例を、図２５に属性データベース１３２の構成例を
示す。なお、Ｙｅｓ／Ｎｏデータベース１３３は、基本
的にここでは「はい」、「いいえ」を格納しているだけ
であるため、その構成例を示すのは省略する。音声認識
用データベース１３１は、図２４に示すように、検索キ
ー候補と、各検索キー候補の持つ属性項目の属性値を各
属性項目別に保持している。一般に大規模音声認識用デ
ータベースでは、規定された実時間内に処理不可能な検
索キー候補数から構成される。属性データベース１３２
は、図２５に示すように、属性項目別に属性値候補を保
持している。属性値候補数は一般に実時間内に認識が終
了する個数である。

【０１７６】図２６は、本実施形態における検索キー確
定の処理の流れを示したものである。以下、図２６によ
り、図２３の音声対話型情報検索装置の動作概要を説明
する。

【０１７７】入力要請部１１１は、実時間処理可能な認
識対象語彙数に選択するために属性項目を決定し、該決
定した属性項目を音声認識部１１２に通知するととも
に、ユーザインタフェース１１４を介して、ユーザに対
して属性項目の属性値の入力を要請する（ステップＳ４
１）。ユーザは、属性値の入力要請を音声出力部１４２
を通して聴き、音声入力部１４１から属性値を入力する
（ステップＳ４２）。音声認識部１１２は、ユーザイン
タフェース１１４を介してユーザからの属性値が入力さ
れると、属性データベース１３２を参照し、入力属性値
に対して、音声認識処理により当該属性項目の各属性値
候補の認識尤度を算出する（ステップＳ４３）。このと
きの認識尤度は、例えば入力属性値と各属性値候補との
類似度（距離）として算出される。認識結果調整部１１
３は、音声認識部１１２から各属性値候補とその認識尤
度を受け取り、あらかじめ定めたしきい値（規定尤度し
きい値）以上の認識尤度を持つ属性値候補を属性値有力
候補として抽出し、メモリ装置１２０に保持する（ステ
ップＳ４４）。引き続き、認識結果調整部１１３では、
この属性値有力候補をキーに音声認識用データベース１
３１を検索して、該当属性項目で該属性値有力候補の属
性値を持つ検索キーを抽出し、認識対象の検索キー候補
としてメモリ装置１２０に保持する（ステップＳ４
５）。

【０１７８】以上により、認識対象の検索キー候補が実
時間内に処理可能な語彙数に絞り込まれる。この後、入
力要請部１１１に再び制御が戻る。

【０１７９】入力要請部１１１は、ユーザインタフェー
ス１１４を介して、ユーザに対して検索キーの入力を要
請する（ステップＳ４６）。ユーザは、検索キーの入力
要請を音声出力部１４２を通して聴き、音声入力部１４
１から目的の検索キーを入力する（ステップＳ４７）。
音声認識部１１２は、ユーザインタフェース１１４を介
してユーザからの検索キーが入力されると、該入力検索
キーに対して、メモリ装置１２０に保持されている検索
キー候補を対象に音声認識処理を行い、各検索キー候補
の認識尤度を算出する（ステップＳ４８）。このときの
認識尤度は、例えば入力検索キーと各検索キー候補の値
の類似度（距離）として算出される。認識結果調整部１
１３は、ユーザインタフェース部１１４を介して、認識
尤度の大きい順（高い順）に検索キー候補をユーザに出
力し、検索キーが確定するまでユーザに正誤性を問う確
認プロセスを実行する（ステップＳ４９）。具体的に
は、認識結果調整部１１３は、認識尤度の大きい順に検
索キー候補をユーザに出力し、これに対してユーザが入
力する「はい」、「いいえ」を、音声認識部１１２にお
いて、Ｙｅｓ／Ｎｏデータベース１３３を参照すること
で音声認識し、その結果を認識結果調整部１１３が受け
取り、これをユーザから「はい」が返るまで繰り返す。

【０１８０】なお、図２６に示したような処理のアルゴ
リズム及び手順は、コンピュータで実行可能な言語で記
述し、検索キー確定プログラムとして、コンピュータが
読み取り可能な記録媒体、例えばフロッピー（登録商
標）ディスク、ＣＤ−ＲＯＭ、メモリカードなどに記録
して提供することが可能である。

【０１８１】以下に、具体例として、本実施形態の音声
対話型情報検索方法により、日本全国の市区町村４、０
００件の確定を行う流れを説明する。

【０１８２】市区町村確定は認識対象が４，０００であ
ることから、現状の音声認識技術では実時間内認識処理
が不可能である。そこで、ここでは属性項目として所属
都道府県を選択する。都道府県は全対象が４７であるこ
とから、実時間内処理が可能である。また、ここでは、
「横浜市」を同定する場合について説明する。

【０１８３】市区町村確定に用いる音声認識用データベ
ース１３１の一例を図２７に、市区町村確定に用いる属
性データベース１３２の一例を図２８に示す。市区町村
確定の場合、音声認識用データベース１３１は、図２７
に示すように、検索キー候補である４，０００件の市区
町村と、各市区町村は、所属都道府県４７候補、所属地
方８候補、海に面しているか否かなどの属性項目を持
つ。また、属性データベース１３２は、図２８に示すよ
うに、各属性の属性値候補、すなわち４７都道府県、８
地方、海に面しているか否かのまる／ばつを保持してい
る。

【０１８４】初めに、入力要請部１１１は、選択した属
性項目である所属都道府県をユーザに尋ねる。ユーザ
は、音声入力部１４１から「横浜市」の所属都道府県で
ある「神奈川県」を入力する。音声認識部１１２は属性
データベース１３２を用いて、「神奈川県」に対して認
識処理をして、４７都道府県（属性値候補）の認識尤度
計算を行う。図２９は、「神奈川県」に対する認識結果
の一例を認識尤度の大きい順に示したものである。

【０１８５】認識結果調整部１１３は、「神奈川県」に
対する認識候補のうち、規定尤度しきい値０．８以上の
認識尤度を持つ属性値候補を属性値有力候補と定める。
図２９から、本例における属性値有力候補は、「香川
県」と「神奈川県」の２候補となる。そこで、認識結果
調整部１１３は、音声認識用データベース１３１から香
川県、神奈川県下の市区町村を認識対象として抽出す
る。図３０に、抽出された認識対象の一覧を示す。

【０１８６】次に、入力要請部１１１は、ユーザに検索
キーである目的の市区町村の入力を促す。ユーザは、
「横浜市」を音声入力部１４１から入力する。音声認識
部１１２は、認識対象として抽出してある香川県、神奈
川県下の市町村に対して、「横浜市」という入力検索キ
ーに対する尤度計算を行い、認識結果を出力する。認識
結果の一例を図３１に示す。認識結果調整部１１３は、
認識結果の上位から順にユーザに対して検索キーかどう
かの正誤性を問う確認プロセスを行う。例においては、
「横浜市」は認識尤度の上位１位に出力されていること
から、１回の確認プロセスにて横浜市を確定することが
できる。

【０１８７】上記例において、本実施形態における手法
と、従来の属性値に対しても確認プロセスにて属性値を
一意に確定し認識対象を絞り込む手法を比較すると、従
来手法は、「神奈川県」の確定には、神奈川県は図２９
より入力属性値に対する尤度計算の結果、認識結果上位
２位に出力されることから２回の確認プロセスを要し、
検索キー入力までに２回の確認プロセス時間を要するこ
とになるのに対して、本実施形態の手法は、この２回の
確認プロセス時間は不要であることになる。

【０１８８】以下に、本実施形態と従来技術との処理時
間の比較を具体例で説明する。認識対象語彙数が１００
単語以内の場合の音声認識精度を７０％、入力音声は必
ず認識尤度上位３位までに出力されると仮定する。すな
わち１位に入力音声を出力する確率が７０％、２位に出
力する確率が２０％、３位に出力する確率が１０％であ
ると仮定する。また、認識対象語彙数が３００単語以内
の場合の音声認識精度を６０％と仮定し、入力音声は必
ず認識尤度上位４位までに出力されると仮定する。この
場合、１位に入力音声を出力する確率が６０％、２位に
出力する確率が２５％、３位に出力する確率が１０％、
４位に出力する確率が５％であると仮定する。

【０１８９】属性項目として属性値候補が５０以下、各
属性値に属する検索キー候補数は１００以下になるよう
な属性項目を選択する。音声認識処理時間は、実時間内
認識可能な語彙数の場合説明簡略化のため、ここではＴ
≒０と定める。実時間内認識可能な語彙数は３００以下
とする。また、１回の確認プロセスの所要時間はＳ
（秒）と仮定する。

【０１９０】従来の手法は、属性値候補数が５０である
ことから属性値認識は実時間Ｔ（秒）で完了、認識尤度
の上位から正誤性を問うことで属性値を確定する際、７
０％の確率で確認プロセスは１回（所要時間Ｓ
（秒））、２０％の確率で確認プロセスは２回（所要時
間２Ｓ（秒））、１０％の確率で確認プロセスは３回
（所要時間３Ｓ（秒））行われることになり、属性値確
定には、０．７×Ｓ＋０．２×２Ｓ＋０．１×３Ｓ＝
１．４Ｓ（秒）要することになる。属性値確定から認識
対象を絞り込むまでに、Ｔ＋１．４Ｓ（秒）≒１．４Ｓ
（秒）要する。そして、属性値から認識対象を絞り込み
ユーザに検索キー入力を促す。１つの属性値に属するデ
ータ数は１００以下であることから、認識処理には実時
間Ｔ（秒）要する。検索キー確定には、認識精度前提か
ら、７０％の確率で確認プロセスは１回、２０％の確率
で２回、１０％の確率で３回必要になることから、属性
値確定の際と同様、平均１．４Ｓ（秒）要することか
ら、検索キーの認識及び確定にＴ＋１．４Ｓ≒１．４Ｓ
（秒）要することになる。従って、上記仮定のもとで
は、検索キー確定にかかる所要時間は１．４Ｓ＋１．４
Ｓ≒２．８Ｓ（秒）要することになる。

【０１９１】一方、本実施形態の手法は、同様の音声認
識精度の下で、属性値認識に同様にＴ（秒）要し、属性
値候補数は５０以下であることから必ず正解が第３位ま
でに出力されることから、認識尤度上位３属性値を属性
値有力候補として保持する。３属性値有力候補に属する
検索キーを認識対象として抽出し、検索キーの入力を促
す。１属性値に属するデータ数は１００以下であること
から、認識対象検索キー数は３００以下となる。検索キ
ーに対する認識は実時間Ｔ（秒）で終了するが、認識対
象検索キー数が３００であることから、その確定には、
６０％の確率で確認プロセスは１回（所要時間Ｓ
（秒））、２５％の確率で２回（所要時間２Ｓ
（秒））、１０％の確率で３回（所要時間３Ｓ
（秒））、５％の確率で４回（所要時間４Ｓ（秒））必
要となる。従って、検索キー確定には、０．６×Ｓ＋
０．２５×２Ｓ＋０．１×３Ｓ＋０．０５×４Ｓ＝１．
６Ｓ（秒）要することから、検索キー認識及び確定には
Ｔ＋１．６Ｓ≒１．６Ｓ（秒）必要となり、ユーザ入力
開始から検索キー確定までにかかる時間は属性値確定の
所要時間がＴ≒０（秒）であることから、１．６Ｓ
（秒）となる。

【０１９２】この結果から、属性値を一意に確定してか
ら認識対象を絞り込む従来手法に比べて本実施形態によ
る手法の方が検索キー確定処理時間が大幅におさえられ
ることがわかる。

【０１９３】以上の説明からわかるように、ユーザから
音声入力される検索キー候補が、実時間認識処理が不可
能な大規模語彙数である場合、現在の音声認識技術では
実時間に処理可能な語彙数には限界があり、語彙数が多
ければ多いほど認識精度が落ちることから、検索キーの
持つ属性項目を利用して、属性値から認識対象を絞り込
むことで実時間内処理を実現する。しかし、認識対象を
絞り込んでも認識精度が１００％になることはないの
で、ユーザの入力を確定するためには、ユーザに対して
正誤性を問う確認プロセスが必要となる。属性値入力は
システムにとっては実時間内認識処理のためのやむを得
ないプロセスであるが、ユーザにとっては検索要求した
い検索キーからの入力ができないことがまわりくどく、
さらに確認プロセスの繰り返しが属性値確定及び検索キ
ー確定の２回行われることからさらなるストレスにつな
がる。

【０１９４】本実施形態で説明した本発明の第三の方式
では、属性値確定を行わずに検索キー確定を実現するこ
とにより、属性値確定のための確認プロセスが無くな
り、確認プロセスによるまわりくどさ及び検索キー確定
にかかる処理時間が軽減してユーザストレスの解消につ
ながるため、特に大規模データベースを認識対象とした
入力音声確定に有効である。

【０１９５】次に、図３２〜図３９を参照して、上述し
た本発明の第四の方式に関する第四の実施形態について
説明する。

【０１９６】図３２は、この第四の実施形態における音
声対話型情報検索装置の一構成例を示す。この音声対話
型情報検索装置２０１は、音声入力部２０２、認識対象
データ抽出部２０３、音声認識部２０４、認識候補出力
部２０５、音声出力部２０６から構成される。

【０１９７】認識対象データ抽出部２０３において、音
声認識用データベース２０７−１、応答データベース２
０７−２からなる認識データベース２０７を使用する。
音声認識部２０４では音声認識装置２０８を、音声出力
部２０６では音声出力装置２０９を使用する。

【０１９８】図３３に本実施形態による記録媒体に記録
する音声認識用データベース２０７−１の全体像の一例
を示す。

【０１９９】音声認識用データベース２０７−１は、上
位概念と下位概念の２階層で構成し、ユーザが検索を要
求する検索キーは下位階層データである。上位階層は実
時間内に処理可能な語彙数を有し、下位階層は実時間内
に処理不可能な大規模語彙数を有する。下位階層データ
は必ず１つの上位階層のデータと依存関係を持ち、１つ
の上位階層データに依存する下位階層データ数は実時間
内に処理できる数で構成される。また、下位階層の大規
模データに対してアクセス頻度の偏りを利用して、アク
セス頻度の高い順に上から、実時間内に処理できるデー
タ数だけ「頻」マーク付けしてその他の「稀」とマーク
付けされたデータとは別メモリに保存することで、高頻
度アクセスデータ群を作成する。

【０２００】音声対話型情報検索装置２０１は、音声入
力部２０２でユーザから入力された音声が入力される
と、入力された音声に応じて認識対象とするデータの識
別を認識対象データ抽出部２０３で行う。

【０２０１】図３４は、本実施形態における音声対話型
情報検索装置２０１の動作の流れを示す。

【０２０２】ユーザから音声入力部２０２対して検索キ
ーが入力されると（ステップＳ５１）、認識対象データ
抽出部２０３では、まず始めに優先的に認識及び検索を
行う音声認識用データベース２０７−１の下位階層デー
タのうち、高頻度アクセスデータ群を認識対象データに
指定する（ステップＳ５２）。

【０２０３】音声認識部２０４で音声認識処理し（ステ
ップＳ５３）、その結果が認識候補出力部２０５にて出
力される（ステップＳ５４）。この際、算出された認識
尤度の高い順に認識候補は出力される。音声出力部２０
６は、認識尤度の高い順に出力された検索キー候補をユ
ーザに提示し正誤を問う（ステップＳ５５）。但し、正
誤を問う回数はあらかじめ音声対話型情報検索装置２０
１によって規定されている。音声入力部２０２から正誤
を問う確認質問に対する応答が入力されると（ステップ
Ｓ５６）、認識対象データ抽出部２０３は、認識データ
ベース２０７の応答データベース２０７−２を認識対象
データに指定し、「はい」という応答が音声認識部２０
４、認識候補出力部２０５にて認識できたら、音声出力
部２０６にて検索キーが同定できたことをユーザに知ら
せる（ステップＳ５７）。所定回数の検索キー候補の確
認質問がすべてユーザから否定された（音声認識部２０
４、認識候補出力部２０５にて「いいえ」という応答を
認識）場合（ステップＳ５８ＮＯ）、音声出力部２０６
は、上位階層データに含まれる検索キーの上位概念を尋
ねる関連質問をユーザに対して行う（ステップＳ５
９）。関連質問に対する応答が、音声入力部２０２によ
り入力されると、音声認識部２０４で認識し、認識対象
データ抽出部２０３は、認識した上位概念に依存してい
る下位階層データを音声認識用データベース２０７−１
から認識対象として抽出し、ユーザが最初に入力した検
索キーを再び音声認識部２０４にて認識する（ステップ
Ｓ６０）。認識候補出力部２０５にて認識尤度の高い順
に出力された検索キー候補の正誤を尋ねる確認質問を音
声出力部２０６から出力する（ステップＳ６１）。確認
質問に対してユーザから「はい」という応答が得られる
まで確認を繰り返す（ステップＳ６２）。「はい」とい
う応答が認識できたら検索キーが同定できたことをユー
ザに知らせる（ステップＳ６３）。

【０２０４】以下に、具体例として、本実施形態の音声
対話型情報検索方法により、日本全国の市区町村の同定
を行う流れを説明する。

【０２０５】市区町村同定において、高頻度アクセスデ
ータ群を認識対象とした場合に出力された検索キー候補
に対して、認識尤度の高い順にユーザに正誤を確認する
確認質問は３回と規定する。市区町村同定の際の、音声
認識用データベースの一例を図３５に示す。検索キーと
なる市区町村は音声認識用データベースの下位階層デー
タであり、上位階層データとして日本全国の都道府県を
選択する。都道府県は４７という実時間内に処理可能な
語彙数からなり、下位階層の市区町村は必ず属する都道
府県を有し、１つの都道府県に属する市区町村は最も市
区町村を多く有する場合で５０であることから、実時間
内に処理可能である。また、市区町村に対するアクセス
頻度には、電話番号案内などに市区町村同定が使用され
る場合のアクセス頻度を利用して、アクセス頻度の高い
上位５０（実時間内に処理可能な語彙数）の市区町村を
高頻度アクセスデータ群に指定する。図３６に高頻度ア
クセスデータ群に属する市区町村の一例を示す。

【０２０６】初めに、「横浜市」を同定する場合につい
て説明する。

【０２０７】音声入力部２０２から「横浜市」が入力さ
れると、認識対象データ抽出部２０３は、音声認識用デ
ータベース２０７−１の下位階層データのうち高頻度ア
クセスデータ群に属する市区町村を認識対象データとし
て抽出する（例えば、図３５において、札幌市、函館
市、中央区、鹿児島市・・・）。「横浜市」は高頻度ア
クセスデータ群に含まれているデータである。音声認識
部２０４にて音声認識した結果が認識候補出力部２０５
にて認識尤度の高い順に出力される。図３７に出力結果
の一例（１位横須賀市、２位横浜市、３位四つ木市・・
・）を示す。

【０２０８】音声出力部２０６は認識尤度の高い順にユ
ーザに対して検索キー候補の正誤を問う。

【０２０９】図３７より正解の横浜市は２位に出力され
ていることから、確認質問を２回繰り返すことにより横
浜市が同定できる。

【０２１０】次に、「横川市」を同定する場合について
説明する。

【０２１１】「横川市」は高頻度アクセスデータ群に含
まれていないデータである。音声入力部２０２から「横
川市」が入力されると、認識対象データ抽出部２０３は
高頻度アクセスデータ群を認識対象として抽出し、音声
認識部２０４にて音声認識する。図３８に認識候補出力
部２０５から出力された結果の一例を示す。図３８に示
した結果より、「横浜市」「横須賀市」「横山市」の順
にユーザに対して正誤を問う確認質問を音声出力部２０
６から出力する。音声入力部２０２から入力された確認
質問の応答がすべて「いいえ」であることから、音声対
話型情報検索装置２０１はユーザに対して、検索キーで
ある「横川市」の所属する都道府県の入力を音声出力部
２０６より促す。ユーザからの応答「群馬県」が音声入
力部２０２から入力されると、認識対象データ抽出部２
０３は群馬県に属する下位階層データ、すなわち群馬県
内の４１市区町村を認識対象データとして抽出する。そ
して改めて、音声認識部２０４にて「横川市」の認識を
行い、認識候補出力部２０５にて検索キー候補を出力す
る。図３９に出力結果の一例を示す。音声出力部２０６
にて認識尤度の高い順にユーザに正誤を問う確認質問を
行う。「横川市」は認識候補の１位であることから確認
質問を１度することで同定される。

【０２１２】以上の説明からわかるように、音声認識対
象語彙数が大規模な場合、現在の音声認識技術では実時
間に処理可能な語彙数には限界があり、語彙数が多けれ
ば多いほど認識精度が落ちることから、システムはユー
ザの検索結果要求検索キーではなく、システムにとって
実時間に精度よく認識できるような、小規模な検索対象
語彙数に絞り込むことができるような効率の良い検索補
助キーの入力を最初に強制する。

【０２１３】本実施形態で説明した本発明の第四の方式
によれば、音声認識用データベースを２階層で構成し、
ユーザが検索を要求する検索キーを下位階層、上位には
下位階層と依存関係にあるような実時間で処理可能な語
彙数からなる検索補助キーを含むように、さらに１つの
上位階層中のデータに依存する下位階層の検索キー候補
は実時間処理可能な語彙数で構成されるよう上位階層を
構成するデータを選択し、下位階層データの中でアクセ
ス頻度の高い上位の実時間処理可能な語彙数は別のメモ
リに保存しておくことで、高頻度アクセスデータ群とし
て優先的に検索及び認識対象とする。本実施形態はこの
ような工夫により、高頻度アクセスデータ群に該当検索
キーが含まれていれば、検索補助キーとなる上位概念を
尋ねる関連質問をせずに、ユーザが本来検索要求する検
索キーの入力のみで、かつ実時間内に検索キー同定が可
能であり、該当検索キーが高頻度アクセスデータ群に含
まれていない場合も、ユーザにとっては従来と違ってシ
ステムにとって効果的な絞込みを行うための上位概念を
尋ねる補助的な質問から強制的にスタートするのではな
く、本来検索要求する検索キーを始めに入力し、次に補
助的な上位概念の入力をするという自然さを兼ね備えて
いる高速検索が可能である。

【０２１４】なお、上述した各実施形態における装置の
各機能構成はコンピュータによりプログラムを解読実行
させることにより実現することも可能である。

【０２１５】

【発明の効果】本発明の第一の方式によると、ユーザに
「待たされた」という気持ちを抱かせず、ユーザが許容
できる範囲の精度を持った応答を返すことが可能な認識
対象語の絞込み方法、及び認識候補が絞込まれているこ
とをユーザに感じさせずに、正誤確認回数の減少あるい
は正誤確認の省略を実現するような入力確定方式を利用
して、目的情報確定のために必要な属性値を特定する過
程において、認識対象とする属性値が与えられた一定期
間内には認識処理可能な数を越える数からなる属性値で
あっても、これを特定することを可能とし、ユーザに対
して音声認識処理及び検索に要する時間を感じさせるこ
となく、かつユーザとの間に音声認識処理の欠陥などに
よる不自然な対話を生じさせることなく、属性値を特定
して目的情報の確定を行う音声対話型情報検索方法、装
置およびプログラム記録媒体を提供することが可能とな
る。

【０２１６】また、本発明の第二の方式によると、ユー
ザが入力する音声検索キーの同定をタスクとするオペレ
ータレス音声対話型情報検索システムにおいて、ユーザ
に待機時間を感じさせずに、オペレータ対応のシステム
同様の迅速性及び自然性を兼ね備えた対話を通してタス
クを達成できるように、与えられた一定時間内に処理不
可能な検索対象語彙数を有する大規模検索データベース
を用いて、ユーザに対して音声認識処理及びデータベー
ス照合時間を感じさせることなく、かつユーザとの間に
音声認識処理の欠陥などによる不自然な対話を生じさせ
ることなく、ユーザが入力した検索キーの同定を、自然
な対話を通して実現する対話制御による音声対話を用い
たオペレータレス音声対話型情報検索方法、装置および
プログラム記録媒体を提供することが可能となる。

【０２１７】また、本発明の第三の方式によると、属性
値確定を行わずに検索キー確定を実現することにより、
属性値確定のための確認プロセスを無くして、確認プロ
セスによるまわりくどさ及び検索キー確定にかかる処理
時間を軽減し、大規模データベースを認識対象とした、
ユーザストレスの解消につながる音声入力による検索キ
ー確定方式を用いた音声対話型情報検索方法、装置、お
よびプログラム記録媒体を提供することが可能となる。

【０２１８】また、本発明の第四の方式によると、大規
模データベースを認識対象として、ユーザが入力する検
索キーの同定を目的とする検索において、大規模データ
ベース中のデータのアクセス頻度の偏りを利用して、ユ
ーザが本当に検索を要求している検索キーを最初から入
力してもユーザに認識の間、待機時間を与えずかつ認識
精度の欠陥を感じさせずに認識及び検索を実行し、大規
模データベースの中から該当検索キーを同定する迅速性
及び自然性を兼ね備えた検索に用いられる検索データベ
ースを記録した記録媒体並びに音声認識を用いた音声対
話型情報検索方法、装置およびプログラム記録媒体を提
供することが可能となる。

【０２１９】このように、本発明の音声対話型情報検索
方式によると、最初にシステムに入力された音声入力の
認識結果における曖昧さと、その後関連情報質問に答え
て入力される音声入力の認識結果における曖昧さが、こ
れら認識結果の関連性を検証する統合処理（クロスチェ
ック）により同時に解消できるようになり、このことが
利用者に短時間で適切な応答を返せるようになることに
寄与している。

【図面の簡単な説明】

【図１】本発明の第一の実施形態における音声対話型情
報検索装置の一構成例を示すブロック図。

【図２】図１の音声対話型情報検索装置で利用する情報
データベースの一例を示す図。

【図３】図１の音声対話型情報検索装置における情報確
定プロセスの流れを示すフローチャート。

【図４】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における情報データベースの一例を示す
図。

【図５】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における優先認識対象語に対する認識結果
の一例を示す図。

【図６】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における関連属性（都道府県名）の認識結
果の一例を示す図。

【図７】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における非優先認識対象語に対する認識結
果を足しこんだ結果の一例を示す図。

【図８】本発明の第一の実施形態の音声対話型情報検索
方法の具体例における属性値候補と、関連情報の統合の
一例を示す図。

【図９】本発明の第二の実施形態における音声対話型情
報検索装置の一構成例を示すブロック図。

【図１０】図９の音声対話型情報検索装置で利用する統
計階層データベースの一例を示す図。

【図１１】図９の音声対話型情報検索装置で利用する音
声検索キー候補に対する認識尤度を算出した音声認識結
果テーブルの一例を示す図。

【図１２】図９の音声対話型情報検索装置で利用する検
索キー属性データベースの一例を示す図。

【図１３】図９の音声対話型情報検索装置で利用する検
索キー確定関連質問に対するユーザの応答に対する音声
認識結果を示す関連情報認識結果テーブルの一例を示す
図。

【図１４】図９の音声対話型情報検索装置における対話
制御部の処理の流れを示すフローチャート。

【図１５】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における音声認識用統計階層データベースの一例を示す
図。

【図１６】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第一統計階層データベースに対する音声認識結
果テーブルの一例を示す図。

【図１７】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における検索キー属性データベースの一例を示す図。

【図１８】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
におけるコンサート主催月日を尋ねる検索キー確定関連
質問に対する応答から得られる関連情報認識結果テーブ
ルの一例を示す図。

【図１９】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第二統計階層データベースに対する音声認識結
果テーブルの一例を示す図。

【図２０】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第二統計階層データベースと主催月日の関連情
報認識結果テーブルとの統合例を示す図。

【図２１】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
におけるコンサート主催会場を尋ねる検索キー確定関連
質問に対する応答から得られる関連情報認識結果テーブ
ルの一例を示す図。

【図２２】本発明の第二の実施形態の音声対話型情報検
索方法の具体例であるコンサートチケット予約システム
における第二統計階層データベース中の音声検索キー有
力候補と主催月日、及び主催会場情報の統合例を示す
図。

【図２３】本発明の第三の実施形態における音声対話型
情報検索装置の一構成例を示すブロック図。

【図２４】図２３の音声対話型情報検索装置で利用する
音声認識用データベースの一例を示す図。

【図２５】図２３の音声対話型情報検索装置で利用する
属性データベースの一例を示す図。

【図２６】図２３の音声対話型情報検索装置における検
索キー確定処理の流れを示すフローチャート。

【図２７】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における音声認
識用データベースの一例を示す図である。

【図２８】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における属性デ
ータベースの一例を示す図である。

【図２９】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における属性値
の認識結果例を示す図である。

【図３０】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における認識対
象の絞込みの一例を示す図である。

【図３１】本発明の第三の実施形態の音声対話型情報検
索方法の具体例である市区町村名確定例における検索キ
ーの認識結果例を示す図である。

【図３２】本発明の第四の実施形態における音声対話型
情報検索装置の一構成例を示すブロック図。

【図３３】図３２の音声対話型情報検索装置で利用する
音声認識用データベースの一例を示す図。

【図３４】図３２の音声対話型情報検索装置における情
報検索処理の流れを示すフローチャート。

【図３５】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における音声認識用
データベースの一例を示す図。

【図３６】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における高頻度アク
セスデータ群の一例を示す図。

【図３７】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における「横浜市」
同定の場合の音声検索キー認識結果を示す図。

【図３８】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における高頻度アク
セスデータ群を認識対象とした場合の「横川市」同定の
場合の音声検索キー認識結果を示す図。

【図３９】本発明の第四の実施形態の音声対話型情報検
索方法の具体例である市区町村同定における群馬県内の
市区町村を認識対象とした場合の「横川市」同定の場合
の音声検索キー認識結果を示す図。

【符号の説明】

１音声対話型情報検索装置２音声入力部３音声識別部３ー１音声認識部３ー２音声認識結果出力部４対話制御部４ー１結果調整部４ー２対話誘導部４ー３応答作成部５音声出力部６音声認識装置７システムデータベース７−１情報データベース７−２Ｙｅｓ／Ｎｏデータベース８音声出力装置１１音声対話型検索装置１２音声入力部１３音声識別部１３ー１音声認識部１３ー２音声認識結果出力部１４対話制御部１４ー１結果調整部１４ー２対話誘導部１４ー３質問・応答作成部１５音声検索キー関連性計算部１６音声出力部１７音声認識用データベース１７−１統計階層データベース１７ー２検索キー属性データベース１７ー３関連情報認識結果テーブル保存場所１７−４Ｙｅｓ／Ｎｏデータベース１８音声認識装置１９音声出力装置１１０中央処理装置（ＣＰＵ）１１１入力要請部１１２音声認識部１１３認識結果調整部１１４ユーザインタフェース１２０メモリ装置１２１属性値有力候補群１２２検索キー候補群１３０データベース１３１音声認識用データベース１３２属性データベース１３３Ｙｅｓ／Ｎｏデータベース１４０ユーザ装置１４１音声入力部１４２音声出力部２０１音声対話型情報検索装置２０２音声入力部２０３認識対象データ抽出部２０４音声認識部２０５認識候補出力部２０６音声出力部２０７認識データベース２０７−１音声認識用データベース２０７−２応答データベース２０８音声認識装置２０９音声出力装置

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ１０Ｌ 15/28 Ｇ１０Ｌ 3/00 ５２１Ｗ５７１Ａ (56)参考文献特開平８−202387（ＪＰ，Ａ) 特開平３−177899（ＪＰ，Ａ) 特開平８−320697（ＪＰ，Ａ) 特公平４−2198（ＪＰ，Ｂ２) 特許2589299（ＪＰ，Ｂ２) 特許2589300（ＪＰ，Ｂ２) 大森，東田，効率的な音声対話制御方式に関する一考察，情報処理学会研究報告［音声言語情報処理］，日本，2000 年７月14日，2000−ＳＬＰ−32， 32 −10，Ｐａｇｅｓ 45−50 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 G06F 3/16 G06F 17/30 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】ユーザの入力した検索キーを音声認識処
理を用いて確定することによりユーザの目的情報を確定
して検索する音声対話型情報検索方法であって、（ａ）音声認識処理により所定の処理時間内に処理不可
能な数のデータからなる検索キー候補を認識対象語とし
て音声認識用データベースに格納し、認識対象語を、認
識対象語に対して規定された統計情報に基づく重要度が
比較的高く音声認識処理により所定の処理時間内に処理
可能な数のデータからなる優先認識対象語と、それら以
外の非優先認識対象語とに分けておき、（ｂ）ユーザとの音声対話を用いてユーザに検索キーを
示す音声入力を入れるように要求し、優先認識対象語に
対する該音声入力の音声認識処理を行って認識結果を得
て、（ｃ）前記認識結果がユーザとの確認処理のみで検索キ
ーを確定できると判断する所定の条件を満たす場合に
は、該認識結果に基いてユーザとの音声対話を用いて確
認処理を行って検索キーを確定し、（ｄ）前記認識結果が所定の条件を満たさない場合に
は、ユーザとの音声対話を用いてユーザに検索キーの関
連情報を示す別の音声入力を入れるように要求する関連
情報質問を行い、（ｅ）前記別の音声入力の音声認識処理を行って別の認
識結果を得て、該別の認識結果に基いて前記認識結果を
調整して調整認識結果を得て、（ｆ）検索キーが確定されるまで、前記認識結果の代わ
りに調整認識結果を用いて前記ステップ（ｃ）または前
記ステップ（ｄ）および（ｅ）の処理を繰り返すことを
特徴とする音声対話型情報検索方法。
【請求項２】前記ステップ（ｄ）は更に、ユーザとの
音声対話を用いた関連情報質問を行っている間に、音声
認識処理により所定の処理時間内に処理可能な数の非優
先認識対象語に対する前記音声入力の音声認識処理を行
って追加認識結果を得て、前記ステップ（ｅ）は、追加認識結果を足し込むことに
よっても前記認識結果を調整することを特徴とする請求
項１記載の音声対話型情報検索方法。
【請求項３】非優先認識対象語は、各々が音声認識処
理により所定の処理時間内に処理可能な数の認識対象語
を含む複数のセットに分割され、前記ステップ（ｄ）は、複数のセットに対する前記音声
入力の音声認識処理を各セットに含まれた認識対象語の
重要度の順に行うことを特徴とする請求項２記載の音声
対話型情報検索方法。
【請求項４】前記認識結果は認識検索キー候補とその
認識尤度を示し、前記別の認識結果は認識関連情報候補
とその認識尤度を示し、前記ステップ（ｅ）は、前記認識結果の示す認識検索キ
ー候補の認識尤度と前記別の認識結果の示す認識関連情
報候補の認識尤度に基いて認識検索キー候補の新たな認
識尤度を計算することにより前記認識結果を調整するこ
とを特徴とする請求項１記載の音声対話型情報検索方
法。
【請求項５】前記ステップ（ｅ）は、各認識検索キー
候補の認識尤度を対応する認識関連情報候補の認識尤度
と乗算することにより認識検索キー候補の新たな認識尤
度を計算することを特徴とする請求項４記載の音声対話
型情報検索方法。
【請求項６】前記認識結果は認識検索キー候補とその
認識尤度を示し、前記ステップ（ｃ）は、所定の尤度しきい値を越える認
識尤度を有する認識検索キー有力候補の数が所定数以下
かつ０でない場合に、前記認識結果が所定の条件を満た
すと判断することを特徴とする請求項１記載の音声対話
型情報検索方法。
【請求項７】前記ステップ（ａ）で用いる統計情報
は、検索キー候補のアクセス頻度であることを特徴とす
る請求項１記載の音声対話型情報検索方法。
【請求項８】前記ステップ（ａ）で用いる所定の処理
時間は、予め定められた対話処理実時間であることを特
徴とする請求項１記載の音声対話型情報検索方法。
【請求項９】検索キーは目的情報のある属性の属性値
を示し、前記ステップ（ｄ）の関連情報質問により要求
される関連情報は該ある属性とは異なる目的情報の別の
属性の属性値であることを特徴とする請求項１記載の音
声対話型情報検索方法。
【請求項１０】目的情報の属性は階層的になってお
り、前記別の属性は前記ある属性に階層的に隣接するも
のであることを特徴とする請求項９記載の音声対話型情
報検索方法。
【請求項１１】前記別の属性には、音声認識処理によ
り所定の処理時間内に処理可能な数のデータからなる属
性値候補を有する属性が選択されることを特徴とする請
求項９記載の音声対話型情報検索方法。
【請求項１２】前記ステップ（ａ）は、目的情報の複
数の属性の属性値を示す検索キー候補を格納して、ユー
ザの入力する検索キーが該複数の属性のいづれの属性値
を示すことも可能とすることを特徴とする請求項１記載
の音声対話型情報検索方法。
【請求項１３】前記ステップ（ａ）は、検索キー候補
を下位階層データとして格納し、更に音声認識処理によ
り所定の処理時間内に処理可能な数のデータからなる上
位階層データを格納し、各下位階層データは一つの上位
階層データに依存し、一つの上位階層データに依存する
下位階層データの数は音声認識処理により所定の処理時
間内に処理可能な数のデータからなることを特徴とする
請求項１記載の音声対話型情報検索方法。
【請求項１４】前記ステップ（ｃ）は、所定回数以下
の確認質問で検索キーが確定できる場合に前記認識結果
が所定の条件を満たすと判断することを特徴とする請求
項１３記載の音声対話型情報検索方法。
【請求項１５】前記ステップ（ｄ）は、ユーザが所定
回数の確認質問を否定した場合に前記認識結果が所定の
条件を満たさないと判断することを特徴とする請求項１
３記載の音声対話型情報検索方法。
【請求項１６】前記ステップ（ｄ）の関連情報質問で
要求される関連情報は検索キーが示す下位概念が属する
上位概念を示す上位階層データであることを特徴とする
請求項１３記載の音声対話型情報検索方法。
【請求項１７】前記ステップ（ｅ）は、前記別の認識
結果に基いてユーザとの音声対話を用いた別の確認処理
を行って上位階層データを確定し、確定した上位階層デ
ータに依存する下位階層データを新たな認識対象データ
をして抽出し、新たな認識対象データに対する前記音声
入力の音声認識処理を行って前記別の認識結果を得るこ
とにより前記認識結果を調整することを特徴とする請求
項１６記載の音声対話型情報検索方法。
【請求項１８】ユーザの入力した検索キーを音声認識
処理を用いて確定することによりユーザの目的情報を確
定して検索する音声対話型情報検索方法であって、（ａ）音声認識処理により所定の処理時間内に処理不可
能な数のデータからなる検索キー候補を、音声認識用デ
ータベースに設けられた複数の統計階層データベースに
認識対象語として格納し、より下位の統計階層データベ
ースが検索キー候補のより大きな部分を含み最下位の統
計階層データベースが全ての検索キー候補を含むように
し、（ｂ）ユーザとの音声対話を用いてユーザに検索キーを
示す音声入力を入れるように要求し、全ての統計階層デ
ータベースに対する該音声入力の音声認識処理を並列に
行って認識検索キー候補とその認識尤度を示す各認識結
果を順次得て、（ｃ）音声認識処理の完了した各統計
階層データベースについて、所定の尤度しきい値を越え
る認識尤度を有する認識検索キー候補を認識検索キー有
力候補として選択し、（ｄ）認識検索キー有力候補の数が所定数以下かつ０で
ないという所定の条件が満たされるかどうかにより、ユ
ーザとの次の音声対話を制御することを特徴とする音声
対話型情報検索方法。
【請求項１９】前記ステップ（ｄ）は更に、（ｄ１）所定の条件が満たされる場合には、ユーザとの
音声対話を用いてユーザに検索キーの関連情報を示す別
の音声入力を入れるように要求する関連情報質問を行
い、（ｄ２）前記別の音声入力の音声認識処理を行って認識
関連情報候補とその認識尤度を示す別の認識結果を得
て、該別の認識結果に基いて前記認識結果を調整して調
整認識結果を得て、（ｄ３）前記調整認識結果に基いてユーザとの音声対話
を用いて確認処理を行って検索キーを確定することを特
徴とする請求項１８記載の音声対話型情報検索方法。
【請求項２０】前記ステップ（ｄ２）は、前記認識結
果の示す認識検索キー候補の認識尤度と前記別の認識結
果の示す認識関連情報候補の認識尤度に基いて認識検索
キー候補の新たな認識尤度を計算することにより前記認
識結果を調整することを特徴とする請求項１９記載の音
声対話型情報検索方法。
【請求項２１】前記ステップ（ｄ２）は、前記認識結
果の示す認識検索キー候補の認識尤度を正規化し、前記
別の認識結果の示す認識関連情報候補の認識尤度を正規
化し、各認識検索キー候補の正規化認識尤度を、各認識
検索キー候補との関連性が認められた対応する認識関連
情報候補の正規化認識尤度と乗算することにより認識検
索キー候補の新たな認識尤度を計算することを特徴とす
る請求項２０記載の音声対話型情報検索方法。
【請求項２２】（ｅ）所定の次対話誘導条件のいづれ
かが満たされるかどうかチェックし、所定の次対話誘導
条件のいづれかが満たされる場合に認識対象を次の下位
階層の統計階層データベースに移すステップを更に有す
ることを特徴とする請求項１９記載の音声対話型情報検
索方法。
【請求項２３】（ｆ）検索キーの関連情報に基いて次
の下位階層の統計階層データベースの認識結果を調整し
て別の調整認識結果を得て、（ｇ）前記別の調整認識結果から、所定の尤度しきい値
を越える認識尤度を有する認識検索キー候補を認識検索
キー有力候補として選択し、（ｈ）認識検索キー有力候補の数が所定数以下かつ０で
ないという所定の条件が満たされるかどうかにより、ユ
ーザとの次の音声対話を制御するステップを更に有する
ことを特徴とする請求項２２記載の音声対話型情報検索
方法。
【請求項２４】前記ステップ（ｆ）で用いる関連情報
は、前記ステップ（ｅ）より前に上位階層の統計階層デ
ータベースの処理中に既に得られていたものであること
を特徴とする請求項２３記載の音声対話型情報検索方
法。
【請求項２５】前記ステップ（ｆ）で用いる関連情報
は、検索キーの関連情報がまだひとつも得られていない
場合には、ユーザとの音声対話を用いてユーザに検索キ
ーの関連情報を示す別の音声入力を入れるように要求す
る関連情報質問を行って得られたものであることを特徴
とする請求項２３記載の音声対話型情報検索方法。
【請求項２６】前記次対話誘導条件は、（１）認識検索キー候補の数が所定数以下ではない場
合、（２）認識検索キー候補の数が０である場合、（３）前記調整認識結果に基づく前記ステップ（ｄ３）
の確認処理においてユーザに提示された認識検索キー候
補がユーザに否定された場合、（４）前記ステップ（ｄ２）の音声認識処理によりえら
れた認識関連情報候補と関連性があると認められる認識
検索キー有力候補がない場合、を含むことを特徴とする請求項２２記載の音声対話型情
報検索方法。
【請求項２７】前記ステップ（ａ）は、第ｎ階層の統
計階層データベースを用いて検索キーを確定するための
ユーザとの音声対話を行っている間に、音声認識処理に
より処理可能な数の検索キー候補を第（ｎ＋１）階層の
統計階層データベースが含むように検索キー候補を複数
の統計階層データベースに格納することを特徴とする請
求項１８記載の音声対話型情報検索方法。
【請求項２８】前記ステップ（ａ）は、認識対象語に
対して規定された統計情報に基づく重要度により、上位
階層の統計階層データベースの認識対象語が下位階層の
統計階層データベースの認識対象語よりも比較的高い重
要度を有するように検索キー候補を複数統計階層データ
ベースに格納することを特徴とする請求項１８記載の音
声対話型情報検索方法。
【請求項２９】ユーザの入力した検索キーを音声認識
処理を用いて確定することによりユーザの目的情報を確
定して検索する音声対話型情報検索装置であって、音声認識処理により所定の処理時間内に処理不可能な数
のデータからなる検索キー候補を認識対象語として格納
し、認識対象語を、認識対象語に対して規定された統計
情報に基づく重要度が比較的高く音声認識処理により所
定の処理時間内に処理可能な数のデータからなる優先認
識対象語と、それら以外の非優先認識対象語とに分けた
音声認識用データベースと、音声認識処理を行う音声認識部と、ユーザとの音声対話を行う対話制御部とからなり、対話制御部が、ユーザに検索キーを示す音声入力を入れ
るように要求する音声対話を行って、音声認識部が、優
先認識対象語に対する該音声入力の音声認識処理を行っ
て認識結果を得て、対話制御部が、前記認識結果がユーザとの確認処理のみ
で検索キーを確定できると判断する所定の条件を満たす
場合には、該認識結果に基いて確認処理の音声対話を行
って検索キーを確定し、対話制御部が、前記認識結果が所定の条件を満たさない
場合には、ユーザに検索キーの関連情報を示す別の音声
入力を入れるように要求する関連情報質問の音声対話を
行って、音声認識部が、前記別の音声入力の音声認識処
理を行って別の認識結果を得て、対話制御部が、該別の
認識結果に基いて前記認識結果を調整して調整認識結果
を得て、対話制御部が、検索キーが確定されるまで、前記認識結
果の代わりに調整認識結果を用いて前記確認処理または
前記関連情報質問を繰り返すように音声対話を制御する
ことを特徴とする音声対話型情報検索装置。
【請求項３０】音声対話部は更に、対話制御部がユー
ザとの音声対話を用いた関連情報質問を行っている間
に、音声認識処理により所定の処理時間内に処理可能な
数の非優先認識対象語に対する前記音声入力の音声認識
処理を行って追加認識結果を得て、対話制御部は、追加認識結果を足し込むことによっても
前記認識結果を調整することを特徴とする請求項２９記
載の音声対話型情報検索装置。
【請求項３１】音声認識用データベースの格納する非
優先認識対象語は、各々が音声認識処理により所定の処
理時間内に処理可能な数の認識対象語を含む複数のセッ
トに分割され、音声認識部は、複数のセットに対する前記音声入力の音
声認識処理を各セットに含まれた認識対象語の重要度の
順に行うことを特徴とする請求項３０記載の音声対話型
情報検索装置。
【請求項３２】前記認識結果は認識検索キー候補とそ
の認識尤度を示し、前記別の認識結果は認識関連情報候
補とその認識尤度を示し、対話制御部は、前記認識結果の示す認識検索キー候補の
認識尤度と前記別の認識結果の示す認識関連情報候補の
認識尤度に基いて認識検索キー候補の新たな認識尤度を
計算することにより前記認識結果を調整することを特徴
とする請求項２９記載の音声対話型情報検索装置。
【請求項３３】対話制御部は、各認識検索キー候補の
認識尤度を対応する認識関連情報候補の認識尤度と乗算
することにより認識検索キー候補の新たな認識尤度を計
算することを特徴とする請求項３２記載の音声対話型情
報検索装置。
【請求項３４】前記認識結果は認識検索キー候補とそ
の認識尤度を示し、対話制御部は、所定の尤度しきい
値を越える認識尤度を有する認識検索キー有力候補の数
が所定数以下かつ０でない場合に、前記認識結果が所定
の条件を満たすと判断することを特徴とする請求項２９
記載の音声対話型情報検索装置。
【請求項３５】音声認識用データベースで用いる統計
情報は、検索キー候補のアクセス頻度であることを特徴
とする請求項２９記載の音声対話型情報検索装置。
【請求項３６】音声認識用データベースで用いる所定
の処理時間は、予め定められた対話処理実時間であるこ
とを特徴とする請求項２９記載の音声対話型情報検索装
置。
【請求項３７】検索キーは目的情報のある属性の属性
値を示し、対話制御部の行う関連情報質問により要求さ
れる関連情報は該ある属性とは異なる目的情報の別の属
性の属性値であることを特徴とする請求項２９記載の音
声対話型情報検索装置。
【請求項３８】目的情報の属性は階層的になってお
り、前記別の属性は前記ある属性に階層的に隣接するも
のであることを特徴とする請求項３７記載の音声対話型
情報検索装置。
【請求項３９】前記別の属性には、音声認識処理によ
り所定の処理時間内に処理可能な数のデータからなる属
性値候補を有する属性が選択されることを特徴とする請
求項３７記載の音声対話型情報検索装置。
【請求項４０】音声認識用データベースは、目的情報
の複数の属性の属性値を示す検索キー候補を格納して、
ユーザの入力する検索キーが該複数の属性のいづれの属
性値を示すことも可能とすることを特徴とする請求項２
９記載の音声対話型情報検索装置。
【請求項４１】音声認識用データベースは、検索キー
候補を下位階層データとして格納し、更に音声認識処理
により所定の処理時間内に処理可能な数のデータからな
る上位階層データを格納し、各下位階層データは一つの
上位階層データに依存し、一つの上位階層データに依存
する下位階層データの数は音声認識処理により所定の処
理時間内に処理可能な数のデータからなることを特徴と
する請求項２９記載の音声対話型情報検索装置。
【請求項４２】対話制御部は、所定回数以下の確認質
問で検索キーが確定できる場合に前記認識結果が所定の
条件を満たすと判断することを特徴とする請求項４１記
載の音声対話型情報検索装置。
【請求項４３】対話制御部は、ユーザが所定回数の確
認質問を否定した場合に前記認識結果が所定の条件を満
たさないと判断することを特徴とする請求項４１記載の
音声対話型情報検索装置。
【請求項４４】対話制御部の行う関連情報質問で要求
される関連情報は検索キーが示す下位概念が属する上位
概念を示す上位階層データであることを特徴とする請求
項４１記載の音声対話型情報検索装置。
【請求項４５】対話制御部は、前記別の認識結果に基
いてユーザとの音声対話を用いた別の確認処理を行って
上位階層データを確定し、確定した上位階層データに依
存する下位階層データを新たな認識対象データをして抽
出し、新たな認識対象データに対する前記音声入力の音
声認識処理を行って前記別の認識結果を得ることにより
前記認識結果を調整することを特徴とする請求項４４記
載の音声対話型情報検索装置。
【請求項４６】ユーザの入力した検索キーを音声認識
処理を用いて確定することによりユーザの目的情報を確
定して検索する音声対話型情報検索装置であって、音声認識処理により所定の処理時間内に処理不可能な数
のデータからなる検索キー候補を認識対象語として格納
する複数の統計階層データベースを有し、より下位の統
計階層データベースが検索キー候補のより大きな部分を
含み最下位の統計階層データベースが全ての検索キー候
補を含むようにした音声認識用データベースと、音声認識処理を行う音声認識部と、ユーザとの音声対話を行う対話制御部とからなり、対話制御部が、ユーザに検索キーを示す音声入力を入れ
るように要求する音声対話を行い、音声認識部が、全て
の統計階層データベースに対する該音声入力の音声認識
処理を並列に行って認識検索キー候補とその認識尤度を
示す各認識結果を順次得て、対話制御部が、音声認識処理の完了した各統計階層デー
タベースについて、所定の尤度しきい値を越える認識尤
度を有する認識検索キー候補を認識検索キー有力候補と
して選択し、対話制御部が、認識検索キー有力候補の数が所定数以下
かつ０でないという所定の条件が満たされるかどうかに
より、ユーザとの次の音声対話を制御することを特徴と
する音声対話型情報検索装置。
【請求項４７】対話制御部は次の音声対話を、所定の条件が満たされる場合には、ユーザに検索キーの
関連情報を示す別の音声入力を入れるように要求する関
連情報質問の音声対話を行い、音声認識部が前記別の音
声入力の音声認識処理を行って認識関連情報候補とその
認識尤度を示す別の認識結果を得て、該別の認識結果に基いて前記認識結果を調整して調整認
識結果を得て、前記調整認識結果に基いて確認処理の音声対話を行って
検索キーを確定することにより制御することを特徴とす
る請求項４６記載の音声対話型情報検索装置。
【請求項４８】対話制御部は、前記認識結果の示す認
識検索キー候補の認識尤度と前記別の認識結果の示す認
識関連情報候補の認識尤度に基いて認識検索キー候補の
新たな認識尤度を計算することにより前記認識結果を調
整することを特徴とする請求項４７記載の音声対話型情
報検索装置。
【請求項４９】対話制御部は、前記認識結果の示す認
識検索キー候補の認識尤度を正規化し、前記別の認識結
果の示す認識関連情報候補の認識尤度を正規化し、各認
識検索キー候補の正規化認識尤度を、各認識検索キー候
補との関連性が認められた対応する認識関連情報候補の
正規化認識尤度と乗算することにより認識検索キー候補
の新たな認識尤度を計算することを特徴とする請求項４
８記載の音声対話型情報検索装置。
【請求項５０】対話制御部は更に、所定の次対話誘導
条件のいづれかが満たされるかどうかチェックし、所定
の次対話誘導条件のいづれかが満たされる場合に認識対
象を次の下位階層の統計階層データベースに移すことを
特徴とする請求項４７記載の音声対話型情報検索装置。
【請求項５１】対話制御部は更に、検索キーの関連情
報に基いて次の下位階層の統計階層データベースの認識
結果を調整して別の調整認識結果を得て、前記別の調整認識結果から、所定の尤度しきい値を越え
る認識尤度を有する認識検索キー候補を認識検索キー有
力候補として選択し、認識検索キー有力候補の数が所定数以下かつ０でないと
いう所定の条件が満たされるかどうかにより、ユーザと
の次の音声対話を制御することを特徴とする請求項５０
記載の音声対話型情報検索装置。
【請求項５２】前記認識結果を調整するために用いる
関連情報は、認識対象を次の下位階層の統計階層データ
ベースに移す前に上位階層の統計階層データベースの処
理中に既に得られていたものであることを特徴とする請
求項５１記載の音声対話型情報検索装置。
【請求項５３】前記認識結果を調整するために用いる
関連情報は、検索キーの関連情報がまだひとつも得られ
ていない場合には、ユーザとの音声対話を用いてユーザ
に検索キーの関連情報を示す別の音声入力を入れるよう
に要求する関連情報質問を行って得られたものであるこ
とを特徴とする請求項５１記載の音声対話型情報検索装
置。
【請求項５４】前記次対話誘導条件は、（１）認識検索キー候補の数が所定数以下ではない場
合、（２）認識検索キー候補の数が０である場合、（３）前記調整認識結果に基づく確認処理においてユー
ザに提示された認識検索キー候補がユーザに否定された
場合、（４）前記音声認識処理によりえられた認識関連情報候
補と関連性があると認められる認識検索キー有力候補が
ない場合、を含むことを特徴とする請求項５０記載の音声対話型情
報検索装置。
【請求項５５】音声認識用データベースは、第ｎ階層
の統計階層データベースを用いて検索キーを確定するた
めのユーザとの音声対話を行っている間に、音声認識処
理により処理可能な数の検索キー候補を第（ｎ＋１）階
層の統計階層データベースが含むように検索キー候補を
複数の統計階層データベースに格納することを特徴とす
る請求項４６記載の音声対話型情報検索装置。
【請求項５６】音声認識用データベースは、認識対象
語に対して規定された統計情報に基づく重要度により、
上位階層の統計階層データベースの認識対象語が下位階
層の統計階層データベースの認識対象語よりも比較的高
い重要度を有するように検索キー候補を複数統計階層デ
ータベースに格納することを特徴とする請求項４６記載
の音声対話型情報検索装置。
【請求項５７】音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を認識
対象語として格納し、認識対象語を、認識対象語に対し
て規定された統計情報に基づく重要度が比較的高く音声
認識処理により所定の処理時間内に処理可能な数のデー
タからなる優先認識対象語と、それら以外の非優先認識
対象語とに分けた音声認識用データベースと音声認識処
理を用いて、ユーザの入力した検索キーを確定すること
によりユーザの目的情報を確定して検索する音声対話型
情報検索システムとしてコンピュータ動作させるプログ
ラムコードを記録した記録媒体であって、ユーザとの音声対話を用いてユーザに検索キーを示す音
声入力を入れるように要求し、優先認識対象語に対する
該音声入力の音声認識処理を行って認識結果を得る第一
のプログラムコードと、前記認識結果がユーザとの確認処理のみで検索キーを確
定できると判断する所定の条件を満たす場合には、該認
識結果に基いてユーザとの音声対話を用いて確認処理を
行って検索キーを確定する第二のプログラムコードと、前記認識結果が所定の条件を満たさない場合には、ユー
ザとの音声対話を用いてユーザに検索キーの関連情報を
示す別の音声入力を入れるように要求する関連情報質問
を行う第三のプログラムコードと、前記別の音声入力の音声認識処理を行って別の認識結果
を得て、該別の認識結果に基いて前記認識結果を調整し
て調整認識結果を得る第四のプログラムコードと、検索キーが確定されるまで、前記認識結果の代わりに調
整認識結果を用いて前記第二のプログラムコードまたは
前記第三と第四のプログラムコードの処理を繰り返す第
五のプログラムコードと、を記録したことを特徴とする記録媒体。
【請求項５８】ユーザの入力した検索キーを音声認識
処理を用いて確定することによりユーザの目的情報を確
定して検索する音声対話型情報検索システムにおいて音
声認識用データベースとして用いるためのデータ構造を
記録した記録媒体であって、該データ構造は、音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を認識
対象語として音声認識用データベースに格納し、認識対
象語を、認識対象語に対して規定された統計情報に基づ
く重要度が比較的高く音声認識処理により所定の処理時
間内に処理可能な数のデータからなる優先認識対象語
と、それら以外の非優先認識対象語とに分けておくこと
により構成され、検索キー候補を下位階層データとして
格納し、更に音声認識処理により所定の処理時間内に処
理可能な数のデータからなる上位階層データを格納し、
各下位階層データは一つの上位階層データに依存し、一
つの上位階層データに依存する下位階層データの数は音
声認識処理により所定の処理時間内に処理可能な数のデ
ータからなることを特徴とする記録媒体。
【請求項５９】音声認識処理により所定の処理時間内
に処理不可能な数のデータからなる検索キー候補を認識
対象語として格納する統計階層データベースを有し、よ
り下位の統計階層データベースが検索キー候補のより大
きな部分を含み最下位の統計階層データベースが全ての
検索キー候補を含むようにした音声認識用データベース
と音声認識処理を用いて、ユーザの入力した検索キーを
確定することによりユーザの目的情報を確定して検索す
る音声対話型情報検索システムとしてコンピュータ動作
させるプログラムコードを記録した記録媒体であって、
ユーザとの音声対話を用いてユーザに検索キーを示す
音声入力を入れるように要求し、全ての統計階層データ
ベースに対する該音声入力の音声認識処理を並列に行っ
て認識検索キー候補とその認識尤度を示す各認識結果を
順次得る第一のプログラムコードと、音声認識処理の完了した各統計階層データベースについ
て、所定の尤度しきい値を越える認識尤度を有する認識
検索キー候補を認識検索キー有力候補として選択する第
二のプログラムコードと、認識検索キー有力候補の数が所定数以下かつ０でないと
いう所定の条件が満たされるかどうかにより、ユーザと
の次の音声対話を制御する第三のプログラムコードとを
記録したこと特徴とする記録媒体。