JPH06332493A

JPH06332493A - 音声対話型情報検索装置及び方法

Info

Publication number: JPH06332493A
Application number: JP5117169A
Authority: JP
Inventors: Keiichi Sakai; 桂一酒井; Yuji Ikeda; 裕治池田; Minoru Fujita; 稔藤田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1993-05-19
Filing date: 1993-05-19
Publication date: 1994-12-02

Abstract

(57)【要約】【目的】対話の進行に応じて、音声認識のための語彙
を動的に変更することで、自然で使い易い音声対話型情
報検索装置を提供する。【構成】音声対話型情報検索装置に、音声情報を入力
し、生成された応答を出力する音声入出力部１０１と、
音声認識の対象となる語彙を記憶し、その記憶内容を参
照して入出力部１０１より入力された音声情報を認識す
る音声認識部１０５と、その認識結果を解釈する対話管
理部１０７と、その解釈結果に基づいて情報を検索する
情報検索部１０３と、その検索結果に基づいて応答を生
成する対話応答生成部１０４と、対話管理部１０７によ
る解釈結果及び情報検索部１０３による検索結果に基づ
いて、音声認識部１０５に記憶された音声認識の対象と
なる語彙を更新する認識対象生成部１０６とを具える。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、音声対話を通して、デ
ータベース上の情報を検索し、その結果を出力する装置
に関するものである。

【０００２】

【従来の技術】人間と人間の間で行われる情報交換の媒
体の中で、最も自然に使われるのが音声である。一方、
計算機の飛躍的な進歩により、計算機は数値計算のみな
らず様々な情報を扱えるようになって来ている。そこ
で、人間と計算機の間でも、情報交換の媒体として音声
を利用したいという要求がある。

【０００３】このような要求に応えるべく、音声によっ
て入力された情報に基づいて情報検索を行う音声情報検
索装置が登場してきている。

【０００４】

【発明が解決しようとしている課題】しかしながら、上
記従来の音声情報検索装置には、予め登録したごく一部
の単語や文を用いてしか、音声による検索ができないと
いう問題点があった。

【０００５】更に、ある対話の状態においては、その状
態に対して予め登録された対話内容しか認識できないた
め、自然な対話を行うことができないという問題点も生
じていた。このため、データベース上のあらゆる検索項
目を自然に検索できないという問題が生じていた。

【０００６】また、一般に、対話を自然に行う時には、
対話のどの時点でも入力されうるユーザ入力文が存在す
る。例えば、旅に関する情報検索における対話では、
「どんな項目が聞けますか？」等のメタ質問や、「東京
にあるゴルフ場を知りたい。」等の非常にグローバルな
質問がある。一方、対話が進むに連れて、詳細な内容に
関わる質問、例えば、「箱根の湯本温泉の電話番号を知
りたい。」とか「群馬県吉井町の温泉の住所は？」とい
った質問が入力されるようになる。このように対話のど
の時点でも入力されうるユーザ入力文を受け付けて音声
認識するための静的な音声認識情報と、対話が進むに連
れて動的に変わっていく入力を受け付けて音声認識する
ための音声認識情報を同時に扱うためには、認識装置の
巨大化や認識性能の低下、制御の複雑化が問題となって
いる。

【０００７】

【課題を解決するための手段】上記課題を解決するため
に、本発明の音声対話型情報検索装置は、音声情報を入
力する入力手段と、音声認識の対象となる語彙を記憶す
る記憶手段と、該記憶手段を参照して前記入力手段より
入力された音声情報の認識を実行する認識手段と、該認
識手段による認識結果を解釈する解釈手段と、該解釈手
段の解釈結果に基づいて、情報を検索する検索手段と、
該検索手段による検索結果に基づいて応答を生成する生
成手段と、該生成手段により生成された応答を出力する
出力手段と、前記解釈手段による解釈結果及び前記検索
手段による検索結果に基づいて、前記記憶手段に記憶さ
れた音声認識の対象となる語彙を更新する更新手段とを
具える。

【０００８】また、本発明の他の態様によれば、音声対
話型情報検索方法に、音声情報を入力する入力工程と、
音声認識の対象となる語彙を記憶する記憶部を参照し
て、前記入力工程において入力された音声情報の認識を
実行する認識工程と、該認識工程による認識結果を解釈
する解釈工程と、該解釈工程の解釈結果に基づいて、情
報を検索する検索工程と、該検索工程による検索結果に
基づいて応答を生成する生成工程と、該生成工程により
生成された応答を出力する出力工程と、前記解釈工程に
よる解釈結果及び前記検索工程による検索結果に基づい
て、前記記憶部に記憶された音声認識の対象となる語彙
を更新する更新工程とを具える。

【０００９】

【作用】上記音声対話型情報検索装置は、音声認識の対
象となる語彙を記憶する記憶手段を参照して、入力手段
より入力された音声情報の認識を認識手段により実行
し、その認識結果を解釈手段により解釈し、その解釈結
果に基づいて、検索手段が情報を検索し、その検索結果
に基づいて生成手段が生成した応答を出力手段が出力す
る。そして前記解釈手段による解釈結果及び前記検索手
段による検索結果に基づいて、前記記憶手段に記憶され
た音声認識の対象となる語彙を、更新手段により更新す
る。

【００１０】また、上記音声対話型情報検索方法は、音
声認識の対象となる語彙を記憶する記憶部を参照して、
入力工程において入力された音声情報の認識を認識工程
により実行し、その認識結果を解釈工程により解釈し、
その解釈結果に基づいて検索工程により情報を検索し、
その検索結果に基づいて生成工程により生成された応答
を出力工程において出力する。そして、前記解釈工程に
よる解釈結果及び前記検索工程による検索結果に基づい
て、前記記憶部に記憶された音声認識の対象となる語彙
を更新工程において更新する。

【００１１】

【実施例】以下、図面を参照して本発明を詳細に説明す
る。

【００１２】図１は、本発明の実施例の音声対話型情報
検索装置のブロック構成を示す図である。同図におい
て、１０１は、マイクより入力された音声をＡ／Ｄ変換
して装置内部に取り込む一方、生成された応答をＤ／Ａ
変換してスピーカより出力する音声入出力部である。ま
た、１０２は、検索結果、対話の流れ、次発話情報など
を文字出力する表示部である。１０３は、データベース
を含み、そのデータベースに格納されている情報を検索
するための情報検索部である。１０４は、対話管理部１
０７で管理される情報や情報検索部１０３で検索された
検索情報より、出力形式の対話応答文を生成する対話応
答生成部である。

【００１３】また、１０５は、認識対象の情報である認
識語彙（読みと表記の対）及び文法を参照して、音声入
出力部１０１より入力された音声の認識を行う音声認識
部である。１０６は、階層辞書であるシソーラス１０８
を含み、それを参照して次発話で用いられると予想され
る認識対象の情報を生成する認識対象生成部である。ま
た、１０７は、音声認識部で認識された情報を解釈し、
情報検索部１０３に検索指示を与え、次発話予測、対話
応答を行う対話管理部である。

【００１４】次に、以上のように構成される音声対話型
情報検索装置の動作を図２のフローチャートを参照して
説明する。

【００１５】まず、ステップＳ２０１では、音声入出力
部１０１よりの音声入力を待ち、音声入力が行われる
と、この入力情報を音声認識部１０５に送る。ステップ
Ｓ２０２では、音声認識部１０５が、認識対象生成部１
０６にて生成された情報を参照して入力情報の音声認識
を行う。そして、ステップＳ２０３で、この認識結果を
対話管理部１０７に送り、ステップＳ２０４にて、対話
管理部１０７が認識結果を解釈して検索条件が整ってい
るかを判定し、整っていれば検索の指示が出され、ステ
ップＳ２０５に進む。そうでなければ、不足情報を得る
ために対話を続ける指示が出されて、ステップＳ２０８
へ進む。

【００１６】ステップＳ２０５では、検索条件が整って
いるので、情報検索部１０３において、データベースよ
り情報を検索する。続いて、ステップＳ２０６で、対話
管理部１０７や情報検索部１０３より出力される情報を
もとに、対話応答生成部１０４が対話の応答を生成す
る。ステップＳ２０７において、生成された応答を音声
入出力部１０１のスピーカより音声出力する、あるいは
表示部１０２に文字出力する。一方、情報検索部１０３
により検索された情報や対話管理部１０７にて管理され
る対話の状況をもとに、ステップＳ２０８では、次発話
に発声されると予測される認識対象の情報（語彙及び文
法）を、認識対象生成部１０６にて生成する。生成され
た認識対象の情報は、音声認識部１０５による次の発話
の認識の際に参照できるように音声認識部１０５内に保
存される。認識対象の情報が生成されたら、ステップＳ
２０１に戻り、再び、次発話の音声入力を待つ。

【００１７】なお、このステップＳ２０８は、ステップ
Ｓ２０６〜２０７の対話応答の生成及び出力と並行して
実行するようにしてもよく、そのようにすれば、待ち時
間を短くすることができる。

【００１８】また、図１の装置各部は、上述の如く動作
する１つまたは複数の専用ハードウエアで構成してもよ
いし、その一部を、ＣＰＵが、メモリに記憶された図２
に対応するプログラムを、メモリ上のワークエリアを利
用しながら実行することで、実現するようにしてもよ
い。

【００１９】図３は、認識対象生成部１０６の詳細構成
を示す図である。図１と同じ部分には、同じ番号を付し
ている。ただし、図１が共通バス形式による装置構成を
示しているのに対し、図３は、装置各部間のデータの流
れを明らかとするように構成されている。

【００２０】前述したように、一般に、対話を自然に行
う時には、対話のどこでも発声できる入力が存在する。
例えば、旅に関する情報検索の対話においては、「どん
な項目が聞けますか？」等のメタ質問や、「東京にある
ゴルフ場を知りたい。」等の非常にグローバルな質問で
ある。図３において、３０４は、このように対話のどこ
でも発声できる入力を受け付け、音声認識するための単
語が保持されている静的単語辞書部である。また、３０
５はそのための文法が保持されている静的文法部であ
る。

【００２１】一方、対話が進むに連れて、詳細な内容に
関わる質問が入力されるようになる。例えば、「箱根の
湯本温泉の電話番号を知りたい。」とか「群馬県吉井町
の温泉の住所は？」が挙げられる。

【００２２】このように対話が進むに連れて動的に変更
する入力を受け付け、音声認識するための動的な単語辞
書として、対話管理部１０７で管理される対話の履歴に
基づいて、次発話予測単語辞書生成部３０６により次回
の発話で使用が予測される単語辞書を生成し、更に、検
索内容単語辞書生成部３０７が、情報検索部１０３で検
索された結果に基づいて、シソーラス１０８を参照して
単語辞書を生成する。なお、検索結果より生成される単
語に読みが付いていない場合は、単語読み付け部３０８
で読みを付加する。また、動的な文法は、生成される単
語辞書の内容に応じて、動的文法部３０９に保持されて
いる文法から、動的文法選択部３１０が選択／生成す
る。以上の動的な単語辞書及び文法に、静的単語辞書部
３０４と静的文法部３０５の情報を加えて、認識対象情
報生成部３１１で認識対象とする全ての情報を生成し、
音声認識部１０５に送る。

【００２３】以下、本実施例においては、シソーラス１
０８に格納される階層化した単語情報を「地名」とした
例について説明する。

【００２４】「地名」は日本国内においても、関東地
方、近畿地方などの「地方名」、東京都、大阪府などの
「都道府県名」、堺市、千代田区、豊能町などの「市区
町村名」といった階層関係を持っている。シソーラス１
０８には、各「地方」に存在する「都道府県名」および
各「都道府県」に存在する「市区町村名」の階層化した
情報が格納されている。

【００２５】図４に地名の認識語彙を動的に変更する処
理の流れを示す。

【００２６】ステップＳ４０１で、静的な認識用の情報
に地名の最上位である「地方名」を保持し、ステップＳ
４０２で、起動時の動的な認識用の情報に次位の「都道
府県名」をすべて保持する。すなわち、起動時の時点で
音声認識可能な「地名」は「地方名」と「都道府県名」
である。この時点でも、「宮城県」と「宮崎県」、「福
島県」と「徳島県」などといった誤認識しやすい地名が
存在する。

【００２７】ステップＳ４０３では、音声認識結果に基
づいて対話管理部１０７で作成された検索条件により情
報検索部１０３で情報検索が行なわれ、ステップＳ４０
４に移る。ステップＳ４０４では、検索条件中の地名が
「地方名」であればステップＳ４０５に移り、「地方
名」でなければステップＳ４０６に移る。ステップＳ４
０５では、シソーラス１０８を参照して、検索結果が存
在する「都道府県名」を動的な認識用の情報の地名語彙
としてステップＳ４０８に移る。

【００２８】ステップＳ４０６では、検索条件中の地名
が「都道府県名」であればステップＳ４０７に移り、
「都道府県名」でなければ、地名語彙は変更せず、ステ
ップＳ４０８に移る。ステップＳ４０７では、現在動的
な認識用の情報として保持している「都道府県名」に加
えて、シソーラス１０８を参照して、検索結果が存在す
る「市区町村名」を動的な認識用の情報の地名語彙とし
てステップＳ４０８に移る。ステップＳ４０８では、検
索結果の件数がある閾値（ここでは、例えば１０件とす
る）以下であれば、ステップＳ４０９に移り、この閾値
より多ければステップＳ４０３に戻る。ステップＳ４０
９では、検索の結果得られた具体的な名称を、動的な認
識用の情報に付け加えてステップＳ４０３に移る。

【００２９】本発明による実施例に基づく対話例を図５
に示し、対話例によって変化する音声認識語彙を図６に
示す。

【００３０】図５中、usr1は、起動時の認識用情報とし
て全都道府県名を地名語彙としているために、「宮城
県」を「宮崎県」と誤認識された例である。このため宮
崎県の温泉が検索される。また、地名が「宮崎県」とい
う都道府県であったため、図６のsys1の動的語彙とし
て、起動時より保持されていた全都道府県名と検索によ
って温泉が存在した市区町村名が保持される。一方、具
体的な温泉名は、件数（１５件）が閾値（１０件）を越
えるので保持しない。

【００３１】そこで、usr2で「東北地方」で検索を行な
うと、地名が「東北地方」という地方名であるので、動
的語彙として「東北地方」の都道府県名が保持される。
またこの場合も検索された件数が多いので温泉名は動的
語彙として保持されない。従って、図６のsys2のよう
に、動的語彙は、東北地方の都道府県名だけに限定され
る。これにより、次の認識では、「宮崎県」が認識語彙
に入らないので、usr3では、「宮城県」を「宮崎県」と
誤認識されることがなくなる。

【００３２】その後、図６のsys3の動的語彙として、sy
s1の動的語彙と同様、全都道府県名及び温泉の存在した
市区町村名が保持される。また、sys4では、地名が「仙
台市」という市区町村名であったので、地名語彙はsys3
のままであり、検索結果が閾値以下であるので、検索さ
れた温泉名が動的語彙に加えられている。

【００３３】以上のごとく、地名のように階層化した構
造を持つ情報群を認識語彙とする場合、対話を通して着
目する階層を変え、認識語彙を変更することによって、
互いに誤認識しやすいような情報群の一方を認識語彙か
ら排除することにより、誤認識を減らすことができる。

【００３４】また、対話が進むに連れて、上位の階層の
情報を認識語彙から除き、下位の階層にある詳細な情報
を認識語彙に取り入れて行くようにすることにより、対
話の各時点における認識語彙数が抑えられ、認識のため
の処理量・処理時間を増大させずに、対話の全体を通じ
て多数の語句を認識することが可能となる。

【００３５】また、このように対話の進行に従い順次切
り替えられる動的な語彙とともに、対話のどの時点にも
現れうる入力文を認識するための語彙が、静的な語彙と
して用意されているので、いかなる時点でも、メタ質問
や非常にグローバルな質問を認識することができる。

【００３６】以上のように本実施例によれば、自然でし
かも使い易い形で、音声入力による情報検索が実現でき
る。

【００３７】〔他の実施例〕上記実施例では、地名の階
層として、「地方名」、「都道府県名」、「市区町村
名」の３階層として説明したが、これに加えて、日本、
アメリカ合衆国などの「国名」、更にはアジア、ヨーロ
ッパなどの「地域名」など、階層を増やしても構わな
い。その場合、図４のステップＳ４０４〜Ｓ７の分岐を
増やすことによって対処できる。

【００３８】また、上記実施例では階層化した単語情報
として「地名」を用いたが、例えば、「会社組織の部署
名」における「本部名」、「部名」、「課名」など、他
の階層化した単語情報を利用しても同様の処理が可能で
ある。

【００３９】

【発明の効果】以上説明したように、本発明によれば、
音声認識のための認識情報を対話に応じて動的に変更す
ることにより、自然で使い易い音声対話型情報検索装置
を実現できるという効果がある。

【図面の簡単な説明】

【図１】本発明による音声対話型情報検索装置の実施例
のブロック構成図である。

【図２】実施例の音声対話型情報検索処理のフローチャ
ートである。

【図３】実施例の認識対象生成部の図である。

【図４】実施例の地名認識語彙の変更処理の流れ図であ
る。

【図５】実施例のユーザとシステムの対話例を示す図で
ある。

【図６】対話例によって変化する音声認識語彙の図であ
る。

【符号の説明】

１０１音声入出力部１０２表示部１０３情報検索部１０４対話応答生成部１０５音声認識部１０６認識対象生成部１０７対話管理部

Claims

【特許請求の範囲】

【請求項１】音声情報を入力する入力手段と、音声認識の対象となる語彙を記憶する記憶手段と、該記憶手段を参照して前記入力手段より入力された音声
情報の認識を実行する認識手段と、該認識手段による認識結果を解釈する解釈手段と、該解釈手段の解釈結果に基づいて、情報を検索する検索
手段と、該検索手段による検索結果に基づいて応答を生成する生
成手段と、該生成手段により生成された応答を出力する出力手段
と、前記解釈手段による解釈結果及び前記検索手段による検
索結果に基づいて、前記記憶手段に記憶された音声認識
の対象となる語彙を更新する更新手段とを具えたことを
特徴とする音声対話型情報検索装置。
【請求項２】前記記憶手段は、前記更新手段の更新対
象となる動的な語彙と、前記更新手段の更新対象外とな
る静的な語彙とを記憶することを特徴とする請求項１記
載の音声対話情報検索装置。
【請求項３】前記更新手段は、語彙を当該語彙間の階
層関係とともに記憶する辞書を有し、当該語彙及び階層
関係を参照して、前記記憶手段に記憶された語彙を更新
することを特徴とする請求項１記載の音声対話情報検索
装置。
【請求項４】音声情報を入力する入力工程と、音声認識の対象となる語彙を記憶する記憶部を参照し
て、前記入力工程において入力された音声情報の認識を
実行する認識工程と、該認識工程による認識結果を解釈する解釈工程と、該解釈工程の解釈結果に基づいて、情報を検索する検索
工程と、該検索工程による検索結果に基づいて応答を生成する生
成工程と、該生成工程により生成された応答を出力する出力工程
と、前記解釈工程による解釈結果及び前記検索工程による検
索結果に基づいて、前記記憶部に記憶された音声認識の
対象となる語彙を更新する更新工程とを具えたことを特
徴とする音声対話型情報検索方法。
【請求項５】前記記憶部に、前記更新工程の更新対象
となる動的な語彙と、前記更新工程の更新対象外となる
静的な語彙とを記憶させることを特徴とする請求項４記
載の音声対話情報検索方法。
【請求項６】前記更新工程では、語彙を当該語彙間の
階層関係とともに記憶する辞書に記述された当該語彙及
び階層関係を参照して、前記記憶部に記憶された語彙を
更新することを特徴とする請求項４記載の音声対話情報
検索方法。