JP2000276482A

JP2000276482A - 文書検索装置及び文書検索方法

Info

Publication number: JP2000276482A
Application number: JP11081120A
Authority: JP
Inventors: Takao Fukushige; 貴雄福重; Hiroyuki Suzuki; 浩之鈴木; Naohiko Noguchi; 直彦野口; Kai Itou; 快伊藤; Mitsuhiro Sato; 光弘佐藤
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-03-25
Filing date: 1999-03-25
Publication date: 2000-10-06
Also published as: US6622122B1; EP1039395A2; EP1039395A3

Abstract

(57)【要約】【課題】文認識の精度によらずに有効な文書検索が行
なえ、必要となる言語データを収集するためのコストを
低くする音声による文書検索装置を提供する。【解決手段】本発明の文書検索装置は、音から文字パ
ターンを生成する音声入力部１０１と、尤度情報を格納
する言語モデル格納部１０２と、尤度情報に基づいて語
抽出結果を抽出する語抽出部１０３と、語抽出結果に基
づいて検索条件を生成する検索条件生成部１０６と、文
書を格納する文書格納部１０７と、検索条件に基づいて
文書を検索する文書検索部１０８と、を備える。これに
より、文認識の精度によらずに有効な文書検索が行な
え、必要となる言語データを収集するためのコストを低
くする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声などによる文
書検索装置及び文書検索方法に関する。特には、音声な
どによる文書検索において文認識の精度に影響されず有
効な文書検索が行える文書検索装置及び文書検索方法に
関する。

【０００２】

【従来の技術】従来から、音声による文書検索装置及び
文書検索方法の代表的なものとして、音声認識と全文検
索を組み合わせた文書検索装置及び文書検索方法があ
る。

【０００３】図４３は、従来の音声による文書検索装置
を示す図である。図４３において、従来の文書検索装置
は、ユーザの発話などの音声を電気信号に変換して入力
する音声入力部４３０１と、音声入力部４３０１により
電気信号に変換された音声を文として認識する文認識部
４３０２と、文認識部４３０２により認識された文に基
づいて文書を検索するための検索条件を生成する検索条
件生成部４３０３と、検索対象となる文書を格納した文
書格納部４３０４と、検索条件生成部４３０３により生
成された検索条件に基づいて文書格納部４３０４に格納
された文書を検索する文書検索部４３０５と、文書検索
部４３０５による文書検索の結果を提示する情報出力部
４３０６とを、備える。

【０００４】図４４は、上述した従来の文書検索装置に
おける文書検索の処理を示すフローチャートである。図
４４において、まず、音声入力部４３０１は、ユーザの
発話などの音声を電気信号に変換する（ステップ４４０
１）。

【０００５】次に、文認識部４３０２は、音声入力部４
３０１で音声から変換された電気信号を文字パターン信
号として捕らえ文として認識する（ステップ４４０
２）。

【０００６】検索条件生成部４３０３は、文認識部４３
０２で認識された文に基づいて、文書を検索するための
検索条件を生成する（ステップ４４０３）。

【０００７】文書検索部４３０５は、検索条件生成部４
３０３で生成された検索条件に基づいて、文書格納部４
３０４に格納されている対象文書を検索する（ステップ
４４０４）。

【０００８】この文書検索部４３０５での検索結果は、
情報出力部４３０６により、ユーザなどの外部に提示す
る（ステップ４４０５）。

【０００９】このように、従来の文書検索装置及び文書
検索方法によれば、音声を文として認識し、この認識し
た文から生成した検索条件に基づいて検索対象の文書を
検索することによって、音声によって文書を検索してい
た。

【００１０】

【発明が解決しようとする課題】しかしながら、従来の
文書検索装置及び文書検索方法によれば、音声の認識に
おいて、一般的に、発話の不確実さ、音声入力装置の性
能、騒音や雑音の混入などの入力環境によって、音声か
ら変換された電気信号を文字として認識する際に、本来
の音声に含まれる語（文字）ではなくこれらの語に類似
する語が出現することがあった。

【００１１】このため、従来の文書検索装置及び文書検
索方法による音声認識においては、入力された発話など
の音声から文を認識しようとするときに、本来の音声に
含まれる語以外の語（誤った語）がその文を構成する語
の候補として混入することがある。さらに、それら誤っ
た語の抽出尤度が、本来の音声に含まれている語（正し
い語）の抽出尤度よりも高くなることもあった。

【００１２】図４５は、従来の文書検索装置及び文書検
索方法による音声認識を示す図である。図４５におい
て、「山陰へ旅行したいのですが」が発話（音声）とし
て音声入力部４３０１に入力され、音声入力部４３０１
が、この音声を音素列「ｓａｎｎｉｎｄｅｒｙｏｋｏｏ
ｓｈｉｔａｉｉｎｄｅｓｕｇａ」によって表現されるよ
うな電気信号として変換した時、「三人」／「山陰」、
「で」、「旅行」、「した」、「医院」、「ですが」
が、文を構成する語の候補として認識される。このと
き、一般に、「山陰」は「三人」に比べて尤度が低く検
出されている（図４５においては、尤度の高いものほど
上にくるように示されている）。

【００１３】ここで、従来の音声による文書検索装置及
び文書検索方法においては、文認識の処理において、
「発話（音声）を一つの文として認識する」という基準
にしたがって、文書を構成する語の認識結果を一つに限
定してしまうため、実際に発話された語「山陰」が、た
とえ一定の尤度で含まれることが推定できるような場合
であっても、認識結果を一つに絞る仮定において上述の
ように棄却されてしまうという問題があった。

【００１４】図４５に示した例の場合では、実際に音声
に含まれている語「山陰」は、一般に語「三人」に比べ
て尤度が低いので、文認識の結果の文字列「三人で旅行
した医院ですが」に含まれないことになる。したがっ
て、検索条件生成部４３０３で生成される（ステップ４
４０３）検索条件に、「山陰」が含まれず「三人」や
「医院」などが含まれることになってしまう。このた
め、文書検索部４３０５による文書検索（ステップ４４
０４）において、音声によって検索したい文書とは異な
った文書が検索されてしまう。

【００１５】このように、従来の文書検索装置及び文書
検索方法においては、文認識結果に実際に発話された語
が含まれない場合が生じるため、間違った検索条件が生
成され、有効な文書検索結果が得られないという問題が
あった。

【００１６】また、従来の発話などの音声による文書検
索装置及び文書検索方法においては、文認識用の言語デ
ータを参照して文認識を行う場合に、自然言語の一般的
な文の認識を高精度で行うためには、通常使用される多
様な語彙や文形に関する一般的な言語データを大量に用
意する必要があり、必要な言語データの収集に膨大なコ
ストがかかるという問題もあった。

【００１７】したがって、本発明の目的は、発話などの
音声による文書検索において、文認識の精度に影響され
ず、有効な文書検索が行なえるような文書検索装置及び
文書検索方法を提供することである。

【００１８】また、本発明の他の目的は、発話などの音
声による文書検索において、必要となる言語データを収
集するためのコストが低くて済む文書検索装置及び文書
検索方法を提供することである。

【００１９】

【課題を解決するための手段】上記課題を解決するため
に、本発明の第１の態様の文書検索装置は、音声などの
音に基づいて文書の検索を行なう文書検索装置であっ
て、音を電気信号に変換して文字パターンデータを生成
する音声入力手段と、音声入力手段で生成される文字パ
ターンデータから認識される語の尤度を決定する尤度情
報を格納する言語モデル格納手段と、言語モデル格納手
段に格納された尤度情報に基づいて、音声入力手段から
出力される文字パターンデータに含まれると推定される
語を語抽出結果として抽出する語抽出手段と、語抽出手
段で抽出される語抽出結果に基づいて、文書を検索する
ための検索条件を生成する検索条件生成手段と、検索対
象となる文書を格納する文書格納手段と、検索条件生成
手段によって生成される検索条件に基づいて、文書格納
手段に格納されている文書を検索する文書検索手段と、
を備えることを特徴とする。

【００２０】また、上記課題を解決するために、本発明
の第１の態様の文書検索方法は、音声などの音に基づい
て文書の検索を行なう文書検索方法であって、音を電気
信号に変換して文字パターンデータを生成し、文字パタ
ーンデータから認識される語の尤度を決定する尤度情報
に基づいて、前記文字パターンデータに含まれると推定
される語を語抽出結果として抽出し、語抽出結果に基づ
いて、文書を検索するための検索条件を生成し、検索条
件に基づいて、文書を検索する、ことを特徴とする。

【００２１】上述した本発明の第１の態様の文書検索装
置及び文書検索方法によれば、一定の尤度以上でユーザ
の発話に含まれると推定される語を抽出するので、本来
発話された語が、一定の尤度で含まれることが推定でき
るのなら、文認識を行なった場合、認識結果を一つに絞
る仮定において棄却されてしまうような場合でも、語認
識結果には、含まれることになる。したがって、発話な
どの音声による文書検索において、文認識の精度に影響
されず、有効な文書検索が行なえる。また、ユーザの発
話の発話中のすべての語を抽出する必要はなく、検索の
目的や検索対象となる文書集合に応じて、最小限の言語
モデルを構成すればよいので、言語データの収集コスト
も低くすることができる。

【００２２】また、上述した文書検索装置において、文
書検索手段で生成される検索結果を出力する情報出力手
段を備えることもできる。

【００２３】これにより、検索結果をオペレータに提示
することができ、また、該検索結果をオペレータの指示
にしたがって編集し、その編集結果をクライアント及び
オペレータに検索結果として提示することができるの
で、精度の高い文書検索を行うことができる。

【００２４】また、上記課題を解決するための、本発明
の第２の態様の文書検索装置は、音声などの音に基づい
て文書の検索を行なう文書検索装置であって、第１の音
を電気信号に変換して第１の文字パターンデータを生成
する第１の音声入力手段と、第１の音声入力手段で生成
される第１の文字パターンデータから認識される語の尤
度を決定する尤度情報を格納する第１の言語モデル格納
手段と、第１の言語モデル格納手段に格納された尤度情
報に基づいて、第１の音声入力手段から出力される第１
の文字パターンデータに含まれると推定される語を第１
の語抽出結果として抽出する第１の語抽出手段と、第２
の音を電気信号に変換して第２の文字パターンデータを
生成する第２の音声入力手段と、第２の音声入力手段で
生成される第２の文字パターンデータから認識される語
の尤度を決定する尤度情報を格納する第２の言語モデル
格納手段と、第２の言語モデル格納手段に格納された尤
度情報に基づいて、第２の音声入力手段から出力される
第２の文字パターンデータに含まれると推定される語を
第２の語抽出結果として抽出する第２の語抽出手段と、
第１の語抽出手段で抽出される第１の語抽出結果と、第
２の語抽出手段で抽出される第２の語抽出結果とを比較
して新たな抽出語を生成する語抽出結果比較手段と、語
抽出結果比較手段によって生成される新たな語抽出結果
に基づいて、文書を検索するための検索条件を生成する
検索条件生成手段と、検索対象となる文書を格納する文
書格納手段と、検索条件生成手段によって生成される検
索条件に基づいて、文書格納手段に格納されている文書
を検索する文書検索手段と、を備えることを特徴とす
る。

【００２５】また、上記課題を解決するために、本発明
の第２の態様の文書検索方法は、音声などの音に基づい
て文書の検索を行なう文書検索方法であって、第１の音
を電気信号に変換して第１の文字パターンデータを生成
し、第１の文字パターンデータから認識される語の尤度
を決定する尤度情報に基づいて、第１の文字パターンデ
ータに含まれると推定される語を第１の語抽出結果とし
て抽出し、第２の音を電気信号に変換して第２の文字パ
ターンデータを生成し、第２の文字パターンデータから
認識される語の尤度を決定する尤度情報に基づいて、第
２の文字パターンデータに含まれると推定される語を第
２の語抽出結果として抽出し、第１の語抽出結果と第２
の語抽出結果とを比較して新たな語抽出結果を生成し、
新たな語抽出結果に基づいて、文書を検索するための検
索条件を生成し、検索条件に基づいて、文書を検索す
る、ことを特徴とする。

【００２６】このように、対応する２つの発話からの語
抽出結果を比較し、その結果を検索条件の生成に利用す
ることにより、対応する２つの発話で協調して、文書検
索を行なう場合に、より効果的な文書検索を行なうこと
が可能になる。

【００２７】たとえば、語抽出結果の比較において、第
２の発話からの語抽出結果に含まれる語について、第１
の発話からの語抽出結果に含まれる語よりも比較結果に
おける尤度を高め、第１の発話からの語抽出結果と、第
２の発話からの語抽出結果の両方に含まれる語に関して
は、比較結果における尤度をさらに高め、第１の発話か
らの語抽出結果には含まれるが、第２の発話からの語抽
出結果には含まれないような語に関しては、比較結果に
おける尤度を低くするようにすることにより、第２の発
話が、第１の発話による文書検索を支援するために、第
１の発話中に含まれる重要な語を繰り返したり、足りな
い語を補完したりして、第１の発話を適切に言い直して
発話するような場面においては、第１の発話のみからの
語抽出結果に比べて、検索条件の生成に、より適切な語
抽出結果が使用されるので、より効果的な文書検索を行
なうことが可能になる。

【００２８】さらに、上述した文書検索装置において、
文書検索手段で生成される検索結果を、第１の音の発生
源と第２の音の発生源のそれぞれに対して、異なる編集
によって出力する情報出力手段を備えることもできる。

【００２９】これにより、検索結果を、第１の発話と第
２の発話に対して、異なる方法で編集して提示し、それ
ぞれのユーザに応じた形で結果を提示することができ
る。

【００３０】特に、第１の発話による文書検索を第２の
発話で支援するような場合には、第２の発話のユーザに
対しては、すべての検索結果を提示し、第１の発話のユ
ーザに対しては、検索結果のうちから、第２の発話のユ
ーザが有効と判断したもののみを提示するようにするこ
とにより、第１の発話のユーザが、より有効な検索結果
を受けとることが可能になる。

【００３１】また、上述した文書検索装置において、検
索条件生成手段は、語抽出結果比較手段によって生成さ
れる新たな語抽出結果、第１の語抽出手段によって抽出
される第１の語抽出結果、または第２の語抽出手段によ
って抽出される第２の語抽出結果に基づいて、文書を検
索するための検索条件を生成することもできる。

【００３２】これにより、使用環境に応じて適切な語抽
出結果を用いることができるので、効率良く文書検索を
行うことができる。

【００３３】また、上述した第１の態様の文書検索装置
において、語抽出手段によって抽出される語抽出結果に
対して、内部状態に応じて付加的な情報を生成し、当該
内部状態を更新する付加的情報管理手段を備え、検索条
件生成手段は、語抽出結果及び付加的情報管理手段によ
って生成された付加的な情報に基づいて、検索条件を生
成することもできる。

【００３４】上述の付加的情報管理手段は、付加的な情
報に基づいて言語モデル格納手段に格納されている尤度
情報を更新することもできる。

【００３５】また、上述した第２の態様の文書検索装置
において、語抽出結果比較手段によって生成される新た
な語抽出結果に対して、内部状態に応じて付加的な情報
を生成し、当該内部状態を更新する付加的情報管理手段
を備え、検索条件生成手段は、新たな語抽出結果及び前
記付加的情報管理手段によって生成された付加的な情報
に基づいて、検索条件を生成することもできる。

【００３６】上述の付加的情報管理手段は、付加的な情
報に基づいて言語モデル格納手段に格納されている尤度
情報を更新することもできる。

【００３７】ここで、特定の語が発話中に現れる尤度
は、その発話のおかれた文脈により変化するので、一連
の発話により形成される文脈的な制約を、語抽出におい
て参照する情報に反映させることにより、語抽出の精度
を高めることができる。したがって、上述の付加的情報
管理手段により、ユーザからの発話による文書検索が繰
り返される場合に、ユーザの各発話からの語抽出結果
が、内部状態に反映され、さらに語抽出で参照される言
語モデル内の情報にも反映されるので、ユーザの一連の
発話により形成される文脈的な制約を語抽出に反映させ
て、語抽出の精度を高めることができ、発話などの音声
による文書検索において、さらに有効な文書検索が行な
える。

【００３８】また、上述した第１の態様の文書検索装置
において、所定の単語の間に成立する関係に関する単語
間関係情報を格納する単語間関係情報格納手段を備え、
付加的情報管理手段は、単語間関係情報格納手段に格納
されている単語間関係情報と付加的情報管理手段の内部
状態に基づいて、語抽出手段によって抽出された語抽出
結果に対して付加的情報を生成して内部状態を更新する
こともできる。

【００３９】また、上述した第２の態様の文書検索装置
において、所定の単語の間に成立する関係に関する単語
間関係情報を格納する単語間関係情報格納手段を備え、
付加的情報管理手段は、単語間関係情報格納手段に格納
されている単語間関係情報と付加的情報管理手段の内部
状態に基づいて、語抽出結果比較手段によって生成され
る新たな語抽出結果に対して付加的情報を生成して内部
状態を更新することもできる。

【００４０】ここで、特定の二つの語が同じ発話や文書
中に現れる尤度、すなわち共起のしやすさは、それらの
語の間にどのような関係が存在するかにより異なる。し
たがって、単語間関係情報格納手段を備えることによ
り、検索条件生成時には、語抽出結果とともに、内部状
態に加えて特定の単語の間に成立する関係に関する情報
も参照し、語抽出結果に対して生成した付加的情報を用
いて検索条件を生成できるので、抽出されている他の語
と共起しにくい語については、抽出誤りとして検索条件
に含めない、などとすることにより語抽出において抽出
誤りがあった場合でも、検索条件生成時に誤りを排除し
てさらに有効な検索を行なえる。

【００４１】さらに、単語間の関係を参照した結果、語
抽出結果に含まれない語について、抽出されている語と
一定の関係にあり、共起しやすいことがわかれば、文書
検索結果に、後者の語が含まれるように検索条件を生成
する、あるいは、後者の語を含む文書の結果中の順位を
上げるように検索条件を生成する、などとすることによ
って、さらに有効な検索を行なえる。逆に、単語間の関
係を参照した結果、語抽出結果に含まれる特定の語に対
して、語抽出結果に含まれない特定の語が、共起しにく
いことが得られた場合、文書検索結果に、後者の語が含
まれないように検索条件を生成する、あるいは、後者の
語を含む文書の結果中の順位を下げるように検索条件を
生成する、などとすることによっても、さらに有効な検
索を行なえる。

【００４２】また、上述した文書検索装置において、文
書検索手段で生成される検索結果の文書群から、当該文
書群に関連する語の情報を関連語情報として抽出する関
連語情報抽出手段を備え、付加的情報管理手段は、関連
語情報抽出手段で抽出される関連語情報に基づいて、付
加的情報管理手段の内部状態を更新することもできる。

【００４３】これにより、ユーザの発話からの語抽出結
果から検索条件を生成する時に、特定の語の間の共起の
しやすさを利用することにより、検索をより有効なもの
にすることができる。また、文書検索においては、検索
された結果の文書群から特徴的な語を抽出し、抽出され
た語を用いて検索条件を修正して再検索することによっ
て検索の精度を高めたり、関連文書の検索を容易にした
りすることができる。

【００４４】また、上述した文書検索装置において、付
加的情報管理手段は、関連語情報抽出手段で抽出される
関連語情報と、単語間関係情報格納手段に格納されてい
る単語間関係情報とに基づいて、付加的情報管理手段の
内部状態を更新することもできる。

【００４５】上述の文書検索装置においては、ユーザの
発話に基づいて検索された結果の文書群から抽出された
特徴的な語について、ユーザの発話から抽出された語
と、特徴的な共起のし易さを持つ、として付加的情報を
生成するための内部状態に反映させることにより、ユー
ザの後続する発話に基づく検索における検索条件の生成
において利用するものであり、これにより、あらかじめ
特定の単語間に成立する関係に関する知識を用意するこ
となく、文書検索においては、検索された結果の文書群
から特徴的な語を抽出し、抽出された語を用いて検索条
件を修正して再検索することによって検索の精度を高め
たり、関連文書の検索を容易にしたりすることができ
る。

【００４６】また、特定の語との共起のし易さを、検索
された文書から抽出することにより、例えば、特定の分
野やテーマに関連した場合にのみ成立するような共起の
し易さや、最新の固有名詞などとの共起のし易さに関す
る情報についても利用することができるので、検索をよ
り有効なものにすることができる。

【００４７】さらに、ユーザからの発話による文書検索
が繰り返される場合に、ユーザの各発話からの語抽出結
果が、内部状態に反映されて保持され、次の発話による
語抽出結果からの検索条件の生成にも反映されるため、
ユーザの一連の発話により形成される文脈的な制約を検
索に反映させて、検索の精度を高めることも可能にな
る。

【００４８】

【発明の実施の形態】以下、本発明の実施の形態につい
て、図１から図４２を用いて説明する。

【００４９】＜第１の実施の形態＞図１は、本発明の文
書検索装置の実施の形態の一例を示した図である。図１
において、この文書検索装置は、オペレータの発話など
の音声を電気信号パターンに変換する音声入力部１０１
と、音声入力部１０１によって電気信号パターンに変換
された音声中に特定の語が含まれる尤度を計算するため
の情報を格納した言語モデル格納部１０２と、言語モデ
ル格納部１０２に格納された情報を参照し、音声入力部
１０１から出力されたオペレータの音声に対応する電気
信号を解析し、一定の尤度以上でオペレータの発話中に
含まれると推定される特定の語を抽出する語抽出部１０
３と、特定の単語の間に成立する関係に関する情報を格
納する単語間関係情報格納部１０４と、語抽出部１０３
から得られる語抽出結果に対して内部状態に応じて付加
的な情報を生成して内部状態を更新し、さらに言語モデ
ル格納部１０２に格納されている情報に対して付加的な
情報に基づいて変更を加える付加的情報管理部１０５
と、語抽出部１０３によって生成される語抽出結果と付
加的情報管理部１０５によって生成された付加的情報を
参照して文書検索のための検索条件を生成する検索条件
生成部１０６と、検索対象となる文書を格納する文書格
納部１０７と、検索条件生成部１０６によって生成され
る検索条件にしたがって文書格納部１０７中に格納され
ている文書を検索する文書検索部１０８と、文書検索部
１０８による検索結果の文書群から、関連語情報として
同文書群に特徴的な語に関する情報を抽出する関連語情
報抽出部１０９と、文書検索部１０８で取得された検索
結果の文書群に関する情報及び関連語情報抽出部１０９
で取得された検索結果の文書群に特徴的な語に関する情
報をオペレータに検索結果として提示し、該検索結果を
オペレータの指示にしたがって編集し、その編集結果を
クライアント及びオペレータに検索結果として提示する
情報出力部１１０と、を備えている。

【００５０】ここで、付加的情報管理部１０５は、関連
語情報抽出部１０９によって抽出された関連語情報と、
単語間関係情報格納部１０４に格納されている特定の単
語間に成立する関係に関する情報とに基づいて内部状態
を更新する。

【００５１】以下、図２〜図５を用いて、本実施の形態
の文書検索装置の各部の内部構成を説明する。

【００５２】図２は、言語モデル格納部１０２の構成を
示した図である。同図において、言語モデル格納部１０
２は、電気信号を音素の列に変換するための情報を格納
した音素辞書部２０２と、抽出する単語と音素列との対
応情報を格納する単語辞書部２０３と、抽出結果におい
て優先する単語の集合を格納する注目語保持部２０４、
とを備える。なお、処理の初期状態において、注目語保
持部２０４は、データを持たない空の状態となってい
る。

【００５３】図３は、単語間関係情報格納部１０４に含
まれるデータの一例を示した図である。図３に示すよう
に、本実施の形態においては、単語間関係情報格納部１
０４には、各単語（語）に対して、同単語と高頻度で共
起する語（高頻度共起語）に関する情報が格納されてい
る。

【００５４】図４は、付加的情報管理部１０５の構成を
示した図である。図４において、付加的情報管理部１０
５は、語抽出部１０３が生成した結果を受けとって保持
する語抽出結果保持部４０１と、単語間関係情報格納部
１０４に格納された高頻度共起語に関する情報を取得し
て保持する高頻度共起語保持部４０２と、後述する関連
語情報抽出部１０９によって抽出される検索結果の文書
群に対して関連の高い語に関する情報を格納する検索結
果高関連語保持部４０３と、関連語情報抽出部１０９に
よって抽出される検索結果の文書群に対して関連の低い
語に関する情報を格納する低関連語保持部４０５と、後
述するアルゴリズムで生成する注目語の集合を保持する
注目語保持部４０４と、を備える。

【００５５】図５は、検索条件生成部１０６の構成を示
した図であり、同図において、検索条件生成部１０６
は、後述するアルゴリズムにより生成される検索条件構
成語を保持する検索条件構成語保持部５０１と、語抽出
部１０３により生成された語抽出結果と付加的情報管理
部１０５から取得する検索結果高関連語とを追加検索語
として保持する追加検索御保持部５０２と、付加的情報
管理部１０５から取得する低関連語を削除語として保持
する削除語保持部５０３と、検索条件構成語保持部５０
１の内容にしたがって検索条件を合成する検索条件合成
部５０４と、を備える。

【００５６】図６は、クライアントとオペレータの対話
を示す図である。以下、図７〜図２２によって、クライ
アントとオペレータの対話による文書検索例の処理を説
明する。ここで、オペレータの目的は、クライアントと
の対話を通じて、クライアントの興味にあった旅行情報
や観光情報を提供することとし、文書格納部１０７に
は、各種旅行情報や観光情報に関する文書が格納されて
いるとする。また、オペレータとしては、特定の話者を
仮定しており、クライアントとしては、不特定の話者を
仮定しているとする。ここで、音声入力部１０１、言語
モデル格納部１０２、及び語抽出部１０３は、特定のオ
ペレータの発話の特性に合わせて最適化されているとす
る。そのため、オペレータの発話からの語抽出の精度は
高くなる。

【００５７】図７は、本実施の形態の文書検索装置の処
理の全体の流れを示したフローチャートである。まず、
クライアントの発話「山陰へ旅行したいんですが」に応
答するオペレータの発話６０２「山陰へご旅行ですね
？」の処理について説明する。図７のステップ７０１に
おいて、音声入力部１０１が、オペレータの発話を電気
信号に変換して語抽出部１０３に渡す。そして、語抽出
部１０３が、渡された電気信号から言語モデル格納部１
０２に格納された情報に基づいて、語抽出を行なう（ス
テップ７０１）。

【００５８】図８は、語抽出部１０３による語抽出の流
れを示したフローチャートである。また、図９は、各処
理での結果を概念的に示す図である。

【００５９】図８において、まず、言語モデル格納部１
０２の音素辞書部２０２の情報を参照して発話６０２
（図９）の電気信号から対応する音素列９０２（図９）
を生成する（ステップ８０１）。

【００６０】次に、言語モデル格納部１０２中の単語辞
書部２０３の情報を参照し、ステップ８０１で生成した
音素列（９０２）中に一定のしきい値以上の尤度で含ま
れる可能性のある単語の集合（語抽出結果）９０３（図
９）を単純マッチにより求める（ステップ８０２）。こ
の単純マッチでは、マッチ（一致）の度合の高いものほ
ど、高い尤度を付与する。また、抽出された語が、電気
信号のどの区間に対応するかについての情報も結果９０
３に付与する。

【００６１】ここで、図９において、ステップ８０２で
の語抽出の結果９０３として、「山陰」「旅行」「三
人」が得られている。そして、「山陰」と「三人」は、
区間が重複する候補であり、「山陰」の尤度の方が高く
抽出されている。

【００６２】次に、ステップ８０２の結果が空なら、語
抽出を終了する（ステップ８０３）。

【００６３】ステップ８０２の結果が空でない場合（ス
テップ８０３）、語抽出結果の最初の語「山陰」を「現
在の語」として登録する（ステップ８０４）。

【００６４】次に、その登録された「現在の語」が、注
目語保持部２０４に含まれる注目語９０４（図９）であ
るかどうかを判断する（ステップ８０５）。

【００６５】ステップ８０５で、「現在の語」が、注目
語保持部２０４に含まれる注目語９０４と判断した場合
には、文中でその「現在の語」と重複する区間を持つ語
のうち注目語９０４でない語を結果から除く（ステップ
８０６）。

【００６６】ステップ８０５で、「現在の語」が注目語
保持部２０４に含まれる注目語９０４ではないと判断し
た場合またはステップ８０６の処理が終了したら、語抽
出結果９０３に次の語があるかどうかを判断し（ステッ
プ８０７）、次の語があればそれを「現在の語」として
登録する（ステップ８０８）。

【００６７】以下、語抽出結果の全ての語に対してステ
ップ８０５〜８０８の処理を繰り返す。

【００６８】以上のステップ８０４〜ステップ８０８の
処理により、ステップ８０２の結果９０３に含まれる各
語に対して、その語が注目語保持部２０４に含まれる注
目語９０４なら、その語と重複する区間を持つ語のうち
注目語９０４でない語が結果から除かれ、調整後の語抽
出結果９０５（図９）が生成される。

【００６９】図９において、上述の例では注目語保持部
２０４に含まれる注目語９０４は空であるため、ステッ
プ８０２の語抽出結果９０３に含まれる全ての語が調整
後の語抽出結果９０５となる。ここで、語抽出結果９０
３、９０５において、語の候補は、対応する発話区間に
したがって、左から右に示されている。また、同一の発
話区間の縦方向では、尤度の高いものが上に来るように
示されている。この語抽出結果９０３、９０５の場合、
語抽出の結果として、「山陰」／「三人」、「旅行」が
得られており、「山陰」と「三人」は、区間が重複する
候補であり、「山陰」の方が尤度が高く抽出されてい
る。

【００７０】図７に戻って、ステップ７０１で得られた
語抽出結果９０５に対して、付加的情報管理部１０５
は、単語間関係情報格納部１０４を参照して、高頻度共
起語を取得する（ステップ７０２）。

【００７１】図１０は、ステップ７０２の処理の後の、
付加的情報管理部１０５の状態を概念的に示す図であ
る。ステップ７０２において、単語間関係情報格納部１
０４には、図３で示すような内容が格納されているの
で、ステップ７０１で得られた「山陰」に対して、「鳥
取砂丘」、「出雲大社」、及び「宍道湖」が、高頻度共
起語１００３として取得される。また、ステップ７０１
で得られた「旅行」に対して、「宿泊」及び「ツアー」
が、高頻度共起語１００３として取得される。そして、
ステップ７０１で抽出された語（語抽出結果）９０５
に、ステップ７０２で取得された高頻度共起語１００３
を加えたものが、「注目語９０４」として、注目語保持
部４０４に加えられる。なお、今の段階では、まだ文書
の検索は行なわれていないので、検索結果高関連語保持
部４０３及び低関連語保持部４０５は、データがなく空
の状態である。

【００７２】図７に戻って、ステップ７０２に続いて、
検索条件生成部１０６が検索条件を生成する（ステップ
７０３）。

【００７３】図１１は、検索条件生成の処理の流れを示
すフローチャートである。また、図１２は、検索条件生
成部１０６の状態を概念的に示す図である。

【００７４】まず、検索条件生成部１０６は、追加検索
語保持部５０２（図５）内の追加検索語の集合１２０２
（図１２）を空にする（ステップ１１０１）。

【００７５】続いて、ステップ７０２で得られた語抽出
結果９０５（図９）を追加検索語の集合１２０２に加え
追加検索語保持部５０２に保持する（ステップ１１０
２）。上述の例では、追加検索語の集合１２０２に「山
陰」、「旅行」、「三人」が加えられる。

【００７６】続いて、付加的情報管理部１０５の検索結
果高関連語保持部４０３（図４）に保持されている前回
の検索結果に対する高関連語１００１（図１０）を追加
検索語保持部５０２の追加検索語の集合１２０２に加え
る（ステップ１１０３）。上述の例では、まだ文書の検
索は行なわれていないので何も加えられない。

【００７７】続いて、付加的情報管理部１０５の低関連
語保持部４０５に保持されている低関連語１００２（図
１０）を削除語１２０３（図１２）とする（ステップ１
１０４）。上述の例では、まだ文書の検索は行なわれて
いないので削除語１２０３は空となる。

【００７８】続いて、検索条件構成語保持部５０１に保
持されてる前回までの検索条件構成語の集合１２０１
（図１２）に、追加検索語保持部５０２に保持されてい
る追加検索語の集合１２０２を加え、新しい検索条件構
成語の集合１２０４（図１２）を生成する（ステップ１
１０５）。上述の例の場合には、最初に検索条件構成語
保持部５０１に保持されている検索条件構成語の集合が
空なので、ステップ１１０５で追加された追加検索語１
２０２がそのまま新しい検索条件構成語１２０４とな
る。

【００７９】次に、検索条件構成語保持部５０１に保持
されている検索条件構成語の集合１２０４から削除語保
持部５０３に保持されている削除語１２０３を除く（ス
テップ１１０６）。上述の例の場合には、削除語１２０
３は空なので検索条件構成語の集合１２０４からはなに
も除かれない。

【００８０】続いて、以上のステップで得られた検索条
件構成語をすべて「ＯＲ（論理和）」結合して、検索条
件１２０５（図１２）を生成する（ステップ１１０
７）。したがって、上述の例の場合には、「山陰」、
「旅行」、及び「三人」を「ＯＲ」結合したものが、検
索条件１２０５となる。

【００８１】図７に戻って、ステップ１１０６で得られ
た検索条件１２０５に基づいて、文書検索部１０８が、
文書格納部１０７に格納されている文書を検索する（ス
テップ７０４）。ここで、文書検索部１０８による検索
については、全文検索などのを用いればよい。

【００８２】続いて、関連語情報抽出部１０９が、ステ
ップ７０４で得られた文書検索結果に対する関連語を抽
出する（ステップ７０５）。

【００８３】図１３は、関連語抽出の処理の流れを示し
たフローチャートである。また、図１４は、検索結果及
び関連語抽出結果を示す図である。

【００８４】まず、検索結果の文書群１４０１（図１
４）に現れる語のうち、関連度が一定のしきい値よりも
高いものを、高関連語１４０２（図１４）として抽出す
る（ステップ１３０１）。ここで、文書群１４０１と、
語の関連度については、例えば、以下の式で、算出する
ことができる。ただし、Ｗ：語Ｓ（Ｗ）：語Ｗの関連度Ｃ：定数ｎ：特定された文書集合に含まれる文書Ｄの
数ＴＦｊ（Ｗ）：文書Ｄｊにおける語Ｗの出現頻度ＦＮ（Ｗ）：特定された文書集合の中で語Ｗを含む文
書Ｄの数ＩＤＦ（Ｗ）：語Ｗのｉｄｆ値

【００８５】ここで、ＩＤＦ（Ｗ）は、以下の式で算出
することができる。ＩＤＦ（Ｗ）＝１−ｌｏｇ｛ＤＦ（Ｗ）／Ｎ｝ただし、ＤＦ（Ｗ）：全ての文書で語Ｗが出現する文書数Ｎ：全ての文書の数

【００８６】上述の式「ＩＤＦ（Ｗ）」で求められる所
定の語Ｗのｉｄｆ値は、語Ｗがより多くの文書に出現す
る一般的な語の場合ほど小さくなる。したがって、対象
文書全体において比較的よく出現する一般的な語の重要
度（関連度）を低くすることができる。一方、ＦＮ
（Ｗ）を考慮することで、特定された文書集合に多く出
現する語の重要度（関連度）を高くできる。このように
して、特定の文書集合における特徴的な語に対して、高
い関連度を付与することができる。なお、上述のＴＦ
（Ｗ）をその語Ｗが含まれる文書Ｄの文書サイズ（文字
数、単語の種類数など）や単語の総数などで正規化する
こともできる。

【００８７】次に、付加的情報管理部１０５の注目語保
持部４０４に保持される注目語９０４のうち、検索結果
の文書群１４０１において関連度が一定のしきい値より
低いものを低関連語１４０３とする（ステップ１３０
２）。

【００８８】上述の図１４の例では、「山陰」、「旅
行」、「三人」、「鳥取砂丘」、「出雲大社」、「宍道
湖」、「宿泊」、「ツアー」の中から、低関連語１４０
３を探すことになる。

【００８９】以上のようにして、図１４に示すように、
文書群１４０１が検索された結果、文書群１４０１から
高関連語として「温泉」、「そば」が抽出され、低関連
語１４０３として「三人」が抽出される。

【００９０】図７に戻って、ステップ７０５に続いて、
関連語情報抽出部１０９は、付加的情報管理部１０５に
格納されている付加的情報の更新を行なう（ステップ７
０６）。

【００９１】図１５は、付加的情報更新の処理を示すフ
ローチャートである。まず、上述のステップ７０５で得
られた高関連語抽出結果１４０２を付加的情報管理部１
０５の検索結果高関連語保持部４０３に格納し、また、
付加的情報管理部１０５の注目語保持部４０４に保持さ
れている注目語９０４の集合に加える（ステップ１５０
１）。上述の例の場合、「温泉」及び「そば」が、新た
に注目語９０４として加えられる。

【００９２】次に、上述のステップ７０５で得られた低
関連語１４０３を、付加的情報管理部１０５の低関連語
保持部４０５に格納し、付加的情報管理部１０５の注目
語保持部４０４に保持されている注目語９０４の集合か
ら除く（ステップ１５０２）。上述の場合、「三人」が
除かれることになる。

【００９３】図１６は、ステップ７０６の処理の完了後
における付加的情報管理部１０５の状態を概念的に示す
図である。

【００９４】図７に戻って、ステップ７０６に続いて、
付加的情報管理部１０５の注目語保持部４０４に保持さ
れている注目語９０４を、言語モデル格納部１０２の注
目語保持部２０４に格納して、その内容を更新する（ス
テップ７０７）。上述の例の場合、「山陰」、「旅
行」、「鳥取砂丘」、「出雲大社」、「宍道湖」、「宿
泊」、「ツアー」、「温泉」、及び「そば」が、注目語
９０４として格納される。

【００９５】次に、情報出力部１１０が、文書検索結果
及び関連語情報をオペレータに提示する（ステップ７０
８）。オペレータは、その文書検索結果及び関連語情報
の中から、クライアントに提示する部分を選択する。今
回の例では、オペレータは、クライアントに対して何も
提示しなかったとする。

【００９６】以上が、クライアントの発話６０１「山陰
へ旅行したいんですが」に応答するオペレータの発話６
０２「山陰へご旅行ですね？」の処理である。

【００９７】次に、クライアントの発話６０３「はい、
出雲大社に行ってみたいです」に応答するオペレータの
発話６０４「出雲大社ですね？」の処理に移る。処理の
流れは、上述の図７の処理フローと同じであるので、以
下では、各主要な処理の結果のみを示していく。

【００９８】図１７は、オペレータの発話６０４からの
語抽出（ステップ７０１）の結果を示す図である。ここ
で、注目語保持部２０４には、前回の処理で得た注目語
９０４が格納されている。

【００９９】また、ステップ８０２の処理による抽出結
果９０３の中にある「出雲大社」が、注目語９０４に含
まれているの、ステップ８０５及びステップ８０６の処
理によって、「出雲大社」と重複する区間にある抽出結
果９０３の語のうち、注目語９０４に含まれない語が、
結果から除かれる。すなわち、「伊豆」及び「会社」
が、語抽出結果９０３から除かれることになり、新しい
語抽出結果９０５として「出雲大社」のみが抽出され
る。

【０１００】図１８は、付加的情報管理部１０５による
付加的情報取得（ステップ７０２）の結果を示す図であ
る。図４に示すように、単語間関係情報格納部１０４に
は、「出雲大社」の高頻度共起語として「縁結び」が格
納されているので、高頻度共起語１００３として「縁結
び」が取得され、注目語９０４として「縁結び」が追加
される。

【０１０１】図１９は、検索条件生成部１０６による検
索条件生成（ステップ７０３）の結果を示す図である。
今回は、前回の検索結果１２０１に対して、高関連語１
００１として「温泉」及び「そば」が得られているの
で、図１１のステップ１１０３において、「温泉」及び
「そば」が追加検索語となる。その結果、ステップ１１
０６の処理が完了した後に得られる（新）検索条件構成
語１２０４は、「山陰」、「旅行」、「出雲大社」、
「温泉」、「そば」となる。そして、ステップ１１０７
の処理で、検索条件として、”「山陰」ＯＲ「旅行」Ｏ
Ｒ「出雲大社」ＯＲ「温泉」ＯＲ「そば」”が得られ
る。

【０１０２】次に、ステップ７０４及びステップ７０５
によって、文書検索と関連語抽出が行なわれる。

【０１０３】図２０は、ステップ７０４及びステップ７
０５による文書検索と関連語抽出の結果を示す図であ
る。図２０において、高関連語抽出結果１４０２とし
て、「大社町」、「玉造温泉」が得られる。また、注目
語中の低関連語１４０３として、「鳥取砂丘」、「宍道
湖」が得られる。ここで、検索された文書群１４０１に
おいては、特に、「出雲大社」、「温泉」、「そば」に
関する文書が上位に来ている。

【０１０４】図２１は、付加的情報管理部１０５による
付加的情報の更新（ステップ７０６）の結果を示す図で
ある。図２１において、図１１のステップ１１０１の処
理で、高関連語１００１の「大社町」、「玉作温泉」が
注目語９０４に追加され、ステップ１１０２の処理で、
低関連語１００２の「鳥取砂丘」、「宍道湖」が、注目
語９０４から削除されている。

【０１０５】上述と同様にして、ステップ７０８で、以
上の結果がオペレータに提示される。ここで、オペレー
タは、クライアントには、まだ何も提示しないとする。

【０１０６】次に、クライアントの発話６０５「あと、
温泉にも入りたいです」に応答するオペレータの発話６
０６「それでは『出雲大社と玉造温泉への旅』というツ
アーはいかがですか？」の処理について説明する。ここ
でも、処理の流れは、上述の図７の処理フローと同じで
あるので、各主要な処理の結果のみを示していく。

【０１０７】図２２は、オペレータの発話６０６からの
語抽出（ステップ７０１）の結果を示す図である。ここ
で、注目語保持部２０４には、前回の処理で得た注目語
９０４が格納されている。今回の処理においても上述の
処理の場合と同様にして、ステップ８０３〜ステップ８
０８の処理により、「会津」、「伊豆」、「会社」、
「多摩」、「祭り」、「温泉」が候補から除かれ、新し
い語抽出結果９０５として、「出雲大社」、「玉造温
泉」、「旅」、「ツアー」が得られる。

【０１０８】ここで、オペレータが、発話６０６「それ
では『出雲大社と玉造温泉への旅』というツアーはいか
がですか？」と発話しているが、これは、発話６０２、
６０４の処理の結果得られる文書群として、オペレータ
に１４０１のような文書群が提示されていることによ
る。

【０１０９】以降、発話６０４に対する処理と同様な処
理が行なわれる。このよにして、ステップ７０８の結果
出力においては、オペレータは、クライアントに対し
て、情報出力部１１０から文書「出雲大社と玉造温泉へ
の旅」の一部または全部を提示することができる。

【０１１０】このように、本発明の文書検索装置及び文
書検索方法によれば、オペレータの発話から、語抽出を
行ない、単語間の関連情報、検索結果からの高関連語、
及び低関連語の情報を利用することによって、語抽出の
精度が高まり、文書検索条件が適切に更新され、オペレ
ータに、適宜有効な文書検索結果を提示することができ
るようになった。

【０１１１】以上、オペレータの発話（会話の一方）か
ら、文書を検索する文書検索装置及び文書検索方法につ
いて述べたが、クライアント及びオペレータの発話（会
話の両方）から、文書を検索することもできる。以下、
クライアント及びオペレータの発話（会話の両方）か
ら、文書を検索する文書検索装置及び文書検索方法につ
いて説明する。

【０１１２】＜第２の実施の形態＞図２３は、本発明の
文書検索装置の実施の形態の一例を示した図である。図
２３において、図１と同様の構成のものには同一の符号
を付している。

【０１１３】図２３において、この文書検索装置は、第
１のユーザであるクライアントの発話などの音声を電気
信号パタンに変換する音声入力部１０１ａと、音声入力
部１０１ａによって電気信号パタンに変換された音声中
に特定の語が含まれる尤度を計算するための情報を格納
した言語モデル格納部１０２ａと、言語モデル格納部１
０２ａに格納された情報を参照し、音声入力部１０１ａ
から出力されたクライアントの音声に対応する電気信号
を解析し、一定の尤度以上でクライアントの発話中に含
まれると推定される特定の語を抽出する語抽出部１０３
ａと、第２のユーザであるオペレータの発話などの音声
を電気信号パタンに変換する音声入力部１０１ｂと、音
声入力部１０１ｂによって電気信号パタンに変換された
音声中に特定の語が含まれる尤度を計算するための情報
を格納した言語モデル格納部１０２ｂと、言語モデル格
納部１０２ｂに格納された情報を参照し、音声入力部１
０１ｂから出力されたオペレータの音声に対応する電気
信号を解析し、一定の尤度以上でオペレータの発話中に
含まれると推定される特定の語を抽出する語抽出部１０
３ｂと、第１の語抽出部１０３ａから得られる第１の語
抽出結果と第２の語抽出部１０３ｂから得られる第２の
語抽出結果とを比較して新たな語抽出結果を生成する語
抽出結果比較部２３０１と、特定の単語の間に成立する
関係に関する情報を格納する単語間関係情報格納部１０
４と、語抽出結果比較部２３０１によって生成される語
抽出結果に対して内部状態に応じて付加的な情報を生成
して内部状態を更新し、さらに言語モデル格納部１０２
ａ、１０２ｂに格納されている情報に対して付加的情報
に基づいて変更を加える付加的情報管理部１０５と、語
抽出結果比較部２３０１によって生成される語抽出結果
と付加的情報管理部１０５によって生成された付加的情
報を参照して文書検索のための検索条件を生成する検索
条件生成部１０６と、検索対象となる文書を格納する文
書格納部１０７と、検索条件生成部１０６によって生成
される検索条件にしたがって文書格納部１０７中に格納
されている文書を検索する文書検索部１０８と、文書検
索部１０８による検索結果の文書群から、関連語情報と
して同文書群に特徴的な語に関する情報を抽出する関連
語情報抽出部１０９と、文書検索部１０８で取得された
検索結果の文書群に関する情報及び関連語情報抽出部１
０９で取得された検索結果文書群に特徴的な語に関する
情報をオペレータに検索結果として提示し、該検索結果
をオペレータの指示にしたがって編集し、その編集結果
をクライアント及びオペレータに検索結果として提示す
る情報出力部１１０と、を備えている。

【０１１４】ここで、付加的情報管理部１０５は、関連
語情報抽出部１０９によって抽出された関連語情報と、
単語間関係情報格納部１０４に格納されている特定の単
語間に成立する関係に関する情報とに基づいて内部状態
を更新する。また、言語モデル格納部１０２ａ、１０２
ｂの構成は、言語モデル格納部１０２（図１）と同様の
構成（図２）になっている。

【０１１５】図２４は、語抽出結果比較部２３０１の構
成を示した図である。図２４において、語抽出結果比較
部２３０１は、語抽出部１０３ａ（クライアントの発
話）からの語抽出結果を保持する第１発話語抽出結果保
持部２４０１と、語抽出部１０３ｂ（オペレータの発
話）からの語抽出結果を保持する第２発話語抽出結果保
持部２４０２と、第１発話語抽出結果保持部２４０１と
第２発話語抽出結果保持部２４０２の語抽出結果を比較
して抽出結果を生成する抽出結果比較部２４０３を備え
る。

【０１１６】ここで、オペレータの目的は、クライアン
トとの対話を通じて、クライアントの興味にあった旅行
情報や観光情報を提供することであるとし、文書格納部
１０７には、各種旅行情報、観光情報に関する文書が格
納されていることとする。

【０１１７】また、オペレータとしては、特定の話者を
仮定しており、クライアントとしては、不特定の話者を
仮定しているとする。そのため、第１の音声入力部１０
１ａ、第１の言語モデル格納部１０２ａ、第１の語抽出
部１０３ａは、不特定のクライアントの発話から語抽出
を行なえるように、平均的な話者の特性に合わせて最適
化されており、第２の音声入力部１０１ｂ、第２の言語
モデル格納部１０２ｂ、第２の語抽出部１０３ｂは、特
定のオペレータの発話の特性に合わせて、最適化されて
いるとする。そのため、一般に、クライアントの発話か
らの語抽出の精度は低く、オペレータの発話からの語抽
出の精度は高くなる。以下、図６に示すクライアントと
オペレータの対話による文書検索処理について説明す
る。

【０１１８】図２５は、図２３に示した文書検索装置の
処理の全体を示したフローチャートである。図２５にお
いては、図７と同様の処理については同一のステップ番
号を付している。以下、図面を用いてクライアントとオ
ペレータの対話による文書検索の処理を説明する。

【０１１９】まず、クライアントの発話６０１「山陰へ
旅行したいんですが」の処理について説明する。

【０１２０】図２５において、まず、音声入力部１０１
ａが、クライアントの発話を電気信号に変換して語抽出
部１０３ａに渡す。語抽出部１０３ａは、渡された電気
信号から、言語モデル格納部１０２ａに格納された情報
に基づいて語抽出を行なう（ステップ２５０１ａ）。こ
こで、語抽出部１０３ａによる語抽出の処理の詳細は、
上述の図８のフローチャートと同様の処理となる。

【０１２１】図２６は、クライアントの発話６０１から
の語抽出結果を概念的に表す図である。図２６におい
て、それぞれの項目は、図９に示したものと同様のもの
である。この例の場合、語抽出の結果９０５ａとして、
「三人」、「旅行」、「医院」、「山陰」が得られてい
る。ここで、「三人」と「山陰」は、区間が重複する候
補であり、「三人」の方が尤度が高く抽出されている。

【０１２２】次に、図２５において、オペレータの発話
６０２「山陰へご旅行ですね？」が処理される（ステッ
プ２５０１ｂ）。この処理は、上述の図８ので示した語
抽出の処理と同様の処理である。

【０１２３】図２７は、オペレータの発話６０２からの
語抽出結果を概念的に表す図である。図２７において、
それぞれの項目は、図９に示したものと同様のものであ
る。

【０１２４】この例の場合、語抽出の結果９０５ｂとし
て、「山陰」、「旅行」、「三人」が得られている。こ
こで、「山陰」と「三人」は、区間が重複する候補であ
り、「山陰」の方が尤度が高く抽出されている。

【０１２５】次に、語抽出結果比較部２３０１は、語抽
出部１０３ａのクライアント側の語抽出結果９０５ａ
と、語抽出部１０３ｂのオペレータ側の語抽出結果９０
５ｂとを比較して抽出語を生成する（ステップ２５０
２）。

【０１２６】図２８は、語抽出結果比較部２３０１の処
理を示したフローチャートである。また、図２９は、語
抽出結果比較部２３０１の処理の比較結果を示した図で
ある。この語抽出結果比較処理の開始時において、第１
語抽出結果保持部２４０１は、上述のようにして得られ
たクライアント側の発話６０１からの第１の語抽出結果
９０５ａを格納している。また、第２語抽出結果保持部
２４０２は、上述のようにして得られたオペレータ側の
発話６０２からの第２の語抽出結果９０５ｂを格納して
いる。

【０１２７】図２８において、まず、比較結果２９０１
（図２９）を空にする（ステップ２８０１）。

【０１２８】次に、語抽出部１０３ｂ（オペレータ側）
からの第２の抽出結果９０５ｂが空であるかを確認する
（ステップ２８０２）。空であれば、この比較処理を終
了する。

【０１２９】第２の抽出結果９０５ｂが空でなければ、
第２の抽出結果９０５ｂの最初の語が現在の語として登
録される（ステップ２８０３）。図２９の場合、第２の
抽出結果９０５ｂの最初の語「山陰」が現在の語として
登録される。

【０１３０】次に、第２の抽出結果９０５ｂの中に、現
在の語と抽出区間が重複し、当該現在の語より尤度の高
い語（対立候補）があるか否かを判断する（ステップ２
８０４）。図２９の場合、第２の抽出結果９０５ｂの中
に、現在の語「山陰」と抽出区間が重複し、当該現在の
語「山陰」より尤度の高い語があるか否かを判断する。
この場合には、抽出区間が重複する語として「三人」が
検出されるが、「三人」の尤度が「山陰」より低いの
で、対立候補がないことになる。

【０１３１】ステップ２８０４で、対立候補があった場
合、この対立候補が語抽出部１０３ａ（クライアント
側）からの第１の抽出結果９０５ａに含まれているかど
うかを判断する（ステップ２８０５）。

【０１３２】一方、ステップ２８０４で、対立候補がな
かった場合、または、ステップ２８０５で、対立候補が
第１の抽出結果９０５ａに含まれていなかった場合、現
在の語を比較結果の抽出語２９０１（図２９）に登録す
る（ステップ２８０６）。上述の例の場合、比較結果の
抽出語２９０１に現在の語「山陰」が登録される。

【０１３３】また、ステップ２８０５で、対立候補が第
１の抽出結果９０５ａに含まれていた場合、または、ス
テップ２８０６の処理の後、第２の抽出結果９０５ｂに
次の語があるかどうかを判断する（ステップ２８０
７）。ここで、語の選択は、抽出区間の順に行われる。
次の語がなければ、この比較処理は終了する。

【０１３４】ステップ２８０７で、次の語があれば、そ
の次の語を現在の語として登録する（ステップ２８０
８）。上述の例では、次の語として「三人」が選択さ
れ、現在の語として登録される。

【０１３５】以下、ステップ２８０４〜ステップ２８０
８を第２の抽出結果９０５ｂに含まれる語全てに対して
行われる。上述の例の場合、現在の語「三人」において
は、ステップ２８０４で対立候補「山陰」が検出され
る。そして、この対立候補「山陰」が、第１の抽出結果
９０５ａに含まれているので（ステップ２８０５）、比
較結果の抽出語２９０１に登録されずに、次の語「旅
行」の処理に移行する。

【０１３６】現在の語「旅行」は、上述のステップ２８
０４及びステップ２８０６によって、比較結果の抽出語
２９０１に登録される。

【０１３７】上述のように、オペレータ側の抽出結果９
０５ｂ中の「山陰」、「旅行」については、区間が重複
する尤度が高い候補がないので、そのまま結果２９０１
に加えられる。

【０１３８】一方、「三人」については、区間が重複す
る尤度が高い候補「山陰」があり、かつ「山陰」が、ク
ライアント側の抽出結果９０５ａに含まれているので、
棄却される。なお、クライアント側の抽出結果９０５ａ
のみに含まれる「医院」は、抽出語２９０１に加えられ
ない。

【０１３９】図２５において、上述のようにして（ステ
ップ２５０２、図２８）得られた抽出語２９０１に対し
て、付加的情報管理部１０５が、単語間関係情報格納部
１０４を参照することによって、高頻度共起語が取得さ
れる（ステップ２５０３）。この処理は、図７で示した
ステップ７０２とほぼ同様の処理を行う。ステップ２５
０３とステップ７０２の相違点は、高頻度共起語を取得
する対象が、ステップ２５０３では抽出語２９０１なの
に対して、ステップ７０２では語抽出部１０３の抽出結
果９０５が対象となる点である。

【０１４０】上述の場合、ステップ２５０２で得られ
た、「山陰」に対して、「鳥取砂丘」、「出雲大社」、
「宍道湖」が、「旅行」に対して、「宿泊」、「ツア
ー」が、高頻度共起語として取得され、高頻度共起語保
持部４０２（図４）に保持される。そして、抽出語に取
得された高頻度共起語を加えたものが「注目語」として
注目語保持部４０４（図４）に加えられる。

【０１４１】今回は、まだ文書の検索は行なわれていな
いので、検索結果高関連語保持部４０３（図４）及び低
関連語保持部４０５（図４）は、空である。

【０１４２】図３０は、ステップ２５０３の後の、付加
的情報管理部１０５の状態を概念的に示す図である。

【０１４３】続いて、検索条件生成部１０６は、検索条
件を生成する（ステップ２５０４）。この処理は、図７
で示したステップ７０３とほぼ同様の処理を行う。ステ
ップ２５０４とステップ７０３の相違点は、追加検索語
の対象が、ステップ２５０４では抽出語２９０１なのに
対して、ステップ７０３では語抽出部１０３の抽出結果
９０５が対象となる点である。

【０１４４】図３１は、ステップ２５０４の処理の後
の、検索条件生成部１０６の状態を概念的に示す図であ
る。

【０１４５】以下、図２５において、図７のステップ７
０４〜ステップ７０８と同様の処理が行われる。

【０１４６】図３２は、最初の発話６０１及び６０２に
対するステップ７０４及びステップ７０５（図２５）の
処理後の検索結果及び関連語抽出結果を示す図である。
ここで、図１４との相違点は、図３２において、検索条
件１２０５及び注目語中の低関連語１４０３に、「三
人」が含まれないことである。

【０１４７】すなわち、語抽出結果比較部２３０１を設
けることにより、文書検索部１０８の処理がより簡素化
され、負荷が軽減されることになる。

【０１４８】図３３は、図２５のステップ７０５の処理
の後の、付加的情報管理部１０５の状態を概念的に示す
図である。

【０１４９】以下、クライアントの発話６０３及びオペ
レータの発話６０４についても、図２５のステップ２５
０１ａ〜ステップ７０８の処理が繰り返される。

【０１５０】図３４は、ステップ２５０１ａによるクラ
イアントの発話６０３からの語抽出結果を示す図であ
る。図３５は、ステップ２５０１ｂによるオペレータの
発話６０４からの語抽出結果を示す図である。図３６
は、ステップ２５０２による語抽出結果比較部２３０１
の語抽出結果を示す図である。図３７は、ステップ２５
０３による付加的情報管理部１０５の付加的情報取得結
果を示す図である。図３８は、ステップ２５０４による
検索条件生成部１０６の検索条件の生成結果を示す図で
ある。図３９は、発話６０３及び６０４に対するステッ
プ７０４及びステップ７０５（図２５）の処理後の検索
結果及び関連語抽出結果を示す図である。図４０は、ス
テップ７０６による付加的情報管理部１０５の付加的情
報の更新結果を示す図である。

【０１５１】同様にして、クライアントの発話６０５及
びオペレータの発話６０６についても、図２５のステッ
プ２５０１ａ〜ステップ７０８の処理が繰り返される。

【０１５２】図４１は、ステップ２５０１ａによるクラ
イアントの発話６０５からの語抽出結果を示す図であ
る。図４２は、ステップ２５０１ｂによるオペレータの
発話６０６からの語抽出結果を示す図である。

【０１５３】以上のようにして処理を行い、図２５のス
テップ７０８において、オペレータは、クライアント
に、文書「出雲大社と玉造温泉への旅」の一部または全
部を提示することができる。

【０１５４】以上のように、本発明の実施形態において
は、クライアントとオペレータの発話から、語抽出を行
ない、単語間の関連情報、検索結果からの高関連語、及
び低関連語の情報を利用することにより、語抽出の精度
が高まり、文書検索条件が適切に更新され、オペレータ
に対して適宜有効な文書検索結果を提示することができ
る。

【０１５５】以上、本発明の文書検索装置及び文書検索
方法について説明したが、図２３に示した文書検索装置
において、付加的情報管理部１０５と検索条件生成部１
０６の対象を、語抽出結果比較部２３０１から図１の文
書検索装置のように語抽出部１０３ａまたは語抽出部１
０３ｂに選択的に切り換えられるようにすることができ
る。

【０１５６】

【発明の効果】以上のように、本発明の文書検索方法、
及び文書検索装置においては、文認識と異なり、一定の
尤度以上でユーザの発話に含まれる推定される語を抽出
するので、本来発話された語が、一定の尤度で含まれる
ことが推定できるのなら、文認識を行なった場合、認識
結果を一つに絞る仮定において棄却されてしまうような
場合でも、語認識結果には、含まれることになる。した
がって、発話などの音声による文書検索において、文認
識の精度に影響されず、有効な文書検索行なうことがで
きるようになった。

【０１５７】また、文認識と異なり、ユーザの発話の発
話中のすべての語を抽出する必要はなく、検索の目的や
検索対象となる文書集合に応じて、最小限の言語モデル
を構成すればよいので、言語データの収集コストも低く
抑えることができるようになった。

【０１５８】また、ユーザからの発話による文書検索が
繰り返される場合に、ユーザの各発話からの語抽出結果
が、内部状態に反映されて保持され、次の発話による語
抽出結果からの検索条件の生成にも反映されるため、ユ
ーザの一連の発話により形成される文脈的な制約を検索
に反映させて、検索の精度を高めることができるように
なった。

【０１５９】また、ユーザからの発話による文書検索が
繰り返される場合に、ユーザの各発話からの語抽出結果
が、内部状態に反映され、さらに語抽出で参照される言
語モデル内の情報にも反映されるので、ユーザの一連の
発話により形成される文脈的な制約を語抽出に反映させ
て、語抽出の精度を高めることができるようになった。

【０１６０】また、検索条件生成時には、語抽出結果と
ともに、内部状態に加えて、特定の単語の間に成立する
関係に関する情報も参照して、語抽出結果に対して生成
した、付加的情報を用いて、検索条件を生成しているの
で、抽出されている他の語と共起しにくい語について
は、抽出誤りとして、検索条件に含めない、などとする
ことにより、語抽出において抽出誤りがあった場合で
も、検索条件生成時に誤りを排除して、さらに有効な検
索を行なえるようになった。

【０１６１】さらに、単語間の関係を参照した結果、抽
出結果に含まれない語について、抽出されている語と一
定の関係にあり、共起しやすいことがわかれば、文書検
索結果に、後者の語が含まれるように検索条件を生成す
る、あるいは後者の語を含む文書の結果中の順位を上げ
るように検索条件を生成する、などとすることによっ
て、さらに有効な検索を行なえるようになった。

【０１６２】逆に、単語間の関係を参照した結果、抽出
結果に含まれる特定の語に対して、抽出結果に含まれな
い特定の語が、共起しにくいことが得られた場合、文書
検索結果に、後者の語が含まれないように検索条件を生
成する、あるいは後者の語を含む文書の結果中の順位を
下げるように検索条件を生成する、などとすることによ
っても、さらに有効な検索を行なえるようになった。

【０１６３】また、ユーザの発話から語抽出結果から検
索条件を生成する時に、特定の語の間の共起のしやすさ
を利用することにより、検索をより有効なものにするこ
とができるようになった。

【０１６４】また、ユーザの発話に基づいて検索された
結果の文書群から抽出された特徴的な語について、ユー
ザの発話から抽出された語と、特徴的な共起のしやすさ
を持つ、として付加的情報を生成するための内部状態に
反映させることにより、ユーザの後続する発話に基づく
検索における検索条件の生成において利用するものであ
り、これにより、あらかじめ特定の単語間に成立する関
係に関する知識を用意することなく、検索をより有効な
ものにすることができるようになった。

【０１６５】また、特定の語との共起のしやすさを、検
索された文書から抽出することにより、例えば、特定の
分野やテーマに関連した場合のみに成立するような共起
のしやすさや、最新の固有名詞などとの共起のしやすさ
に関する情報についても利用することができるので、検
索をより有効なものにすることができるようになった。

【０１６６】さらに、第１のユーザと第２のユーザの発
話からの語抽出結果を比較し、その結果を検索条件の生
成に利用することにより、２人のユーザが協調して、文
書検索を行なう場合に、より効果的な文書検索を行なう
ことが可能になった。

【０１６７】また、検索結果を、２人のユーザに対し
て、異なる方法で編集して提示することにより、それぞ
れのユーザに応じた形で結果を提示することができ、よ
り有効に検索結果を提示できるようになった。

【図面の簡単な説明】

【図１】本発明の文書検索装置の第１の実施形態におけ
る構成図である。

【図２】本発明の文書検索装置における、言語モデル格
納部の構成を示す図である。

【図３】本発明の文書検索装置における、単語間関係情
報格納部のデータを示す図である。

【図４】本発明の文書検索装置における、付加的情報管
理部の構成を示す図である。

【図５】本発明の文書検索装置における、検索条件生成
部の構成を示す図である。

【図６】本発明の文書検索装置における、クライアント
とオペレータの対話を示す図である。

【図７】本発明の第１の実施形態における、処理全体の
フローチャートである。

【図８】本発明の文書検索装置における、語抽出の処理
のフローチャートである。

【図９】本発明の文書検索装置ににおける、各処理での
結果を示す概念図である。

【図１０】本発明の第１の実施形態における、付加的情
報管理部の状態を示す概念図である。

【図１１】本発明の文書検索装置における、検索条件生
成の処理のフローチャートである。

【図１２】本発明の第１の実施形態における、検索条件
生成部の状態を示す概念図である。

【図１３】本発明の文書検索装置における、関連語抽出
の処理のフローチャートである。

【図１４】本発明の第１の実施形態における、検索結果
及び関連語抽出結果を示す図である。

【図１５】本発明の文書検索装置における、付加的情報
更新の処理のフローチャートである。

【図１６】本発明の第１の実施形態における、付加的情
報管理部の状態を示す概念図である。

【図１７】本発明の第１の実施形態における、オペレー
タの発話の語抽出結果を示す図である。

【図１８】本発明の第１の実施形態における、付加的情
報管理部の付加的情報取得結果を示す図である。

【図１９】本発明の第１の実施形態における、検索条件
生成部の検索条件の生成結果を示す図である。

【図２０】本発明の第１の実施形態における、文書検索
と関連語抽出の結果を示す図である。

【図２１】本発明の第１の実施形態における、付加的情
報の更新の結果を示す図である。

【図２２】本発明の第１の実施形態における、オペレー
タの発話の語抽出結果を示す図である。

【図２３】本発明の文書検索装置の第２の実施形態にお
ける構成図である。

【図２４】本発明の第２の実施形態における、語抽出結
果比較部の構成を示す図である。

【図２５】本発明の第２の実施形態における、処理全体
のフローチャートである。

【図２６】本発明の第２の実施形態における、クライア
ントの発話からの語抽出結果を示す概念図である。

【図２７】本発明の第２の実施形態における、オペレー
タの発話からの語抽出結果を示す概念図である。

【図２８】本発明の第２の実施形態における、語抽出結
果比較部の処理のフローチャートである。

【図２９】本発明の第２の実施形態における、語抽出結
果比較部の処理の比較結果を示す図である。

【図３０】本発明の第２の実施形態における、付加的情
報管理部の状態を示す概念図である。

【図３１】本発明の第２の実施形態における、検索条件
生成部の状態を示す概念図である。

【図３２】本発明の第２の実施形態における、検索結果
及び関連語抽出結果を示す図である。

【図３３】本発明の第２の実施形態における、付加的情
報管理部の状態を示す概念図である。

【図３４】本発明の第２の実施形態における、クライア
ントの発話からの語抽出結果を示す図である。

【図３５】本発明の第２の実施形態における、オペレー
タの発話からの語抽出結果を示す図である。

【図３６】本発明の第２の実施形態における、語抽出結
果比較部の語抽出結果を示す図である。

【図３７】本発明の第２の実施形態における、付加的情
報管理部の付加的情報取得結果を示す図である。

【図３８】本発明の第２の実施形態における、検索条件
生成部の検索条件の生成結果を示す図である。

【図３９】本発明の第２の実施形態における、検索結果
及び関連語抽出結果を示す図である。

【図４０】本発明の第２の実施形態における、付加的情
報管理部の付加的情報の更新結果を示す図である。

【図４１】本発明の第２の実施形態における、クライア
ントの発話からの語抽出結果を示す図である。

【図４２】本発明の第２の実施形態における、オペレー
タの発話からの語抽出結果を示す図である。

【図４３】従来の文書検索装置の構成図である。

【図４４】従来の文書検索装置における文書検索方法の
処理のフローチャートである。

【図４５】従来の音声認識を示す図である。

【符号の説明】

１０１、１０１ａ、１０１ｂ、４３０１音声入力部１０２、１０２ａ、１０２ｂ言語モデル格納部１０３、１０３ａ、１０３ｂ語抽出部１０４単語間関係情報格納部１０５付加的情報管理部１０６、４３０３検索条件生成部１０７、４３０４文書格納部１０８、４３０５文書検索部１０９関連語情報抽出部１１０、４３０６情報出力部２０２音素辞書部２０３単語辞書部２０４注目語保持部４０１語抽出結果保持部４０２高頻度共起語保持部４０３検索結果高関連語保持部４０４注目語保持部４０５低関連語保持部５０１検索条件構成語保持部５０２追加検索語保持部５０３削除語保持部５０４検索条件合成部２３０１語抽出結果比較部２４０１第１語抽出結果保持部２４０２第２語抽出結果保持部２４０３抽出結果比較部４３０２文認識部

フロントページの続き (72)発明者野口直彦大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者伊藤快大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者佐藤光弘大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5B075 ND02 NK02 PP07 PP12 PP24 PQ02 PQ32 PQ46

Claims

【特許請求の範囲】

【請求項１】音声などの音に基づいて文書の検索を行
なう文書検索装置であって、音を電気信号に変換して文字パターンデータを生成する
音声入力手段と、前記音声入力手段で生成される前記文字パターンデータ
から認識される語の尤度を決定する尤度情報を格納する
言語モデル格納手段と、前記言語モデル格納手段に格納された尤度情報に基づい
て、前記音声入力手段から出力される前記文字パターン
データに含まれると推定される語を語抽出結果として抽
出する語抽出手段と、前記語抽出手段で抽出される前記語抽出結果に基づい
て、文書を検索するための検索条件を生成する検索条件
生成手段と、検索対象となる文書を格納する文書格納手段と、前記検索条件生成手段によって生成される前記検索条件
に基づいて、前記文書格納手段に格納されている前記文
書を検索する文書検索手段と、を備えることを特徴とする文書検索装置。
【請求項２】さらに、前記語抽出手段によって抽出さ
れる前記語抽出結果に対して、内部状態に応じて付加的
な情報を生成し、当該内部状態を更新する付加的情報管
理手段を備え、前記検索条件生成手段は、前記語抽出結果及び前記付加
的情報管理手段によって生成された前記付加的な情報に
基づいて、前記検索条件を生成する、ことを特徴とする請求項１記載の文書検索装置。
【請求項３】前記付加的情報管理手段は、前記付加的
な情報に基づいて前記言語モデル格納手段に格納されて
いる前記尤度情報を更新することを特徴とする請求項２
記載の文書検索装置。
【請求項４】さらに、所定の単語の間に成立する関係
に関する単語間関係情報を格納する単語間関係情報格納
手段を備え、前記付加的情報管理手段は、前記単語間関係情報格納手
段に格納されている前記単語間関係情報と前記付加的情
報管理手段の前記内部状態に基づいて、前記語抽出手段
によって抽出された前記語抽出結果に対して付加的情報
を生成して前記内部状態を更新する、ことを特徴とする請求項２または３記載の文書検索装
置。
【請求項５】音声などの音に基づいて文書の検索を行
なう文書検索装置であって、第１の音を電気信号に変換して第１の文字パターンデー
タを生成する第１の音声入力手段と、前記第１の音声入力手段で生成される前記第１の文字パ
ターンデータから認識される語の尤度を決定する尤度情
報を格納する第１の言語モデル格納手段と、前記第１の言語モデル格納手段に格納された尤度情報に
基づいて、前記第１の音声入力手段から出力される前記
第１の文字パターンデータに含まれると推定される語を
第１の語抽出結果として抽出する第１の語抽出手段と、第２の音を電気信号に変換して第２の文字パターンデー
タを生成する第２の音声入力手段と、前記第２の音声入力手段で生成される前記第２の文字パ
ターンデータから認識される語の尤度を決定する尤度情
報を格納する第２の言語モデル格納手段と、前記第２の言語モデル格納手段に格納された尤度情報に
基づいて、前記第２の音声入力手段から出力される前記
第２の文字パターンデータに含まれると推定される語を
第２の語抽出結果として抽出する第２の語抽出手段と、前記第１の語抽出手段で抽出される前記第１の語抽出結
果と、前記第２の語抽出手段で抽出される前記第２の語
抽出結果とを比較して新たな語抽出結果を生成する語抽
出結果比較手段と、前記語抽出結果比較手段によって生成される前記新たな
語抽出結果に基づいて、文書を検索するための検索条件
を生成する検索条件生成手段と、検索対象となる文書を格納する文書格納手段と、前記検索条件生成手段によって生成される前記検索条件
に基づいて、前記文書格納手段に格納されている前記文
書を検索する文書検索手段と、を備えることを特徴とする文書検索装置。
【請求項６】さらに、前記文書検索手段で生成される
前記検索結果を出力する情報出力手段を備える、ことを
特徴とする請求項１乃至５記載の文書検索装置。
【請求項７】さらに、前記文書検索手段で生成される
前記検索結果を、前記第１の音の発生源と前記第２の音
の発生源のそれぞれに対して、異なる編集によって出力
する情報出力手段を備えることを特徴とする請求項５記
載の文書検索装置。
【請求項８】さらに、前記語抽出結果比較手段によっ
て生成される前記新たな語抽出結果に対して、内部状態
に応じて付加的な情報を生成し、当該内部状態を更新す
る付加的情報管理手段を備え、前記検索条件生成手段は、前記新たな語抽出結果及び前
記付加的情報管理手段によって生成された前記付加的な
情報に基づいて、前記検索条件を生成する、ことを特徴とする請求項５乃至７記載の文書検索装置。
【請求項９】前記付加的情報管理手段は、前記付加的
な情報に基づいて前記言語モデル格納手段に格納されて
いる前記尤度情報を更新することを特徴とする請求項８
記載の文書検索装置。
【請求項１０】さらに、所定の単語の間に成立する関
係に関する単語間関係情報を格納する単語間関係情報格
納手段を備え、前記付加的情報管理手段は、前記単語間関係情報格納手
段に格納されている前記単語間関係情報と前記付加的情
報管理手段の前記内部状態に基づいて、前記語抽出結果
比較手段によって生成される前記新たな語抽出結果に対
して付加的情報を生成して前記内部状態を更新する、ことを特徴とする請求項８または９記載の文書検索装
置。
【請求項１１】さらに、前記文書検索手段で生成され
る前記検索結果の文書群から、当該文書群に関連する語
の情報を関連語情報として抽出する関連語情報抽出手段
を備え、前記付加的情報管理手段は、前記関連語情報抽出手段で
抽出される前記関連語情報に基づいて、前記付加的情報
管理手段の前記内部状態を更新する、ことを特徴とする請求項２、３、４、８、９、または１
０何れかに記載の文書検索装置。
【請求項１２】前記付加的情報管理手段は、前記関連
語情報抽出手段で抽出される前記関連語情報と、前記単
語間関係情報格納手段に格納されている前記単語間関係
情報とに基づいて、前記付加的情報管理手段の前記内部
状態を更新することを特徴とする請求項１１記載の文書
検索装置。
【請求項１３】前記検索条件生成手段は、前記語抽出
結果比較手段によって生成される前記新たな語抽出結
果、前記第１の語抽出手段によって抽出される前記第１
の語抽出結果、または前記第２の語抽出手段によって抽
出される前記第２の語抽出結果に基づいて、文書を検索
するための検索条件を生成することを特徴とする請求項
５乃至７記載の文書検索装置。
【請求項１４】音声などの音に基づいて文書の検索を
行なう文書検索方法であって、音を電気信号に変換して文字パターンデータを生成し、文字パターンデータから認識される語の尤度を決定する
尤度情報に基づいて、前記文字パターンデータに含まれ
ると推定される語を語抽出結果として抽出し、前記語抽出結果に基づいて、文書を検索するための検索
条件を生成し、前記検索条件に基づいて、文書を検索する、ことを特徴とする文書検索方法。
【請求項１５】音声などの音に基づいて文書の検索を
行なう文書検索方法であって、第１の音を電気信号に変換して第１の文字パターンデー
タを生成し、第１の文字パターンデータから認識される語の尤度を決
定する尤度情報に基づいて、前記第１の文字パターンデ
ータに含まれると推定される語を第１の語抽出結果とし
て抽出し、第２の音を電気信号に変換して第２の文字パターンデー
タを生成し、第２の文字パターンデータから認識される語の尤度を決
定する尤度情報に基づいて、前記第２の文字パターンデ
ータに含まれると推定される語を第２の語抽出結果とし
て抽出し、前記第１の語抽出結果と前記第２の語抽出結果とを比較
して新たな語抽出結果を生成し、前記新たな語抽出結果に基づいて、文書を検索するため
の検索条件を生成し、前記検索条件に基づいて、文書を検索する、ことを特徴とする文書検索方法。