JP2002140330A

JP2002140330A - 文書検索システム

Info

Publication number: JP2002140330A
Application number: JP2001276934A
Authority: JP
Inventors: Naohiko Noguchi; 直彦野口; Hideki Yasukawa; 秀樹安川; Yuji Sugano; 祐司菅野; Mitsuhiro Sato; 光弘佐藤; Masako Nomoto; 昌子野本; Mitsuaki Inaba; 光昭稲葉
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2001-09-12
Filing date: 2001-09-12
Publication date: 2002-05-17
Anticipated expiration: 2016-05-29
Also published as: JP3333186B2

Abstract

(57)【要約】【課題】利用者から、辞書に登録されていない文字列
（未知語）を含む質問文で質問された場合でも、当該文
字列を含む文書を漏れなく検索し、かつ精度を落すこと
なく文書と質問文との類似度を効率的に計算することを
可能にし、非完全一致モデルに基づく文書検索の検索精
度および効率の向上を図る。【解決手段】類似度判定手段1605は、利用者からの入
力文字列が単語である場合には単語統計情報格納手段16
04に予め収集された当該単語の統計情報を利用し、当該
入力文字列が単語でない場合は全文検索手段1606を用い
て動的に統計情報を求めて各文書と入力意図との類似度
を計算する。また、辞書変更手段1611は入力履歴格納手
段1608と言語情報格納手段1610に格納された情報を用い
て辞書1602を適宜変更した上で、単語統計情報収集手段
1603にて単語統計情報の再収集を行なう。

Description

【発明の詳細な説明】【発明の属する技術分野】

【０００１】本発明は、電子化され蓄積された文書情報
から、所望の文書を検索する文書検索システムに関する
ものであり、特に文書情報が蓄積されたデータベース、
あるいは、一般のワードプロセッサ、オフィスコンピュ
ータなどの記憶装置に蓄積された文書情報の効率的で高
精度な検索が行なえる文書検索システムに関するもので
ある。

【０００２】

【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たことに伴って、それらの文書情報から所望の文書だけ
を検索する文書検索システムに対する関心が高まってき
ている。

【０００３】そのような文書検索システムにおいては、
従来は、文書毎に付与されたキーワードを利用するキー
ワード検索手法や、人手によるキーワード付けの作業を
必要とせず、文書全文の文字列照合を高速に行なう全文
検索手法などを用いるシステムが一般的であった。しか
し、前記従来の手法は、全て単語、文字列といった表層
的な情報の完全一致モデルに基づくものであり、利用者
は、自分でそれらの文字列を構成要素とする検索式（通
常は、AND, OR, NOT などの論理演算子を用いた論理
式）を構成して検索条件として与えなければならない。

【０００４】そのため、専門家でなければ、利用者の検
索意図に沿った適切な検索式を構成するのが非常に難し
く、結果として検索もれや検索のゴミが多発してしま
い、検索精度、検索効率ともに悪化してしまうという問
題があった。

【０００５】一方、前記の問題を解決する、非完全一致
モデルに基づく文書検索手法も現在までに数多く提案さ
れている。文書と質問文を互いに多次元の特徴ベクトル
として表現し、それらのベクトルの間の距離によって類
似度を計測して、質問文に類似した文書から順番にラン
キングを行なうベクトル空間法などがその代表例であ
る。

【０００６】非完全一致モデルでは、利用者は自分の検
索意図を表現する自然言語文や、典型的な文書などを指
定すればよく、完全一致モデルの場合のように、自分で
論理式を構成する必要はない（そのような技術について
は、成書Salton,G. and McGill, M.J.:Introduction to
Modern Information Retrieval, McGraw-Hill Publish
ing Company, 1983 に詳しい解説が記載されてい
る。）。

【０００７】また、非完全一致モデルに基づく文書検索
では、検索結果を質問文に類似する順序で出力すること
ができるので、検索結果が大量になる場合には、所望の
文書を見つけるのが容易になる、あるいは検索結果の絞
り込みを効率的に行なえるなどの利点がある。

【０００８】以下、図面を参照しながら、従来の非完全
一致モデルに基づく文書検索システムについて説明す
る。

【０００９】図１７は、従来の非完全一致モデルに基づ
く文書検索システムの機能構成を示したブロック図であ
る。図１７において、文書検索システムは、検索対象文
書を格納する文書格納手段1701と、単語集合を規定する
辞書1702と、文書格納手段1701から検索対象文書を読み
出して各文書中の各単語の頻度情報や、全検索対象文書
での各単語の分布情報などの単語統計情報を収集する単
語統計情報収集手段1703と、前記単語統計情報収集手段
1703で収集された情報を格納する単語統計情報格納手段
1704と、利用者からの入力と、前記単語統計情報格納手
段1704内の情報を参照して利用者の検索意図と各文書と
の類似度を判定する類似度判定手段1705とから構成され
ている。

【００１０】図１７において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。

【００１１】まず、利用者が文書検索を行なう前に、単
語統計情報収集手段1703が文書格納手段1701に格納され
た検索対象文書を読み出して、必要ならば各文書に形態
素解析などを施して単語列に分割し、各単語が各文書に
どれだけの頻度で出現するかという情報を収集して、そ
の情報を単語統計情報格納手段1704に格納する。

【００１２】実際に検索を行なう場合は、類似度判定手
段1705が、利用者から入力された検索条件と、前記単語
統計情報格納手段1704に格納された単語統計情報とを参
照して、各文書と利用者の検索意図との類似度を判定す
る。

【００１３】類似度の判定には、前記単語統計情報格納
手段1704に格納された各単語の頻度情報と分布情報か
ら、各単語の各検索対象文書内で重要度を表現する単語
の重みを計算しておき、利用者から入力された単語につ
いて、各文書における当該単語の重みを加算することに
よって各文書の類似度を計算する、といった手法がとら
れることが多い。類似度判定のための計算手法について
は、前掲した参考文献に詳細に記載されているので、そ
れを参照されたい。

【００１４】類似度判定終了後、利用者の入力意図への
類似度の高いものから順に利用者に提示することで検索
処理を終える。

【００１５】以上のような、非完全一致モデルに基づく
文書検索手法は、従来のキーワード検索手法や全文検索
手法に代わる新しい文書検索の手法として注目を集め始
めており、近年爆発的にニーズが増大している、インタ
ーネット上での情報検索システムなどへの応用・実用化
が徐々に図られている。

【００１６】

【発明が解決しようとする課題】前記非完全一致モデル
に基づく文書検索手法では、通常、各検索対象文書に出
現する単語の頻度や、全検索対象文書中での単語出現の
分布などの、単語出現についての統計的情報を基にして
類似度を計算する。従って、大規模な文書に対する類似
度計算を高速に行なうためには、そのような単語頻度情
報や単語分布情報を検索に先だって求めておく必要があ
るが、通常は、予め単語を規定した何らかの辞書を用い
て、検索対象文書を単語分割することで前記単語頻度情
報、単語分布情報を収集する。

【００１７】しかし、検索対象文書中には、前記辞書中
に登録されていない単語が出現することも多く、また、
利用者からの入力文字列も前記辞書中に登録された単語
のみを用いてなされるとは限らない。そのような、前記
辞書中に登録されていない単語（本願明細書では未知語
ということもある。）が文書中に出現したり、利用者の
入力に出現したりする場合には、事前に当該未知語の出
現頻度を求めることが不可能なため、検索もれを生じた
り、あるいは類似度の計算が不適当になったりする、と
いう問題点がある。

【００１８】検索対象文書が、英語などの単語区切りが
明瞭な言語で書かれている文書に限られる場合は、その
区切り記号（通常は空白文字）で区切られた文字列を単
語認定するという手法で前記の問題には対処可能である
が、検索対象文書が中国語、日本語などのいわゆる膠着
言語で書かれた文書である場合は、単語集合を規定する
何らかの辞書を用いて単語分割を行なわない限り、文書
中の単語認定ができないため、単純な手法では前記の未
知語の問題を解決することができない。

【００１９】本発明は、前記従来技術の課題を解決する
もので、利用者から、辞書に登録されていない文字列
（未知語）を含む質問文で質問された場合でも、当該文
字列を含む文書をもれなく検索し、かつ精度を落すこと
なく文書と質問文との類似度を計算することのできる、
非完全一致モデルに基づく文書検索システムを提供する
ことを目的としている。

【００２０】

【課題を解決するための手段】そこで、本発明は、単語
集合を規定する辞書と、検索対象文書を格納する文書格
納手段と、前記文書格納手段から検索対象文書を読み出
して各文書中の各単語の頻度情報や、全検索対象文書で
の各単語の分布情報などの単語統計情報を収集する単語
統計情報収集手段と、前記単語統計情報収集手段で収集
した単語統計情報を格納する単語統計情報格納手段と、
利用者からの入力と、前記単語統計情報格納手段内の単
語統計情報とを参照して利用者の検索意図と各文書との
類似度を判定する類似度判定手段とを備え、前記類似度
判定手段において、利用者からの入力と収集された各文
書の単語統計情報との適合度に基づいて、各検索対象文
書の利用者の検索意図に類似する順位を決定する文書検
索システムにおいて、更に、利用者が入力した入力の履
歴を管理する入力管理手段と、前記入力管理手段で管理
された入力履歴を格納する入力履歴格納手段と、前記辞
書に新たな単語を登録する辞書変更手段を設け、前記入
力履歴格納手段に格納された入力履歴中の文字列の頻度
情報を用いて、前記辞書に登録されていない文字列で、
単語として新規登録すべき文字列を自動的に決定する
か、あるいは前記入力管理手段を介して利用者とのやり
とりを通じて半自動的に決定して、前記辞書変更手段に
より新たな単語として前記辞書に新規登録すると共に、
新規登録された辞書を用いて検索対象文書の各文書に出
現する単語統計情報の再収集を行なうようにしたことを
特徴とするものである。

【００２１】また、本発明は、単語集合を規定する辞書
と、検索対象文書を格納する文書格納手段と、前記文書
格納手段から検索対象文書を読み出して各文書中の各単
語の頻度情報や、全検索対象文書での各単語の分布情報
などの単語統計情報を収集する単語統計情報収集手段
と、前記単語統計情報収集手段で収集した単語統計情報
を格納する単語統計情報格納手段と、利用者からの入力
と、前記単語統計情報格納手段内の単語統計情報とを参
照して利用者の検索意図と各文書との類似度を判定する
類似度判定手段とを備え、前記類似度判定手段におい
て、利用者からの入力と収集された各文書の単語統計情
報との適合度に基づいて、各検索対象文書の利用者の検
索意図に類似する順位を決定する文書検索システムにお
いて、更に、検索対象文書を走査して、任意文字列の各
文書内での頻度及び全検索対象文書中での単語頻度など
の各種単語統計情報や、検索対象文書中の略語や同格表
現などの言語的情報を抽出する言語情報抽出手段と、前
記言語情報抽出手段で抽出した各種単語統計情報や言語
的情報を格納する言語情報格納手段と、前記辞書に新た
な単語を登録し、また辞書中の同義語を指定することに
より辞書を修正する辞書変更手段を設け、前記言語情報
抽出手段にて抽出され前記言語情報格納手段に格納され
た文書内の各種単語統計情報を用いて、前記辞書に登録
されていない文字列で、単語として新規登録すべき文字
列を自動的に決定し、前記辞書変更手段により新たな単
語として前記辞書に新規登録し、また前記言語情報抽出
手段にて抽出され前記言語情報格納手段に格納された言
語的情報を用いて、前記辞書中で同一視すべき単語のグ
ループを自動的に決定して、前記辞書変更手段により同
義語の指定を行なって前記辞書を修正し、新規登録又は
修正された辞書を用いて検索対象文書の各文書に出現す
る単語統計情報の再収集を行なうことを特徴とするもの
である。

【００２２】さらに、本発明は、単語集合を規定する辞
書と、検索対象文書を格納する文書格納手段と、前記文
書格納手段から検索対象文書を読み出して各文書中の各
単語の頻度情報や、全検索対象文書での各単語の分布情
報などの単語統計情報を収集する単語統計情報収集手段
と、前記単語統計情報収集手段で収集した単語統計情報
を格納する単語統計情報格納手段と、利用者からの入力
と、前記単語統計情報格納手段内の単語統計情報とを参
照して利用者の検索意図と各文書との類似度を判定する
類似度判定手段とを備え、前記類似度判定手段におい
て、利用者からの入力と収集された各文書の単語統計情
報との適合度に基づいて、各検索対象文書の利用者の検
索意図に類似する順位を決定する文書検索システムにお
いて、更に、利用者が入力した入力の履歴を管理する入
力管理手段と、前記入力管理手段で管理された入力履歴
を格納する入力履歴格納手段と、検索対象文書を走査し
て、任意文字列の各文書内での頻度及び全検索対象文書
中での単語頻度などの各種単語統計情報や、検索対象文
書中の略語や同格表現などの言語的情報を抽出する言語
情報抽出手段と、前記言語情報抽出手段で抽出した各種
単語統計情報や言語的情報を格納する言語情報格納手段
と、前記辞書に新たな単語を登録し、また辞書中の同義
語を指定することにより辞書を修正する辞書変更手段を
設け、前記入力履歴格納手段に格納された入力履歴中の
文字列の頻度情報と、前記言語情報抽出手段にて抽出さ
れ前記言語情報格納手段に格納された文書内の各種単語
統計情報を用いて、前記辞書に登録されていない文字列
で、単語として新規登録すべき文字列を自動的に決定
し、あるいは前記入力管理手段を介して利用者とのやり
とりを通じて半自動的に決定し、前記辞書変更手段によ
り新たな単語として前記辞書に新規登録し、また前記言
語情報抽出手段にて抽出され前記言語情報格納手段に格
納された言語的情報を用いて、前記辞書中で同一視すべ
き単語のグループを自動的に決定し、あるいは前記入力
管理手段を介して利用者とのやりとりを通じて半自動的
に決定して、前記辞書変更手段により同義語の指定を行
なって前記辞書を修正し、新規登録又は修正された辞書
を用いて検索対象文書の各文書に出現する単語統計情報
の再収集を行なうことを特徴とするものである。

【００２３】その結果、本発明は、入力履歴中の文字列
の頻度情報、およびまたは抽出された文書内の文字列頻
度情報を参照して、比較的頻度が高く、単語として認定
すべき文字列の候補を生成して当該候補を自動的に決定
して、あるいは利用者とのやりとりを通じて半自動的に
決定して辞書変更手段により新たな単語として前記辞書
に新規登録して、当該辞書を用いて検索対象文書の各文
書に出現する単語の頻度情報の再収集を行なうことで、
利用者からの入力に前記辞書に登録されていない文字列
が含まれる可能性を低減することができるので、前記全
文検索手段を用いて動的に頻度を求める処理が軽減さ
れ、全体として効率的な検索が可能になる。

【００２４】また、本発明は、抽出された略語や同格表
現などの言語的情報を用いて、前記辞書中の同義語を指
定することにより辞書変更手段にて辞書を修正して、当
該辞書を用いて検索対象文書の各文書に出現する単語の
頻度情報の再収集を行なうことで、利用者からの入力単
語と同義の単語についても検索が可能になり、また、同
一の単語グループに属する単語についての頻度を考慮し
て類似度判定を行なうことで、その精度を向上させるこ
とが可能になる。

【００２５】

【発明の実施の形態】本発明の請求項１記載の発明は、
単語集合を規定する辞書と、検索対象文書を格納する文
書格納手段と、前記文書格納手段から検索対象文書を読
み出して各文書中の各単語の頻度情報や、全検索対象文
書での各単語の分布情報などの単語統計情報を収集する
単語統計情報収集手段と、前記単語統計情報収集手段で
収集した単語統計情報を格納する単語統計情報格納手段
と、利用者からの入力と、前記単語統計情報格納手段内
の単語統計情報とを参照して利用者の検索意図と各文書
との類似度を判定する類似度判定手段とを備え、前記類
似度判定手段において、利用者からの入力と収集された
各文書の単語統計情報との適合度に基づいて、各検索対
象文書の利用者の検索意図に類似する順位を決定する文
書検索システムにおいて、更に、利用者が入力した入力
の履歴を管理する入力管理手段と、前記入力管理手段で
管理された入力履歴を格納する入力履歴格納手段と、前
記辞書に新たな単語を登録する辞書変更手段を設け、前
記入力履歴格納手段に格納された入力履歴中の文字列の
頻度情報を用いて、前記辞書に登録されていない文字列
で、単語として新規登録すべき文字列を自動的に決定す
るか、あるいは前記入力管理手段を介して利用者とのや
りとりを通じて半自動的に決定して、前記辞書変更手段
により新たな単語として前記辞書に新規登録すると共
に、新規登録された辞書を用いて検索対象文書の各文書
に出現する単語統計情報の再収集を行なうようにしたも
のであり、利用者が検索によく用いるような文字列であ
って、かつ辞書中の単語でないものは減少するため、辞
書を利用者に適応する形で変更していくことが可能にな
る。そして、利用者が次回に検索する際に、更新された
辞書中に含まれる単語についてはすでに単語統計情報格
納手段に統計情報が格納されているため、更新される以
前に辞書中に含まれなかった文字列で検索された場合で
も、類似度判定手段における処理が正確に行なえるよう
になり、文書の類似度順位の精度を高めることができる
という作用を有する。

【００２６】本発明の請求項２記載の発明は、単語集合
を規定する辞書と、検索対象文書を格納する文書格納手
段と、前記文書格納手段から検索対象文書を読み出して
各文書中の各単語の頻度情報や、全検索対象文書での各
単語の分布情報などの単語統計情報を収集する単語統計
情報収集手段と、前記単語統計情報収集手段で収集した
単語統計情報を格納する単語統計情報格納手段と、利用
者からの入力と、前記単語統計情報格納手段内の単語統
計情報とを参照して利用者の検索意図と各文書との類似
度を判定する類似度判定手段とを備え、前記類似度判定
手段において、利用者からの入力と収集された各文書の
単語統計情報との適合度に基づいて、各検索対象文書の
利用者の検索意図に類似する順位を決定する文書検索シ
ステムにおいて、更に、検索対象文書を走査して、任意
文字列の各文書内での頻度及び全検索対象文書中での単
語頻度などの各種単語統計情報や、検索対象文書中の略
語や同格表現などの言語的情報を抽出する言語情報抽出
手段と、前記言語情報抽出手段で抽出した各種単語統計
情報や言語的情報を格納する言語情報格納手段と、前記
辞書に新たな単語を登録し、また辞書中の同義語を指定
することにより辞書を修正する辞書変更手段を設け、前
記言語情報抽出手段にて抽出され前記言語情報格納手段
に格納された文書内の各種単語統計情報を用いて、前記
辞書に登録されていない文字列で、単語として新規登録
すべき文字列を自動的に決定し、前記辞書変更手段によ
り新たな単語として前記辞書に新規登録し、また前記言
語情報抽出手段にて抽出され前記言語情報格納手段に格
納された言語的情報を用いて、前記辞書中で同一視すべ
き単語のグループを自動的に決定して、前記辞書変更手
段により同義語の指定を行なって前記辞書を修正し、新
規登録又は修正された辞書を用いて検索対象文書の各文
書に出現する単語統計情報の再収集を行なうようにした
ものであり、検索対象文書中に存在する高頻度な文字列
であって、かつ辞書中の単語でないものの数は減少する
ため、辞書を、検索対象文書に適合させることが可能に
なる。そして、利用者が次回に検索する際に、更新され
た辞書中に含まれる単語についてはすでに単語統計情報
格納手段に統計情報が格納されているため、更新される
以前に辞書中に含まれなかった文字列で検索された場合
でも、類似度判定手段における処理が正確に行なえるよ
うになり、文書の類似度順位の精度を高めることができ
るという作用を有する。

【００２７】また、前記言語情報抽出手段で抽出された
同義語についても、単一の単語にて検索でき、また類似
度計算を同一の単語グループの頻度を考慮して行なうこ
とができるので、類似度の判定の精度が向上するという
作用を有する。

【００２８】本発明の請求項３記載の発明は、単語集合
を規定する辞書と、検索対象文書を格納する文書格納手
段と、前記文書格納手段から検索対象文書を読み出して
各文書中の各単語の頻度情報や、全検索対象文書での各
単語の分布情報などの単語統計情報を収集する単語統計
情報収集手段と、前記単語統計情報収集手段で収集した
単語統計情報を格納する単語統計情報格納手段と、利用
者からの入力と、前記単語統計情報格納手段内の単語統
計情報とを参照して利用者の検索意図と各文書との類似
度を判定する類似度判定手段とを備え、前記類似度判定
手段において、利用者からの入力と収集された各文書の
単語統計情報との適合度に基づいて、各検索対象文書の
利用者の検索意図に類似する順位を決定する文書検索シ
ステムにおいて、更に、利用者が入力した入力の履歴を
管理する入力管理手段と、前記入力管理手段で管理され
た入力履歴を格納する入力履歴格納手段と、検索対象文
書を走査して、任意文字列の各文書内での頻度及び全検
索対象文書中での単語頻度などの各種単語統計情報や、
検索対象文書中の略語や同格表現などの言語的情報を抽
出する言語情報抽出手段と、前記言語情報抽出手段で抽
出した各種単語統計情報や言語的情報を格納する言語情
報格納手段と、前記辞書に新たな単語を登録し、また辞
書中の同義語を指定することにより辞書を修正する辞書
変更手段を設け、前記入力履歴格納手段に格納された入
力履歴中の文字列の頻度情報と、前記言語情報抽出手段
にて抽出され前記言語情報格納手段に格納された文書内
の各種単語統計情報を用いて、前記辞書に登録されてい
ない文字列で、単語として新規登録すべき文字列を自動
的に決定し、あるいは前記入力管理手段を介して利用者
とのやりとりを通じて半自動的に決定し、前記辞書変更
手段により新たな単語として前記辞書に新規登録し、ま
た前記言語情報抽出手段にて抽出され前記言語情報格納
手段に格納された言語的情報を用いて、前記辞書中で同
一視すべき単語のグループを自動的に決定し、あるいは
前記入力管理手段を介して利用者とのやりとりを通じて
半自動的に決定して、前記辞書変更手段により同義語の
指定を行なって前記辞書を修正し、新規登録又は修正さ
れた辞書を用いて検索対象文書の各文書に出現する単語
統計情報の再収集を行なうようにしたものであり、辞書
に新規登録する文字列の候補をより精密に選択すること
ができ、辞書を利用者および検索対象文書に適合させて
変更することが可能になる。そして、利用者が次回に検
索する際に、更新された辞書中に含まれる単語について
はすでに単語統計情報格納手段に統計情報が格納されて
いるため、更新される以前に辞書中に含まれなかった文
字列で検索された場合でも、類似度判定手段における処
理が正確に行なえるようになり、文書の類似度順位の精
度を高めることができるという作用を有する。

【００２９】また、前記言語情報抽出手段で抽出された
同義語についても、単一の単語にて検索でき、また類似
度計算を同一の単語グループの頻度を考慮して行なうこ
とができるので、類似度の判定の精度が向上するという
作用を有する。

【００３０】以下、本発明の実施の形態について、図１
から図１６を用いて説明する。

【００３１】（第１の実施の形態）図１は、本発明の第
１の実施の形態の文書検索システムを示す。図１に示す
文書検索システムは、検索対象文書を格納する文書格納
手段11と、単語集合を規定する辞書12と、文書格納手段
11から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段13と、単
語統計情報収集手段13で収集された情報を格納する単語
統計情報格納手段14と、利用者が入力した任意の文字列
について、それが検索対象文書中のどの文書に出現する
かということを検索することのできる全文検索手段16
と、全文検索手段16による検索結果の各文書について、
利用者からの入力と、単語統計情報格納手段14内の情報
を参照して利用者の検索意図と各文書との類似度を判定
する類似度判定手段15とから構成されている。

【００３２】図１において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。

【００３３】まず、実際の検索に先だって、単語統計情
報収集手段13が、文書格納手段11に格納された検索対象
文書を順番に読み出して、辞書12に登録された各単語が
各文書にどれだけの頻度で出現するかということを計測
して、その情報を単語統計情報格納手段14に格納する。
単語頻度情報は、例えば各文書に形態素解析などを施し
て単語列に分割して求めてもよいし、あるいは辞書12に
登録された各単語を単なる文字列として見た場合に、そ
の文字列の各文書における出現を全て計測して当該単語
の頻度としてもよい。

【００３４】図２に、単語統計情報格納手段14に格納さ
れる単語統計情報の例を示す。単語統計情報格納手段14
には図２に示すように２つの表形式の情報が格納され
る。図２（ａ）には、１列目が辞書12中に登録されてい
る単語、２列目には１列目の単語が出現する検索対象文
書中の文書番号、３列目には当該単語が当該文書中に何
回出現するかという頻度情報が記載されている。例え
ば、「株価」という単語は、文書番号35の文書中に、３
回出現することが示されている。

【００３５】また、図２（ｂ）には、１列目が辞書12中
に登録されている単語、２列目には１列目の単語が出現
する検索対象文書中の文書の総数、３列目には、１列目
の単語の検索対象文書中の総出現頻度が記載されてい
る。例えば、「株価」という単語は、249文書に出現し
ており、その総出現頻度は、480回であることが示され
ている。

【００３６】実際に利用者が文書格納手段11に格納され
た検索対象文書から文書を検索する際には、如何なる文
書を検索したいのかといことを適当な入出力手段を介し
て自然言語文、あるいは文字列の集合などで指定する。

【００３７】類似度判定手段15は、利用者からの入力を
文字列の集合に変換し、当該文字列集合に含まれる各文
字列について、一旦全文検索手段16を用いて当該文字列
が出現する文書を検索して検索結果文書集合を求めた
後、前記単語統計情報格納手段14に格納された当該文字
列の統計情報を用いて、前記検索結果文書集合の各文書
についての類似度を計算する。

【００３８】図３は、全文検索手段16による検索結果と
単語統計情報格納手段14の情報を用いて類似度判定手段
15が行なう類似度判定処理のフローチャートである。以
下、このフローチャートに基づいて類似度判定手段15の
処理の詳細を説明する。

【００３９】ステップ３１では、利用者からの入力文字
列の集合をS[1],S[2],...,S[n] とし、検索結果文書番
号の集合をR（初期値は空集合）、総文書数をRN、変数
i,jの初期値を１と設定する。続いて、入力文字列集合
の各S[i]に対して、ステップ３３〜ステップ３６を繰り
返す。ここでは、まずステップ３３にて全文検索手段16
を用いて文字列S[i]を全文検索して、結果の文書の文書
番号の集合をRDとする。全文検索手段16では、任意の文
字列S[i]について、このような情報を求めることができ
る。

【００４０】次に、ステップ３４にてS[i]が辞書12中の
単語であるかどうかを調べ、辞書12中の単語である場合
には、ステップ３５にて、単語統計情報格納手段14から
当該単語S[i]に対応した情報を取得し、その情報を変数
FA[i],FR[i],fr[i,j]に代入する。ここで、FA[i]はS[i]
の検索対象文書における総出現頻度、FR[i]はS[i]が出
現する検索対象文書の総文書数、fr[i,j]は、文書番号j
の文書におけるS[i]の出現頻度である。例えば、S[i]が
「株価」であった場合、図２に示した情報により、FA
[i]は480、FR[i]は249、fr[i,j]は、fr[i,35] = 3, fr
[i, 48] = 2,...のように設定される。

【００４１】また、ステップ３４にてS[i]が辞書12中の
単語でないと判断された場合には、そのような情報を求
めない。ステップ３６では、検索結果文書番号集合RDと
Rの和集合をRに設定し、iを１増加させてステップ３２
に戻る。

【００４２】以上の処理を繰り返し、各S[i]が出現する
文書番号集合の和集合Rを求める。ここで、R[i]は集合R
のi番目の文書番号を表わすものとする。また、辞書単
語である各S[i]については前記の総出現頻度、出現文書
数、各文書における出現頻度の情報を全て求めた後に、
ステップ３７にて変数の初期化を行ない、ステップ３８
〜ステップ３１３にて、集合R内の全ての文書R[j]につ
いて、各文書R[j]の入力文字列集合との類似度V[R[j]]
を求める。ここでは、非完全一致モデルに基づく検索手
法で通常用いられる tf*idf による重みづけを用いた評
価関数を採用している（tf*idf による重みづけについ
ては、成書Salton,G. and McGill, M.J.:Introduction
to Modern Information Retrieval, McGraw-Hill Publi
shing Company, 1983 に詳しい解説が記載されてい
る）。ステップ３１１で、類似度V[R[j]]の計算行なう
が、S[i]が辞書12中の単語でないということから変数fr
[i,R[j]],FA[i],FR[i]が未定義になっている場合には、
その計算を行なわない。そして、最終的に求められた評
価関数V[R[j]]を用いて、ステップ３１４にて各文書を
ソートして出力する。

【００４３】以上、類似度判定手段15においては、利用
者から入力された文字列について、一旦ステップ３３に
て全文検索を行ない、その結果集合RDの和集合Rについ
てのみステップ３８〜ステップ３１４を経て検索文書と
して順序付きで出力することになるので、利用者からの
入力文字列が辞書12中の単語でない場合でも、当該文字
列を含む文書を漏れなく求めた上で類似度判定を行なう
ことができる。

【００４４】（第２の実施の形態）図４は、本発明の第
２の実施の形態の文書検索システムを示す。図４に示す
文書検索システムは、検索対象文書を格納する文書格納
手段41と、単語集合を規定する辞書42と、文書格納手段
41から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段43と、単
語統計情報収集手段43で収集された情報を格納する単語
統計情報格納手段44と、利用者からの入力と、単語統計
情報格納手段44内の情報とを参照して利用者の検索意図
と各文書との類似度を判定する類似度判定手段45と、任
意の文字列に対して、それがどの文書にどのような頻度
で出現するかということを推定する頻度情報推定手段46
と、任意の文字列に対して、それがどの文書に出現する
かということを検索することのできる全文検索手段47と
から構成されている。

【００４５】図４において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。

【００４６】まず、実際の検索に先だって、単語統計情
報収集手段43が、文書格納手段41に格納された検索対象
文書を順番に読み出して、辞書42に登録された各単語が
各文書にどれだけの頻度で出現するかということを計測
して、その情報を単語統計情報格納手段44に格納する。
単語頻度情報は、例えば各文書に形態素解析などを施し
て単語列に分割して求めてもよいし、あるいは辞書42に
登録された各単語を単なる文字列として見た場合に、そ
の文字列の各文書における出現を全て計測して当該単語
の頻度としてもよい。

【００４７】実際に利用者が文書格納手段41に格納され
た検索対象文書から文書を検索する際には、如何なる文
書を検索したいのかといことを適当な入出力手段を介し
て自然言語文、あるいは文字列の集合などで指定する。

【００４８】類似度判定手段45は、利用者からの入力を
文字列の集合に変換し、当該文字列集合に含まれる各文
字列について、前記単語統計情報格納手段44に格納され
た当該文字列の統計情報と、前記頻度情報推定手段46を
用いて求めた当該文字列の推定頻度情報を用いて、前記
検索結果文書集合の各文書についての類似度を計算す
る。

【００４９】図５は、頻度情報推定手段46による推定頻
度情報と単語統計情報格納手段44の情報を用いて類似度
判定手段45が行う類似度判定処理のフローチャートであ
る。以下、このフローチャートに基づいて類似度判定手
段45の処理の詳細を説明する。

【００５０】ステップ５１では、利用者からの入力文字
列集合をS[1],S[2],...,S[n] とし、検索結果文書番号
の集合をR（初期値は空集合）、総文書数をRN、変数i,j
の初期値を１と設定する。続いて、入力文字列集合の各
S[i]に対して、ステップ５３〜ステップ５６を繰り返
す。

【００５１】まず、ステップ５３にてS[i]が辞書42中の
単語であるかどうかを調べ、辞書42中の単語である場合
には、ステップ５４にて、単語統計情報格納手段44から
当該単語S[i]に対応した情報を取得し、その情報を変数
FA[i],FR[i],RD,fr[i,j]に代入する。ここで、FA[i]はS
[i]の検索対象文書における総出現頻度、FR[i]はS[i]が
出現する検索対象文書の総文書数、RDは、S[i]が出現す
る文書番号集合、fr[i,j]は、RD中の各文書jにおけるS
[i]の出現頻度である。

【００５２】ステップ５３にて、S[i]が辞書42中の単語
でないと判断された場合には、ステップ５５にて、頻度
情報推定手段46を用いて、S[i]の頻度情報の推定を行な
って、同様に変数FA[i],FR[i],RD,fr[i,j]の値を求め
る。ステップ５６では、検索結果文書番号集合RDとRの
和集合をRに設定し、iを１増加させてステップ５２に戻
る。

【００５３】以上の処理を繰り返し、各S[i]が出現する
文書番号集合の和集合Rを求める。ここで、R[i]は集合R
のi番目の文書番号を表わすものとする。また、各S[i]
について前記の情報を全て求めた後に、ステップ５７に
て変数の初期化を行ない、ステップ５８〜ステップ５１
２にて、集合R内の全ての文書R[j]について、各文書R
[j]の入力文字列集合との類似度V[R[j]]を求める。計算
方法は、前記第１の実施の形態と全く同様であるが、本
実施の形態においては、各i,R[j]について、FA[i],FR
[i],fr[i,R[j]]はすべて定義されている。そして、最終
的に求められた評価関数V[R[j]]を用いて、ステップ５
１３にて各文書をソートして出力する。

【００５４】図６は、図５におけるステップ５５、すな
わち、頻度情報推定手段46における処理を示すフローチ
ャートである。以下、このフローチャートに基づいて頻
度情報推定手段46の処理の詳細を説明する。

【００５５】まずステップ６２にて、全文検索手段47を
用いて入力文字列S[i]の出現する文書集合D＝｛D[1],D
[2],...,D[m] ｝を求め、ステップ６３にて文字列S[i]
に含まれる部分単語W＝｛W[1],W[2],...,W[n] ｝をすべ
て求める。ステップ６４にて初期化を行なった後、ステ
ップ６５〜ステップ６１１で、D内のすべての文書D[k]
について、S[i]の部分単語で最も文書内出現頻度が低い
ものを求める。

【００５６】これは、ステップ６８にあるように、単語
統計情報格納手段44を用いれば判定できる。これは、あ
る文書D[k]における文字列S[i]の出現頻度は、S[i]の部
分単語の出現頻度を超えることはないという事実を利用
している。ステップ６１２では、最終的に求まった最低
の出現頻度の値をfr[i,k]の推定値として設定し、さら
に文字列S[i]の推定総出現頻度FA[i]に加算する。ステ
ップ６１４では、S[i]の推定出現文書数FR[i]をm（ステ
ップ６２で求めた文書数）に設定し、またステップ６１
５では、S[i]に部分単語が全く存在しなかった場合にFA
[i]=mと推定する。

【００５７】以上の処理により、全文検索手段にて文字
列S[i]の各文書における正確な出現頻度を調査しなくと
も、頻度の推定値を求めることができる。

【００５８】以上に示したように、本実施の形態では、
第５図のステップ５５にて、利用者からの入力文字列が
辞書42中の単語でない場合でも、当該文字列の出現する
文書を漏れなく求め、かつ当該文書中での当該文字列の
出現頻度を推定することができるので、文書と入力との
類似度を、精度を落とすことなく判定して文書の順位を
決定することができる。

【００５９】（第３の実施の形態）図７は、本発明の第
３の実施の形態の文書検索システムを示す。図７に示す
文書検索システムは、検索対象文書を格納する文書格納
手段71と、単語集合を規定する辞書72と、文書格納手段
71から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段73と、単
語統計情報収集手段73で収集された情報を格納する単語
統計情報格納手段74と、利用者からの入力と、単語統計
情報格納手段74内の情報とを参照して利用者の検索意図
と各文書との類似度を判定する類似度判定手段75と、任
意の文字列に対して、その各文書中での出現頻度を求め
ることのできる文字列出現頻度計算手段76と、任意の文
字列に対して、それがどの文書に出現するかということ
を検索することのできる全文検索手段77とから構成され
ている。

【００６０】図７において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。

【００６１】まず、実際の検索に先だって、単語統計情
報収集手段73が、文書格納手段71に格納された検索対象
文書を順番に読み出して、辞書72に登録された各単語が
各文書にどれだけの頻度で出現するかということを計測
して、その情報を単語統計情報格納手段74に格納する。
単語頻度情報は、例えば各文書に形態素解析などを施し
て単語列に分割して求めてもよいし、あるいは辞書42に
登録された各単語を単なる文字列として見た場合に、そ
の文字列の各文書における出現を全て計測して当該単語
の頻度としてもよい。

【００６２】実際に利用者が文書格納手段71に格納され
た検索対象文書から文書を検索する際には、如何なる文
書を検索したいのかといことを適当な入出力手段を介し
て自然言語文、あるいは文字列の集合などで指定する。

【００６３】類似度判定手段75は、利用者からの入力を
文字列の集合に変換し、当該文字列集合に含まれる各文
字列について、前記単語統計情報格納手段74に格納され
た当該文字列の統計情報と、前記文字列出現頻度計算手
段76を用いて求めた当該文字列の正確な頻度情報を用い
て、前記検索結果文書集合の各文書についての類似度を
計算する。

【００６４】図８は、文字列出現頻度計算手段76による
正確な頻度情報と単語統計情報格納手段74の情報を用い
て類似度判定手段75が行う類似度判定処理のフローチャ
ートである。以下、このフローチャートに基づいて類似
度判定手段75の処理の詳細を説明する。

【００６５】ステップ８１では、利用者からの入力文字
列集合をS[1],S[2],...,S[n] とし、検索結果文書番号
の集合をR（初期値は空集合）、総文書数をRN、変数i,j
の初期値を１と設定する。続いて、入力文字列集合の各
S[i]に対して、ステップ８３〜ステップ８６を繰り返
す。

【００６６】まず、ステップ８３にてS[i]が辞書72中の
単語であるかどうかを調べ、辞書42中の単語である場合
には、ステップ８４にて、単語統計情報格納手段74から
当該単語S[i]に対応した情報を取得し、その情報を変数
FA[i],FR[i],RD,fr[i,j]に代入する。ここで、FA[i]はS
[i]の検索対象文書における総出現頻度、FR[i]はS[i]が
出現する検索対象文書の総文書数、RDは、S[i]が出現す
る文書番号集合、fr[i,j]は、RD中の各文書jにおけるS
[i]の出現頻度である。

【００６７】ステップ８３にて、S[i]が辞書72中の単語
でないと判断された場合には、ステップ８５にて、文字
列出現頻度計算手段76を用いて、S[i]の正確な頻度情報
を求め、同様に変数FA[i],FR[i],RD,fr[i,j]の値を求め
る。ステップ８６では、検索結果文書番号集合RDとRの
和集合をRに設定し、iを１増加させてステップ８２に戻
る。

【００６８】以上の処理を繰り返し、各S[i]が出現する
文書番号集合の和集合Rを求める。ここで、R[i]は集合R
のi番号目の文書番号を表わすものとする。また、各S
[i]について前記の情報を全て求めた後に、ステップ８
７にて変数の初期化を行ない、ステップ８８〜ステップ
８１２にて、集合R内の全ての文書R[j]について、各文
書R[j]の入力文字列集合との類似度V[R[j]]を求める。
計算方法は、前記第１の実施の形態と全く同様である
が、本実施の形態においては、各i,R[j]について、正確
なFA[i],FR[i],fr[i,R[j]]の値が求められている。そし
て、最終的に求められた評価関数V[R[j]]を用いて、ス
テップ８１３にて各文書をソートして出力する。

【００６９】ステップ８５において、文字列出現頻度計
算手段76は、単語でない文字列S[i]に対して、全文検索
手段77を用いて正確な頻度を求めている。これは例え
ば、全文検索手段77を用いてS[i]が出現する文書集合を
すべて求めた後に、当該文書について全文走査を行なっ
てS[i]の出現頻度を計測してもよいし、あらかじめ全文
検索手段77に、任意文字列の任意の文書内での出現位置
を検索できる機能を付加して求めてもよい。

【００７０】以上に示したように、本実施の形態では、
第８図のステップ８５にて、利用者からの入力文字列が
辞書72中の単語でない場合でも、当該文字列の出現する
文書を漏れなく求め、かつ当該文書中での当該文字列の
出現頻度を正確に求めることができるので、文書と入力
との類似度を、精度を落とすことなく判定して文書の順
位を決定することができる。

【００７１】（第４の実施の形態）図９は、本発明の第
４の実施の形態の文書検索システムを示す。図９に示す
文書検索システムは、検索対象文書を格納する文書格納
手段91と、単語集合を規定する辞書92と、文書格納手段
91から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段93と、単
語統計情報収集手段93で収集された情報を格納する単語
統計情報格納手段94と、利用者からの入力と、単語統計
情報格納手段94内の情報とを参照して利用者の検索意図
と各文書との類似度を判定する類似度判定手段95と、利
用者からの入力履歴を管理する入力管理手段96と、前記
入力履歴を格納する入力履歴格納手段97と、辞書92に新
規単語を登録したり、辞書92の内容を変更する辞書変更
手段98とから構成されている。

【００７２】図９において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。

【００７３】検索に先だつ単語統計情報の収集、また利
用者による文書の検索は、前記第１の実施の形態に示し
た処理と同様に行なわれる。ただし、実際の検索の際に
は、入力文字列のうち辞書92中の単語になっているもの
のみの統計情報を利用して類似度判定手段95の処理を行
ない、入力文字列で単語になっていないものについては
考慮しない点が前記第１の実施の形態と異なる。

【００７４】利用者による文書の検索の過程において、
入力管理手段96は、入力から抽出した文字列集合を、入
力履歴格納手段97に格納する。入力履歴格納手段97は、
入力された文字列集合から、各文字列の入力履歴におけ
る頻度情報を随時計測しておく。

【００７５】辞書変更手段98は、定期的に、利用者によ
る検索が行なわれていない間に、入力履歴格納手段97に
格納された情報を参照して、辞書92に新規登録する文字
列を決定し、辞書92に新規登録する。

【００７６】図１０は、辞書変更手段98における辞書変
更処理を示すフローチャートである。以下、このフロー
チャートに基づいて辞書変更手段98の処理を詳細に説明
する。

【００７７】まずステップ１００１において、入力履歴
格納手段97に格納された情報を参照して、利用者からの
これまでの入力文字列S[i]とその入力履歴中での頻度FS
[i]を求める。次に、ステップ１００２〜ステップ１０
０５にて、各入力文字列S[i]について、その頻度FS[i]
が、事前に設定された値FTよりも大きい場合に、新規辞
書登録文字列として選択する、という処理を行なう。最
終的に選択された新規登録文字列について、ステップ１
００６にて辞書92に新規登録を行なって、処理を終え
る。

【００７８】図１０に示したものは、辞書変更手段98に
おける処理の一例であり、新規登録文字列を、前記のよ
うな判断基準で自動的に行なってもよいが、決定の過程
の中で、利用者へ新規登録文字列候補を提示し、利用者
に選択させるというやりとりを行なって、半自動的に決
定する、といった方法でもよい。

【００７９】辞書変更手段98による辞書92への新規登録
が終了した後、単語統計情報収集手段93は新たに文書格
納手段91から検索対象文書を読み出して、単語統計情報
を再収集して単語統計情報格納手段94に格納する。

【００８０】このようにしておけば、利用者が検索によ
く用いるような文字列であって、かつ辞書92中の単語で
ないものは減少するため、辞書92を利用者に適応する形
で変更していくことが可能になる。そして、利用者が次
回に検索する際に、更新された辞書中に含まれる単語に
ついてはすでに単語統計情報格納手段94に統計情報が格
納されているため、更新される以前に辞書中に含まれな
かった文字列で検索された場合でも、類似度判定手段95
における処理が正確に行なえるようになり、文書の類似
度順位の精度を高めることができる。

【００８１】（第５の実施の形態）図１１は、本発明の
第５の実施の形態の文書検索システムを示す。図１１に
示す文書検索システムは、検索対象文書を格納する文書
格納手段1101と、単語集合を規定する辞書1102と、文書
格納手段1101から検索対象文書を読み出して各文書中の
各単語の頻度情報や、全検索対象文書での各単語の分布
情報などの単語統計情報を収集する単語統計情報収集手
段1103と、単語統計情報収集手段1103で収集された情報
を格納する単語統計情報格納手段1104と、利用者からの
入力と、単語統計情報格納手段1104内の情報とを参照し
て利用者の検索意図と各文書との類似度を判定する類似
度判定手段1105と、文書格納手段1101から検索対象文書
を読み出して各文書中の任意文字列の各文書内での頻
度、全検索対象文書中での単語頻度などの各種統計情報
や、全検索対象文書中の略語や同格表現などの言語的情
報を抽出する言語情報抽出手段1106と、前記言語情報抽
出手段1106で抽出された情報を格納する言語情報格納手
段1107と、辞書1102に新規単語を登録したり、辞書1102
の内容を変更する辞書変更手段1108とから構成されてい
る。

【００８２】図１１において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。

【００８３】検索に先だつ単語統計情報の収集、また利
用者による文書の検索は、前記第１の実施の形態に示し
た処理と同様に行なわれる。ただし、実際の検索の際に
は、入力文字列のうち辞書1102中の単語になっていない
もののみの統計情報を利用して類似度判定手段1105の処
理を行ない、入力文字列で単語になっていないものにつ
いては考慮しない点が前記第１の実施の形態と異なる。

【００８４】また、言語情報抽出手段1106は、検索に先
だって、文書格納手段1101から検索対象文書を読み出し
て、辞書1102中の単語ではないが、検索対象文書に出現
する、辞書に新規登録すべき候補となる文字列を抽出す
る。

【００８５】図１２は、言語情報抽出手段1106の処理を
示すフローチャートである。以下、このフローチャート
に基づいて言語情報抽出手段1106の処理の詳細を説明す
る。

【００８６】日本語文書には、カタカナ、漢字、平仮
名、記号、アルファベットなど、豊富な字種がある。大
抵の場合、字種の切れ目は単語の切れ目になっているの
で、ステップ１２０１にて、まずそのような字種の切れ
目で文書を分割し、それらをS[1],S[2],...,S[N] とす
る。次に、各S[i]について、ステップ１２０３〜ステッ
プ１２０７を繰り返す。ステップ１２０３では、分割さ
れた各文字列のうち、単語として重要であると思われる
カタカナ文字列、漢字文字列だけを選択し、ステップ１
２０５にて、S[i]の検索対象文書中での出現頻度FS[i]
を求める。ここでは、各文字列について、検索対象文書
の全文走査を行なえばその出現頻度を求めることができ
るが、任意文字列について高速に全文検索を行なえるシ
ステムを用いれば、さらに効率的である。

【００８７】ステップ１２０６では、FS[i]が、予め定
められたある閾値FSTを超える出現頻度を持つ文字列の
みを抽出して、ステップ１２０７にて候補文字列として
その出現頻度FS[i]と共に言語情報格納手段1107に格納
する。

【００８８】以上は候補文字列を抽出するための処理の
一例であって、他にも、文法的な知識や、語彙的な知識
を用いて、形態素解析などの処理を行なうなど、高精度
に抽出候補文字列を見つける処理を行なってもよい。

【００８９】辞書変更手段1108は、定期的に、利用者に
よる検索が行なわれていない間に、言語情報格納手段11
07に格納された情報を参照して、辞書1102に新規登録す
る文字列を決定し、辞書1102に新規登録する。

【００９０】図１３は、辞書変更手段1108における辞書
変更処理を示すフローチャートである。以下、このフロ
ーチャートに基づいて辞書変更手段1108の処理を詳細に
説明する。

【００９１】まずステップ１３０１で、言語情報格納手
段1107に格納された情報を参照して、新規辞書登録文字
列候補S[i]とその検索対象文書中での頻度FS[i]を求め
る。次に、ステップ１３０２〜ステップ１３０５にて、
各入力文字列S[i]について、その頻度FS[i]が、事前に
設定された値FTよりも大きい場合に、新規登録文字列と
して選択する、という処理を行なう。最終的に選択され
た新規登録文字列について、ステップ１３０６にて辞書
1102に新規登録を行なって、処理を終える。

【００９２】辞書変更手段1108による辞書1102への新規
登録が終了した後、単語統計情報収集手段1103は新たに
文書格納手段1101から検索対象文書を読み出して、単語
統計情報を再収集して単語統計情報格納手段1104に格納
する。

【００９３】このようにしておけば、検索対象文書中に
存在する高頻度な文字列であって、かつ辞書1102中の単
語でないものの数は減少するため、辞書1102を、検索対
象文書に適合させることが可能になる。そして、利用者
が次回に検索する際に、更新された辞書中に含まれる単
語についてはすでに単語統計情報格納手段1104に統計情
報が格納されているため、更新される以前に辞書中に含
まれなかった文字列で検索された場合でも、類似度判定
手段1105における処理が正確に行なえるようになり、文
書の類似度順位の精度を高めることができる。

【００９４】次に、辞書変更手段1108のもう一つの処理
である、辞書の変更処理について説明する。

【００９５】まず、言語情報抽出手段1106では、検索に
先だって、文書格納手段1101から検索対象文書を読み出
して、文書中での同格表現を抽出し、言語情報格納手段
1107に格納する。同格表現とは、例えば、「サラ金（サ
ラリーマン金融）」「ＩＰＳＪ（情報処理学会）」な
ど、同一対象を指示する複数の文字列による言語表現の
ことである。通常は、「Ａ（Ｂ）」という表現形式が同
格表現になることが多いので、例えば、文書中から「Ａ
（Ｂ）」なる表現のみを抽出する、という処理を行な
う。

【００９６】辞書変更手段1108は、言語情報格納手段11
07に格納された同格表現「Ａ（Ｂ）」から、文字列Ａと
文字列Ｂが同一対象を指示するということを判定し、辞
書1102中の単語Ａと単語Ｂとは同義であるということが
判定できるように、辞書1102を変更する。これは例え
ば、辞書1102中の各単語エントリに対して、同義語情報
を格納するエントリを拡張して設ければ実現できる。

【００９７】以上のように辞書を変更しておけば、その
後利用者が文字列Ａを用いて検索を行なう時に、文字列
Ｂを含む文書をも検索対象に含めることができ、また、
類似度判定手段1105にて文書の類似度を判定する際に
も、文字列Ａの頻度情報だけでなく、文字列Ｂの頻度情
報も考慮に入れて評価関数を計算することが可能にな
り、より精度の高い類似度判定処理が可能になる。

【００９８】（第６の実施の形態）図１４は、本発明の
第６の実施の形態の文書検索システムを示す。図１４に
示す文書検索システムは、検索対象文書を格納する文書
格納手段1401と、単語集合を規定する辞書1402と、文書
格納手段1401から検索対象文書を読み出して各文書中の
各単語の頻度情報や、全検索対象文書での各単語の分布
情報などの単語統計情報を収集する単語統計情報収集手
段1403と、単語統計情報収集手段1403で収集された情報
を格納する単語統計情報格納手段1404と、利用者からの
入力と、単語統計情報格納手段1404内の情報とを参照し
て利用者の検索意図と各文書との類似度を判定する類似
度判定手段1405と、利用者からの入力履歴を管理する入
力管理手段1406と、前記入力履歴を格納する入力履歴格
納手段1407と、文書格納手段1401から検索対象文書を読
み出して各文書中の任意文字列の各文書内での頻度、全
検索対象文書中での単語頻度などの各種統計情報や、検
索対象文書中の略語や同格表現などの言語的情報を抽出
する言語情報抽出手段1408と、前記言語情報抽出手段14
08で抽出された情報を格納する言語情報格納手段1409
と、辞書1402に新規単語を登録したり、辞書1402の内容
を変更する辞書変更手段1410とから構成されている。

【００９９】図１４において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。

【０１００】検索に先だつ単語統計情報の収集、また利
用者による文書の検索は、前記第１の実施の形態に示し
た処理と同様に行なわれる。ただし、実際の検索の際に
は、入力文字列のうち辞書1402中の単語になっているも
ののみの統計情報を利用して類似度判定手段1405の処理
を行ない、入力文字列で単語になっていないものについ
ては考慮しない点が前記第１の実施の形態と異なる。

【０１０１】利用者による文書の検索の過程において、
入力管理手段1406は、前記第４の実施の形態と同様に、
入力から抽出した文字列集合を、入力履歴格納手段1407
に格納する。入力履歴格納手段1407は、入力された文字
列集合から、各文字列の入力履歴における頻度情報を随
時計測しておく。

【０１０２】また、言語情報抽出手段1408は、検索に先
だって、文書格納手段1401から検索対象文書を読み出し
て、辞書1402中の単語ではないが、検索対象文書に出現
する、辞書に新規登録すべき候補となる文字列を抽出す
る。なお、言語情報抽出手段1408の処理は、前記第５の
実施の形態と全く同様に行なう。

【０１０３】辞書変更手段1410は、定期的に、利用者に
よる検索が行なわれていない間に、入力履歴格納手段14
07に格納された情報と、言語情報格納手段1409に格納さ
れた情報とを参照して、辞書1402に新規登録する文字列
を決定し、辞書1402に新規登録する。

【０１０４】図１５は、辞書変更手段1410における辞書
新規登録処理を示すフローチャートである。以下、この
フローチャートに基づいて辞書変更手段1410の処理を詳
細に説明する。

【０１０５】ステップ１５０１で、新規辞書登録文字列
候補を言語情報格納手段1409から読み出し、各文字列お
よびその頻度をS[i]、FS[i]とする。つづいて、各S[i]
について、ステップ１５０２〜ステップ１５０７を繰り
返す。ステップ１５０３では、S[i]が入力履歴格納手段
1407中に格納されているかどうかを調べ、もしあれば、
そのS[i]の入力履歴格納手段1407での頻度をステップ１
５０４にてI[i]に代入する。その後、ステップ１５０５
にて格納されI[i]+FS[i]が予め定められた値FTより大き
い場合に、S[i]を新規辞書登録文字列として選択する。
最終的に、ステップ１５０８にて、選択された新規辞書
登録文字列を辞書1402に新規登録して、処理を終える。

【０１０６】図１５に示したものは、辞書変更手段1410
における辞書新規登録処理の一例であり、ステップ１５
０５で新規辞書登録文字列を選択する際に、I[i]とFS
[i]のうち、どちらか一方がある一定値FT以上であるも
のを新規登録文字列として決定する、といった方法でも
よいし、I[i]とFS[i]によって定まる評価関数を設定し
て、それによって決定する、といった方法でもよい。ま
た、新規登録文字列を、前記のような判断基準で自動的
に行なってもよいが、決定の過程の中で、利用者へ新規
登録文字列候補を提示し、利用者に選択させるというや
りとりを行なって、半自動的に決定する、といった方法
でもよい。

【０１０７】辞書変更手段1410による辞書1402への新規
登録が終了した後、単語統計情報収集手段1403は新たに
文書格納手段1401から検索対象文書を読み出して、単語
統計情報を再収集して単語統計情報格納手段1404に格納
する。

【０１０８】以上のようにすることで、辞書1402に新規
登録する文字列の候補をより精密に選択することがで
き、辞書1402を利用者および検索対象文書に適合させて
変更することが可能になる。そして、利用者が次回に検
索する際に、更新された辞書中に含まれる単語について
はすでに単語統計情報格納手段1404に統計情報が格納さ
れているため、更新される以前に辞書中に含まれなかっ
た文字列で検索された場合でも、類似度判定手段1405に
おける処理が正確に行なえるようになり、文書の類似度
順位の精度を高めることができる。

【０１０９】（第７の実施の形態）図１６は、本発明の
第７の実施の形態の文書検索システムを示す。図１６に
示す文書検索システムは、検索対象文書を格納する文書
格納手段1601と、単語集合を規定する辞書1602と、文書
格納手段1601から検索対象文書を読み出して各文書中の
各単語の頻度情報や、全検索対象文書での各単語の分布
情報などの単語統計情報を収集する単語統計情報収集手
段1603と、単語統計情報収集手段1603で収集された情報
を格納する単語統計情報格納手段1604と、利用者からの
入力と、単語統計情報格納手段1604内の情報とを参照し
て利用者の検索意図と各文書との類似度を判定する類似
度判定手段1605と、全文検索手段1606と、利用者からの
入力履歴を管理する入力管理手段1607と、前記入力履歴
を格納する入力履歴格納手段1608と、文書格納手段1601
から検索対象文書を読み出して各文書中の任意文字列の
各文書内での頻度、全検索対象文書中での単語頻度など
の各種統計情報や、検索対象文書中の略語や同格表現な
どの言語的情報を抽出する言語情報抽出手段1609と、前
記言語情報抽出手段1609で抽出された情報を格納する言
語情報格納手段1610と、辞書1602に新規単語を登録した
り、辞書1602の内容を変更する辞書変更手段1611とから
構成されている。

【０１１０】図１６において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。

【０１１１】検索に先だつ単語統計情報の収集は、前記
第１の実施の形態に示した処理と全く同様に行なわれ
る。

【０１１２】また、実際の利用者による文書の検索は、
前記第１の実施の形態あるいは前記第２の実施の形態あ
るいは前記第３の実施の形態と全く同様に行なわれる。
ただし、前記第２の実施の形態と同様に処理が進む場合
には、全文検索手段1606は単語頻度情報を推定する機能
も持ち、また、前記第３の実施の形態と同様に処理が進
む場合には、全文検索手段1606は単語頻度情報を動的に
正確に求めるという機能も有する。

【０１１３】また、入力管理手段1607、言語情報抽出手
段1609、辞書変更手段1611の処理は、前記第６の実施の
形態と全く同様に行なわれる。

【０１１４】以上のような構成にすれば、前記第１の実
施の形態あるいは前記第２の実施の形態あるいは前記第
３の実施の形態により得られる効果と、前記第４の実施
の形態および前記第５の実施の形態および前記第６の実
施の形態により得られる効果が同時に得られ、類似度判
定手段における精度が高まるだけでなく、利用者の入力
文字列や検索対象文書中に高頻度に出現する文字列につ
いて辞書に新規登録を行なって、事前にそのような単語
についても統計情報を収集しておくために、類似度判定
手段において全文検索手段を用いなければならない場合
が少なくなり、検索全体の効率も向上するという効果も
得られる。

【０１１５】

【発明の効果】以上のように本発明の文書検索システム
によれば、辞書に登録されていない未知語を含む質問に
対しても、非完全一致モデルによる文書検索を高精度で
行なうことができ、更に、未知語の辞書への新規登録を
自動的、あるいは半自動的に行なうことで、非完全一致
モデルによる文書検索を高精度かつ効率的に行なうこと
ができる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、

【図２】本発明の第１の実施の形態にかかる単語統計情
報格納手段14に格納される情報の例、

【図３】本発明の第１の実施の形態にかかる類似度判定
手段15の処理を示すフローチャート、

【図４】本発明の第２の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、

【図５】本発明の第２の実施の形態にかかる類似度判定
手段45の処理を示すフローチャート、

【図６】本発明の第２の実施の形態にかかる頻度情報推
定手段46の処理を示すフローチャート、

【図７】本発明の第３の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、

【図８】本発明の第３の実施の形態にかかる類似度判定
手段75の処理を示すフローチャート、

【図９】本発明の第４の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、

【図１０】本発明の第４の実施の形態にかかる辞書変更
手段98の処理を示すフローチャート、

【図１１】本発明の第５の実施の形態にかかる文書検索
システムの機能構成を示すブロック図、

【図１２】本発明の第５の実施の形態にかかる言語情報
抽出手段1106の処理を示すフローチャート、

【図１３】本発明の第５の実施の形態にかかる辞書変更
手段1108の処理を示すフローチャート、

【図１４】本発明の第６の実施の形態にかかる文書検索
システムの機能構成を示すブロック図、

【図１５】本発明の第６の実施の形態にかかる辞書変更
手段1410の処理を示すフローチャート、

【図１６】本発明の第６の実施の形態にかかる文書検索
システムの機能構成を示すブロック図、

【図１７】従来例の非完全一致モデルに基づく文書検索
システムの機能構成を示すブロック図である。

【符号の説明】

11、41、71、91、1101、1402、1601、1701 文書格納手
段 12、42、72、92、1102、1402、1602、1702 辞書 13、43、73、93、1103、1403、1603、1703 単語統計情
報収集手段 14、44、74、94、1104、1404、1604、1704 単語統計情
報格納手段 15、45、75、95、1105、1405、1605、1705 類似度判定
手段 16、47、77、1606 全文検索手段 46 頻度情報推定手段 76 文字列出現頻度計算手段 96、1406、1607 入力管理手段 97、1407、1608 入力履歴格納手段 98、1108、1410、1611 辞書変更手段 1106、1408、1609 言語情報抽出手段 1107、1409、1610 言語情報格納手段

───────────────────────────────────────────────────── フロントページの続き (72)発明者菅野祐司大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者佐藤光弘大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者野本昌子大阪府門真市大字門真1006番地松下電器産業株式会社内 (72)発明者稲葉光昭大阪府門真市大字門真1006番地松下電器産業株式会社内Ｆターム(参考） 5B075 ND03 NK32 NS10 PP24 PR04 PR06 QM08 QP03 UU06

Claims

【特許請求の範囲】

【請求項１】単語集合を規定する辞書と、検索対象文
書を格納する文書格納手段と、前記文書格納手段から検
索対象文書を読み出して各文書中の各単語の頻度情報
や、全検索対象文書での各単語の分布情報などの単語統
計情報を収集する単語統計情報収集手段と、前記単語統
計情報収集手段で収集した単語統計情報を格納する単語
統計情報格納手段と、利用者からの入力と、前記単語統
計情報格納手段内の単語統計情報とを参照して利用者の
検索意図と各文書との類似度を判定する類似度判定手段
とを備え、前記類似度判定手段において、利用者からの
入力と収集された各文書の単語統計情報との適合度に基
づいて、各検索対象文書の利用者の検索意図に類似する
順位を決定する文書検索システムにおいて、更に、利用者が入力した入力の履歴を管理する入力管理手段
と、前記入力管理手段で管理された入力履歴を格納する入力
履歴格納手段と、前記辞書に新たな単語を登録する辞書変更手段を設け、前記入力履歴格納手段に格納された入力履歴中の文字列
の頻度情報を用いて、前記辞書に登録されていない文字
列で、単語として新規登録すべき文字列を自動的に決定
するか、あるいは前記入力管理手段を介して利用者との
やりとりを通じて半自動的に決定して、前記辞書変更手段により新たな単語として前記辞書に新
規登録すると共に、新規登録された辞書を用いて検索対
象文書の各文書に出現する単語統計情報の再収集を行な
うようにしたことを特徴とする文書検索システム。
【請求項２】単語集合を規定する辞書と、検索対象文
書を格納する文書格納手段と、前記文書格納手段から検
索対象文書を読み出して各文書中の各単語の頻度情報
や、全検索対象文書での各単語の分布情報などの単語統
計情報を収集する単語統計情報収集手段と、前記単語統
計情報収集手段で収集した単語統計情報を格納する単語
統計情報格納手段と、利用者からの入力と、前記単語統
計情報格納手段内の単語統計情報とを参照して利用者の
検索意図と各文書との類似度を判定する類似度判定手段
とを備え、前記類似度判定手段において、利用者からの
入力と収集された各文書の単語統計情報との適合度に基
づいて、各検索対象文書の利用者の検索意図に類似する
順位を決定する文書検索システムにおいて、更に、検索対象文書を走査して、任意文字列の各文書内での頻
度及び全検索対象文書中での単語頻度などの各種単語統
計情報や、検索対象文書中の略語や同格表現などの言語
的情報を抽出する言語情報抽出手段と、前記言語情報抽出手段で抽出した各種単語統計情報や言
語的情報を格納する言語情報格納手段と、前記辞書に新たな単語を登録し、また辞書中の同義語を
指定することにより辞書を修正する辞書変更手段を設
け、前記言語情報抽出手段にて抽出され前記言語情報格納手
段に格納された文書内の各種単語統計情報を用いて、前
記辞書に登録されていない文字列で、単語として新規登
録すべき文字列を自動的に決定し、前記辞書変更手段に
より新たな単語として前記辞書に新規登録し、また前記言語情報抽出手段にて抽出され前記言語情報格
納手段に格納された言語的情報を用いて、前記辞書中で
同一視すべき単語のグループを自動的に決定して、前記
辞書変更手段により同義語の指定を行なって前記辞書を
修正し、新規登録又は修正された辞書を用いて検索対象文書の各
文書に出現する単語統計情報の再収集を行なうことを特
徴とする文書検索システム。
【請求項３】単語集合を規定する辞書と、検索対象文
書を格納する文書格納手段と、前記文書格納手段から検
索対象文書を読み出して各文書中の各単語の頻度情報
や、全検索対象文書での各単語の分布情報などの単語統
計情報を収集する単語統計情報収集手段と、前記単語統
計情報収集手段で収集した単語統計情報を格納する単語
統計情報格納手段と、利用者からの入力と、前記単語統
計情報格納手段内の単語統計情報とを参照して利用者の
検索意図と各文書との類似度を判定する類似度判定手段
とを備え、前記類似度判定手段において、利用者からの
入力と収集された各文書の単語統計情報との適合度に基
づいて、各検索対象文書の利用者の検索意図に類似する
順位を決定する文書検索システムにおいて、更に、利用者が入力した入力の履歴を管理する入力管理手段
と、前記入力管理手段で管理された入力履歴を格納する入力
履歴格納手段と、検索対象文書を走査して、任意文字列の各文書内での頻
度及び全検索対象文書中での単語頻度などの各種単語統
計情報や、検索対象文書中の略語や同格表現などの言語
的情報を抽出する言語情報抽出手段と、前記言語情報抽出手段で抽出した各種単語統計情報や言
語的情報を格納する言語情報格納手段と、前記辞書に新たな単語を登録し、また辞書中の同義語を
指定することにより辞書を修正する辞書変更手段を設
け、前記入力履歴格納手段に格納された入力履歴中の文字列
の頻度情報と、前記言語情報抽出手段にて抽出され前記
言語情報格納手段に格納された文書内の各種単語統計情
報を用いて、前記辞書に登録されていない文字列で、単
語として新規登録すべき文字列を自動的に決定し、ある
いは前記入力管理手段を介して利用者とのやりとりを通
じて半自動的に決定し、前記辞書変更手段により新たな
単語として前記辞書に新規登録し、また前記言語情報抽出手段にて抽出され前記言語情報格
納手段に格納された言語的情報を用いて、前記辞書中で
同一視すべき単語のグループを自動的に決定し、あるい
は前記入力管理手段を介して利用者とのやりとりを通じ
て半自動的に決定して、前記辞書変更手段により同義語
の指定を行なって前記辞書を修正し、新規登録又は修正された辞書を用いて検索対象文書の各
文書に出現する単語統計情報の再収集を行なうことを特
徴とする文書検索システム。