JP3333186B2 - 文書検索システム - Google Patents

文書検索システム

Info

Publication number
JP3333186B2
JP3333186B2 JP2001276934A JP2001276934A JP3333186B2 JP 3333186 B2 JP3333186 B2 JP 3333186B2 JP 2001276934 A JP2001276934 A JP 2001276934A JP 2001276934 A JP2001276934 A JP 2001276934A JP 3333186 B2 JP3333186 B2 JP 3333186B2
Authority
JP
Japan
Prior art keywords
document
word
dictionary
information
statistical information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001276934A
Other languages
English (en)
Other versions
JP2002140330A (ja
Inventor
直彦 野口
秀樹 安川
祐司 菅野
光弘 佐藤
昌子 野本
光昭 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2001276934A priority Critical patent/JP3333186B2/ja
Publication of JP2002140330A publication Critical patent/JP2002140330A/ja
Application granted granted Critical
Publication of JP3333186B2 publication Critical patent/JP3333186B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】 【発明の属する技術分野】
【0001】本発明は、電子化され蓄積された文書情報
から、所望の文書を検索する文書検索システムに関する
ものであり、特に文書情報が蓄積されたデータベース、
あるいは、一般のワードプロセッサ、オフィスコンピュ
ータなどの記憶装置に蓄積された文書情報の効率的で高
精度な検索が行なえる文書検索システムに関するもので
ある。
【0002】
【従来の技術】近年、電子メールや電子カタログ、電子
出版物など、電子化された文書情報が大量に流通し始め
たことに伴って、それらの文書情報から所望の文書だけ
を検索する文書検索システムに対する関心が高まってき
ている。
【0003】そのような文書検索システムにおいては、
従来は、文書毎に付与されたキーワードを利用するキー
ワード検索手法や、人手によるキーワード付けの作業を
必要とせず、文書全文の文字列照合を高速に行なう全文
検索手法などを用いるシステムが一般的であった。しか
し、前記従来の手法は、全て単語、文字列といった表層
的な情報の完全一致モデルに基づくものであり、利用者
は、自分でそれらの文字列を構成要素とする検索式(通
常は、AND, OR, NOT などの論理演算子を用いた論理
式)を構成して検索条件として与えなければならない。
【0004】そのため、専門家でなければ、利用者の検
索意図に沿った適切な検索式を構成するのが非常に難し
く、結果として検索もれや検索のゴミが多発してしま
い、検索精度、検索効率ともに悪化してしまうという問
題があった。
【0005】一方、前記の問題を解決する、非完全一致
モデルに基づく文書検索手法も現在までに数多く提案さ
れている。文書と質問文を互いに多次元の特徴ベクトル
として表現し、それらのベクトルの間の距離によって類
似度を計測して、質問文に類似した文書から順番にラン
キングを行なうベクトル空間法などがその代表例であ
る。
【0006】非完全一致モデルでは、利用者は自分の検
索意図を表現する自然言語文や、典型的な文書などを指
定すればよく、完全一致モデルの場合のように、自分で
論理式を構成する必要はない(そのような技術について
は、成書Salton,G. and McGill, M.J.:Introduction to
Modern Information Retrieval, McGraw-Hill Publish
ing Company, 1983 に詳しい解説が記載されてい
る。)。
【0007】また、非完全一致モデルに基づく文書検索
では、検索結果を質問文に類似する順序で出力すること
ができるので、検索結果が大量になる場合には、所望の
文書を見つけるのが容易になる、あるいは検索結果の絞
り込みを効率的に行なえるなどの利点がある。
【0008】以下、図面を参照しながら、従来の非完全
一致モデルに基づく文書検索システムについて説明す
る。
【0009】図17は、従来の非完全一致モデルに基づ
く文書検索システムの機能構成を示したブロック図であ
る。図17において、文書検索システムは、検索対象文
書を格納する文書格納手段1701と、単語集合を規定する
辞書1702と、文書格納手段1701から検索対象文書を読み
出して各文書中の各単語の頻度情報や、全検索対象文書
での各単語の分布情報などの単語統計情報を収集する単
語統計情報収集手段1703と、前記単語統計情報収集手段
1703で収集された情報を格納する単語統計情報格納手段
1704と、利用者からの入力と、前記単語統計情報格納手
段1704内の情報を参照して利用者の検索意図と各文書と
の類似度を判定する類似度判定手段1705とから構成され
ている。
【0010】図17において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。
【0011】まず、利用者が文書検索を行なう前に、単
語統計情報収集手段1703が文書格納手段1701に格納され
た検索対象文書を読み出して、必要ならば各文書に形態
素解析などを施して単語列に分割し、各単語が各文書に
どれだけの頻度で出現するかという情報を収集して、そ
の情報を単語統計情報格納手段1704に格納する。
【0012】実際に検索を行なう場合は、類似度判定手
段1705が、利用者から入力された検索条件と、前記単語
統計情報格納手段1704に格納された単語統計情報とを参
照して、各文書と利用者の検索意図との類似度を判定す
る。
【0013】類似度の判定には、前記単語統計情報格納
手段1704に格納された各単語の頻度情報と分布情報か
ら、各単語の各検索対象文書内で重要度を表現する単語
の重みを計算しておき、利用者から入力された単語につ
いて、各文書における当該単語の重みを加算することに
よって各文書の類似度を計算する、といった手法がとら
れることが多い。類似度判定のための計算手法について
は、前掲した参考文献に詳細に記載されているので、そ
れを参照されたい。
【0014】類似度判定終了後、利用者の入力意図への
類似度の高いものから順に利用者に提示することで検索
処理を終える。
【0015】以上のような、非完全一致モデルに基づく
文書検索手法は、従来のキーワード検索手法や全文検索
手法に代わる新しい文書検索の手法として注目を集め始
めており、近年爆発的にニーズが増大している、インタ
ーネット上での情報検索システムなどへの応用・実用化
が徐々に図られている。
【0016】
【発明が解決しようとする課題】前記非完全一致モデル
に基づく文書検索手法では、通常、各検索対象文書に出
現する単語の頻度や、全検索対象文書中での単語出現の
分布などの、単語出現についての統計的情報を基にして
類似度を計算する。従って、大規模な文書に対する類似
度計算を高速に行なうためには、そのような単語頻度情
報や単語分布情報を検索に先だって求めておく必要があ
るが、通常は、予め単語を規定した何らかの辞書を用い
て、検索対象文書を単語分割することで前記単語頻度情
報、単語分布情報を収集する。
【0017】しかし、検索対象文書中には、前記辞書中
に登録されていない単語が出現することも多く、また、
利用者からの入力文字列も前記辞書中に登録された単語
のみを用いてなされるとは限らない。そのような、前記
辞書中に登録されていない単語(本願明細書では未知語
ということもある。)が文書中に出現したり、利用者の
入力に出現したりする場合には、事前に当該未知語の出
現頻度を求めることが不可能なため、検索もれを生じた
り、あるいは類似度の計算が不適当になったりする、と
いう問題点がある。
【0018】検索対象文書が、英語などの単語区切りが
明瞭な言語で書かれている文書に限られる場合は、その
区切り記号(通常は空白文字)で区切られた文字列を単
語認定するという手法で前記の問題には対処可能である
が、検索対象文書が中国語、日本語などのいわゆる膠着
言語で書かれた文書である場合は、単語集合を規定する
何らかの辞書を用いて単語分割を行なわない限り、文書
中の単語認定ができないため、単純な手法では前記の未
知語の問題を解決することができない。
【0019】本発明は、前記従来技術の課題を解決する
もので、利用者から、辞書に登録されていない文字列
(未知語)を含む質問文で質問された場合でも、当該文
字列を含む文書をもれなく検索し、かつ精度を落すこと
なく文書と質問文との類似度を計算することのできる、
非完全一致モデルに基づく文書検索システムを提供する
ことを目的としている。
【0020】
【課題を解決するための手段】そこで、本発明は、単語
集合を規定する辞書と、検索対象文書を格納する文書格
納手段と、前記文書格納手段から検索対象文書を読み出
して各文書中の各単語の頻度情報や、全検索対象文書で
の各単語の分布情報などの単語統計情報を収集する単語
統計情報収集手段と、前記単語統計情報収集手段で収集
した単語統計情報を格納する単語統計情報格納手段と、
利用者からの入力と、前記単語統計情報格納手段内の単
語統計情報とを参照して利用者の検索意図と各文書との
類似度を判定する類似度判定手段とを備え、前記類似度
判定手段において、利用者からの入力と収集された各文
書の単語統計情報との適合度に基づいて、各検索対象文
書の利用者の検索意図に類似する順位を決定する文書検
索システムにおいて、更に、利用者が入力した入力の履
歴を管理する入力管理手段と、前記入力管理手段で管理
された入力履歴を格納する入力履歴格納手段と、前記辞
書に新たな単語を登録する辞書変更手段を設け、前記入
力履歴格納手段に格納された入力履歴中の文字列の頻度
情報を用いて、前記辞書に登録されていない文字列で、
単語として新規登録すべき文字列を自動的に決定する
か、あるいは前記入力管理手段を介して利用者とのやり
とりを通じて半自動的に決定して、前記辞書変更手段に
より新たな単語として前記辞書に新規登録すると共に、
新規登録された辞書を用いて検索対象文書の各文書に出
現する単語統計情報の再収集を行なうようにしたことを
特徴とするものである。
【0021】また、本発明は、単語集合を規定する辞書
と、検索対象文書を格納する文書格納手段と、前記文書
格納手段から検索対象文書を読み出して各文書中の各単
語の頻度情報や、全検索対象文書での各単語の分布情報
などの単語統計情報を収集する単語統計情報収集手段
と、前記単語統計情報収集手段で収集した単語統計情報
を格納する単語統計情報格納手段と、利用者からの入力
と、前記単語統計情報格納手段内の単語統計情報とを参
照して利用者の検索意図と各文書との類似度を判定する
類似度判定手段とを備え、前記類似度判定手段におい
て、利用者からの入力と収集された各文書の単語統計情
報との適合度に基づいて、各検索対象文書の利用者の検
索意図に類似する順位を決定する文書検索システムにお
いて、更に、検索対象文書を走査して、任意文字列の各
文書内での頻度及び全検索対象文書中での単語頻度など
の各種単語統計情報や、検索対象文書中の略語や同格表
現などの言語的情報を抽出する言語情報抽出手段と、前
記言語情報抽出手段で抽出した各種単語統計情報や言語
的情報を格納する言語情報格納手段と、前記辞書に新た
な単語を登録し、また辞書中の同義語を指定することに
より辞書を修正する辞書変更手段を設け、前記言語情報
抽出手段にて抽出され前記言語情報格納手段に格納され
た文書内の各種単語統計情報を用いて、前記辞書に登録
されていない文字列で、単語として新規登録すべき文字
列を自動的に決定し、前記辞書変更手段により新たな単
語として前記辞書に新規登録し、また前記言語情報抽出
手段にて抽出され前記言語情報格納手段に格納された言
語的情報を用いて、前記辞書中で同一視すべき単語のグ
ループを自動的に決定して、前記辞書変更手段により同
義語の指定を行なって前記辞書を修正し、新規登録又は
修正された辞書を用いて検索対象文書の各文書に出現す
る単語統計情報の再収集を行なうことを特徴とするもの
である。
【0022】さらに、本発明は、単語集合を規定する辞
書と、検索対象文書を格納する文書格納手段と、前記文
書格納手段から検索対象文書を読み出して各文書中の各
単語の頻度情報や、全検索対象文書での各単語の分布情
報などの単語統計情報を収集する単語統計情報収集手段
と、前記単語統計情報収集手段で収集した単語統計情報
を格納する単語統計情報格納手段と、利用者からの入力
と、前記単語統計情報格納手段内の単語統計情報とを参
照して利用者の検索意図と各文書との類似度を判定する
類似度判定手段とを備え、前記類似度判定手段におい
て、利用者からの入力と収集された各文書の単語統計情
報との適合度に基づいて、各検索対象文書の利用者の検
索意図に類似する順位を決定する文書検索システムにお
いて、更に、利用者が入力した入力の履歴を管理する入
力管理手段と、前記入力管理手段で管理された入力履歴
を格納する入力履歴格納手段と、検索対象文書を走査し
て、任意文字列の各文書内での頻度及び全検索対象文書
中での単語頻度などの各種単語統計情報や、検索対象文
書中の略語や同格表現などの言語的情報を抽出する言語
情報抽出手段と、前記言語情報抽出手段で抽出した各種
単語統計情報や言語的情報を格納する言語情報格納手段
と、前記辞書に新たな単語を登録し、また辞書中の同義
語を指定することにより辞書を修正する辞書変更手段を
設け、前記入力履歴格納手段に格納された入力履歴中の
文字列の頻度情報と、前記言語情報抽出手段にて抽出さ
れ前記言語情報格納手段に格納された文書内の各種単語
統計情報を用いて、前記辞書に登録されていない文字列
で、単語として新規登録すべき文字列を自動的に決定
し、あるいは前記入力管理手段を介して利用者とのやり
とりを通じて半自動的に決定し、前記辞書変更手段によ
り新たな単語として前記辞書に新規登録し、また前記言
語情報抽出手段にて抽出され前記言語情報格納手段に格
納された言語的情報を用いて、前記辞書中で同一視すべ
き単語のグループを自動的に決定し、あるいは前記入力
管理手段を介して利用者とのやりとりを通じて半自動的
に決定して、前記辞書変更手段により同義語の指定を行
なって前記辞書を修正し、新規登録又は修正された辞書
を用いて検索対象文書の各文書に出現する単語統計情報
の再収集を行なうことを特徴とするものである。
【0023】その結果、本発明は、入力履歴中の文字列
の頻度情報、およびまたは抽出された文書内の文字列頻
度情報を参照して、比較的頻度が高く、単語として認定
すべき文字列の候補を生成して当該候補を自動的に決定
して、あるいは利用者とのやりとりを通じて半自動的に
決定して辞書変更手段により新たな単語として前記辞書
に新規登録して、当該辞書を用いて検索対象文書の各文
書に出現する単語の頻度情報の再収集を行なうことで、
利用者からの入力に前記辞書に登録されていない文字列
が含まれる可能性を低減することができるので、前記全
文検索手段を用いて動的に頻度を求める処理が軽減さ
れ、全体として効率的な検索が可能になる。
【0024】また、本発明は、抽出された略語や同格表
現などの言語的情報を用いて、前記辞書中の同義語を指
定することにより辞書変更手段にて辞書を修正して、当
該辞書を用いて検索対象文書の各文書に出現する単語の
頻度情報の再収集を行なうことで、利用者からの入力単
語と同義の単語についても検索が可能になり、また、同
一の単語グループに属する単語についての頻度を考慮し
て類似度判定を行なうことで、その精度を向上させるこ
とが可能になる。
【0025】
【発明の実施の形態】本発明の請求項1記載の発明は、
単語集合を規定する辞書と、検索対象文書を格納する文
書格納手段と、前記文書格納手段から検索対象文書を読
み出して各文書中の各単語の頻度情報や、全検索対象文
書での各単語の分布情報などの単語統計情報を収集する
単語統計情報収集手段と、前記単語統計情報収集手段で
収集した単語統計情報を格納する単語統計情報格納手段
と、利用者からの入力と、前記単語統計情報格納手段内
の単語統計情報とを参照して利用者の検索意図と各文書
との類似度を判定する類似度判定手段とを備え、前記類
似度判定手段において、利用者からの入力と収集された
各文書の単語統計情報との適合度に基づいて、各検索対
象文書の利用者の検索意図に類似する順位を決定する文
書検索システムにおいて、更に、利用者が入力した入力
の履歴を管理する入力管理手段と、前記入力管理手段で
管理された入力履歴を格納する入力履歴格納手段と、前
記辞書に新たな単語を登録する辞書変更手段を設け、前
記入力履歴格納手段に格納された入力履歴中の文字列の
頻度情報を用いて、前記辞書に登録されていない文字列
で、単語として新規登録すべき文字列を自動的に決定す
るか、あるいは前記入力管理手段を介して利用者とのや
りとりを通じて半自動的に決定して、前記辞書変更手段
により新たな単語として前記辞書に新規登録すると共
に、新規登録された辞書を用いて検索対象文書の各文書
に出現する単語統計情報の再収集を行なうようにしたも
のであり、利用者が検索によく用いるような文字列であ
って、かつ辞書中の単語でないものは減少するため、辞
書を利用者に適応する形で変更していくことが可能にな
る。そして、利用者が次回に検索する際に、更新された
辞書中に含まれる単語についてはすでに単語統計情報格
納手段に統計情報が格納されているため、更新される以
前に辞書中に含まれなかった文字列で検索された場合で
も、類似度判定手段における処理が正確に行なえるよう
になり、文書の類似度順位の精度を高めることができる
という作用を有する。
【0026】本発明の請求項2記載の発明は、単語集合
を規定する辞書と、検索対象文書を格納する文書格納手
段と、前記文書格納手段から検索対象文書を読み出して
各文書中の各単語の頻度情報や、全検索対象文書での各
単語の分布情報などの単語統計情報を収集する単語統計
情報収集手段と、前記単語統計情報収集手段で収集した
単語統計情報を格納する単語統計情報格納手段と、利用
者からの入力と、前記単語統計情報格納手段内の単語統
計情報とを参照して利用者の検索意図と各文書との類似
度を判定する類似度判定手段とを備え、前記類似度判定
手段において、利用者からの入力と収集された各文書の
単語統計情報との適合度に基づいて、各検索対象文書の
利用者の検索意図に類似する順位を決定する文書検索シ
ステムにおいて、更に、検索対象文書を走査して、任意
文字列の各文書内での頻度及び全検索対象文書中での単
語頻度などの各種単語統計情報や、検索対象文書中の略
語や同格表現などの言語的情報を抽出する言語情報抽出
手段と、前記言語情報抽出手段で抽出した各種単語統計
情報や言語的情報を格納する言語情報格納手段と、前記
辞書に新たな単語を登録し、また辞書中の同義語を指定
することにより辞書を修正する辞書変更手段を設け、前
記言語情報抽出手段にて抽出され前記言語情報格納手段
に格納された文書内の各種単語統計情報を用いて、前記
辞書に登録されていない文字列で、単語として新規登録
すべき文字列を自動的に決定し、前記辞書変更手段によ
り新たな単語として前記辞書に新規登録し、また前記言
語情報抽出手段にて抽出され前記言語情報格納手段に格
納された言語的情報を用いて、前記辞書中で同一視すべ
き単語のグループを自動的に決定して、前記辞書変更手
段により同義語の指定を行なって前記辞書を修正し、新
規登録又は修正された辞書を用いて検索対象文書の各文
書に出現する単語統計情報の再収集を行なうようにした
ものであり、検索対象文書中に存在する高頻度な文字列
であって、かつ辞書中の単語でないものの数は減少する
ため、辞書を、検索対象文書に適合させることが可能に
なる。そして、利用者が次回に検索する際に、更新され
た辞書中に含まれる単語についてはすでに単語統計情報
格納手段に統計情報が格納されているため、更新される
以前に辞書中に含まれなかった文字列で検索された場合
でも、類似度判定手段における処理が正確に行なえるよ
うになり、文書の類似度順位の精度を高めることができ
るという作用を有する。
【0027】また、前記言語情報抽出手段で抽出された
同義語についても、単一の単語にて検索でき、また類似
度計算を同一の単語グループの頻度を考慮して行なうこ
とができるので、類似度の判定の精度が向上するという
作用を有する。
【0028】本発明の請求項3記載の発明は、単語集合
を規定する辞書と、検索対象文書を格納する文書格納手
段と、前記文書格納手段から検索対象文書を読み出して
各文書中の各単語の頻度情報や、全検索対象文書での各
単語の分布情報などの単語統計情報を収集する単語統計
情報収集手段と、前記単語統計情報収集手段で収集した
単語統計情報を格納する単語統計情報格納手段と、利用
者からの入力と、前記単語統計情報格納手段内の単語統
計情報とを参照して利用者の検索意図と各文書との類似
度を判定する類似度判定手段とを備え、前記類似度判定
手段において、利用者からの入力と収集された各文書の
単語統計情報との適合度に基づいて、各検索対象文書の
利用者の検索意図に類似する順位を決定する文書検索シ
ステムにおいて、更に、利用者が入力した入力の履歴を
管理する入力管理手段と、前記入力管理手段で管理され
た入力履歴を格納する入力履歴格納手段と、検索対象文
書を走査して、任意文字列の各文書内での頻度及び全検
索対象文書中での単語頻度などの各種単語統計情報や、
検索対象文書中の略語や同格表現などの言語的情報を抽
出する言語情報抽出手段と、前記言語情報抽出手段で抽
出した各種単語統計情報や言語的情報を格納する言語情
報格納手段と、前記辞書に新たな単語を登録し、また辞
書中の同義語を指定することにより辞書を修正する辞書
変更手段を設け、前記入力履歴格納手段に格納された入
力履歴中の文字列の頻度情報と、前記言語情報抽出手段
にて抽出され前記言語情報格納手段に格納された文書内
の各種単語統計情報を用いて、前記辞書に登録されてい
ない文字列で、単語として新規登録すべき文字列を自動
的に決定し、あるいは前記入力管理手段を介して利用者
とのやりとりを通じて半自動的に決定し、前記辞書変更
手段により新たな単語として前記辞書に新規登録し、ま
た前記言語情報抽出手段にて抽出され前記言語情報格納
手段に格納された言語的情報を用いて、前記辞書中で同
一視すべき単語のグループを自動的に決定し、あるいは
前記入力管理手段を介して利用者とのやりとりを通じて
半自動的に決定して、前記辞書変更手段により同義語の
指定を行なって前記辞書を修正し、新規登録又は修正さ
れた辞書を用いて検索対象文書の各文書に出現する単語
統計情報の再収集を行なうようにしたものであり、辞書
に新規登録する文字列の候補をより精密に選択すること
ができ、辞書を利用者および検索対象文書に適合させて
変更することが可能になる。そして、利用者が次回に検
索する際に、更新された辞書中に含まれる単語について
はすでに単語統計情報格納手段に統計情報が格納されて
いるため、更新される以前に辞書中に含まれなかった文
字列で検索された場合でも、類似度判定手段における処
理が正確に行なえるようになり、文書の類似度順位の精
度を高めることができるという作用を有する。
【0029】また、前記言語情報抽出手段で抽出された
同義語についても、単一の単語にて検索でき、また類似
度計算を同一の単語グループの頻度を考慮して行なうこ
とができるので、類似度の判定の精度が向上するという
作用を有する。
【0030】以下、本発明の実施の形態について、図1
から図16を用いて説明する。
【0031】(第1の実施の形態)図1は、本発明の第
1の実施の形態の文書検索システムを示す。図1に示す
文書検索システムは、検索対象文書を格納する文書格納
手段11と、単語集合を規定する辞書12と、文書格納手段
11から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段13と、単
語統計情報収集手段13で収集された情報を格納する単語
統計情報格納手段14と、利用者が入力した任意の文字列
について、それが検索対象文書中のどの文書に出現する
かということを検索することのできる全文検索手段16
と、全文検索手段16による検索結果の各文書について、
利用者からの入力と、単語統計情報格納手段14内の情報
を参照して利用者の検索意図と各文書との類似度を判定
する類似度判定手段15とから構成されている。
【0032】図1において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。
【0033】まず、実際の検索に先だって、単語統計情
報収集手段13が、文書格納手段11に格納された検索対象
文書を順番に読み出して、辞書12に登録された各単語が
各文書にどれだけの頻度で出現するかということを計測
して、その情報を単語統計情報格納手段14に格納する。
単語頻度情報は、例えば各文書に形態素解析などを施し
て単語列に分割して求めてもよいし、あるいは辞書12に
登録された各単語を単なる文字列として見た場合に、そ
の文字列の各文書における出現を全て計測して当該単語
の頻度としてもよい。
【0034】図2に、単語統計情報格納手段14に格納さ
れる単語統計情報の例を示す。単語統計情報格納手段14
には図2に示すように2つの表形式の情報が格納され
る。図2(a)には、1列目が辞書12中に登録されてい
る単語、2列目には1列目の単語が出現する検索対象文
書中の文書番号、3列目には当該単語が当該文書中に何
回出現するかという頻度情報が記載されている。例え
ば、「株価」という単語は、文書番号35の文書中に、3
回出現することが示されている。
【0035】また、図2(b)には、1列目が辞書12中
に登録されている単語、2列目には1列目の単語が出現
する検索対象文書中の文書の総数、3列目には、1列目
の単語の検索対象文書中の総出現頻度が記載されてい
る。例えば、「株価」という単語は、249文書に出現し
ており、その総出現頻度は、480回であることが示され
ている。
【0036】実際に利用者が文書格納手段11に格納され
た検索対象文書から文書を検索する際には、如何なる文
書を検索したいのかといことを適当な入出力手段を介し
て自然言語文、あるいは文字列の集合などで指定する。
【0037】類似度判定手段15は、利用者からの入力を
文字列の集合に変換し、当該文字列集合に含まれる各文
字列について、一旦全文検索手段16を用いて当該文字列
が出現する文書を検索して検索結果文書集合を求めた
後、前記単語統計情報格納手段14に格納された当該文字
列の統計情報を用いて、前記検索結果文書集合の各文書
についての類似度を計算する。
【0038】図3は、全文検索手段16による検索結果と
単語統計情報格納手段14の情報を用いて類似度判定手段
15が行なう類似度判定処理のフローチャートである。以
下、このフローチャートに基づいて類似度判定手段15の
処理の詳細を説明する。
【0039】ステップ31では、利用者からの入力文字
列の集合をS[1],S[2],...,S[n] とし、検索結果文書番
号の集合をR(初期値は空集合)、総文書数をRN、変数
i,jの初期値を1と設定する。続いて、入力文字列集合
の各S[i]に対して、ステップ33〜ステップ36を繰り
返す。ここでは、まずステップ33にて全文検索手段16
を用いて文字列S[i]を全文検索して、結果の文書の文書
番号の集合をRDとする。全文検索手段16では、任意の文
字列S[i]について、このような情報を求めることができ
る。
【0040】次に、ステップ34にてS[i]が辞書12中の
単語であるかどうかを調べ、辞書12中の単語である場合
には、ステップ35にて、単語統計情報格納手段14から
当該単語S[i]に対応した情報を取得し、その情報を変数
FA[i],FR[i],fr[i,j]に代入する。ここで、FA[i]はS[i]
の検索対象文書における総出現頻度、FR[i]はS[i]が出
現する検索対象文書の総文書数、fr[i,j]は、文書番号j
の文書におけるS[i]の出現頻度である。例えば、S[i]が
「株価」であった場合、図2に示した情報により、FA
[i]は480、FR[i]は249、fr[i,j]は、fr[i,35] = 3, fr
[i, 48] = 2,...のように設定される。
【0041】また、ステップ34にてS[i]が辞書12中の
単語でないと判断された場合には、そのような情報を求
めない。ステップ36では、検索結果文書番号集合RDと
Rの和集合をRに設定し、iを1増加させてステップ32
に戻る。
【0042】以上の処理を繰り返し、各S[i]が出現する
文書番号集合の和集合Rを求める。ここで、R[i]は集合R
のi番目の文書番号を表わすものとする。また、辞書単
語である各S[i]については前記の総出現頻度、出現文書
数、各文書における出現頻度の情報を全て求めた後に、
ステップ37にて変数の初期化を行ない、ステップ38
〜ステップ313にて、集合R内の全ての文書R[j]につ
いて、各文書R[j]の入力文字列集合との類似度V[R[j]]
を求める。ここでは、非完全一致モデルに基づく検索手
法で通常用いられる tf*idf による重みづけを用いた評
価関数を採用している(tf*idf による重みづけについ
ては、成書Salton,G. and McGill, M.J.:Introduction
to Modern Information Retrieval, McGraw-Hill Publi
shing Company, 1983 に詳しい解説が記載されてい
る)。ステップ311で、類似度V[R[j]]の計算行なう
が、S[i]が辞書12中の単語でないということから変数fr
[i,R[j]],FA[i],FR[i]が未定義になっている場合には、
その計算を行なわない。そして、最終的に求められた評
価関数V[R[j]]を用いて、ステップ314にて各文書を
ソートして出力する。
【0043】以上、類似度判定手段15においては、利用
者から入力された文字列について、一旦ステップ33に
て全文検索を行ない、その結果集合RDの和集合Rについ
てのみステップ38〜ステップ314を経て検索文書と
して順序付きで出力することになるので、利用者からの
入力文字列が辞書12中の単語でない場合でも、当該文字
列を含む文書を漏れなく求めた上で類似度判定を行なう
ことができる。
【0044】(第2の実施の形態)図4は、本発明の第
2の実施の形態の文書検索システムを示す。図4に示す
文書検索システムは、検索対象文書を格納する文書格納
手段41と、単語集合を規定する辞書42と、文書格納手段
41から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段43と、単
語統計情報収集手段43で収集された情報を格納する単語
統計情報格納手段44と、利用者からの入力と、単語統計
情報格納手段44内の情報とを参照して利用者の検索意図
と各文書との類似度を判定する類似度判定手段45と、任
意の文字列に対して、それがどの文書にどのような頻度
で出現するかということを推定する頻度情報推定手段46
と、任意の文字列に対して、それがどの文書に出現する
かということを検索することのできる全文検索手段47と
から構成されている。
【0045】図4において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。
【0046】まず、実際の検索に先だって、単語統計情
報収集手段43が、文書格納手段41に格納された検索対象
文書を順番に読み出して、辞書42に登録された各単語が
各文書にどれだけの頻度で出現するかということを計測
して、その情報を単語統計情報格納手段44に格納する。
単語頻度情報は、例えば各文書に形態素解析などを施し
て単語列に分割して求めてもよいし、あるいは辞書42に
登録された各単語を単なる文字列として見た場合に、そ
の文字列の各文書における出現を全て計測して当該単語
の頻度としてもよい。
【0047】実際に利用者が文書格納手段41に格納され
た検索対象文書から文書を検索する際には、如何なる文
書を検索したいのかといことを適当な入出力手段を介し
て自然言語文、あるいは文字列の集合などで指定する。
【0048】類似度判定手段45は、利用者からの入力を
文字列の集合に変換し、当該文字列集合に含まれる各文
字列について、前記単語統計情報格納手段44に格納され
た当該文字列の統計情報と、前記頻度情報推定手段46を
用いて求めた当該文字列の推定頻度情報を用いて、前記
検索結果文書集合の各文書についての類似度を計算す
る。
【0049】図5は、頻度情報推定手段46による推定頻
度情報と単語統計情報格納手段44の情報を用いて類似度
判定手段45が行う類似度判定処理のフローチャートであ
る。以下、このフローチャートに基づいて類似度判定手
段45の処理の詳細を説明する。
【0050】ステップ51では、利用者からの入力文字
列集合をS[1],S[2],...,S[n] とし、検索結果文書番号
の集合をR(初期値は空集合)、総文書数をRN、変数i,j
の初期値を1と設定する。続いて、入力文字列集合の各
S[i]に対して、ステップ53〜ステップ56を繰り返
す。
【0051】まず、ステップ53にてS[i]が辞書42中の
単語であるかどうかを調べ、辞書42中の単語である場合
には、ステップ54にて、単語統計情報格納手段44から
当該単語S[i]に対応した情報を取得し、その情報を変数
FA[i],FR[i],RD,fr[i,j]に代入する。ここで、FA[i]はS
[i]の検索対象文書における総出現頻度、FR[i]はS[i]が
出現する検索対象文書の総文書数、RDは、S[i]が出現す
る文書番号集合、fr[i,j]は、RD中の各文書jにおけるS
[i]の出現頻度である。
【0052】ステップ53にて、S[i]が辞書42中の単語
でないと判断された場合には、ステップ55にて、頻度
情報推定手段46を用いて、S[i]の頻度情報の推定を行な
って、同様に変数FA[i],FR[i],RD,fr[i,j]の値を求め
る。ステップ56では、検索結果文書番号集合RDとRの
和集合をRに設定し、iを1増加させてステップ52に戻
る。
【0053】以上の処理を繰り返し、各S[i]が出現する
文書番号集合の和集合Rを求める。ここで、R[i]は集合R
のi番目の文書番号を表わすものとする。また、各S[i]
について前記の情報を全て求めた後に、ステップ57に
て変数の初期化を行ない、ステップ58〜ステップ51
2にて、集合R内の全ての文書R[j]について、各文書R
[j]の入力文字列集合との類似度V[R[j]]を求める。計算
方法は、前記第1の実施の形態と全く同様であるが、本
実施の形態においては、各i,R[j]について、FA[i],FR
[i],fr[i,R[j]]はすべて定義されている。そして、最終
的に求められた評価関数V[R[j]]を用いて、ステップ5
13にて各文書をソートして出力する。
【0054】図6は、図5におけるステップ55、すな
わち、頻度情報推定手段46における処理を示すフローチ
ャートである。以下、このフローチャートに基づいて頻
度情報推定手段46の処理の詳細を説明する。
【0055】まずステップ62にて、全文検索手段47を
用いて入力文字列S[i]の出現する文書集合D={D[1],D
[2],...,D[m] }を求め、ステップ63にて文字列S[i]
に含まれる部分単語W={W[1],W[2],...,W[n] }をすべ
て求める。ステップ64にて初期化を行なった後、ステ
ップ65〜ステップ611で、D内のすべての文書D[k]
について、S[i]の部分単語で最も文書内出現頻度が低い
ものを求める。
【0056】これは、ステップ68にあるように、単語
統計情報格納手段44を用いれば判定できる。これは、あ
る文書D[k]における文字列S[i]の出現頻度は、S[i]の部
分単語の出現頻度を超えることはないという事実を利用
している。ステップ612では、最終的に求まった最低
の出現頻度の値をfr[i,k]の推定値として設定し、さら
に文字列S[i]の推定総出現頻度FA[i]に加算する。ステ
ップ614では、S[i]の推定出現文書数FR[i]をm(ステ
ップ62で求めた文書数)に設定し、またステップ61
5では、S[i]に部分単語が全く存在しなかった場合にFA
[i]=mと推定する。
【0057】以上の処理により、全文検索手段にて文字
列S[i]の各文書における正確な出現頻度を調査しなくと
も、頻度の推定値を求めることができる。
【0058】以上に示したように、本実施の形態では、
第5図のステップ55にて、利用者からの入力文字列が
辞書42中の単語でない場合でも、当該文字列の出現する
文書を漏れなく求め、かつ当該文書中での当該文字列の
出現頻度を推定することができるので、文書と入力との
類似度を、精度を落とすことなく判定して文書の順位を
決定することができる。
【0059】(第3の実施の形態)図7は、本発明の第
3の実施の形態の文書検索システムを示す。図7に示す
文書検索システムは、検索対象文書を格納する文書格納
手段71と、単語集合を規定する辞書72と、文書格納手段
71から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段73と、単
語統計情報収集手段73で収集された情報を格納する単語
統計情報格納手段74と、利用者からの入力と、単語統計
情報格納手段74内の情報とを参照して利用者の検索意図
と各文書との類似度を判定する類似度判定手段75と、任
意の文字列に対して、その各文書中での出現頻度を求め
ることのできる文字列出現頻度計算手段76と、任意の文
字列に対して、それがどの文書に出現するかということ
を検索することのできる全文検索手段77とから構成され
ている。
【0060】図7において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。
【0061】まず、実際の検索に先だって、単語統計情
報収集手段73が、文書格納手段71に格納された検索対象
文書を順番に読み出して、辞書72に登録された各単語が
各文書にどれだけの頻度で出現するかということを計測
して、その情報を単語統計情報格納手段74に格納する。
単語頻度情報は、例えば各文書に形態素解析などを施し
て単語列に分割して求めてもよいし、あるいは辞書42に
登録された各単語を単なる文字列として見た場合に、そ
の文字列の各文書における出現を全て計測して当該単語
の頻度としてもよい。
【0062】実際に利用者が文書格納手段71に格納され
た検索対象文書から文書を検索する際には、如何なる文
書を検索したいのかといことを適当な入出力手段を介し
て自然言語文、あるいは文字列の集合などで指定する。
【0063】類似度判定手段75は、利用者からの入力を
文字列の集合に変換し、当該文字列集合に含まれる各文
字列について、前記単語統計情報格納手段74に格納され
た当該文字列の統計情報と、前記文字列出現頻度計算手
段76を用いて求めた当該文字列の正確な頻度情報を用い
て、前記検索結果文書集合の各文書についての類似度を
計算する。
【0064】図8は、文字列出現頻度計算手段76による
正確な頻度情報と単語統計情報格納手段74の情報を用い
て類似度判定手段75が行う類似度判定処理のフローチャ
ートである。以下、このフローチャートに基づいて類似
度判定手段75の処理の詳細を説明する。
【0065】ステップ81では、利用者からの入力文字
列集合をS[1],S[2],...,S[n] とし、検索結果文書番号
の集合をR(初期値は空集合)、総文書数をRN、変数i,j
の初期値を1と設定する。続いて、入力文字列集合の各
S[i]に対して、ステップ83〜ステップ86を繰り返
す。
【0066】まず、ステップ83にてS[i]が辞書72中の
単語であるかどうかを調べ、辞書42中の単語である場合
には、ステップ84にて、単語統計情報格納手段74から
当該単語S[i]に対応した情報を取得し、その情報を変数
FA[i],FR[i],RD,fr[i,j]に代入する。ここで、FA[i]はS
[i]の検索対象文書における総出現頻度、FR[i]はS[i]が
出現する検索対象文書の総文書数、RDは、S[i]が出現す
る文書番号集合、fr[i,j]は、RD中の各文書jにおけるS
[i]の出現頻度である。
【0067】ステップ83にて、S[i]が辞書72中の単語
でないと判断された場合には、ステップ85にて、文字
列出現頻度計算手段76を用いて、S[i]の正確な頻度情報
を求め、同様に変数FA[i],FR[i],RD,fr[i,j]の値を求め
る。ステップ86では、検索結果文書番号集合RDとRの
和集合をRに設定し、iを1増加させてステップ82に戻
る。
【0068】以上の処理を繰り返し、各S[i]が出現する
文書番号集合の和集合Rを求める。ここで、R[i]は集合R
のi番号目の文書番号を表わすものとする。また、各S
[i]について前記の情報を全て求めた後に、ステップ8
7にて変数の初期化を行ない、ステップ88〜ステップ
812にて、集合R内の全ての文書R[j]について、各文
書R[j]の入力文字列集合との類似度V[R[j]]を求める。
計算方法は、前記第1の実施の形態と全く同様である
が、本実施の形態においては、各i,R[j]について、正確
なFA[i],FR[i],fr[i,R[j]]の値が求められている。そし
て、最終的に求められた評価関数V[R[j]]を用いて、ス
テップ813にて各文書をソートして出力する。
【0069】ステップ85において、文字列出現頻度計
算手段76は、単語でない文字列S[i]に対して、全文検索
手段77を用いて正確な頻度を求めている。これは例え
ば、全文検索手段77を用いてS[i]が出現する文書集合を
すべて求めた後に、当該文書について全文走査を行なっ
てS[i]の出現頻度を計測してもよいし、あらかじめ全文
検索手段77に、任意文字列の任意の文書内での出現位置
を検索できる機能を付加して求めてもよい。
【0070】以上に示したように、本実施の形態では、
第8図のステップ85にて、利用者からの入力文字列が
辞書72中の単語でない場合でも、当該文字列の出現する
文書を漏れなく求め、かつ当該文書中での当該文字列の
出現頻度を正確に求めることができるので、文書と入力
との類似度を、精度を落とすことなく判定して文書の順
位を決定することができる。
【0071】(第4の実施の形態)図9は、本発明の第
4の実施の形態の文書検索システムを示す。図9に示す
文書検索システムは、検索対象文書を格納する文書格納
手段91と、単語集合を規定する辞書92と、文書格納手段
91から検索対象文書を読み出して各文書中の各単語の頻
度情報や、全検索対象文書での各単語の分布情報などの
単語統計情報を収集する単語統計情報収集手段93と、単
語統計情報収集手段93で収集された情報を格納する単語
統計情報格納手段94と、利用者からの入力と、単語統計
情報格納手段94内の情報とを参照して利用者の検索意図
と各文書との類似度を判定する類似度判定手段95と、利
用者からの入力履歴を管理する入力管理手段96と、前記
入力履歴を格納する入力履歴格納手段97と、辞書92に新
規単語を登録したり、辞書92の内容を変更する辞書変更
手段98とから構成されている。
【0072】図9において、実線矢印は処理の流れを示
しており、実線太線の両端矢印は、各処理手段によるデ
ータの参照を示している。このように構成された文書検
索システムの動作について説明する。
【0073】検索に先だつ単語統計情報の収集、また利
用者による文書の検索は、前記第1の実施の形態に示し
た処理と同様に行なわれる。ただし、実際の検索の際に
は、入力文字列のうち辞書92中の単語になっているもの
のみの統計情報を利用して類似度判定手段95の処理を行
ない、入力文字列で単語になっていないものについては
考慮しない点が前記第1の実施の形態と異なる。
【0074】利用者による文書の検索の過程において、
入力管理手段96は、入力から抽出した文字列集合を、入
力履歴格納手段97に格納する。入力履歴格納手段97は、
入力された文字列集合から、各文字列の入力履歴におけ
る頻度情報を随時計測しておく。
【0075】辞書変更手段98は、定期的に、利用者によ
る検索が行なわれていない間に、入力履歴格納手段97に
格納された情報を参照して、辞書92に新規登録する文字
列を決定し、辞書92に新規登録する。
【0076】図10は、辞書変更手段98における辞書変
更処理を示すフローチャートである。以下、このフロー
チャートに基づいて辞書変更手段98の処理を詳細に説明
する。
【0077】まずステップ1001において、入力履歴
格納手段97に格納された情報を参照して、利用者からの
これまでの入力文字列S[i]とその入力履歴中での頻度FS
[i]を求める。次に、ステップ1002〜ステップ10
05にて、各入力文字列S[i]について、その頻度FS[i]
が、事前に設定された値FTよりも大きい場合に、新規辞
書登録文字列として選択する、という処理を行なう。最
終的に選択された新規登録文字列について、ステップ1
006にて辞書92に新規登録を行なって、処理を終え
る。
【0078】図10に示したものは、辞書変更手段98に
おける処理の一例であり、新規登録文字列を、前記のよ
うな判断基準で自動的に行なってもよいが、決定の過程
の中で、利用者へ新規登録文字列候補を提示し、利用者
に選択させるというやりとりを行なって、半自動的に決
定する、といった方法でもよい。
【0079】辞書変更手段98による辞書92への新規登録
が終了した後、単語統計情報収集手段93は新たに文書格
納手段91から検索対象文書を読み出して、単語統計情報
を再収集して単語統計情報格納手段94に格納する。
【0080】このようにしておけば、利用者が検索によ
く用いるような文字列であって、かつ辞書92中の単語で
ないものは減少するため、辞書92を利用者に適応する形
で変更していくことが可能になる。そして、利用者が次
回に検索する際に、更新された辞書中に含まれる単語に
ついてはすでに単語統計情報格納手段94に統計情報が格
納されているため、更新される以前に辞書中に含まれな
かった文字列で検索された場合でも、類似度判定手段95
における処理が正確に行なえるようになり、文書の類似
度順位の精度を高めることができる。
【0081】(第5の実施の形態)図11は、本発明の
第5の実施の形態の文書検索システムを示す。図11に
示す文書検索システムは、検索対象文書を格納する文書
格納手段1101と、単語集合を規定する辞書1102と、文書
格納手段1101から検索対象文書を読み出して各文書中の
各単語の頻度情報や、全検索対象文書での各単語の分布
情報などの単語統計情報を収集する単語統計情報収集手
段1103と、単語統計情報収集手段1103で収集された情報
を格納する単語統計情報格納手段1104と、利用者からの
入力と、単語統計情報格納手段1104内の情報とを参照し
て利用者の検索意図と各文書との類似度を判定する類似
度判定手段1105と、文書格納手段1101から検索対象文書
を読み出して各文書中の任意文字列の各文書内での頻
度、全検索対象文書中での単語頻度などの各種統計情報
や、全検索対象文書中の略語や同格表現などの言語的情
報を抽出する言語情報抽出手段1106と、前記言語情報抽
出手段1106で抽出された情報を格納する言語情報格納手
段1107と、辞書1102に新規単語を登録したり、辞書1102
の内容を変更する辞書変更手段1108とから構成されてい
る。
【0082】図11において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。
【0083】検索に先だつ単語統計情報の収集、また利
用者による文書の検索は、前記第1の実施の形態に示し
た処理と同様に行なわれる。ただし、実際の検索の際に
は、入力文字列のうち辞書1102中の単語になっていない
もののみの統計情報を利用して類似度判定手段1105の処
理を行ない、入力文字列で単語になっていないものにつ
いては考慮しない点が前記第1の実施の形態と異なる。
【0084】また、言語情報抽出手段1106は、検索に先
だって、文書格納手段1101から検索対象文書を読み出し
て、辞書1102中の単語ではないが、検索対象文書に出現
する、辞書に新規登録すべき候補となる文字列を抽出す
る。
【0085】図12は、言語情報抽出手段1106の処理を
示すフローチャートである。以下、このフローチャート
に基づいて言語情報抽出手段1106の処理の詳細を説明す
る。
【0086】日本語文書には、カタカナ、漢字、平仮
名、記号、アルファベットなど、豊富な字種がある。大
抵の場合、字種の切れ目は単語の切れ目になっているの
で、ステップ1201にて、まずそのような字種の切れ
目で文書を分割し、それらをS[1],S[2],...,S[N] とす
る。次に、各S[i]について、ステップ1203〜ステッ
プ1207を繰り返す。ステップ1203では、分割さ
れた各文字列のうち、単語として重要であると思われる
カタカナ文字列、漢字文字列だけを選択し、ステップ1
205にて、S[i]の検索対象文書中での出現頻度FS[i]
を求める。ここでは、各文字列について、検索対象文書
の全文走査を行なえばその出現頻度を求めることができ
るが、任意文字列について高速に全文検索を行なえるシ
ステムを用いれば、さらに効率的である。
【0087】ステップ1206では、FS[i]が、予め定
められたある閾値FSTを超える出現頻度を持つ文字列の
みを抽出して、ステップ1207にて候補文字列として
その出現頻度FS[i]と共に言語情報格納手段1107に格納
する。
【0088】以上は候補文字列を抽出するための処理の
一例であって、他にも、文法的な知識や、語彙的な知識
を用いて、形態素解析などの処理を行なうなど、高精度
に抽出候補文字列を見つける処理を行なってもよい。
【0089】辞書変更手段1108は、定期的に、利用者に
よる検索が行なわれていない間に、言語情報格納手段11
07に格納された情報を参照して、辞書1102に新規登録す
る文字列を決定し、辞書1102に新規登録する。
【0090】図13は、辞書変更手段1108における辞書
変更処理を示すフローチャートである。以下、このフロ
ーチャートに基づいて辞書変更手段1108の処理を詳細に
説明する。
【0091】まずステップ1301で、言語情報格納手
段1107に格納された情報を参照して、新規辞書登録文字
列候補S[i]とその検索対象文書中での頻度FS[i]を求め
る。次に、ステップ1302〜ステップ1305にて、
各入力文字列S[i]について、その頻度FS[i]が、事前に
設定された値FTよりも大きい場合に、新規登録文字列と
して選択する、という処理を行なう。最終的に選択され
た新規登録文字列について、ステップ1306にて辞書
1102に新規登録を行なって、処理を終える。
【0092】辞書変更手段1108による辞書1102への新規
登録が終了した後、単語統計情報収集手段1103は新たに
文書格納手段1101から検索対象文書を読み出して、単語
統計情報を再収集して単語統計情報格納手段1104に格納
する。
【0093】このようにしておけば、検索対象文書中に
存在する高頻度な文字列であって、かつ辞書1102中の単
語でないものの数は減少するため、辞書1102を、検索対
象文書に適合させることが可能になる。そして、利用者
が次回に検索する際に、更新された辞書中に含まれる単
語についてはすでに単語統計情報格納手段1104に統計情
報が格納されているため、更新される以前に辞書中に含
まれなかった文字列で検索された場合でも、類似度判定
手段1105における処理が正確に行なえるようになり、文
書の類似度順位の精度を高めることができる。
【0094】次に、辞書変更手段1108のもう一つの処理
である、辞書の変更処理について説明する。
【0095】まず、言語情報抽出手段1106では、検索に
先だって、文書格納手段1101から検索対象文書を読み出
して、文書中での同格表現を抽出し、言語情報格納手段
1107に格納する。同格表現とは、例えば、「サラ金(サ
ラリーマン金融)」「IPSJ(情報処理学会)」な
ど、同一対象を指示する複数の文字列による言語表現の
ことである。通常は、「A(B)」という表現形式が同
格表現になることが多いので、例えば、文書中から「A
(B)」なる表現のみを抽出する、という処理を行な
う。
【0096】辞書変更手段1108は、言語情報格納手段11
07に格納された同格表現「A(B)」から、文字列Aと
文字列Bが同一対象を指示するということを判定し、辞
書1102中の単語Aと単語Bとは同義であるということが
判定できるように、辞書1102を変更する。これは例え
ば、辞書1102中の各単語エントリに対して、同義語情報
を格納するエントリを拡張して設ければ実現できる。
【0097】以上のように辞書を変更しておけば、その
後利用者が文字列Aを用いて検索を行なう時に、文字列
Bを含む文書をも検索対象に含めることができ、また、
類似度判定手段1105にて文書の類似度を判定する際に
も、文字列Aの頻度情報だけでなく、文字列Bの頻度情
報も考慮に入れて評価関数を計算することが可能にな
り、より精度の高い類似度判定処理が可能になる。
【0098】(第6の実施の形態)図14は、本発明の
第6の実施の形態の文書検索システムを示す。図14に
示す文書検索システムは、検索対象文書を格納する文書
格納手段1401と、単語集合を規定する辞書1402と、文書
格納手段1401から検索対象文書を読み出して各文書中の
各単語の頻度情報や、全検索対象文書での各単語の分布
情報などの単語統計情報を収集する単語統計情報収集手
段1403と、単語統計情報収集手段1403で収集された情報
を格納する単語統計情報格納手段1404と、利用者からの
入力と、単語統計情報格納手段1404内の情報とを参照し
て利用者の検索意図と各文書との類似度を判定する類似
度判定手段1405と、利用者からの入力履歴を管理する入
力管理手段1406と、前記入力履歴を格納する入力履歴格
納手段1407と、文書格納手段1401から検索対象文書を読
み出して各文書中の任意文字列の各文書内での頻度、全
検索対象文書中での単語頻度などの各種統計情報や、検
索対象文書中の略語や同格表現などの言語的情報を抽出
する言語情報抽出手段1408と、前記言語情報抽出手段14
08で抽出された情報を格納する言語情報格納手段1409
と、辞書1402に新規単語を登録したり、辞書1402の内容
を変更する辞書変更手段1410とから構成されている。
【0099】図14において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。
【0100】検索に先だつ単語統計情報の収集、また利
用者による文書の検索は、前記第1の実施の形態に示し
た処理と同様に行なわれる。ただし、実際の検索の際に
は、入力文字列のうち辞書1402中の単語になっているも
ののみの統計情報を利用して類似度判定手段1405の処理
を行ない、入力文字列で単語になっていないものについ
ては考慮しない点が前記第1の実施の形態と異なる。
【0101】利用者による文書の検索の過程において、
入力管理手段1406は、前記第4の実施の形態と同様に、
入力から抽出した文字列集合を、入力履歴格納手段1407
に格納する。入力履歴格納手段1407は、入力された文字
列集合から、各文字列の入力履歴における頻度情報を随
時計測しておく。
【0102】また、言語情報抽出手段1408は、検索に先
だって、文書格納手段1401から検索対象文書を読み出し
て、辞書1402中の単語ではないが、検索対象文書に出現
する、辞書に新規登録すべき候補となる文字列を抽出す
る。なお、言語情報抽出手段1408の処理は、前記第5の
実施の形態と全く同様に行なう。
【0103】辞書変更手段1410は、定期的に、利用者に
よる検索が行なわれていない間に、入力履歴格納手段14
07に格納された情報と、言語情報格納手段1409に格納さ
れた情報とを参照して、辞書1402に新規登録する文字列
を決定し、辞書1402に新規登録する。
【0104】図15は、辞書変更手段1410における辞書
新規登録処理を示すフローチャートである。以下、この
フローチャートに基づいて辞書変更手段1410の処理を詳
細に説明する。
【0105】ステップ1501で、新規辞書登録文字列
候補を言語情報格納手段1409から読み出し、各文字列お
よびその頻度をS[i]、FS[i]とする。つづいて、各S[i]
について、ステップ1502〜ステップ1507を繰り
返す。ステップ1503では、S[i]が入力履歴格納手段
1407中に格納されているかどうかを調べ、もしあれば、
そのS[i]の入力履歴格納手段1407での頻度をステップ1
504にてI[i]に代入する。その後、ステップ1505
にて格納されI[i]+FS[i]が予め定められた値FTより大き
い場合に、S[i]を新規辞書登録文字列として選択する。
最終的に、ステップ1508にて、選択された新規辞書
登録文字列を辞書1402に新規登録して、処理を終える。
【0106】図15に示したものは、辞書変更手段1410
における辞書新規登録処理の一例であり、ステップ15
05で新規辞書登録文字列を選択する際に、I[i]とFS
[i]のうち、どちらか一方がある一定値FT以上であるも
のを新規登録文字列として決定する、といった方法でも
よいし、I[i]とFS[i]によって定まる評価関数を設定し
て、それによって決定する、といった方法でもよい。ま
た、新規登録文字列を、前記のような判断基準で自動的
に行なってもよいが、決定の過程の中で、利用者へ新規
登録文字列候補を提示し、利用者に選択させるというや
りとりを行なって、半自動的に決定する、といった方法
でもよい。
【0107】辞書変更手段1410による辞書1402への新規
登録が終了した後、単語統計情報収集手段1403は新たに
文書格納手段1401から検索対象文書を読み出して、単語
統計情報を再収集して単語統計情報格納手段1404に格納
する。
【0108】以上のようにすることで、辞書1402に新規
登録する文字列の候補をより精密に選択することがで
き、辞書1402を利用者および検索対象文書に適合させて
変更することが可能になる。そして、利用者が次回に検
索する際に、更新された辞書中に含まれる単語について
はすでに単語統計情報格納手段1404に統計情報が格納さ
れているため、更新される以前に辞書中に含まれなかっ
た文字列で検索された場合でも、類似度判定手段1405に
おける処理が正確に行なえるようになり、文書の類似度
順位の精度を高めることができる。
【0109】(第7の実施の形態)図16は、本発明の
第7の実施の形態の文書検索システムを示す。図16に
示す文書検索システムは、検索対象文書を格納する文書
格納手段1601と、単語集合を規定する辞書1602と、文書
格納手段1601から検索対象文書を読み出して各文書中の
各単語の頻度情報や、全検索対象文書での各単語の分布
情報などの単語統計情報を収集する単語統計情報収集手
段1603と、単語統計情報収集手段1603で収集された情報
を格納する単語統計情報格納手段1604と、利用者からの
入力と、単語統計情報格納手段1604内の情報とを参照し
て利用者の検索意図と各文書との類似度を判定する類似
度判定手段1605と、全文検索手段1606と、利用者からの
入力履歴を管理する入力管理手段1607と、前記入力履歴
を格納する入力履歴格納手段1608と、文書格納手段1601
から検索対象文書を読み出して各文書中の任意文字列の
各文書内での頻度、全検索対象文書中での単語頻度など
の各種統計情報や、検索対象文書中の略語や同格表現な
どの言語的情報を抽出する言語情報抽出手段1609と、前
記言語情報抽出手段1609で抽出された情報を格納する言
語情報格納手段1610と、辞書1602に新規単語を登録した
り、辞書1602の内容を変更する辞書変更手段1611とから
構成されている。
【0110】図16において、実線矢印は処理の流れを
示しており、実線太線の両端矢印は、各処理手段による
データの参照を示している。このように構成された文書
検索システムの動作について説明する。
【0111】検索に先だつ単語統計情報の収集は、前記
第1の実施の形態に示した処理と全く同様に行なわれ
る。
【0112】また、実際の利用者による文書の検索は、
前記第1の実施の形態あるいは前記第2の実施の形態あ
るいは前記第3の実施の形態と全く同様に行なわれる。
ただし、前記第2の実施の形態と同様に処理が進む場合
には、全文検索手段1606は単語頻度情報を推定する機能
も持ち、また、前記第3の実施の形態と同様に処理が進
む場合には、全文検索手段1606は単語頻度情報を動的に
正確に求めるという機能も有する。
【0113】また、入力管理手段1607、言語情報抽出手
段1609、辞書変更手段1611の処理は、前記第6の実施の
形態と全く同様に行なわれる。
【0114】以上のような構成にすれば、前記第1の実
施の形態あるいは前記第2の実施の形態あるいは前記第
3の実施の形態により得られる効果と、前記第4の実施
の形態および前記第5の実施の形態および前記第6の実
施の形態により得られる効果が同時に得られ、類似度判
定手段における精度が高まるだけでなく、利用者の入力
文字列や検索対象文書中に高頻度に出現する文字列につ
いて辞書に新規登録を行なって、事前にそのような単語
についても統計情報を収集しておくために、類似度判定
手段において全文検索手段を用いなければならない場合
が少なくなり、検索全体の効率も向上するという効果も
得られる。
【0115】
【発明の効果】以上のように本発明の文書検索システム
によれば、辞書に登録されていない未知語を含む質問に
対しても、非完全一致モデルによる文書検索を高精度で
行なうことができ、更に、未知語の辞書への新規登録を
自動的、あるいは半自動的に行なうことで、非完全一致
モデルによる文書検索を高精度かつ効率的に行なうこと
ができる。
【図面の簡単な説明】
【図1】本発明の第1の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、
【図2】本発明の第1の実施の形態にかかる単語統計情
報格納手段14に格納される情報の例、
【図3】本発明の第1の実施の形態にかかる類似度判定
手段15の処理を示すフローチャート、
【図4】本発明の第2の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、
【図5】本発明の第2の実施の形態にかかる類似度判定
手段45の処理を示すフローチャート、
【図6】本発明の第2の実施の形態にかかる頻度情報推
定手段46の処理を示すフローチャート、
【図7】本発明の第3の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、
【図8】本発明の第3の実施の形態にかかる類似度判定
手段75の処理を示すフローチャート、
【図9】本発明の第4の実施の形態にかかる文書検索シ
ステムの機能構成を示すブロック図、
【図10】本発明の第4の実施の形態にかかる辞書変更
手段98の処理を示すフローチャート、
【図11】本発明の第5の実施の形態にかかる文書検索
システムの機能構成を示すブロック図、
【図12】本発明の第5の実施の形態にかかる言語情報
抽出手段1106の処理を示すフローチャート、
【図13】本発明の第5の実施の形態にかかる辞書変更
手段1108の処理を示すフローチャート、
【図14】本発明の第6の実施の形態にかかる文書検索
システムの機能構成を示すブロック図、
【図15】本発明の第6の実施の形態にかかる辞書変更
手段1410の処理を示すフローチャート、
【図16】本発明の第6の実施の形態にかかる文書検索
システムの機能構成を示すブロック図、
【図17】従来例の非完全一致モデルに基づく文書検索
システムの機能構成を示すブロック図である。
【符号の説明】
11、41、71、91、1101、1402、1601、1701 文書格納手
段 12、42、72、92、1102、1402、1602、1702 辞書 13、43、73、93、1103、1403、1603、1703 単語統計情
報収集手段 14、44、74、94、1104、1404、1604、1704 単語統計情
報格納手段 15、45、75、95、1105、1405、1605、1705 類似度判定
手段 16、47、77、1606 全文検索手段 46 頻度情報推定手段 76 文字列出現頻度計算手段 96、1406、1607 入力管理手段 97、1407、1608 入力履歴格納手段 98、1108、1410、1611 辞書変更手段 1106、1408、1609 言語情報抽出手段 1107、1409、1610 言語情報格納手段
───────────────────────────────────────────────────── フロントページの続き (72)発明者 野本 昌子 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 (72)発明者 稲葉 光昭 大阪府門真市大字門真1006番地 松下電 器産業株式会社内 審査官 高橋 宣博 (56)参考文献 特開 平4−340163(JP,A) 特開 平5−298371(JP,A) 特開 平7−262217(JP,A) 特開 平7−78182(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/30

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 単語集合を規定する辞書と、検索対象文
    書を格納する文書格納手段と、前記文書格納手段から検
    索対象文書を読み出して各文書中の各単語の頻度情報
    や、全検索対象文書での各単語の分布情報などの単語統
    計情報を収集する単語統計情報収集手段と、前記単語統
    計情報収集手段で収集した単語統計情報を格納する単語
    統計情報格納手段と、利用者からの入力と、前記単語統
    計情報格納手段内の単語統計情報とを参照して利用者の
    検索意図と各文書との類似度を判定する類似度判定手段
    とを備え、前記類似度判定手段において、利用者からの
    入力と収集された各文書の単語統計情報との適合度に基
    づいて、各検索対象文書の利用者の検索意図に類似する
    順位を決定する文書検索システムにおいて、更に、 利用者が入力した入力の履歴を管理する入力管理手段
    と、 前記入力管理手段で管理された入力履歴を格納する入力
    履歴格納手段と、 前記辞書に新たな単語を登録する辞書変更手段を設け、 前記入力履歴格納手段に格納された入力履歴中の文字列
    の頻度情報を用いて、前記辞書に登録されていない文字
    列で、単語として新規登録すべき文字列を自動的に決定
    するか、あるいは前記入力管理手段を介して利用者との
    やりとりを通じて半自動的に決定して、 前記辞書変更手段により新たな単語として前記辞書に新
    規登録すると共に、新規登録された辞書を用いて検索対
    象文書の各文書に出現する単語統計情報の再収集を行な
    うようにしたことを特徴とする文書検索システム。
  2. 【請求項2】 単語集合を規定する辞書と、検索対象文
    書を格納する文書格納手段と、前記文書格納手段から検
    索対象文書を読み出して各文書中の各単語の頻度情報
    や、全検索対象文書での各単語の分布情報などの単語統
    計情報を収集する単語統計情報収集手段と、前記単語統
    計情報収集手段で収集した単語統計情報を格納する単語
    統計情報格納手段と、利用者からの入力と、前記単語統
    計情報格納手段内の単語統計情報とを参照して利用者の
    検索意図と各文書との類似度を判定する類似度判定手段
    とを備え、前記類似度判定手段において、利用者からの
    入力と収集された各文書の単語統計情報との適合度に基
    づいて、各検索対象文書の利用者の検索意図に類似する
    順位を決定する文書検索システムにおいて、更に、 検索対象文書を走査して、任意文字列の各文書内での頻
    度及び全検索対象文書中での単語頻度などの各種単語統
    計情報や、検索対象文書中の略語や同格表現などの言語
    的情報を抽出する言語情報抽出手段と、 前記言語情報抽出手段で抽出した各種単語統計情報や言
    語的情報を格納する言語情報格納手段と、 前記辞書に新たな単語を登録し、また辞書中の同義語を
    指定することにより辞書を修正する辞書変更手段を設
    け、 前記言語情報抽出手段にて抽出され前記言語情報格納手
    段に格納された文書内の各種単語統計情報を用いて、前
    記辞書に登録されていない文字列で、単語として新規登
    録すべき文字列を自動的に決定し、前記辞書変更手段に
    より新たな単語として前記辞書に新規登録し、 また前記言語情報抽出手段にて抽出され前記言語情報格
    納手段に格納された言語的情報を用いて、前記辞書中で
    同一視すべき単語のグループを自動的に決定して、前記
    辞書変更手段により同義語の指定を行なって前記辞書を
    修正し、 新規登録又は修正された辞書を用いて検索対象文書の各
    文書に出現する単語統計情報の再収集を行なうことを特
    徴とする文書検索システム。
  3. 【請求項3】 単語集合を規定する辞書と、検索対象文
    書を格納する文書格納手段と、前記文書格納手段から検
    索対象文書を読み出して各文書中の各単語の頻度情報
    や、全検索対象文書での各単語の分布情報などの単語統
    計情報を収集する単語統計情報収集手段と、前記単語統
    計情報収集手段で収集した単語統計情報を格納する単語
    統計情報格納手段と、利用者からの入力と、前記単語統
    計情報格納手段内の単語統計情報とを参照して利用者の
    検索意図と各文書との類似度を判定する類似度判定手段
    とを備え、前記類似度判定手段において、利用者からの
    入力と収集された各文書の単語統計情報との適合度に基
    づいて、各検索対象文書の利用者の検索意図に類似する
    順位を決定する文書検索システムにおいて、更に、 利用者が入力した入力の履歴を管理する入力管理手段
    と、 前記入力管理手段で管理された入力履歴を格納する入力
    履歴格納手段と、 検索対象文書を走査して、任意文字列の各文書内での頻
    度及び全検索対象文書中での単語頻度などの各種単語統
    計情報や、検索対象文書中の略語や同格表現などの言語
    的情報を抽出する言語情報抽出手段と、 前記言語情報抽出手段で抽出した各種単語統計情報や言
    語的情報を格納する言語情報格納手段と、 前記辞書に新たな単語を登録し、また辞書中の同義語を
    指定することにより辞書を修正する辞書変更手段を設
    け、 前記入力履歴格納手段に格納された入力履歴中の文字列
    の頻度情報と、前記言語情報抽出手段にて抽出され前記
    言語情報格納手段に格納された文書内の各種単語統計情
    報を用いて、前記辞書に登録されていない文字列で、単
    語として新規登録すべき文字列を自動的に決定し、ある
    いは前記入力管理手段を介して利用者とのやりとりを通
    じて半自動的に決定し、前記辞書変更手段により新たな
    単語として前記辞書に新規登録し、 また前記言語情報抽出手段にて抽出され前記言語情報格
    納手段に格納された言語的情報を用いて、前記辞書中で
    同一視すべき単語のグループを自動的に決定し、あるい
    は前記入力管理手段を介して利用者とのやりとりを通じ
    て半自動的に決定して、前記辞書変更手段により同義語
    の指定を行なって前記辞書を修正し、 新規登録又は修正された辞書を用いて検索対象文書の各
    文書に出現する単語統計情報の再収集を行なうことを特
    徴とする文書検索システム。
JP2001276934A 2001-09-12 2001-09-12 文書検索システム Expired - Fee Related JP3333186B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001276934A JP3333186B2 (ja) 2001-09-12 2001-09-12 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001276934A JP3333186B2 (ja) 2001-09-12 2001-09-12 文書検索システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP15641996A Division JP3249743B2 (ja) 1996-05-29 1996-05-29 文書検索システム

Publications (2)

Publication Number Publication Date
JP2002140330A JP2002140330A (ja) 2002-05-17
JP3333186B2 true JP3333186B2 (ja) 2002-10-07

Family

ID=19101558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001276934A Expired - Fee Related JP3333186B2 (ja) 2001-09-12 2001-09-12 文書検索システム

Country Status (1)

Country Link
JP (1) JP3333186B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH081642B2 (ja) * 1991-01-28 1996-01-10 株式会社ピーエフユー キーワード検索方式
JP3350556B2 (ja) * 1992-04-20 2002-11-25 株式会社リコー 検索システム
JP3220885B2 (ja) * 1993-06-18 2001-10-22 株式会社日立製作所 キーワード付与システム
JPH07262217A (ja) * 1994-03-24 1995-10-13 Fuji Xerox Co Ltd テキスト検索装置

Also Published As

Publication number Publication date
JP2002140330A (ja) 2002-05-17

Similar Documents

Publication Publication Date Title
US8341159B2 (en) Creating taxonomies and training data for document categorization
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US7636714B1 (en) Determining query term synonyms within query context
US7627548B2 (en) Inferring search category synonyms from user logs
JP3918531B2 (ja) 類似文書検索方法およびシステム
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
US7447684B2 (en) Determining searchable criteria of network resources based on a commonality of content
US9031935B2 (en) Search system, search method, and program
US20100205198A1 (en) Search query disambiguation
JP2020500371A (ja) 意味的検索のための装置および方法
WO2012071169A2 (en) Efficient forward ranking in a search engine
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JP5427694B2 (ja) 関連コンテンツ提示装置及びプログラム
JP2006227823A (ja) 情報処理装置及びその制御方法
JP2003150624A (ja) 情報抽出装置および情報抽出方法
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP3249743B2 (ja) 文書検索システム
Juan An effective similarity measurement for FAQ question answering system
JP4143085B2 (ja) 同義語獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2004355550A (ja) 自然文検索装置、その方法及びプログラム
US20050071333A1 (en) Method for determining synthetic term senses using reference text
JP3333186B2 (ja) 文書検索システム
Roche et al. AcroDef: A quality measure for discriminating expansions of ambiguous acronyms
CN106708808B (zh) 一种信息挖掘方法及装置

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070726

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080726

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090726

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090726

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100726

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees