JP2005063468A - 文書検索装置 - Google Patents

文書検索装置 Download PDF

Info

Publication number
JP2005063468A
JP2005063468A JP2004352279A JP2004352279A JP2005063468A JP 2005063468 A JP2005063468 A JP 2005063468A JP 2004352279 A JP2004352279 A JP 2004352279A JP 2004352279 A JP2004352279 A JP 2004352279A JP 2005063468 A JP2005063468 A JP 2005063468A
Authority
JP
Japan
Prior art keywords
document
word
search
frequency
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004352279A
Other languages
English (en)
Inventor
Mitsuaki Inaba
光昭 稲葉
Naohiko Noguchi
直彦 野口
Yuji Sugano
祐司 菅野
Mitsuhiro Sato
光弘 佐藤
Masako Nomoto
昌子 野本
Hideki Yasukawa
秀樹 安川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004352279A priority Critical patent/JP2005063468A/ja
Publication of JP2005063468A publication Critical patent/JP2005063468A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文書データからユーザの入力した検索要求に合致する文書を探索し、その合致する度合によって順位付けを行なう文書検索装置に関するもので、従来の単語頻度のみによる文書の順位付けのもっていたユーザの検索意図に反した記事が上位に来てしまう問題点を解決し、高精度な検索と絞り込を含めた総合的な検索時間の短縮を可能にする文書検索装置の提供を目的とする。
【解決手段】フィールド別頻度スコア算定手段508はフィールド別単語頻度算定手段507が出力した総文書数、フィールドに単語の出現する文書数、文書のフィールドにおける単語の出現頻度から、単語頻度による文書のフィールドと検索要求の合致度合を示す頻度スコアを算出し、順位付けを行なうことによって、ユーザの検索意図により近い検索結果を得ることが可能となる。
【選択図】図3

Description

本発明は文書検索装置に関し、特に大量の文書データからユーザの入力した検索要求に合致する文書を探索し、その合致する度合によって順位付けを行なう文書検索装置に関するものである。
近年、文書検索の分野においては文書データベースの大規模化が進み、従来のようなキーワード検索や全文検索ではたとえ検索結果が高速に得られたとしても、その数が膨大で目的の文書を捜し出すのが困難な場合が増え、トータルな検索時間は必ずしも短縮されているとは言い難い。結果文書数を減らすためには、さらに別のキーワードを追加するなどして絞り込みを行なうという方法もあるが、目的とする文書が不必要な文書とともにふるい落とされてしまわないような適切なキーワードを追加するのは難しい。
そこで、検索対象文書に文字列が存在するか否かだけでなく、その出現頻度等に着目して検索結果文書の順位付けを行ない、目的の文書を効率良く捜し出せるランキングの手法が注目されている。
図11は検索結果の順位付けを行なう従来の文書検索装置の構成を示したブロック図である。図11において、文書検索装置は、検索対象となる文書データ1101と、辞書1102と、辞書単語の文書中での出現頻度を格納した単語頻度索引1103と、文書データ1101から単語の出現頻度情報を得る単語頻度情報抽出手段1104と、ユーザからの検索要求を入力する検索要求入力手段1105と、単語頻度索引1103から単語の出現頻度を求める単語頻度算定手段1106と、単語の出現頻度をもとに各文書の頻度スコアを求める頻度スコア算定手段1107と、頻度スコアをもとに各文書と検索要求の合致度合を示す文書スコアを算出する文書スコア算定手段1108と、文書スコアの順に文書を並べ替える文書順位付け手段1109と、スコアの順に並べられた結果文書を表示する検索結果表示手段1110とから構成されている。
図12は検索結果の順位付けを行なう従来の文書検索装置の索引作成の手順を示した流れ図である。まず、検索の前に予め単語頻度情報抽出手段1104が文書データ1101を調べ、総文書数、出現文書数とともに単語頻度索引1103に出力し単語頻度索引を作成しておく。
ステップ1201において、検索するユーザは検索要求入力手段1105により、検索要求を入力する。ステップ1202において、単語頻度算定手段1106は単語頻度索引1103を参照し、総文書数NDおよび、検索要求入力手段1105で入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)について、当該単語の出現文書数NDi、文書Dj(j=1、2、・・・、ND)中での出現頻度TFijを算出する。ステップ1203において、文書スコア算定手段1107が単語頻度算定手段1106からの出力をもとに文書Djの頻度スコアSFjを式(1)によって算出する。
SFj=Σ(TFij×IDFi)

IDFi=1−log(NDi/ND) ・・・(1)
ここで、IDFiは単語Wiの全文書における偏りを表すパラメータである。
ステップ1204において、文書スコア算定手段1108が頻度スコア算定手段1107の出力した文書Djの頻度スコアSFjをもとに文書Djと検索要求の合致度合を示す文書スコアSjを求める。従来の検索装置においては式(2)のように文書スコアSjは頻度スコアSFjそのものである。
Sj=SFj ・・・(2)
ステップ1205において、文書順位付け手段1109が文書スコア算定手段1108で算出された各文書のスコアの大きい順に検索結果を並べ替え、ステップ1206において、検索結果表示手段1110がその検索結果をユーザに提示する。
野本昌子、野口直彦「文書構造と共起表現を用いた文書ランキング手法」情報処理学会第52回(平成8年前期)全国大会講演論文集(4)、社団法人情報処理学会、平成8年3月6日発行、p.4−203〜204
しかしながら前記の従来の構成では、図13に示すように、検索要求のうちの1つの単語が非常に高頻度で出現するような文書があった場合、ユーザの検索意図に反した文書であっても、高い順位にランクされてしまうという課題を有していた。また、検索対象文書の順位付けに用いるスコアの算出は、フィールドに関係なく文書単位で行なわれるため、その文書の内容を良く表しているであろうと思われる新聞記事の「見出し」や特許の「発明の名称」等の情報が活用できないという課題を有していた。
また、複数の検索要求を与える場合、それらに優先順位をつけられず、ユーザの要求を柔軟に表現できないという課題や、全てを含んでいて欲しい単語群を検索要求として与えた場合でも、1つの単語が非常に高頻度で出現する文書があると高順位にきてしまうという課題や、近接して出現しなければ意味の無いような単語群を検索要求として表現し、検索することができないといった課題を有していた。
本発明は前記従来技術の課題を解決するために、ユーザの検索要求を柔軟に受け付け、検索、順位付けを行なうことにより、ゴミの少ない高精度な検索結果が得られ、結果の絞り込みを含めた総合的な検索時間が短縮可能な文書検索装置を提供することを目的とする。
本発明の文書検索装置は、検索要求に基づいて、検索対象文書の検索と検索結果文書の順位付けを行なう文書検索装置において、検索対象文書の複数のフィールドに対して、各々索引情報を持ち、検索結果文書の順位付けに反映させるフィールドの割合をユーザが指定できるフィールド割合入力手段を備え、検索結果文書の順位付けに反映させる割合をフィールド毎にユーザが指定できるようにすると共に指定されたフィールド毎の割合によって検索対象文書に得点を加算して順位付けを行ない、順位付けされた検索結果文書を優先的に表示させることを特徴とするものである。
また本発明の文書検索装置は、検索要求に基づいて、検索対象文書の検索と検索結果文書の順位付けを行なう文書検索装置において、検索対象文書中の単語出現頻度と単語共起情報をフィールド毎に索引に持ち、検索結果文書の順位付けに反映させるフィールドの割合をユーザが指定できるフィールド割合入力手段、および検索要求に含まれる単語共起関係が検索対象文書中に現れるかどうかをフィールド毎に調べる単語共起関係照合手段を備え、検索結果文書の順位付けに反映させる割合をフィールド毎にユーザが指定できるようにすると共にフィールド毎に単語共起関係が現れる文書に与える得点を加算することにより、順位付けされた検索結果文書を優先的に表示させることを特徴とするものである。
本発明によれば、ユーザの検索要求を柔軟に表現し、検索、順位付けを行なうことにより、ユーザの検索意図に沿った、ゴミの少ない高精度な検索結果が得られ、結果の絞り込みを含めた総合的な検索時間が短縮可能な文書検索装置が得られる。
以上のように本発明の文書検索装置においては、検索対象文書のフィールド毎の索引情報を持ち、順位付けに反映させるフィールドの割合をユーザが指定できるフィールド割合入力手段を設けることにより、また、検索対象文書中の単語出現頻度と単語共起情報をフィールド毎に索引に持ち、検索結果文書の順位付けに反映させるフィールドの割合をユーザが指定できるフィールド割合入力手段および検索要求に含まれる単語共起関係が検索対象文書中に現れるかどうかをフィールド毎に調べる単語共起関係照合手段を設けることにより、ユーザの検索要求を柔軟に受け付け、検索、順位付けを行なうことにより、ゴミの少ない高精度な検索結果が得られ、結果の絞り込みを含めた総合的な検索時間が短縮可能な文書検索装置が得られるものである。
以下、本発明の実施の形態について、図を参照しながら説明する。
(第1の実施の形態)
図1は本発明の第1の実施の形態における文書検索装置の構成を示したブロック図である。図1において、文書検索装置は、検索対象となる文書データ301と、辞書302と、辞書単語の検索対象文書中における出現頻度を格納した単語頻度索引303と、文書データ301から単語頻度情報を抽出し、単語頻度索引303に格納する単語頻度情報抽出手段304と、ユーザが優先させたいと思う検索要求を入力するための主題検索要求入力手段305と、主題検索要求に比べ優先度の低い検索要求をユーザが入力するための副題検索要求入力手段306と、主題検索要求入力手段305および副題検索要求入力手段306で入力された検索要求に含まれる辞書単語について、単語頻度索引303を調べ各文書中での出現頻度を求める単語頻度算定手段307と、単語頻度算定手段307で得られた単語頻度をもとに各文書の頻度スコアを求める頻度スコア算定手段308と、頻度スコア算定手段308の出力をもとに各文書の文書スコアを算出する文書スコア算定手段309と、スコアの順に文書を並べ替える文書順位付け手段310と、スコアの順に並べられた結果文書を表示する検索結果表示手段311とから構成されている。
図2は本発明の第1の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に予め、単語頻度情報抽出手段304が文書データ301を走査し、辞書302に含まれる辞書単語の各文書中での出現頻度を調べ、総文書数、当該単語の出現文書数とともに単語頻度索引303に出力し、索引を作成しておく。
ステップ401において、ユーザは主題検索要求入力手段305によって探したい文書に対する検索要求でかつ重視してほしいものを主題検索要求として入力する。ステップ402において、ユーザは副題検索要求入力手段306によってそれほど重視しなくてもよいものを副題検索要求として入力する。
ステップ403において、単語頻度算定手段307は単語頻度索引303を参照し、総文書数NDを求めるとともに、主題検索要求入力手段305および副題検索要求入力手段306で入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)中での出現頻度TFijと当該単語の出現する文書数NDiを取得し、頻度スコア算定手段308に出力する。ステップ404において、単語頻度算定手段307は単語Wiが主題検索要求、副題検索要求のどちらに含まれるかによってパラメータWTiを選び、ステップ405において、頻度スコア算定手段308は単語頻度算定手段307が出力した総文書数ND、単語Wiの出現する文書数NDi、文書Djにおける単語Wiの出現頻度TFij、単語Wiの重み付けパラメータWTiから、単語頻度による文書Djと検索要求の合致度合を示す頻度スコアSFjを式(3)によって算出する。
SFj=Σ(TFij×IDFi×WTi)

IDFi=1−log(NDi/ND) ・・・(3)
ここで、IDFiは単語Wiの全文書における偏りを表すパラメータである。
ステップ406において、文書スコア算定手段309は頻度スコア算定手段308の出力した頻度スコアから文書Djと検索要求の合致度合を示す文書スコアSjを前記式(2)によって算出する。
ステップ407において、文書順位付け手段310は文書スコア算定手段309の出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替え、ステップ407において、検索結果表示手段311が文書順位付け手段310の出力から得られたソート済の文書を検索の結果としてユーザに表示する。
前記のようにして、ユーザが入力する検索要求に優先度を設けることにより、ユーザの検索意図を柔軟に表現することができ、効率的な検索が可能となる。
(第2の実施の形態)
図3は本発明の第2の実施の形態における文書検索装置の構成を示したブロック図である。図3において、文書検索装置は、検索対象となる文書データ501と、辞書502と、辞書単語の検索対象文書中における出現頻度を各フィールド毎に格納したフィールド別単語頻度索引503と、文書データ501から単語頻度情報を抽出し、フィールド別単語頻度索引503に格納する単語頻度情報抽出手段504と、ユーザが検索要求を入力するための検索要求入力手段505と、文書のどのフィールドのスコアをどの程度文書スコアに反映させるかという割合をユーザが入力するためのフィールド割合入力手段506と、検索要求入力手段505で入力された検索要求に含まれる辞書単語について、フィールド別単語頻度索引503を調べ、各文書中でのフィールド毎の出現頻度を求めるフィールド別単語頻度算定手段507と、フィールド別単語頻度算定手段507で得られた単語頻度をもとに各文書のフィールド別の頻度スコアを求めるフィールド別頻度スコア算定手段508と、フィールド別頻度スコア算定手段508の出力とフィールド割合入力手段506からの入力をもとに各文書の文書スコアを算出する文書スコア算定手段509と、スコアの順に文書を並べ替える文書順位付け手段510と、スコアの順に並べられた結果文書を表示する検索結果表示手段511とから構成されている。
図4は本発明の第2の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に予め、単語頻度情報抽出手段504が文書データ501を走査し、辞書502に含まれる辞書単語の各文書内でのフィールド毎の出現頻度を調べ、総文書数、当該単語の出現文書数とともに出現頻度をフィールド別単語頻度索引503に出力し、索引を作成しておく。
ステップ601において、ユーザは検索要求入力手段505によって探したい文書に対する検索要求を入力する。ステップ602において、ユーザはフィールド割合入力手段506によってフィールドFk(k=1、2、・・・、NF:NFは総フィールド数)のスコアを順位付けに反映させる割合Rkを入力する。
ステップ603において、フィールド別単語頻度算定手段507はフィールド別単語頻度索引503を参照し、総文書数NDを求めるとともに、検索要求入力手段505によって入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)のフィールドFk中での出現頻度TFijkとフィールドFkに当該単語の出現する文書数NDikを取得し、フィールド別頻度スコア算定手段508に出力する。
ステップ604において、フィールド別頻度スコア算定手段508はフィールド別単語頻度算定手段507が出力した総文書数ND、フィールドFkに単語Wiの出現する文書数NDik、文書DjのフィールドFkにおける単語Wiの出現頻度TFijk、単語頻度による文書DjのフィールドFkと検索要求の合致度合を示す頻度スコア頻度スコアSFjkを式(4)によって算出する。
SFjk=Σ(TFijk×IDFik)

IDFik=1−log(NDik/ND) ・・・(4)
ステップ605において、文書スコア算定手段509はフィールド別頻度スコア算定手段508の出力したフィールド毎の頻度とスコアフィールド割合入力手段506で入力されたフィールドFkを反映させる割合Rkから、文書Djと検索要求の合致度合を示す文書スコアSjを式(5)によって算出する。
Sj=Σ(SFjk×Rk) ・・・(5)
ステップ606において、文書順位付け手段510は文書スコア算定手段509の出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替え、ステップ607において、検索結果表示手段511が文書順位付け手段510の出力から得られたソート済の文書を検索の結果としてユーザに表示する。
前記のようにして、ユーザが検索対象フィールドのスコア配分の割合を変化させられるようにすることにより、ユーザの検索意図を柔軟に表現することができ、効率的な検索が可能となる。
(第3の実施の形態)
図5は本発明の第3の実施の形態における文書検索装置の構成を示したブロック図である。図5において、文書検索装置は、検索対象となる文書データ701と、辞書702と、辞書単語の検索対象文書中での出現頻度を格納した単語頻度索引703と、文書データ701から単語頻度情報を抽出し、単語頻度索引703に格納する単語頻度情報抽出手段705と、検索要求をユーザが入力するための検索要求入力手段707と、検索要求入力手段707で入力された検索要求に含まれる辞書単語について、単語頻度索引703を調べ当該単語の文書中での出現頻度を求める単語頻度算定手段708と、単語頻度算定手段708で得られた単語頻度をもとに各文書のスコアを求める頻度スコア算定手段709と、単語頻度索引703を調べ、検索要求入力手段707で入力された検索要求に含まれる単語のうちいくつが、文書中に出現するかを求める出現語数算定手段710と、出現語数算定手段710で得られた出現語数に基づいて各文書に加算するスコアを求める出現語数スコア算定手段711と、頻度スコア算定手段709および出現語数スコア算定手段711の出力から各文書のスコアを算出する文書スコア算定手段712と、スコアの順に文書を並べ替える文書順位付け手段713と、スコアの順に並べられた結果文書を表示する検索結果表示手段714とから構成されている。
図6は本発明の第3の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に予め、単語頻度情報抽出手段705が文書データ701を走査し、辞書702に含まれる辞書単語の各文書内での出現頻度を調べ、総文書数、当該単語の出現文書数とともに出現頻度を単語頻度索引703に出力し、索引を作成しておく。
ステップ801において、ユーザは検索要求入力手段707によって探したい文書に対する検索要求を入力する。検索要求は複数の単語を入力してもよいし、文章を入力し別途単語抽出手段を用いて文章から単語を切り出すようにしてもよい。
ステップ802において、単語頻度算定手段708は単語頻度索引703を参照し、総文書数Nを求めるとともに検索要求入力手段707で入力された複数の辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)中での出現頻度TFijと単語Wiの出現する文書数NDiを取得し、頻度スコア算定手段709に出力する。
ステップ803において、頻度スコア算定手段709は単語頻度算定手段708が出力した総文書数ND、単語Wiの出現する文書数NDi、文書Djにおける単語Wiの出現頻度TFijから、単語頻度による文書Djと検索要求の合致度合を示す頻度スコアSFjを前記式(1)によって算出する。
ステップ804において、出現語数算定手段710はステップ802までで既に得られている文書Djに出現する辞書単語の情報と検索要求入力手段707で入力された検索要求に含まれる複数の単語Wiを比較し、複数の単語Wiのうちで文書Djに出現するものの数NAjを算出し、出現語数スコア算定手段711に出力する。
ステップ805において、出現語数スコア算定手段711は出現語数算定手段710が出力した検索要求に含まれる単語のうちで文書Djに出現するものの数NAjに基づいた出現語数スコアSAjを算出する。例えば式(6)によって算出することができる。
SAj=NAj−1 ・・・(6)
ステップ806において、文書スコア算定手段712は頻度スコア算定手段709が出力した頻度スコアSFjと出現語数スコア算定手段711が出力した出現語数スコアSAjから検索要求と文書Djの合致度合を表すスコアSjを式(7)によって算出する。
Sj=SFj+SAj×定数 ・・・(7)
出現語数スコアSAjを用意することにより、検索要求に含まれる単語をより多く含むような文書のスコアを高くし、優先的に表示させることが可能となる。また、式(7)において定数の値を変化させることにより、出現語数による優先表示の度合を変えることも可能である。
ステップ807において、文書順位付け手段713は文書スコア算定手段712が出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替える。ステップ808において、検索結果表示手段714は文書順位付け手段713の出力から得られたソート済の文書を検索の結果としてユーザに提示する。
前記のようにすれば、検索要求に複数の単語を含む場合に高頻度単語を1つだけ含むような文書が検索結果の上位に来てしまうというような不都合を回避でき、効率的な検索が可能となる。
(第4の実施の形態)
図7は本発明の第4の実施の形態における文書検索装置の構成を示したブロック図である。図7において、文書検索装置は、検索対象となる文書データ901と、辞書902と、辞書単語の検索対象文書中での出現頻度を格納した単語頻度索引903と、検索対象文書中に現れる単語の位置を格納した単語出現位置索引904と、文書データ901から単語頻度情報を抽出し、単語頻度索引903に格納する単語頻度情報抽出手段905と、文書データ901から単語の位置情報を求め、単語出現位置索引904に格納する単語出現位置情報抽出手段906と、検索要求をユーザが入力するための検索要求入力手段907と、検索要求入力手段907で入力された検索要求に含まれる辞書単語について、単語頻度索引903を調べ当該単語の文書中での出現頻度を求める単語頻度算定手段908と、単語頻度算定手段908で得られた単語頻度をもとに各文書のスコアを求める頻度スコア算定手段909と、単語出現位置索引904を参照し、検索要求入力手段907で入力された検索要求に含まれる単語の文書中での出現位置を求める出現位置算定手段910と、単語出現位置算定手段910の出力から単語どうしの近接度合を求める単語近接度算定手段911と、単語近接度算定手段911の出力に基づいて各文書に加算するスコアを求める近接スコア算定手段912と、頻度スコア算定手段909および近接スコア算定手段912の出力から各文書のスコアを算出する文書スコア算定手段913と、スコアの順に文書を並べ替える文書順位付け手段914と、スコアの順に並べられた結果文書を表示する検索結果表示手段915とから構成されている。
図8は、本発明の第4の実施の形態における文書検索装置の検索の手順を示した流れ図である。まず、検索の前に予め、単語頻度情報抽出手段905が文書データ901を走査し、辞書902に含まれる辞書単語の各文書内での出現頻度を調べ、総文書数、当該単語の出現文書数とともに出現頻度を単語頻度索引903に出力し、単語出現位置情報抽出手段906が辞書単語の各文書中での出現位置を調べ、単語出現位置索引904に出力し、索引を作成しておく。
ステップ1001において、ユーザは検索要求入力手段907によって探したい文書に対する検索要求として複数の単語を入力する。なお、検索要求としてユーザは文章を入力し、別途単語抽出手段を用いて文章から単語を切り出すようにしても良い。
ステップ1002において、単語頻度算定手段908は単語頻度索引903を参照し、総文書数Nを求めるとともに検索要求入力手段907で入力された複数の辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、文書Dj(j=1、2、・・・、ND)中での出現頻度TFijと単語Wiの出現する文書数Niを取得し、頻度スコア算定手段909に出力する。
ステップ1003において、単語出現位置算定手段910は単語出現位置索引904を参照し検索要求入力手段907で入力された複数の単語Wiの文書Dj中での出現位置を全て求め、単語近接度算定手段911に出力する。
ステップ1004において、頻度スコア算定手段909は単語頻度算定手段908が出力した総文書数ND、単語Wiの出現する文書数NDi、文書Djにおける単語Wiの出現頻度TFijから、単語頻度による文書Djと検索要求の合致度合を示す頻度スコアSFjを前記式(1)によって算出する。
ステップ1005において、単語近接度算定手段911は単語出現位置算定手段が出力した文書Dj中での各単語Wiの出現位置と単語長から、異なる単語の全ての出現位置の組合せPk(k=1、2、・・・、NP:NPは異なる単語の全ての出現位置の組合せの数)について2単語の間の距離DSTjkを求め、ステップ1006において、DSTjkをもとに単語近接度NEjkを求める。例えば単語近接度NEjkは式(8)を用いて求めることができる。
NEjk=1/(DSTjk+1) ・・・(8)
なお、全ての組合せについて単語近接度を求めるのは計算コストがかかるため、閾値dを設け距離DSTjkがd以下であるような出現位置の組合せについてのみ計算をしたり、近接度を求める単語ペアをユーザが限定するようにしても良い。
ステップ1007において、近接スコア算定手段912は単語近接度算定手段911の出力した単語近接度NEjkにより各文書Djの近接スコアSNjを式(9)により算出する。
SNj=Σ(NEjk) ・・・(9)
ステップ1008において、文書スコア算定手段913は頻度スコア算定手段909が出力した頻度スコアSFjと近接スコア算定手段912が出力した近接スコアSNjから文書DjのスコアSj、すなわち検索要求と文書Djの合致度合を式(10)によって算出する。
Sj=SFj+SNj×定数 ・・・(10)
このように、近接スコアSNjを用意することにより、検索要求に含まれる異なり単語が互いに接近して出現するような文書のスコアを高くし、優先的に表示させることが可能となる。また、前記式(10)において定数の値を変化させることにより、単語近接度による優先表示の度合を変えることも可能である。
ステップ1009において、文書順位付け手段914は文書スコア算定手段913が出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替える。
ステップ1010において、検索結果表示手段915は文書順位付け手段914の出力から得られたソート済の文書を検索の結果としてユーザに提示する。
前記のようにすれば、検索要求に含まれる複数の単語が互いに近くに出現しなければ検索要求として意味をなさないよう場合に、不要な文書が検索結果の上位に来てしまうというような不都合を回避でき、効率的な検索が可能となる。
(第5の実施の形態)
図9は本発明の第5の実施の形態における文書検索装置の構成を示したブロック図である。図9において、文書検索装置は、検索対象となる文書データ101と、辞書102と、辞書単語の検索対象文書中における出現頻度を格納した単語頻度索引103と、検索対象文書中に現れる単語共起情報を格納した単語共起索引104と、文書データ101から単語頻度情報を抽出し、単語頻度索引103に格納する単語頻度情報抽出手段105と、文書データ101から単語共起情報を抽出し、単語共起索引104に格納する単語共起情報抽出手段106と、ユーザが検索要求を入力するための検索要求入力手段107と、検索要求入力手段107で入力された検索要求に含まれる辞書単語について、単語頻度索引103を調べ当該単語の文書中での出現頻度を求める単語頻度算定手段108と、単語頻度算定手段108で得られた単語頻度をもとに各文書の頻度スコアを求める頻度スコア算定手段109と、検索要求入力手段107で入力された検索要求から単語共起情報を抽出する単語共起情報抽出手段110と、単語共起索引104の内容を参照し、単語共起情報抽出手段110が出力した検索要求に含まれる単語共起関係が、各文書にいくつ現れるかを求める単語共起関係照合手段111と、単語共起関係照合手段111によって得られた検索要求と文書に共通して出現する単語共起関係の度合によって各文書の共起スコアを求める共起スコア算定手段112と、頻度スコア算定手段109の出力と共起スコア算定手段112の出力から文書スコアを算出する文書スコア算定手段113と、スコアの順に文書を並べ替える文書順位付け手段114と、スコアの順に並べられた結果文書を表示する検索結果表示手段115とから構成されている。
図10は本発明の第5の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に、予め単語頻度情報抽出手段105が文書データ101を走査し、総文書数、当該単語の出現文書数とともに単語頻度索引103に出力し、単語共起情報抽出手段106が文書データ101を走査し、各文書内での単語共起情報を求め、単語共起索引104に出力し、索引を作成しておく。単語共起情報としては例えば同一文章内に出現する単語のペアを共起関係にあると判断して抽出する方法や、形態素解析を行なって係受けの関係にある単語のペアを抽出する方法が考えられる。
ステップ201において、ユーザは検索要求入力手段107によって探したい文書に対する検索要求を文章で入力する。ステップ202において、単語頻度算定手段108は単語頻度索引103を参照し、総文書数NDを求めるとともに、検索要求入力手段107で入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)中での出現頻度TFijと当該単語の出現する文書数NDiを取得し、頻度スコア算定手段109に出力する。
ステップ203において、頻度スコア算定手段109は単語頻度算定手段108が出力した総文書数ND、単語Wiの出現する文書数NDi、文書Djにおける単語Wiの出現頻度TFijから、単語頻度による文書Djと検索要求による合致度合を示す頻度スコアSFjを前記式(1)によって算出する。
ステップ204において、単語共起情報抽出手段110は検索要求入力手段107で入力された検索要求から、索引作成時と同様の方法によって単語共起関係Ck(k=1、2、・・・、NC:NCは検索要求に含まれる単語共起関係の数)を抽出する。ステップ205において、単語共起関係照合手段111は単語共起索引104を参照し、文書Djに出現する単語共起関係のうち単語共起情報抽出手段110で得られた検索要求に含まれる単語共起関係Ckと一致するものの数NCjを算出し、共起スコア算定手段112に出力する。
ステップ206において、共起スコア算定手段112は検索要求と文書の間で一致する単語共起関係の数に基づいて文書Djの共起スコアSCjを算出する。最も単純な例としては式(11)のように共起の数をそのまま共起スコアSCjとする。
SCj=NCj ・・・(11)
ステップ207において、文書スコア算定手段113は頻度スコア算定手段109の出力した頻度スコアと共起スコア算定手段112の出力した共起スコアから文書Djと検索要求の合致度合を示す文書スコアSjを式(12)によって算出する。
Sj=SFj+SCj×Const ・・・(12)
ステップ208において、文書順位付け手段114は文書スコア算定手段113の出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替え、ステップ209において、検索結果表示手段115が文書順位付け手段114の出力から得られたソート済の文書を検索の結果としてユーザに表示する。
前記のようにして、単語頻度だけでなく検索要求と検索対象文書に含まれる単語共起関係を照合し、順位付けに反映させることにより、ユーザの検索意図により近い文書を検索結果の上位に表示することができ、効率的な検索が可能となる。
(第6の実施の形態)
図14は本発明の第6の実施の形態における文書検索装置の構成を示したブロック図である。図14において、文書検索装置は、検索対象となる文書データ1401と、辞書1402と、辞書単語の検索対象文書中における出現頻度を格納した単語頻度索引1403と、検索対象文書中に現れる単語共起情報を格納した単語共起索引1404と、文書データ1401から単語頻度情報を抽出し、単語頻度索引1403に格納する単語頻度情報抽出手段1405と、文書データ1401から単語共起情報を抽出し、単語共起索引1404に格納する単語共起情報抽出手段1406と、ユーザが重要視したいと思う検索要求を入力するための主題検索要求入力手段1407と、ユーザが主題検索要求に比べそれほど重要視しなくても良いと思う検索要求を入力するための副題検索要求入力手段1408と、主題検索要求入力手段1407および副題検索要求入力手段1408で入力された検索要求に含まれる辞書単語について、単語頻度索引1403を調べ当該単語の文書中での出現頻度を求める単語頻度算定手段1409と、単語頻度算定手段1409で得られた単語頻度をもとに各文書の頻度スコアを求める頻度スコア算定手段1410と、主題検索要求入力手段1407および副題検索要求入力手段1408で入力された検索要求から単語共起情報を抽出する単語共起情報抽出手段1411と、単語共起索引1404の内容を参照し、単語共起情報抽出手段1411が出力した検索要求に含まれる単語共起関係が、各文書にいくつ現れるかを求める単語共起関係照合手段1412と、単語共起関係照合手段1412によって得られた検索要求と文書に共通して出現する単語共起関係の数によって各文書の共起スコアを求める共起スコア算定手段1413と、頻度スコア算定手段1410の出力と共起スコア算定手段1413の出力から各文書に対する最終的なスコアを算出する文書スコア算定手段1414と、スコアの順に文書を並べ替える文書順位付け手段1415と、スコアの順に並べられた結果文書を表示する検索結果表示手段1416とから構成される。
図15、図16、図17および図18は本発明の第6の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に予め、単語頻度情報抽出手段1405が文書データ1401を走査し、辞書1402に含まれる辞書単語の各文書内での出現頻度を調べ、総文書数、当該単語の出現文書数とともに単語頻度索引1403に出力し、単語共起情報抽出手段1406が文書データ1401を走査し、各文書内での単語共起情報を求め、単語共起索引1404に出力し、索引を作成しておく。単語共起情報としては例えば同一文章内に出現する単語のペアを共起関係にあると判断して抽出する方法や、形態素解析を行なって係受けの関係にある単語のペアを抽出する方法が考えられる。
ステップ1501において、ユーザは主題検索要求入力手段1407によって探したい文書に対する検索要求でかつ重視したいものを主題検索要求として入力する。
ステップ1502において、ユーザは副題検索要求入力手段1408によって主題検索要求に比べそれほど重視しなくてもよいものを副題検索要求として入力する。
ステップ1503において、単語頻度算定手段1409は単語頻度索引1403を参照し、総文書数NDを求めるとともに、主題検索要求入力手段1407および副題検索要求入力手段1408で入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)中での出現頻度TFijと当該単語の出現する文書数NDiを取得し、ステップ1504において、単語頻度算定手段1409は単語Wiが主題検索要求、副題検索要求のどちらに含まれるかによって重み付けパラメータWTiを選び、頻度スコア算定手段1410に出力する。
ステップ1505において、頻度スコア算定手段1410は単語頻度算定手段1409が出力した総文書数ND、単語Wiの出現する文書数NDi、文書Djにおける単語Wiの出現頻度TFij、単語Wiの重み付けパラメータWTiから、単語頻度による文書Djと検索要求の合致度合いを示す頻度スコアSFjを前記式(5)によって算出し、文書スコア算定手段1414に出力する。
ステップ1506において、単語共起情報抽出手段1411は索引作成時と同様の方法によって主題検索要求入力手段1407で入力された主題検索要求から主題共起関係Csk(k=1、2、・・・、NCs:NCsは主題検索要求に含まれる単語共起関係の数)を抽出し、単語共起関係照合手段1412に出力する。
ステップ1507において、単語共起関係照合手段1412は単語共起索引1404を参照し、文書Djに出現する単語共起関係のうち単語共起情報抽出手段1411で得られた主題共起関係Cskと一致するものの数NCsjを算出し、共起スコア算定手段1413に出力する。
ステップ1508において、単語共起情報抽出手段1411は索引作成時と同様の方法によって副題検索要求入力手段1408で入力された副題検索要求から副題共起関係Cfm(m=1、2、・・・、NCf:NCfは副題検索要求に含まれる単語共起関係の数)を抽出し、単語共起関係照合手段1412に出力する。
ステップ1509において、単語共起関係照合手段1412は単語共起索引1404を参照し、文書Djに出現する単語共起関係のうち単語共起情報抽出手段1411で得られた副題共起関係Cfmと一致するものの数NCfjを算出し、共起スコア算定手段1413に出力する。
ステップ1510において、共起スコア算定手段1413は式(13)に基づいて文書Djの共起スコアSCjを算出し、文書スコア算定手段1414に出力する。
SCj=NCsj×(NCf+1)+NCfj ・・・(13)
ステップ1511において、文書スコア算定手段1414は式(14)に基づいて頻度スコアの最大値と最小値の差SRを算出する。
SR=Max(SFj)−Min(SFj) ・・・(14)
ステップ1512において、文書スコア算定手段1414は頻度スコア算定手段1410の出力した頻度スコアと共起スコア算定手段1413の出力した共起スコアから文書Djと検索要求との合致度合いを示す文書スコアSjを式(15)によって算出する。
Sj=SFj+SCj×SR ・・・(15)
ステップ1513において、文書順位付け手段1415は文書スコア算定手段1414の出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替え、ステップ1514において検索結果表示手段1416が文書順位付け手段1415の出力から得られたソート済みの文書を検索の結果としてユーザに表示する。
前記のようにして、主題検索要求と副題検索要求という重要視する度合の異る検索要求を受け付け、検索要求と文書の合致度合いを判定する基準として、主題共起関係>副題共起関係>主題単語頻度>副題単語頻度、の順に優先することにより、ユーザの検索意図により近い文書を検索結果の上位に表示することができ、高精度で効率的な検索が可能となる。
(第7の実施の形態)
図19は本発明の第7の実施の形態における文書検索装置の構成を示したブロック図である。図19において、文書検索装置は、検索対象となる文書データ1901と、辞書1902と、辞書単語の検索対象文書中における出現頻度をフィールド毎に格納したフィールド別単語頻度索引1903と、検索対象文書中に現れる単語共起情報をフィールド毎に格納したフィールド別単語共起索引1904と、文書データ1901から単語頻度情報を抽出し、フィールド別単語頻度索引1903に格納する単語頻度情報抽出手段1905と、文書データ1901から単語共起情報を抽出し、フィールド別単語共起索引1904に格納する単語共起情報抽出手段1906と、ユーザが検索要求を入力するための検索要求入力手段1907と、検索要求入力手段1907で入力された検索要求に含まれる辞書単語について、フィールド別単語頻度索引1903を調べ当該単語の文書中でのフィールド毎の出現頻度を求めるフィールド別単語頻度算定手段1908と、フィールド別単語頻度算定手段1908で得られた単語頻度をもとに各文書のフィールド毎の頻度スコアを求めるフィールド別頻度スコア算定手段1909と、検索要求入力手段1907で入力された検索要求から単語共起情報を抽出する単語共起情報抽出手段1910と、フィールド別単語共起索引1904の内容を参照し、単語共起情報抽出手段1910が出力した検索要求に含まれる単語共起関係が、各文書の各フィールドにいくつ現れるかを求めるフィールド別単語共起関係照合手段1911と、フィールド別単語共起関係照合手段1911によって得られた検索要求と文書の各フィールドに共通して出現する単語共起関係の数によって各文書のフィールド毎の共起スコアを求めるフィールド別共起スコア算定手段1912と、各フィールドのスコアをどの程度文書の順位付けにスコアに反映させるかという割合をユーザが入力するためのフィールド割合入力手段1913と、フィールド別頻度スコア算定手段1909の出力とフィールド別共起スコア算定手段1912の出力とフィールド割合入力手段1913の出力から各文書に対する最終的なスコアを算出する文書スコア算定手段1914と、スコアの順に文書を並べ替える文書順位付け手段1915と、スコアの順に並べられた結果文書を表示する検索結果表示手段1916とから構成される。
図20、図21、図22および図23は本発明の第7の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に予め、単語頻度情報抽出手段1905が文書データ1901を走査し、辞書1902に含まれる辞書単語の各文書内でのフィールド毎の出現頻度を調べ、総文書数、当該単語の出現文書数とともにフィールド別単語頻度索引1903出力し、単語共起情報抽出手段1906が文書データ1901を走査し、各文書内でのフィールド毎の単語共起情報を求め、フィールド別単語共起索引1904に出力し、索引を作成しておく。単語共起情報としては例えば同一文章内に出現する単語のペアを共起関係にあると判断して抽出する方法や、形態素解析を行なって係受けの関係にある単語のペアを抽出する方法が考えられる。
ステップ2001において、ユーザは検索要求入力手段1907によって探したい文書に対する検索要求を入力する。
ステップ2002において、ユーザはフィールド割合入力手段1913によってフィールドFm(m=1、2、・・・、NF:NFは総フィールド数)のスコアを順位付けに反映させる割合Rmを入力する。
ステップ2003において、フィールド別単語頻度算定手段1908はフィールド別単語頻度索引1903を参照し、総文書数NDを求めるとともに、検索要求入力手段1907で入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)のフィールドFm中での出現頻度TFijmとフィールドFmに当該単語の出現する文書数NDimを取得し、フィールド別頻度スコア算定手段1909に出力する。
ステップ2004において、フィールド別頻度スコア算定手段1909はフィールド別単語頻度算定手段1908が出力した総文書数ND、フィールドFmに単語Wiの出現する文書数NDim、文書DjのフィールドFmにおける単語Wiの出現頻度TFijmから、単語頻度に基づく文書DjのフィールドFmと検索要求の合致度合いを示す頻度スコアSFjmを前記式(4)によって算出し、文書スコア算定手段1914に出力する。
ステップ2005において、単語共起情報抽出手段1910は索引作成時と同様の方法によって検索要求入力手段1907で入力された検索要求から共起関係Ck(k=1、2、・・・、NC:NCは検索要求に含まれる単語共起関係の数)を抽出し、フィールド別単語共起関係照合手段1911に出力する。
ステップ2006において、フィールド別単語共起関係照合手段1911はフィールド別単語共起索引1904を参照し、文書DjのフィールドFmに出現する単語共起関係のうち単語共起情報抽出手段1910で得られた単語共起関係Ckと一致するものの数NCjmを算出し、フィールド別共起スコア算定手段1912に出力する。
ステップ2007において、フィールド別共起スコア算定手段1912は式(16)に基づいて文書DjのフィールドFmの共起スコアSCjmを算出し、文書スコア算定手段1914に出力する。
SCjm=NCjm ・・・(16)
ステップ2008において、文書スコア算定手段1914は式(17)に基づいてフィールド別頻度スコアの最大値と最小値の差SRを算出する。
SR=Max(SFjm)−Min(SFjm) ・・・(17)
ステップ2009において、文書スコア算定手段1914はフィールド別頻度スコア算定手段1909の出力したフィールド毎の頻度スコアSFjmとフィールド別共起スコア算定手段1912の出力したフィールド毎の共起スコアSCjmとフィールド割合入力手段で入力されたスコア配分割合Rmから文書Djと検索要求との合致度合いを示す文書スコアSjを式(18)によって算出する。
Sj=Σ((SFjm+SCjm×SR)×Rm) ・・・(18)
ステップ2010において文書順位付け手段1915は文書スコア算定手段1914の出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替え、ステップ2011において検索結果表示手段1916が文書順位付け手段1915の出力から得られたソート済みの文書を検索の結果としてユーザに表示する。
前記のようにして、ユーザが検索対象フィールドのスコア配分の割合を変化させられるようにすることにより、ユーザの検索意図を柔軟に表現することができ、効率的な検索が可能となる。
(第8の実施の形態)
図24は本発明の第8の実施の形態における文書検索装置の構成を示したブロック図である。図24において、文書検索装置は、検索対象となる文書データ2401と、辞書2402と、辞書単語の検索対象文書中における出現頻度を格納した単語頻度索引2403と、検索対象文書中に現れる単語共起情報を格納した単語共起索引2404と、文書データ2401から単語頻度情報を抽出し、単語頻度索引2403に格納する単語頻度情報抽出手段2405と、文書データ2401から単語共起情報を抽出し、単語共起索引2404に格納する単語共起情報抽出手段2406と、ユーザが検索要求を入力するための検索要求入力手段2407と、検索要求入力手段2407で入力された検索要求に含まれる辞書単語について、単語頻度索引2403を調べ当該単語の文書中での出現頻度を求める単語頻度算定手段2408と、単語頻度算定手段2408で得られた単語頻度をもとに各文書の頻度スコアを求める頻度スコア算定手段2409と、単語頻度索引2403を調べ、検索要求入力手段2407で入力された検索要求に含まれる辞書単語が、各文書中にいくつ出現するのかを求める出現語数算定手段2410と、出現語数算定手段2411で得られた出現語数をもとに各文書の出現語数スコアを求める出現語数スコア算定手段2411と、検索要求入力手段2407で入力された検索要求から単語共起情報を抽出する単語共起情報抽出手段2412と、単語共起索引2404の内容を参照し、単語共起情報抽出手段2412が出力した検索要求に含まれる単語共起関係が、各文書にいくつ現れるかを求める単語共起関係照合手段2413と、単語共起関係照合手段2413によって得られた検索要求と文書に共通して出現する単語共起関係の数によって各文書の共起スコアを求める共起スコア算定手段2414と、頻度スコア算定手段2409の出力と出現語数スコア算定手段2411の出力と共起スコア算定手段2414の出力から各文書に対する最終的なスコアを算出する文書スコア算定手段2415と、スコアの順に文書を並べ替える文書順位付け手段2416と、スコアの順に並べられた結果文書を表示する検索結果表示手段2417とから構成される。
図25、図26、図27、図28および図29は本発明の第8の実施の形態における文書検索装置の検索の手順を示した流れ図である。
まず、検索の前に予め、単語頻度情報抽出手段2405が文書データ2401を走査し、辞書2402に含まれる辞書単語の各文書内での出現頻度を調べ、総文書数、当該単語の出現文書数とともに単語頻度索引2403に出力し、単語共起情報抽出手段2406が文書データ2401を走査し、各文書内での単語共起情報を求め、単語共起索引2404に出力し、索引を作成しておく。単語共起情報としては例えば同一文章内に出現する単語のペアを共起関係にあると判断して抽出する方法や、形態素解析を行なって係受けの関係にある単語のペアを抽出する方法が考えられる。
ステップ2501において、ユーザは検索要求入力手段2407によって探したい文書に対する検索要求を入力する。
ステップ2502において、単語頻度算定手段2408は単語頻度索引2403を参照し、総文書数NDを求めるとともに、検索要求入力手段2407で入力された検索要求に含まれる辞書単語Wi(i=1、2、・・・、NW:NWは検索要求に含まれる辞書単語数)に対し、当該単語の文書Dj(j=1、2、・・・、ND)中での出現頻度TFijと当該単語の出現する文書数NDiを取得し、頻度スコア算定手段2409に出力する。
ステップ2503において、頻度スコア算定手段2409は単語頻度算定手段2408が出力した総文書数ND、単語Wiの出現する文書数NDi、文書Djにおける単語Wiの出現頻度TFijから、単語頻度による文書Djと検索要求の合致度合いを示す頻度スコアSFjを前記式(1)によって算出し、文書スコア算定手段2415に出力する。
ステップ2504において、出現語数算定手段2410は単語頻度索引2403を参照し、検索要求入力手段2407で入力された検索要求に含まれる辞書単語Wiのうち、文書Djに出現する単語の数NAjを算出し、出現語数スコア算定手段2411に出力する。
ステップ2505において、出現語数スコア算定手段2411は出現語数算定手段2410の出力した出現語数NAjにもとづいて、文書Djの出現語数スコアを前記式(6)によって算出し、出現語数スコア算定手段2411に出力する。
ステップ2506において、単語共起情報抽出手段2412は索引作成時と同様の方法によって検索要求入力手段2407で入力された検索要求から共起関係Ck(k=1、2、・・・、NC:NCは検索要求に含まれる単語共起関係の数)を抽出し、単語共起関係照合手段2413に出力する。
ステップ2507において、単語共起関係照合手段2413は単語共起索引2404を参照し、単語共起情報抽出手段2404で得られた各単語共起関係Ckが出現する文書を求め、単語共起関係Ckのうちで文書Djに出現するものの数NCjを算出し、共起スコア算定手段2414に出力する。
ステップ2508において、共起スコア算定手段2414は前記式(11)に基づいて文書Djの共起スコアSCjを算出し、文書スコア算定手段2415に出力する。
ステップ2509において、文書スコア算定手段2415は前記式(14)に基づいて頻度スコアの最大値と最小値の差SRを算出する。
ステップ2510において、文書スコア算定手段2415は頻度スコア算定手段2409の出力した頻度スコアSFjと出現語数スコア算定手段2411の出力した出現語数スコアSAjと共起スコア算定手段2414の出力した共起スコアSCjから文書Djと検索要求との合致度合いを示す文書スコアSjを式(19)によって算出する。
Sj=SFj+(SAj+SCj×NW)×SR ・・・(19)
ステップ2511において、文書順位付け手段2416は文書スコア算定手段2415の出力した各文書Djの文書スコアSjの値の大きい順に文書を並べ替え、ステップ2512において検索結果表示手段2417が文書順位付け手段2416の出力から得られたソート済みの文書を検索の結果としてユーザに表示する。
前記のようにして、検索要求と文書の合致度合いを判定する基準として、単語頻度だけでなく、共起関係、出現語数を採り入れ、共起関係>出現語数>単語頻度、の順に優先することにより、ユーザの検索意図により近い文書を検索結果の上位に表示することができ、高精度で効率的な検索が可能となる。
本発明の第1の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第1の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第2の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第2の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第3の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第3の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第4の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第4の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第5の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第5の実施の形態における文書検索装置の検索の手順を示す流れ図、 従来の文書検索装置の構成を示すブロック図、 従来の文書検索装置の検索の手順を示す流れ図、 従来の文書検索装置の検索の例を示す図、 本発明の第6の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第6の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第6の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第6の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第6の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第7の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第7の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第7の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第7の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第7の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第8の実施の形態における文書検索装置の構成を示すブロック図、 本発明の第8の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第8の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第8の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第8の実施の形態における文書検索装置の検索の手順を示す流れ図、 本発明の第8の実施の形態における文書検索装置の検索の手順を示す流れ図である。
符号の説明
101、301、501、701、901、1101、1401、1901、2401 文書データ
102、302、502、702、902、1102、1402、1902、2402 辞書
103、303、503、703、903、1103、1403、2403 単語頻度索引
104、1404、2404 単語共起索引
105、304、504、705、905、1104、1405 単語頻度情報抽出手段
1905、2405 単語頻度情報抽出手段
106、1406、1906、2406 単語共起情報抽出手段
107、505、707、907、1105、1907、2407 検索要求入力手段
108、307、708、908、1106、1409、2408 単語頻度算定手段
109、308、709、909、1107、1410、2409 頻度スコア算定手段
110、1406、1411、1906、1910、2406、2412 単語共起情報抽出手段
111、1412、2413 単語共起関係照合手段
112、1413、2414 共起スコア算定手段
113、309、509、712、913、1108、1414 文書スコア算定手段
1914、2415 文書スコア算定手段
114、310、510、713、914、1109、1415 文書順位付け手段
1915、2416 文書順位付け手段
115、311、511、714、915、1110、1416 検索結果表示手段
1916、2417 検索結果表示手段
305、1407 主題検索要求入力手段
306、1408 副題検索要求入力手段
506、1913 フィールド割合入力手段
507、1908 フィールド別単語頻度算定手段
508、1909 フィールド別頻度スコア算定手段
710、2410 出現語数算定手段
711、2411 出現語数スコア算定手段
904 単語出現位置索引
906 単語出現位置情報抽出手段
910 単語出現位置算定手段
911 単語近接度算定手段
912 近接スコア算定手段
1911 フィールド別単語共起関係照合手段
1912 フィールド別共起スコア算定手段

Claims (2)

  1. 検索要求に基づいて、検索対象文書の検索と検索結果文書の順位付けを行なう文書検索装置において、検索対象文書の複数のフィールドに対して、各々索引情報を持ち、検索結果文書の順位付けに反映させるフィールドの割合をユーザが指定できるフィールド割合入力手段を備え、検索結果文書の順位付けに反映させる割合をフィールド毎にユーザが指定できるようにすると共に指定されたフィールド毎の割合によって検索対象文書に得点を加算して順位付けを行ない、順位付けされた検索結果文書を優先的に表示させることを特徴とする文書検索装置。
  2. 検索要求に基づいて、検索対象文書の検索と検索結果文書の順位付けを行なう文書検索装置において、検索対象文書中の単語出現頻度と単語共起情報をフィールド毎に索引に持ち、検索結果文書の順位付けに反映させるフィールドの割合をユーザが指定できるフィールド割合入力手段と、検索要求に含まれる単語共起関係が検索対象文書中に現れるかどうかをフィールド毎に調べる単語共起関係照合手段とを備え、検索結果文書の順位付けに反映させる割合をフィールド毎にユーザが指定できるようにすると共にフィールド毎に単語共起関係が現れる文書に与える得点を加算することにより、順位付けされた検索結果文書を優先的に表示させることを特徴とする文書検索装置。
JP2004352279A 1996-05-29 2004-12-06 文書検索装置 Pending JP2005063468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004352279A JP2005063468A (ja) 1996-05-29 2004-12-06 文書検索装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP15641896 1996-05-29
JP2004352279A JP2005063468A (ja) 1996-05-29 2004-12-06 文書検索装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP9087328A Division JPH1049549A (ja) 1996-05-29 1997-03-24 文書検索装置

Publications (1)

Publication Number Publication Date
JP2005063468A true JP2005063468A (ja) 2005-03-10

Family

ID=34379566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004352279A Pending JP2005063468A (ja) 1996-05-29 2004-12-06 文書検索装置

Country Status (1)

Country Link
JP (1) JP2005063468A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533818A (ja) * 2009-07-20 2012-12-27 アリババ・グループ・ホールディング・リミテッド 単語の重みに基づいた検索結果の順位付け
JP7482335B1 (ja) 2024-01-09 2024-05-13 株式会社ビズリーチ 検索支援システム、検索支援方法及びプログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH0744567A (ja) * 1993-07-29 1995-02-14 Fujitsu Ltd 文書検索装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281565A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置
JPH0744567A (ja) * 1993-07-29 1995-02-14 Fujitsu Ltd 文書検索装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012533818A (ja) * 2009-07-20 2012-12-27 アリババ・グループ・ホールディング・リミテッド 単語の重みに基づいた検索結果の順位付け
JP7482335B1 (ja) 2024-01-09 2024-05-13 株式会社ビズリーチ 検索支援システム、検索支援方法及びプログラム

Similar Documents

Publication Publication Date Title
KR100295354B1 (ko) 문서 정보 검색 시스템
US6496820B1 (en) Method and search method for structured documents
JP5597255B2 (ja) 単語の重みに基づいた検索結果の順位付け
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
EP1391834A2 (en) Document retrieval system and question answering system
US5893094A (en) Method and apparatus using run length encoding to evaluate a database
RU2007114029A (ru) Способ, система и компьютерный программный продукт для поиска, навигации и ранжирования документов в персональной сети
US7440938B2 (en) Method and apparatus for calculating similarity among documents
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
JP2009193219A (ja) インデックス作成装置、その方法、プログラム及び記録媒体
JP2000200281A (ja) 情報検索装置および情報検索方法ならびに情報検索プログラムを記録した記録媒体
JPH0844771A (ja) 情報検索装置
US10394870B2 (en) Search method
JPH0773197A (ja) 異表記語辞書作成支援装置
JP2005063468A (ja) 文書検索装置
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
JP3249743B2 (ja) 文書検索システム
JPH06208588A (ja) 文書検索方式
JP5505207B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラム
JP4384736B2 (ja) 画像検索装置およびその装置の各手段としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP2019211884A (ja) 情報検索システム
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2000090110A (ja) 全文検索方法、装置、および全文検索プログラムを記録した記録媒体
KR100645711B1 (ko) 다수의 정보 블록으로 구분된 웹 페이지를 이용한 정보검색 서비스 제공 서버, 방법 및 시스템
JP2009181524A (ja) 文書検索システム及び文書検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050531

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20051115