JP2003256472A - 文書検索システム - Google Patents

文書検索システム

Info

Publication number
JP2003256472A
JP2003256472A JP2002054185A JP2002054185A JP2003256472A JP 2003256472 A JP2003256472 A JP 2003256472A JP 2002054185 A JP2002054185 A JP 2002054185A JP 2002054185 A JP2002054185 A JP 2002054185A JP 2003256472 A JP2003256472 A JP 2003256472A
Authority
JP
Japan
Prior art keywords
search
document
term
retrieval
search term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002054185A
Other languages
English (en)
Inventor
Jugo Noda
十悟 野田
Takashi Saito
隆 斎藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2002054185A priority Critical patent/JP2003256472A/ja
Publication of JP2003256472A publication Critical patent/JP2003256472A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 検索者が検索結果に対して、検索結果の文章
を参照する前に所望の検索結果であるかどうかを判断可
能とした文書検索システムを得る。 【解決手段】 文書管理アプリケーション121は、ま
ず、種文書から1または複数の検索タームを抽出して、
有用な検索タームを選定する。その後、検索タームとそ
の重みとを使用して文書140を検索し、検索結果の文
書の適合度を算出する。検索により抽出された文書は、
その文書適合度と共にWeb ブラウザ111の表示画面に
Web サーバ123を介して表示される。文書適合度は検
索タームの重み分布で表示され、ユーザが検索タームの
重みを変更したとき、検索結果にリアルタイムに反映し
て視覚化される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索システム
に係り、特に、電子化文書の内容を走査することによ
り、ユーザが予め検索条件として登録した文書に対する
適合度を算出する文書間適合度算出機能を有する文書検
索システムに関する。
【0002】
【従来の技術】近年、電子メールや電子ニュース等によ
り大量の電子化文書(以下、テキストと呼ぶ)が時々刻
々とユーザへ配信されるようになってきた。また、WW
W(World Wide Web)を利用して情報発信を行う情報源
が急増しており、これらの情報源から情報収集ロボット
等を用いて収集されるテキストも膨大な量となってい
る。このため、これらのテキストの中から、真にユーザ
が求める情報を含むテキストを検索するニーズが高まっ
ている。
【0003】従来の検索システムにおいて、ユーザが行
う操作は、 検索単語入力 検索結果の要否判定 検索結果絞込み、あるいは、検索語を修正しての再検
索 の3段階に分けることができる。
【0004】前述したの操作の段階において、従来、
ユーザは、検索に必要と思われる単語をある構文に従っ
て検索式を組み立て、それを入力することにより検索を
行ってきた。しかし、検索に不慣れなユーザが、所望す
る情報を得るための適切な単語を入力したり、必要な情
報だけを取り出して、不要な情報を振り落とすための複
雑な検索式を組み立てることは困難である。
【0005】このため、検索式の組み立ての困難を解決
する従来技術として、例えば、特開2000−3393
46号公報に記載された技術が知られている。この従来
技術は、検索式を組み立てる代わりに、ユーザが所望す
る情報を含む文書(以下、種文書と呼ぶ)を入力して検
索を行うというものである。この従来技術は、種文書か
ら検索に必要な単語(以下、検索タームと呼ぶ)を自動
的に抽出し、この抽出した単語に適切な重みを付けて、
検索結果の文章の適合度を計算し、この適合度が一定値
よりも大きいものを検索結果とするというものである。
【0006】次に、前述したの操作の段階で、検索結
果が表示されるが、ユーザは、その検索結果が正しいか
否かを検索結果の表示から判断する。一般的なシステム
は、その文書の表題を、その検索結果の重み順に表示す
る。これは、表題が文書の内容をよく表していると考え
られるからである。
【0007】しかし、表題が必ず文書の内容を反映して
いるとは限らないので、ユーザが表題だけを見て、検索
結果から求める文書を選択するのは困難である。この問
題を解決するために、文書の一部を検索結果として表示
するシステムも知られている。但し、文書の一部といっ
ても、その文書の内容を適切に表す部分が表示されると
は限らない。このため、文書の一部ではなく、文書の要
約を表示するシステムも知られている。
【0008】最後のの操作での絞込み操作は、あまり
にも多い検索結果を少なくしたい、あるいは、ユーザが
参照する部分を少しでも少なくしたいと思ったときに行
う操作である。この操作は、通常、の操作から、求め
る検索結果を修正するために必要な単語を得て、その単
語で検索結果をフィルタリングすることにより行われ
る。しかし、検索結果がユーザの求める検索結果とずれ
ていて、適切な単語を見付けることができなかった場
合、検索結果の文章を参照して検索単語を見直すか、別
の種文書を探し出して再検索するしかない。
【0009】
【発明が解決する課題】前述した3段階の操作におい
て、従来技術による検索システムは、次に説明するよう
ないくつかの問題点を有している。
【0010】まず、の操作において、文書の内容が表
示されても、適切に表示されないことである。この問題
は、表題を表示する代りに、文書の一部や、要約を表示
することにより改善できるが、要約は、文書に複数の内
容が含まれている場合、ユーザの求める部分が欠落する
こともあり、判断を誤ってしまう。このような場合に、
正しく判断するには、本文を参照するしかない。
【0011】また、の操作において、絞込みを行うた
めの適切な検索単語を見付けることが難しく、意図した
フィルタリングが行われないことが多い点である。ま
た、新たな種文書の入力においても、現在の検索結果に
使われた検索タームよりも、より適切な検索タームが抽
出されるかどうかが不明であり、ユーザの意図通りの調
整を行うことが困難である。
【0012】さらに、操作において、検索結果が正し
いかどうかを判定するためには、その文書の表題を表示
したり、文書の要約を表示することにより行ってきた
が、これらの方法は、 (a)表題は、必ずしも文書の内容を代弁していない (b)要約は、その文書全体の要約であり、ユーザの望む
部分が要約に含まれるとは限らない という問題点がある。
【0013】また、要約処理を行うには、一定の時間が
かかるので先に要約を作成しておく場合もあるが、その
場合、要約を記憶しておくための、記憶容量が別に必要
となり記憶領域の無駄となるという問題を生じる。
【0014】また、操作の絞込み操作において、 (c)絞込みの結果が、正しいかどうか判断できない (d)種文書の再入力では、前回の種文書より適切な種文
書が入力できたかどうか判断することができない という問題があり、ユーザが自分の意図した検索結果に
正しく絞り込めたかどうか判断できないという問題があ
る。
【0015】本発明の目的は、前述したような従来技術
の問題点を解決し、前述したの操作において、検索結
果の文章が所望する文書か否かを判断するためにテキス
トの特徴を視覚化し、検索タームの重みを変更した場
合、各検索結果の文書の特徴がどのように変化するかを
リアルタイムに視覚化して、従来の絞込みでは探し出す
ことの難しかった文書を的確に絞り込んで見つけること
ができるようにした文書検索システムを提供することに
ある。
【0016】
【課題を解決するための手段】本発明によれば前記目的
は、1または複数の検索タームに基づいて文書の全文検
索を行う文書検索システムにおいて、与えられた検索用
の文書から1または複数の検索タームを抽出する検索タ
ーム抽出手段と、検索ターム抽出手段によって抽出され
た1または複数の検索タームに基づいて全文検索を行う
文書検索手段と、文書検索手段によって検索された文書
のそれぞれに対する検索ターム毎の適合度を算出し、与
えられた検索ターム全体に対する適合度を算出する適合
度算出手段と、前記文書検索手段によって検索された文
書を表示するとき、前記適合度算出手段によって算出さ
れた適合度を、検索ターム毎の適合度の和と検索結果文
書中の出現回数とによって表示する検索結果表示手段と
を備えたことにより達成される。
【0017】前述において、検索結果文書の適合度は、
検索タームの適合度を算出した後、それぞれを加算した
ものとして算出することができ、この検索結果文書の適
合度は、検索ターム毎の割合が判るように表示される。
前述の検索ターム毎の割合の表示は、検索ターム毎の重
みと検索結果文章での出現回数とを記憶しておき、その
値を使用して行われる。これは、検索タームの適合度
が、その重みと出現回数とに比例することを利用したも
のである。
【0018】これにより、ユーザは、検索結果文書の適
合度に検索タームがどの程度貢献しているかを見て、検
索結果文書を読む前に、ユーザが所望している文書か否
かかを判断することができる。
【0019】
【発明の実施の形態】以下、本発明による文書検索シス
テムの実施形態を図面により詳細に説明する。
【0020】図1は本発明の一実施形態による文書検索
システムの構成を示すブロック図、図2は文書のデータ
ベースへの格納形式を説明する図である。図1におい
て、100は文書検索システム、110はクライアン
ト、111はWeb ブラウザ、120はサーバ、121は
文書管理アプリケーション、122はデータベース、1
23はWeb サーバ、130は表示画面、140は文書、
150はネットワークである。
【0021】図1に示す本発明の一実施形態による文書
検索システム100は、クライアント・サーバ型のシス
テムであり、クライアント110には、HTMLで作成され
た表示画面130を表示するWeb ブラウザ111が設け
られ、サーバ120には、文書管理の様々な機能を提供
する文書管理アプリケーション121、文書140を蓄
積するデータベース122、表示画面130を通したユ
ーザからの入力に対してCGI(Common Gateway Interf
ace)経由で文書管理アプリケーション121の機能を実
行すると共にその実行結果を表示画面130に反映させ
るWeb サーバ123が設けられている。そして、クライ
アント110とサーバ120とはネットワーク150を
介して互いに接続されている。
【0022】文書140は、図2に示すようにデータベ
ース122に格納されている。すなわち、1つの文書1
40は、文書識別子210、文書タイトル220、文書
実体230、全文検索インデクス240から構成される
レコード200の1つに対応付けられて蓄積される。文
書識別子210は、データベース122に格納する文書
140を一意に識別するために、文書管理アプリケーシ
ョン121により付与される。文書タイトル220は、
文書140に記載された内容を人が一目で判るように、
タイトル用データを文書毎に用意して付加した情報であ
る。文書実体230は、ワープロ等で作成された文書フ
ァイルである。全文検索インデックス240は、文書1
40に対する全文検索を高速に行うために、文書管理ア
プリケーション121が作成する索引データである。文
書管理アプリケーション121が全文検索を行う場合、
文書実体230の中から検索語を探すのではなく、全文
検索インデクス240から検索語を探す。全文検索の方
式には様々な方式が存在するが、例えば、特開平8−1
94718号公報等に記載されたものが知られている。
【0023】図3は概念検索の検索文書を入力する表示
画面の例を示す図であり、まず、図3を参照して、概念
検索の種文書(ユーザが所望する情報を含む文書)を入
力するための画面300を用いた操作例について説明す
る。
【0024】図示例において、ユーザは、Web ブラウザ
111における表示画面130の種文書入力画面300
の中の種文書入力欄310に、「W杯サッカーのアジア
での開催について」という種文書をキーボードから入力
した後、検索開始ボタン320をマウスクリックする。
【0025】種文書入力画面300の検索開始ボタン3
20が押されたとき、入力された種文書を伴って検索結
果表示のリクエストがネットワーク150を経由してサ
ーバ120のWeb サーバ123に送信される。Web サー
バ123は、CGIを経由して、文書管理アプリケーシ
ョン121に種文書を使った概念検索をデータベース1
22に対して行わせる。
【0026】この概念検索を行うため、文書管理アプリ
ケーション121は、文書登録時に次に説明するような
文書の解析を行い、必要なデータをデータベース122
に格納する。
【0027】図9は文書登録時の文書管理アプリケーシ
ョン121での処理動作を説明するフローチャートであ
る。
【0028】文書管理アプリケーション121は、ステ
ップ901で、登録文書から文字列を抽出する。そし
て、文書管理アプリケーション121は、ステップ90
2で、ステップ901で抽出した文字列について、出現
回数と出現文書数とを計算し、全文検索インデクスとし
てデータベース122に格納する。
【0029】前述したステップ901の処理は、検索に
使用する有用な文字列のみを抽出するために、形態素解
析や、特開平11−143902号公報(従来技術1)
等に記載されている技術を用いた処理であってよい。
【0030】本発明の実施形態によるシステムでの概念
検索は、文書管理アプリケーション121により、以下
に説明するような処理により行われる。
【0031】まず、検索の初期処理で、種文書から検索
タームを抽出して、有用な検索タームを選定する。この
検索タームの選定には、検索タームの重みとIDF(Inv
erted Document Frequency)とを用いる。検索タームの
重みについては、従来技術1の計算式やIDFのみを利
用してもよい。IDFについては、“Information Retr
ieval”,William B.Frakes/Ricardo Baeza-Yates,Pre
ntice Hall PTR,1992,p.p.363〜391,“Ranking Algo
rithm”(従来技術2)に開示されている。
【0032】検索タームを抽出した後、その検索ターム
の重みを使用して、各検索結果文書の適合度を算出す
る。適合度の算出には、図8に示す式2を用いる。式2
における係数kに関しては、従来技術1の計算式から算
出してもよい。検索結果の集合は、文書管理アプリケー
ション121により、検索結果集合としてワーク領域に
記憶される。
【0033】図5は検索結果集合のデータ構造を説明す
る図であり、検索結果集合600は、図5に示すよう
に、検索結果識別子610で管理され、集合内のデータ
は、その文書の適合度620、検索結果文書識別子集合
630、検索ターム集合640を有している。そして、
検索ターム集合640は、検索ターム641、その検索
タームのIDF642、その検索タームの重み643、
そのタームの検索結果文書内出現回数644の各データ
を有する。
【0034】図10は概念検索の処理動作を説明するフ
ローチャートであり、次に、これについて説明する。
【0035】文書管理アプリケーション121は、ま
ず、ステップ1001の処理で、種文書から検索ターム
を抽出する。次に、ステップ1002の処理で、種文書
から抽出した検索タームについて重みを計算し、有用な
検索タームを選定する。そして、文書管理アプリケーシ
ョン121は、ステップ1003の処理で、ステップ1
002の処理で抽出した検索タームを元に、データベー
ス122内の登録文書の適合度を算出し、適合度が0以
上のものをヒット文書として、検索結果集合600を作
成する。
【0036】図11は概念検索の結果を元にHTML文書を
作成する処理動作を説明するフローチャート、図4は検
索結果を示す表示画面の例を説明する図であり、次に、
これらの図を参照して、概念検索処理の後、検索結果を
表示するまでの処理について説明する。
【0037】文書管理アプリケーション121は、種文
書を使った概念検索をデータベース122に対して行
い、その結果をHTML形式に変換した後にWeb サーバ12
3に引き渡す。Web サーバ123は、HTML形式の概念検
索結果をWeb クライアント111に送信し、Web クライ
アント111は、その検索結果を図4に示すようにに表
示する。
【0038】HTML文書の生成処理において、文書管理ア
プリケーション121は、まず、ステップ1101の処
理で、概念検索結果を適合度順にソートする。次に、ス
テップ1102の処理で、文書識別子210をキーにし
て検索結果集合600を作成する。作成した検索結果集
合600は、文書管理アプリケーション121内で一意
に検索結果集合600を識別する検索結果識別子610
をつけて管理される。そして、文書管理アプリケーショ
ン121は、ステップ1103の処理で、検索結果集合
600を元に、文書識別子210によって特定される文
書140の文書タイトル220をデータベース122に
問い合わせて取得し、図4に示すような検索結果表示装
置用HTML文書500、検索調整装置用HTML文書400、
凡例表示装置用HTML文書560、特徴ターム分布表示装
置用HTML文書510を作成し、これらをWeb ブラウザ1
11に送信する。
【0039】前述したような処理により作成された概念
検索の結果は、図4に示すように、Web ブラウザ111
の表示画面130に表示される。この図4において、概
念検索の結果、検索文書の特徴を表すと判断された単語
のことを検索タームと呼ぶ。図示例で抽出された検索タ
ームは、「サッカー」、「W杯」、「開催」、「アジ
ア」の4つであり、Web ブラウザ111内の検索調整装
置用HTML文書400及び凡例表示装置用HTML文書560
は、この4つの検索タームを表示している。
【0040】Web ブラウザ111内に構成される検索調
整装置は、検索タームと重みとの対を文書管理アプリケ
ーション121からHTML文書形式で受け取り、検索ター
ム毎に、凡例の模様と検索ターム文字列410、重みの
値420、重みを調整するスライドバー430、その検
索タームの出現回数で並べ替えるソート機能を指定する
ための降順用チェックボックス440、昇順用チェック
ボックス450を、検索調整装置用HTML文書400とし
て表示する。
【0041】検索結果は、検索結果表示装置用HTML文書
500として表示される。概念検索において、その検索
結果は、検索結果文書毎に検索文書に対する適合度を計
算し、その適合度の順にソートして表示される。図4に
示す例では、Web ブラウザ111内に構成される検索結
果表示装置が、画面内に表示できる10件を表示してい
る。それ以上の順位の検索結果は、ユーザが右のスクロ
ールバー520を操作することにより閲覧することがで
きる。表示される各文書は、左から「順位」501、
「検索結果文書のタイトル」502、「検索結果文章の
適合度」503の各項目により表されている。
【0042】検索結果と対応して、Web ブラウザ111
内に構成される検索ターム分布表示装置は、各文書の各
検索タームの重み分布を検索ターム分布表示装置用HTML
文書510として表示する。各文書の各検索タームの重
み分布は、行方向で対応しており、各適合度における検
索タームの分布を表示している。適合度は、検索ターム
の重みWiと検索結果文書での出現回数Tiとの積を、検索
ターム毎に加算したものに比例する。従って、その検索
結果文章における検索ターム毎適合度Siのモデルは、図
7に示す式1に従う。このモデルに従っていれば、適合
度の算出方法に多少の相違があっても、本発明は適用可
能である。d順位の検索結果文書から、i個の検索ター
ムが抽出されたときの検索結果文書の適合度Sdは、Siを
使用して図8に示す式2に従う。検索タームの分布は、
適合度全体に対するi番目の検索ターム加算値の割合を
表示している。また、表示される適合度は、最大値が1
00となるように正規化されている。
【0043】図12は適合度分布表示グラフを作成する
文書管理アプリケーション121での処理動作を説明す
るフローチャートである。ここで説明するフローは、前
述した検索ターム分布表示処理を纏めたものである。
【0044】まず、ステップ1201の処理で、文書管
理アプリケーション121は、種文書を入力して、検索
タームを抽出する。次に、文書管理アプリケーション1
21は、ステップ1202の処理で、検索結果文書の適
合度Sdを算出する。このため、まず、検索ターム毎の適
合度Siを算出してからSdを求める。
【0045】次に、文書管理アプリケーション121
は、ステップ1203の処理で、検索ターム分布グラフ
511に色を割り当てる。色は、予め、区別のつきやす
い色を選んでおき、検索タームに順次割り当てる。ま
た、この色の割り当ては、凡例表示装置560で使用す
る。
【0046】さらに、文書管理アプリケーション121
は、ステップ1204の処理で、適合度分布グラフ51
1を作成する。いま、最大適合度SdはSiであるので、こ
のグラフを全てのグラフの中で最大長とし、これをLド
ットとする。このとき、各検索タームの適合度Siの長さ
は、li=(Si/Sd)×Lとする。
【0047】文書管理アプリケーション121は、ステ
ップ1205の処理で、前述したステップ1201〜ス
テップ1204の処理を検索結果文書数分繰り返して、
ステップ1206で適合度の高い順に、適合度の分布グ
ラフを表示するHTML文書を作成する。
【0048】前述したような処理により、図4に示すよ
うに検索結果が表示される。この表示により、順位1の
検索結果文章は適合度が非常に高いが、適合度のほとん
どが検索ターム「サッカー」で占められていることが判
る。
【0049】前述したように、順位1の検索結果文章は
「サッカー」の出現回数が多いため、適合度が高くなっ
ている。ユーザである検索者が、検索ターム「サッカ
ー」よりも「W杯」の方に重点をおいて検索したい場
合、検索ターム分布表示を見て「サッカー」の重みを下
げればよいと判断できる。重みの調整は、Web ブラウザ
111内に設けられる検索調整装置により行われる。
【0050】例えば、図4に示す検索結果の検索調整装
置用HTML文書400における重みを調整するスライドバ
ー430をユーザが調整し、検索ターム「サッカー」の
重みを64から10に変更したとする。すると、検索調
整装置は、文書管理アプリケーション121に検索ター
ムとその重みの対を受け渡し、文書管理アプリケーショ
ン121は、それらを用いて再度文書の適合度を計算
し、新たに検索結果集合600を作成する。文書管理ア
プリケーション121は、その検索結果集合600を元
に検索結果表示装置用HTML文書500、検索タームとそ
の重みを元に検索調整装置用HTML文書400、凡例表示
装置用HTML文書560、検索ターム分布表示装置用HTML
文書510を作成して送信し、それらをWeb ブラウザ1
11が表示する。
【0051】図13は重み変更後の検索処理の動作を説
明するフローチャート、図6は変更後の検索処理による
検索結果を示す表示画面の例を説明する図であり、次
に、これらの図を参照して、重み変更後の検索処理の
後、検索結果を表示するまでの処理について説明する。
【0052】ステップ1301の処理で、検索調整装置
は、検索タームの重みが変更されたことを検知して、変
更後の検索調整装置が表示している、検索タームとその
重みとのそれぞれを文書管理アプリケーション121に
送信する。但し、重みが0になった検索タームの送信は
行わない。
【0053】検索タームとその重みとを受信した文書管
理アプリケーション121は、ステップ1302の処理
で、受信した検索タームとその重みとを使ってデータベ
ース122内に登録されている各文書の適合度を計算す
る。そして、文書管理アプリケーション121は、適合
度を計算した後、適合度が0以上となった文書を検索結
果として、検索結果集合600を作成する。
【0054】次に、文書管理アプリケーション121
は、ステップ1303の処理で、検索結果集合600を
適合度順にソートして、検索結果表示装置用HTML文書5
00、検索調整装置用HTML文書400、凡例表示装置用
HTML文書560、検索ターム分布表示装置用HTML文書5
10を作成する。作成されたHTML文書は、Web ブラウザ
111に送信されて表示される。
【0055】前述した処理の終了後、図6に示すような
重み変更後の検索結果を示す表示画面が作成され、Web
ブラウザ111に表示されることになる。この図6から
検索ターム「W 杯」を含む文書が上位に上がり、検索タ
ーム「サッカー」を含む文書の適合度が下がったことが
判り、ユーザは、このことを文書を一読する前に判断す
ることができる。
【0056】前述した本発明の実施形態による各処理
は、処理プログラムとして構成することができ、この処
理プログラムは、HD、DAT、FD、MO、DVD−
ROM、CD−ROM等の記録媒体に格納して提供する
ことができる。
【0057】前述した本発明の実施形態によれば、検索
結果の要否判定の操作において、検索結果の文章が所望
する文書か否かを判断するためにテキストの特徴を視覚
化し、検索タームの重みを変更した場合、各検索結果の
文書の特徴がどのように変化するかをリアルタイムに視
覚化することができるので、ユーザは、従来の絞込みで
は探し出すことの難しかった文書を的確に絞り込んで見
つけることができる。
【0058】
【発明の効果】以上説明したように本発明によれば、検
索者が検索結果に対して、検索結果の文章を参照する前
に所望の検索結果であるかどうかを判断可能に検索結果
を提示することができるので、検索結果をユーザの望ん
だ方向に容易に調整することができる。
【図面の簡単な説明】
【図1】本発明の一実施形態による文書検索システムの
構成を示すブロック図である。
【図2】文書のデータベースへの格納形式を説明する図
である。
【図3】概念検索の検索文書を入力する表示画面の例を
示す図である。
【図4】検索結果を示す表示画面の例を説明する図であ
る。
【図5】検索結果集合のデータ構造を説明する図であ
る。
【図6】変更後の検索処理による検索結果を示す表示画
面の例を説明する図である。
【図7】検索ターム毎の適合度算出式を示す図である。
【図8】検索結果文書の適合度算出式を示す図である。
【図9】文書登録時の文書管理アプリケーションでの処
理動作を説明するフローチャートである。
【図10】概念検索の処理動作を説明するフローチャー
トである。
【図11】概念検索の結果を元にHTML文書を作成する処
理動作を説明するフローチャートである。
【図12】適合度分布表示グラフを作成する文書管理ア
プリケーションでの処理動作を説明するフローチャート
である。
【図13】重み変更後の検索処理の動作を説明するフロ
ーチャートである。
【符号の説明】 100 文書検索システム 110 クライアント 111 Web ブラウザ 120 サーバ 121 文書管理アプリケーション 122 データベース 123 Web サーバ 130 表示画面 140 文書 150 ネットワーク

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 1または複数の検索タームに基づいて文
    書の全文検索を行う文書検索システムにおいて、与えら
    れた検索用の文書から1または複数の検索タームを抽出
    する検索ターム抽出手段と、検索ターム抽出手段によっ
    て抽出された1または複数の検索タームに基づいて全文
    検索を行う文書検索手段と、文書検索手段によって検索
    された文書のそれぞれに対する検索ターム毎の適合度を
    算出し、与えられた検索ターム全体に対する適合度を算
    出する適合度算出手段と、前記文書検索手段によって検
    索された文書を表示するとき、前記適合度算出手段によ
    って算出された適合度を、検索ターム毎の適合度の和と
    検索結果文書中の出現回数とによって表示する検索結果
    表示手段とを備えたことを特徴とする文書検索システ
    ム。
  2. 【請求項2】 前記適合度算出手段は、検索タームに対
    する文書の適合度を、文書中の検索タームの出現回数、
    予め格納された検索タームの重要度の何れか一方または
    両方によって算出することを特徴とする請求項1記載の
    文書検索システム。
  3. 【請求項3】 前記適合度算出手段は、蓄積された文書
    に検索タームが含まれる割合に基づいてタームの重要度
    を算出する重要度算出手段を有し、該重要度算出手段が
    算出したタームの重要度を用いて適合度を算出すること
    を特徴とする請求項1記載の文書検索システム。
  4. 【請求項4】 前記検索ターム抽出手段が抽出した検索
    タームの要否をユーザが選択するユーザインタフェース
    をさらに備えることを特徴とする請求項1記載の文書検
    索システム。
  5. 【請求項5】 前記重要度算出手段が算出した検索ター
    ムの重要度をユーザが調整できるユーザインタフェース
    をさらに備え、検索タームの重要度が変更された場合、
    前記適合度算出手段は、変更後の重要度を用いて適合度
    を再算出することを特徴とする請求項3記載の文書検索
    システム。
  6. 【請求項6】 1または複数の検索タームに基づいて文
    書の全文検索を行う文書検索手段プログラムであって、
    与えられた検索用の文書から1または複数の検索ターム
    を抽出する検索ターム抽出処理プログラムと、検索ター
    ム抽出手段によって抽出された1または複数の検索ター
    ムに基づいて全文検索を行う文書検索処理プログラム
    と、検索された文書のそれぞれに対する検索ターム毎の
    適合度を算出し、与えられた検索ターム全体に対する適
    合度を算出する適合度算出処理プログラムと、前記検索
    された文書を表示するとき、前記適合度算出処理によっ
    て算出された適合度を、検索ターム毎の適合度の和と検
    索結果文書中の出現回数とによって表示する検索結果表
    示処理プログラムとからなることを特徴とする文書処理
    プログラム。
JP2002054185A 2002-02-28 2002-02-28 文書検索システム Pending JP2003256472A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002054185A JP2003256472A (ja) 2002-02-28 2002-02-28 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002054185A JP2003256472A (ja) 2002-02-28 2002-02-28 文書検索システム

Publications (1)

Publication Number Publication Date
JP2003256472A true JP2003256472A (ja) 2003-09-12

Family

ID=28665411

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002054185A Pending JP2003256472A (ja) 2002-02-28 2002-02-28 文書検索システム

Country Status (1)

Country Link
JP (1) JP2003256472A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219722A (ja) * 2006-02-15 2007-08-30 Just Syst Corp 文書検索サーバおよび文書検索方法
JP2008130094A (ja) * 2006-11-22 2008-06-05 General Electric Co <Ge> 電子医療記録データのフリーテキスト検索のシステムおよび方法
JP2011100334A (ja) * 2009-11-06 2011-05-19 Nec System Technologies Ltd 文書ファイル検索システム、文書ファイル登録方法、文書ファイル検索方法、プログラム及び記録媒体
JP2011138241A (ja) * 2009-12-28 2011-07-14 Rakuten Inc 情報表示装置、情報表示方法、情報表示プログラム、情報提供装置、情報提供方法、情報提供プログラム、及び情報検索システム。
WO2012131928A1 (ja) * 2011-03-30 2012-10-04 楽天株式会社 情報提供装置、情報提供方法、情報提供プログラム、情報表示装置、情報表示方法、情報表示プログラム、情報検索システム、及び記録媒体
JP2015514266A (ja) * 2012-04-11 2015-05-18 インテル コーポレイション ユーザ・インターフェース・コンテンツ個人別最適化システム
JP2015207159A (ja) * 2014-04-21 2015-11-19 アルパイン株式会社 コンテンツ検索装置、方法およびプログラム
CN110929125A (zh) * 2019-11-15 2020-03-27 腾讯科技(深圳)有限公司 搜索召回方法、装置、设备及其存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219722A (ja) * 2006-02-15 2007-08-30 Just Syst Corp 文書検索サーバおよび文書検索方法
JP4746439B2 (ja) * 2006-02-15 2011-08-10 株式会社ジャストシステム 文書検索サーバおよび文書検索方法
JP2008130094A (ja) * 2006-11-22 2008-06-05 General Electric Co <Ge> 電子医療記録データのフリーテキスト検索のシステムおよび方法
JP2011100334A (ja) * 2009-11-06 2011-05-19 Nec System Technologies Ltd 文書ファイル検索システム、文書ファイル登録方法、文書ファイル検索方法、プログラム及び記録媒体
JP2011138241A (ja) * 2009-12-28 2011-07-14 Rakuten Inc 情報表示装置、情報表示方法、情報表示プログラム、情報提供装置、情報提供方法、情報提供プログラム、及び情報検索システム。
WO2012131928A1 (ja) * 2011-03-30 2012-10-04 楽天株式会社 情報提供装置、情報提供方法、情報提供プログラム、情報表示装置、情報表示方法、情報表示プログラム、情報検索システム、及び記録媒体
KR101521726B1 (ko) * 2011-03-30 2015-05-19 라쿠텐 인코포레이티드 정보 제공 장치, 정보 제공 방법, 정보 표시 장치, 정보 표시 방법, 정보 검색 시스템, 및 기록 매체
US9135316B2 (en) 2011-03-30 2015-09-15 Rakuten, Inc. Information providing device, method, program, information display device, method, program, information search system, and recording medium for enhanced search results
JP2015514266A (ja) * 2012-04-11 2015-05-18 インテル コーポレイション ユーザ・インターフェース・コンテンツ個人別最適化システム
JP2015207159A (ja) * 2014-04-21 2015-11-19 アルパイン株式会社 コンテンツ検索装置、方法およびプログラム
CN110929125A (zh) * 2019-11-15 2020-03-27 腾讯科技(深圳)有限公司 搜索召回方法、装置、设备及其存储介质
CN110929125B (zh) * 2019-11-15 2023-07-11 腾讯科技(深圳)有限公司 搜索召回方法、装置、设备及其存储介质

Similar Documents

Publication Publication Date Title
US11238117B2 (en) Customizable ordering of search results and predictive query generation
US6912550B2 (en) File classification management system and method used in operating systems
JP4098539B2 (ja) プロファイル情報の推薦方法、プログラム及び装置
US8046363B2 (en) System and method for clustering documents
JP2003345810A (ja) 文書検索方法、文書検索システム及び文書検索結果示方システム
JP2005535039A (ja) 地理的なテキスト検索システムを備えたデスクトップクライアントとの対話
JP2002519751A (ja) 文脈に基づきユーザーのプロフィールが駆動する情報検索
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
WO2004038609A2 (en) Intelligent classification system
KR20010104873A (ko) 메타 검색엔진을 이용한 인터넷 사이트 검색 서비스 시스템
JP2002014964A (ja) 情報提供システム及び情報提供方法
JP2003173280A (ja) データベース生成装置、データベース生成方法及びデータベース生成プログラム
JP3820878B2 (ja) 情報検索装置,スコア決定装置,情報検索方法,スコア決定方法及びプログラム記録媒体
JP5197680B2 (ja) 特徴情報作成装置、方法及びプログラム
JP2004362451A (ja) 検索キーワード情報表示方法及びシステム及び検索キーワード情報表示プログラム
JP2003256472A (ja) 文書検索システム
US7310630B2 (en) Multimedia-object-retrieving method and system
JP2011203776A (ja) 類似画像検索装置、方法及びプログラム
JP2004070405A (ja) Webページの風評情報抽出装置
JPH1145257A (ja) Web文書の検索支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JPH10207906A (ja) 検索履歴管理装置
JPH11338869A (ja) 情報推薦方法及びシステム及び情報推薦プログラムを格納した記憶媒体及び情報蓄積方法及び装置及び情報蓄積プログラムを格納した記憶媒体
JP2006277061A (ja) 知識検索システム、知識検索方法及びプログラム
JP2002324077A (ja) 文書検索装置および文書検索方法
US5715442A (en) Data unit group handling apparatus