JP2002288214A - 検索システムおよび検索サービス - Google Patents

検索システムおよび検索サービス

Info

Publication number
JP2002288214A
JP2002288214A JP2001091636A JP2001091636A JP2002288214A JP 2002288214 A JP2002288214 A JP 2002288214A JP 2001091636 A JP2001091636 A JP 2001091636A JP 2001091636 A JP2001091636 A JP 2001091636A JP 2002288214 A JP2002288214 A JP 2002288214A
Authority
JP
Japan
Prior art keywords
search
user
result
results
duplication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001091636A
Other languages
English (en)
Other versions
JP2002288214A5 (ja
Inventor
Yumiko Seki
由美子 関
Takashi Saito
隆 斉藤
Osami Hagiwara
修身 萩原
Masayoshi Kito
政義 鬼頭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001091636A priority Critical patent/JP2002288214A/ja
Priority to EP02251128A priority patent/EP1246088A3/en
Priority to US10/076,566 priority patent/US20020143737A1/en
Publication of JP2002288214A publication Critical patent/JP2002288214A/ja
Publication of JP2002288214A5 publication Critical patent/JP2002288214A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】文書情報の予約検索において、複数ユーザの登
録した検索条件に重複があった場合にこれを排除して効
率のよい検索を行うことのできる検索システムおよび検
索サービスを提供する。 【解決手段】予約検索を行うに際し、ユーザ間で検索条
件の登録内容に重複があった場合には重複を統合して検
索処理を実行し、得られた検索結果について、ユーザ間
の重複分について各ユーザが所望する検索条件登録に合
致するように情報の複製を行って各ユーザの検索条件登
録ごとに展開するとともに、展開した内容中に重複があ
った場合はこれを排除して統合し、ユーザが所望する形
態に編集して編集結果をユーザが予め登録したメールア
ドレスなどの配信先へ配信する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はネットワーク上のデ
ータベースに蓄積された情報の検索方法及び装置に関す
る。
【0002】
【従来の技術】(1)蓄積された文書に対する予約検索
の従来技術としては特開平7−334522号公報にあ
るように、予め登録された検索条件と検索時機に基づい
て該当する文書の一覧表を取得する技術がある。
【0003】(2)また、複数のユーザからなされた複
数の検索要求を一括して処理する方法は特開平6−60
121号公報に示されている。
【0004】
【発明が解決しようとする課題】上記従来の技術(1)
においては、検索結果は文書一覧として与えられるの
で、検索内容をメールにて通知し、また通知内容に重複
があった場合の処理については触れていない。
【0005】また、上記従来の技術(2)においては、
複数のユーザがそれぞれ検索要求を行った際にこれらを
統合して検索処理を行い、検索効率を上げる方法と、そ
の結果を各ユーザに展開する方法について述べられてい
るが、不特定多数のネットワーク上のデータベースに対
して検索処理を行う場合の効率化の手法について、また
結果を各ユーザへ展開する際の具体的な実現方法につい
ては述べられていない。
【0006】
【課題を解決するための手段】本発明では、計算機とデ
ータベースとを接続したシステムにおける検索システム
であって、ユーザからの検索要求を登録しておく検索予
約登録部と、前述の登録内容にもとづいてデータベース
に対して情報検索を行い、結果をユーザへ配信する検索
システム部と、前述のデータベースに対して情報検索を
行う際に、重複した検索要求について、予め格納したル
ールに従って統合しユーザへ配信するデータを作成する
検索処理部とを有する。
【0007】尚、本発明ではネットワーク上にある不特
定多数のデータベース上に蓄積された文書に対して、予
め定められた検索条件、検索時機において予約検索を行
う手段と、少なくとも一人以上のユーザが個々の検索条
件登録を行い、その登録を保持して活用することができ
る手段と、ユーザ間で検索条件の登録内容に重複があっ
た場合には重複を統合して検索条件の作成を行い検索す
る手段と、得られた検索結果について、ユーザ間の重複
分について各ユーザが所望する検索条件登録に合致する
ように情報の複製を行って各ユーザの検索条件登録ごと
に展開する手段と、展開した内容中に重複があった場合
はこれを排除してユーザが所望する形態に編集し、編集
結果をユーザが予め登録したメールアドレスあるいは配
信先へ配信する手段とを備えた情報検索システム、もし
くはこのような検索システムを利用した検索サービスか
らなる。
【0008】
【発明の実施の形態】以下、本発明の実施例について図
面を用いて説明する。
【0009】図1は本発明を適用した検索システムの構
成と検索サービスの動作を説明する図である。本システ
ムでは複数の検索対象データベースシステム(DBMS)
1、2、、、、nがネットワークを介して接続され検索
が可能である環境において、本システムのユーザ1、
2、3、、、nが予め登録しておいた検索条件に従って
検索された結果をメールなどの媒体を通じて配信される
サービスを受けることができる。
【0010】以下に、本発明による検索結果配信サービ
スを提供するプログラム・各システムの構成について説
明する。
【0011】103および104の検索予約登録部
(A)(B)はそれぞれユーザが予め設定するユーザ別
配信要求102によって予約検索条件を登録しておくも
のである。これはユーザの数だけあってもよいが、後で
述べるように、ユーザ1がユーザ2の予約検索条件をそ
のまま再利用してもよい。その場合両ユーザの検索予約
登録部は別々にあってもよいが、資源節約のために同じ
ものとなっていてもよい。
【0012】検索予約登録部に登録された内容で予約検
索を行うのが情報検索部105である。情報検索部10
5は次の構成からなる。106検索条件統合部は各検索
予約登録部の検索条件の重複を調べて重複があればこれ
を統合して検索式作成部107に結果を渡す。
【0013】検索式作成部107は与えられた検索条件
に基づいて検索式を作成する。作成された検索式は10
8検索実行部においてコマンド発行される。109前検
索結果記憶参照部にといて発行されたコマンドが既に検
索済みの結果を参照する場合はこれを参照し、そうでな
い場合は新規に検索を行う。110検索結果取得部にて
検索結果を取得し、111検索結果配信部において各検
索予約登録部結果データベース112および113への
検索結果の配信を行う。
【0014】114ユーザ別配信振り分け処理部では各
ユーザに配信するための検索結果の振り分けを行い、同
じユーザに配信する結果内に重複する結果が含まれてい
ればこれを統合して配信する(115)。
【0015】図2でユーザ別配信要求102によって検
索予約登録を行う方法についてユーザインターフェース
の画面例を用いて説明する。
【0016】201はユーザAが利用する検索予約登録
画面の例である。ここでは基本的な機能についてのみ説
明する。202は検索カテゴリを選択する項目である。
例えば、ユーザの使用頻度の高い検索条件については予
めこのようにカテゴリ項目を列挙してユーザに選択させ
ることで、ユーザの負担を軽減することができる。この
例では「インターネット」と「テキスト検索」が選択さ
れ検索予約されている。その他の検索条件については2
03に示すようにユーザが検索したい言葉を入力する欄
を設け、単語や文章による指定を受け付ける。
【0017】また、この欄では、うろ覚えの言葉や、綴
り字の間違った場合に文章校正を行う手段を補助的に設
けておいてもよい。202や203でユーザが自分の検
索したいキーワードをうまく設定できないとき、あるい
は、既に誰か別のユーザが設定した検索条件を再利用し
たいときには、204で別ユーザの検索予約登録情報を
参照することができる。
【0018】これは、予めユーザAが参照することが許
されているユーザ群について、それらのユーザが設定し
た検索条件を選択し、参照すると、参照されるユーザが
設定しているカテゴリやキーワードが表示され各項目が
再利用可能となる。
【0019】ユーザAはそれをそのまま利用して登録し
てもよいし、さらにその情報に新たな項目を追加・削除
して編集してもよい。205で検索結果の配信先を指定
する。この例ではデフォルト設定では社内のメールアド
レス宛てとなっているが、個人用のメールアドレスに配
送したり、FAXへ転送するなどの設定をしてもよい。
206は情報の鮮度オプションの指定である。ここで情
報の鮮度とは、検索対象となるデータの新しさを示して
いる。
【0020】例えば、予約検索の場合、1週間ごと、あ
るいは1日ごとの定められた時機に検索を行い、この結
果を全文検索用データベースに登録しておいて、この登
録済みデータに対してアクセスすることによって処理の
高速化を計っている場合がある。そこで、情報の鮮度オ
プションを設け、指定がなかった場合(デフォルト)は
この予め登録してあるデータに対して検索を行い、結果
を取得することとする。しかし場合によっては最新のデ
ータを新規に検索したいこともある。
【0021】このような場合のために情報の鮮度オプシ
ョンを設け、ユーザがどの程度まで新しい情報を必要と
しているかを選択することができる。例では、24時間
以内に作成済みの検索用データベースに対して検索を行
う場合と、新規に原データ(ネットワーク上の検索対象
データベースシステム群)に対する検索を別途行う場合
の2種類の選択肢を表示している。以上202〜206
の情報を指定して検索予約登録を行い、その情報は検索
予約登録部(103)に格納され管理される。
【0022】図3に106検索条件統合部の処理フロー
を示す。各検索予約登録部(103,104)に登録さ
れている検索条件の記述内容に重複がないか調べる(3
01)。重複がある場合は重複するキーワードから重複
リスト(401)を作成する(302)。重複を排除し
て統合した検索条件を検索要求として検索式作成部10
7へ渡す(303)。また処理301で重複がなかった
場合はそのまま処理303へ進む。
【0023】図4に重複リスト(401)の例を示す。
この例においては、キーワード「インターネット」で予
約検索登録しているユーザはユーザA、ユーザB、ユー
ザCの3人で、それぞれの登録している検索予約登録部
はユーザAが検索登録部Aであり、ユーザBとユーザC
が検索登録部Bを共有している。また、キーワード「テ
キスト検索」で予約検索登録しているユーザはユーザA
とユーザBの二人である。
【0024】図4の重複リストにある重複キーについて
は検索条件統合部106において統合される。すなわ
ち、「インターネット」に対して検索を要求しているユ
ーザは三人いるが、検索そのものは一度でよい。また
「テキスト検索」についても要求ユーザが二人いるが、
検索そのものは一度でよい。そこでこれらを統合して、
「インターネット」と「テキスト検索」の一回の検索と
して検索式を作成するのが107の検索式作成部であ
る。作成された検索式は108検索実行部でコマンドと
して発行される。
【0025】ここで発行されたコマンドはそのまま実行
してもよいが、本実施例では引き続き前検索結果記憶参
照部109の処理を行う。このように検索の重複を統合
することで検索用サーバの処理を高速化し、負荷を軽減
することができる。106検索条件統合部の統合方法、
107検索式作成部の作成方法、108検索実行部の実
行方法について詳細は特開平6−60121号公報にあ
るような方法を利用してよい。
【0026】図5に前検索結果記憶参照部109の処理
フローを示す。検索実行部108から出された検索要求
の鮮度オプション指定が新規検索を指定しているかどう
かを判定し(501)、YESであればネットワーク上
の検索対象データベースシステムに対して検索を実行
し、検索結果を最新の前検索結果として保存する(50
3)。処理501でNOの場合、すなわち新規検索指定
がなされていなかった場合、すでに格納されている前検
索結果で、指定された鮮度オプション(24時間以内の
情報、1週間以内の情報など)に該当するデータに対し
て検索を実行する(502)。
【0027】なお、前検索結果記憶参照部109が前検
索結果を対象として検索実行する手法については、特開
平6−60121号公報にあるように複数の検索対象デ
ータベースがあった場合にどのデータベースを対象に検
索処理を行うか指定して選択的に検索処理を行う方法を
利用してよい。
【0028】110検索結果取得部で検索された結果を
取得し、111検索結果配信部で各検索予約登録部結果
データベースへ結果を配信する。
【0029】図6に111検索結果配信部の処理フロー
を示す。
【0030】図6に示す検索結果配信部111では、ま
ず重複リスト401を参照して、検索結果のキーと重複
キーとを比較し、重複リストに載っている検索予約登録
分だけを必要な数だけ複製する(601)。複製された
検索結果を各検索予約登録部結果データベース(11
2、113)へ配布して登録する(602)。
【0031】図7にユーザ別配信振り分け処理部114
の処理フローについて示す。各ユーザが予め設定した検
索予約登録を参照して、検索予約登録結果データベース
からユーザ所望の検索結果を取得して内容を記憶する
(701)。この内容をもとに検索結果重複統合処理
(702)にうつる。
【0032】図8に検索結果重複統合処理(702)の
処理フローを示す。まず検索結果内容に重複する結果が
含まれていないか判定する(801)。判定に際しては
重複度判定ルール群802を判定基準として利用する。
【0033】重複度判定ルール群とは、例えば、一致度
定義ルール803、類似度定義ルール804、同一情報
起源定義ルール805、その他定義ルール806などか
らなる。具体的には、一致度定義ルールとは、検索結果
がそれぞれ一致するもの、あるいは、互いに全文検索結
果の一致度が80%を超えるものは一致すると見なす、
といったような定義がなされている。
【0034】また、類似度定義ルール804とは、文書
の内容を要約したときにそれぞれの検索結果の要約が8
0%以上類似している場合、それらの結果は類似文書で
あって、重複と見なす、といったような定義がなされて
いる。また、同一情報起源定義ルールとは、検索結果を
取得したデータの起源が同じところから発生しているも
の(例えば国外にあるA社の社外発表をB新聞社が翻訳
して紹介した記事と、C新聞社が翻訳して紹介した記事
とは本質的に同じ内容を示す、など)は重複と見なす、
といったような定義がなされている。
【0035】その他定義ルール806とは本検索システ
ム側で個別に定義することのできるルールを示す。以上
のような重複度判定ルール群802を基にして、重複す
る結果がないかどうか判定した結果、重複する結果が含
まれているときには、結果優先度ルールに基づいて結果
を統合する(807)。
【0036】結果優先度ルール808とは、重複する結
果が含まれていたときにどちらを優先してユーザに配信
し、どちらを重複データとして削除するかを決めるため
のルールである。先ほどの例でいえば、B新聞社の翻訳
技術とC新聞社の翻訳技術ではB新聞社の方が的確であ
ることが予めわかっているとき、B新聞社の記事を優先
して、C新聞社の記事を結果から重複として削除する、
などを定めるものである。
【0037】また、例えば、「インターネット」および
「テキスト検索」で検索した結果と、「インターネッ
ト」のみで検索した結果、「テキスト検索」のみで検索
した結果はそれぞれ包含関係にあり重複している。
【0038】従って、検索結果は「インターネット」と
「テキスト検索」の両方を含むものを優先し、その結
果、両方を含む検索結果として選択された情報と同じ情
報については、「インターネット」のみ、および「テキ
スト検索」のみで検索した結果からは、すでに結果が得
られた重複データとして削除する、などを定めるもので
ある。
【0039】702検索結果重複統合処理で重複分を削
除して残った検索結果について、配信用テンプレート
(1101)を参照して検索結果を編集して整形し、ユ
ーザが予め指定したアドレスへ結果を配信する(70
3)。
【0040】図9に以上で述べてきた検索結果データ重
複統合の仕組みをまとめて示す。検索対象データ群(検
索対象DBMS1、検索対象DBMS2)はそれぞれネ
ットワーク上に接続された不特定多数の原データであっ
ても良いが、検索対象として予め検索して登録しておい
た前検索結果データベースであっても良い。この検索対
象群に対して検索処理を行ってデータ1およびデータ2
が得られたものとする。
【0041】この時、検索処理は重複を排除して統合さ
れているので、検索対象データ群に対するアクセスは最
小限に抑えられ、検索効率や検索用サーバの負荷の低減
がなされている。また、検索対象データが、コンテンツ
利用に関して課金制度を用いていた場合、例えば検索対
象DBMS1で1度の検索にかかる費用XX円であれば
通常10回検索を行うとXX円の10倍の課金が行われ
るが、このシステムでは検索回数が最低限に抑えられて
いるので課金も少ない。
【0042】ただし、不正な使用をさけるために、検索
対象DBMS側と本検索サービス側とで別途契約を結ん
で運用することが望ましい。例えば後で複製する数に関
する記述部分(重複リスト401など)のみを互いに共
有しておいて、いくつ複製が作られたかによって自動的
に課金を増やすことで、課金制度に支障をきたすことな
くお互いのシステム負荷を低減する方法などが可能であ
る。
【0043】また、ユーザ側で予算を定めておき、課金
と予算の関係から検索対象DBMS1からデータ取得す
るか、検索対象DBMS2からデータ取得するかなどを
選別する方法も可能である。得られた検索結果データ1
とデータ2とは検索結果配信部111によって必要な数
だけ複製が作られ、検索予約登録部(A)結果DBに登
録される。
【0044】この登録内容をユーザ別に配信振分け処理
を行う中で、検索結果重複統合処理702が行われてデ
ータ1とデータ2の中に存在する内容重複部分905を
重複排除して統合し、統合された配布用データをユーザ
別結果配信115としてユーザに配信する。
【0045】図10に具体的な重複排除の例を示してお
く。ユーザAの予約検索結果がデータ1とデータ2であ
った場合、この図の例ではデータ1中に「インターネッ
ト」と「テキスト検索」の両方を含む検索結果(1)2
月10日のA新聞社記事が得られている。
【0046】一方、データ2中に「テキスト検索」を含
む検索結果として同じ(1)2月10日のA新聞社記事
が得られている。それぞれは内容が同じで重複している
ので、このままユーザに配信してしまうと配信内容が冗
長になり、ユーザとして読みづらく、わずらわしいもの
となってしまう。
【0047】そこで、内容が重複している部分905を
検索結果重複統合処理702によって統合した配布用デ
ータを作成している。この図の例ではデータ1の検索結
果のみを採用して、データ2に含まれている同じ内容の
検索結果は排除されている。この統合された配布用デー
タをユーザ別結果配信として配信する。
【0048】図11に配信用テンプレートの例1101
を示す。この例では、検索に使用したキー、検索日時、
目次、検索結果、ヒット数、ヒットした数だけの検索結
果の情報(タイトル、作成者、作成日付、URL、概
要、コメントなど)を繰り返し、最後に終了コメントを
出力する書式としている。なおここでいう検索日時と
は、新規検索の場合は検索日時そのものであるが、予め
登録されていた前検索結果を参照した場合はその前検索
結果が検索された日時をユーザに明らかにするものであ
る。
【0049】図11のテンプレートの中のコメントは、
検索結果や類似度定義ルールに基づいた類似度の比較結
果に基づいて作成しても良い。
【0050】たとえば、雑誌社αのインターネットに関
する記事と雑誌社βのインターネットに関する記事が9
5%類似という類似比較の結果がでた場合には「雑誌社
αのインターネットに関する記事と雑誌社βのインター
ネットに関する記事の類似度は95%でした。本結果通
知には雑誌社αの記事を載せ、雑誌社βの記事を省略し
ました。」というように、どの記事を比較したか、どの
記事を省略したかがわかるようなコメントをつけてもよ
い。その際に、文章のテンプレートを予め格納してお
き、類似度の数値や検索ヒット件数、情報の出所(新聞
社、URL、学会名等の情報)、記事や論文のタイトル
等については類似判定結果や検索結果等の値を入れるよ
うにしてもよい。
【0051】また、コメントは検索式ごとの検索結果に
応じてつけてもよいし、コメントを希望する結果のみに
つけてもよいし、検索結果送信ごとにつけてもよい。
【0052】なお、記事の省略に関して、予めどの記事
を結果に載せ、どの記事を省略するかを重複度判定ルー
ル群802の中で定義しておいてもよい。たとえば、記
事がA新聞社の記事とB新聞社の記事とが類似度85%
である場合には、「A新聞社の記事を載せ、B新聞社の
記事を省略する。」という定義をしてもよい。この場合
は予め定義されたルールに従ってコメントを自動生成す
るようにしてもよい。
【0053】さらに、複数の記事の内容の重複が複数あ
ったなどには、記事を載せる優先順位を定めておいても
良い。たとえば、「A新聞社、B新聞社、C新聞社の3
社の記事で重複があった場合には、A新聞社の記事を載
せ、B新聞社およびC新聞社の記事は省略。B新聞社、
C新聞社の2社の記事があった場合はB新聞社の記事を
載せ、C新聞社の記事は省略。」という定義を定めるこ
とで、どの記事を載せ、どの記事を省略するかを重複度
判定ルールで定めておき、この内容に従ってコメントを
記載してもよい。
【0054】なお、これらはあくまでも一例であり、別
途コメントのテンプレートを用意しておき、コメントの
テンプレートと重複度判定ルール群802とを利用した
文章を記載しても良いし、他の方法でもよい。
【0055】図12に1101のテンプレートを用いて
配信されるメールの例を示す。ユーザAが受け取るメー
ル1201は、まずユーザAが指定したキーとして「イ
ンターネット」「テキスト検索」、次に検索日時は20
01年3月1日のデータを使用し、検索結果として、ま
ず「インターネット」と「テキスト検索」の両方を含む
もののヒット数が2件、以下その2件の情報、次に「テ
キスト検索」を含むものの検索結果ヒット数1件の情報
が記述されている。
【0056】なおここではすでに「インターネット」と
「テキスト検索」の検索でヒットした(1)と(2)の
2件の情報については重複するので削除されている。さ
らに「インターネット」を含むものの検索結果ヒット数
1523件と続いている。この例にあるように、ヒット
数が多すぎてメールの受信容量を越える場合にはコメン
トを記述して概要の出力を控える。ここでは「メール容
量オーバーのため、検索結果DB格納エリア1を直接参
照してください」としてメールが冗長になることを防い
でいる。
【0057】このような結果が多すぎて容量オーバーな
どが生じる場合にはメールの最後尾にこの情報を記載す
ることでユーザ側の可読性を上げ、情報取得を素早く行
えるようにするなどの工夫の余地がある。
【0058】以上説明したように本実施例においては、
予めユーザが登録しておいた検索予約登録に基づいて予
約検索を行うにあたり、ユーザ間で重複する検索条件に
ついては統合して検索式を作成して検索を行うので、検
索用サーバおよびネットワーク上の不特定多数の検索対
象データベースシステムおよびそれらが接続されるネッ
トワークにおける処理の高速化、負荷の軽減を図るとい
う効果を得ることができる。
【0059】また本実施例によれば情報の鮮度オプショ
ンを設定して予約検索を行うことができるので、予め登
録されているデータに対して検索を行う場合と、新規に
データの検索を行う場合を区別して処理でき、検索用サ
ーバおよびネットワークの処理の高速化と負荷の軽減を
図るという効果が得られる。
【0060】なお、検索対象データベースがデータ取得
について課金制度をとっていた場合には、特に制約がな
ければ課金を減らすという経済効果が得られるが、デー
タ使用に制約がある場合には、重複リストに基づいて、
複製して使用するデータ量だけの使用料を支払う、ある
いは別途データ利用契約を結ぶとすればよい。
【0061】また、一致度定義ルール803、類似度定
義ルール804、同一情報起源定義ルール805、等を
用いることで、異なるDBからの検索結果から、検索ヒ
ット率の高いファイルを抽出し、前述の抽出したファイ
ルの内容を要約類似度で比較し、前述の比較結果に応じ
て結果を編集し、編集した結果をテンプレート1101
に基づいてフォーマットの変換をすることや、検索結果
や類似度の比較結果に応じたメッセージをつけることが
可能となり、検索結果をまとめる労力を軽減することが
可能となる。
【0062】
【発明の効果】以上説明したように、本発明によれば、
ネットワーク上にある不特定多数のデータベース上に蓄
積された文書に対して予約検索を行うに際し、少なくと
も一人以上のユーザユーザ間で検索条件の登録内容に重
複があった場合には重複を統合して検索することで、検
索処理の効率を上げることができるという効果が得られ
る。
【0063】また、得られた検索結果について、ユーザ
間の重複分について各ユーザが所望する検索条件登録に
合致するように情報の複製を行い、展開した内容中に重
複があった場合はこれを排除してユーザが所望する形態
に編集し、編集結果をユーザが予め登録した配信先へ配
信することができるという効果が得られる。
【図面の簡単な説明】
【図1】本発明のシステム構成とシステム全体の動作を
示した図である。
【図2】本発明の一実施例における検索予約登録の画面
例を示した図である。
【図3】本発明の一実施例における検索条件統合部の処
理フローを示す図である。
【図4】本発明の一実施例における重複リストの例を示
す図である。
【図5】本発明の一実施例における前検索結果記憶参照
部の処理フローを示す図である。
【図6】本発明の一実施例における検索結果配信部の処
理フローを示す図である。
【図7】本発明の一実施例におけるユーザ別配信振り分
け処理部の処理フローを示す図である。
【図8】本発明の一実施例における検索結果重複統合処
理のフローを示す図である。
【図9】本発明の一実施例における検索結果データ重複
統合の仕組みを説明するための図である。
【図10】本発明の一実施例における重複統合された検
索結果データの内容の例を示す図である。
【図11】本発明の一実施例における配信用テンプレー
トの例を示す図である。
【図12】本発明の一実施例における配信用テンプレー
トを用いた配信メールの例を示す図である。
【符号の説明】
103・104 検索予約登録部、106 検索条件統
合部、 107 検索式作成部、 108 検索実行
部、 109 前検索結果記憶参照部、 110 検索結果取
得部、 111 検索結果配信部、 112・113 検索予約登録部結果データベース、 114 ユーザ別配信振り分け処理部、 201 検索予約登録画面、401 重複リスト、 802 重複判定ルール群、803 一致度定義ルー
ル、 804 類似度定義ルール、805 同一情報起源定義
ルール、 808 結果優先度ルール、 1101 配信用テンプレート、 1201 配信メール。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 萩原 修身 東京都大田区大森北三丁目2番16号 株式 会社日立システムアンドサービス内 (72)発明者 鬼頭 政義 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 ND03 NR02 NR14 PR10 UU06

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】計算機とデータベースとを接続したシステ
    ムにおける検索システムであって、 ユーザからの検索要求を登録しておく検索予約登録部
    と、 前記登録内容にもとづいてデータベースに対して情報検
    索を行い、結果をユーザへ配信する検索システム部と、 前記データベースに対して情報検索を行う際に、重複し
    た検索要求について、予め格納したルールに従って統合
    しユーザへ配信するデータを作成する検索処理部とを有
    することを特徴とする検索システム。
  2. 【請求項2】請求項1記載の検索システムであって、 前記検索予約登録において、現在および過去における検
    索要求の重複を調べて、検索条件の統合を行うことを特
    徴とする検索システム。
  3. 【請求項3】請求項2記載の検索システムであって、統
    合された検索条件に基づいて得られる検索結果を、各ユ
    ーザが所望する検索条件に基づいてユーザ別に結果を予
    め定める様式に従って編集して配信することを特徴とす
    る検索システム。
  4. 【請求項4】請求項3記載の検索システムにおいて、ユ
    ーザ別に結果を編集する際、ユーザが所望した検索結果
    内容に重複がある場合には重複を排除し、統合して編集
    した結果を配信することを特徴とする検索システム。
  5. 【請求項5】請求項2または請求項3記載の検索システ
    ムであって、前記検索予約登録において過去の検索結果
    を少なくとも一つ以上保持しておき、ユーザからの検索
    要求を行う際に、保持しておいた検索結果の中から検索
    結果を求めるか、または新規に原データからの検索を行
    うかをユーザが選択する方法を具備したことを特徴とす
    る検索システム。
  6. 【請求項6】請求項3記載の検索システムにおいて、ユ
    ーザ間で重複する検索要求があって、それらの要求を統
    合して検索結果を得た場合、得られた検索結果を要求し
    た各ユーザに複製して配布することを特徴とする検索シ
    ステム。
  7. 【請求項7】請求項1または請求項2または請求項3ま
    たは請求項4または請求項5または請求項6記載の検索
    システムにおいて、前記検索予約登録にもとづく検索を
    予め定められた時間間隔で取得または配信することを特
    徴とする検索システム。
JP2001091636A 2001-03-28 2001-03-28 検索システムおよび検索サービス Pending JP2002288214A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001091636A JP2002288214A (ja) 2001-03-28 2001-03-28 検索システムおよび検索サービス
EP02251128A EP1246088A3 (en) 2001-03-28 2002-02-19 Information retrieval device and service
US10/076,566 US20020143737A1 (en) 2001-03-28 2002-02-19 Information retrieval device and service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001091636A JP2002288214A (ja) 2001-03-28 2001-03-28 検索システムおよび検索サービス

Publications (2)

Publication Number Publication Date
JP2002288214A true JP2002288214A (ja) 2002-10-04
JP2002288214A5 JP2002288214A5 (ja) 2005-09-08

Family

ID=18946218

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001091636A Pending JP2002288214A (ja) 2001-03-28 2001-03-28 検索システムおよび検索サービス

Country Status (3)

Country Link
US (1) US20020143737A1 (ja)
EP (1) EP1246088A3 (ja)
JP (1) JP2002288214A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005353024A (ja) * 2004-06-08 2005-12-22 Takashi Tajima データ管理プログラムおよびデータ管理システム
JP4881485B1 (ja) * 2011-07-07 2012-02-22 株式会社エーエスピー・ジャパン 情報通知システム、情報提示システム、情報通知方法、情報提示方法、情報通知プログラムおよび情報提示プログラム
JP2012080492A (ja) * 2010-10-06 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> マッチングシステム、方法、計算装置、クライアント装置及びプログラム
JP2012159887A (ja) * 2011-01-28 2012-08-23 Fujitsu Ltd 検索要求制御装置、検索要求制御プログラム及び検索要求制御方法
JP2015026103A (ja) * 2013-07-24 2015-02-05 Kddi株式会社 データ収集装置、データ収集方法、およびプログラム

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3781005B2 (ja) * 2002-12-12 2006-05-31 セイコーエプソン株式会社 文書抽出装置及び文書抽出プログラム並びに文書抽出方法
US8943024B1 (en) 2003-01-17 2015-01-27 Daniel John Gardner System and method for data de-duplication
US8065277B1 (en) 2003-01-17 2011-11-22 Daniel John Gardner System and method for a data extraction and backup database
US8375008B1 (en) 2003-01-17 2013-02-12 Robert Gomes Method and system for enterprise-wide retention of digital or electronic data
US8630984B1 (en) 2003-01-17 2014-01-14 Renew Data Corp. System and method for data extraction from email files
US8069151B1 (en) 2004-12-08 2011-11-29 Chris Crafford System and method for detecting incongruous or incorrect media in a data recovery process
US8527468B1 (en) 2005-02-08 2013-09-03 Renew Data Corp. System and method for management of retention periods for content in a computing system
US8150827B2 (en) 2006-06-07 2012-04-03 Renew Data Corp. Methods for enhancing efficiency and cost effectiveness of first pass review of documents
US20080189273A1 (en) * 2006-06-07 2008-08-07 Digital Mandate, Llc System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) * 2006-06-07 2010-08-05 Renew Data Corp. System and method for optimizing search objects submitted to a data resource
KR101340036B1 (ko) * 2007-07-10 2013-12-10 삼성전자주식회사 전자 컨텐트 가이드 생성 방법 및 그 장치
US8615490B1 (en) 2008-01-31 2013-12-24 Renew Data Corp. Method and system for restoring information from backup storage media
US8370321B2 (en) * 2008-09-04 2013-02-05 Vulcan, Inc. Automated information-provision system
US8738668B2 (en) 2009-12-16 2014-05-27 Renew Data Corp. System and method for creating a de-duplicated data set
US11797486B2 (en) 2022-01-03 2023-10-24 Bank Of America Corporation File de-duplication for a distributed database

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5555367A (en) * 1994-09-30 1996-09-10 General Electric Company Method and system for generating computer programs for queries formed by manipulating object-oriented diagrams
US5822748A (en) * 1997-02-28 1998-10-13 Oracle Corporation Group by and distinct sort elimination using cost-based optimization
US6442543B1 (en) * 1997-07-25 2002-08-27 Amazon.Com, Inc. Method and apparatus for changing temporal database information
US6081805A (en) * 1997-09-10 2000-06-27 Netscape Communications Corporation Pass-through architecture via hash techniques to remove duplicate query results
US6275818B1 (en) * 1997-11-06 2001-08-14 International Business Machines Corporation Cost based optimization of decision support queries using transient views
US6237035B1 (en) * 1997-12-18 2001-05-22 International Business Machines Corporation System and method for preventing duplicate transactions in an internet browser/internet server environment
US6480843B2 (en) * 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6377944B1 (en) * 1998-12-11 2002-04-23 Avaya Technology Corp. Web response unit including computer network based communication
US6279033B1 (en) * 1999-05-28 2001-08-21 Microstrategy, Inc. System and method for asynchronous control of report generation using a network interface
US6598039B1 (en) * 1999-06-08 2003-07-22 Albert-Inc. S.A. Natural language interface for searching database
US6438539B1 (en) * 2000-02-25 2002-08-20 Agents-4All.Com, Inc. Method for retrieving data from an information network through linking search criteria to search strategy
US20020091836A1 (en) * 2000-06-24 2002-07-11 Moetteli John Brent Browsing method for focusing research
US6658423B1 (en) * 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005353024A (ja) * 2004-06-08 2005-12-22 Takashi Tajima データ管理プログラムおよびデータ管理システム
JP4623446B2 (ja) * 2004-06-08 2011-02-02 敬史 田島 データ管理プログラムおよびデータ管理システム
JP2012080492A (ja) * 2010-10-06 2012-04-19 Nippon Telegr & Teleph Corp <Ntt> マッチングシステム、方法、計算装置、クライアント装置及びプログラム
JP2012159887A (ja) * 2011-01-28 2012-08-23 Fujitsu Ltd 検索要求制御装置、検索要求制御プログラム及び検索要求制御方法
JP4881485B1 (ja) * 2011-07-07 2012-02-22 株式会社エーエスピー・ジャパン 情報通知システム、情報提示システム、情報通知方法、情報提示方法、情報通知プログラムおよび情報提示プログラム
JP2015026103A (ja) * 2013-07-24 2015-02-05 Kddi株式会社 データ収集装置、データ収集方法、およびプログラム

Also Published As

Publication number Publication date
EP1246088A2 (en) 2002-10-02
US20020143737A1 (en) 2002-10-03
EP1246088A3 (en) 2005-08-10

Similar Documents

Publication Publication Date Title
JP2002288214A (ja) 検索システムおよび検索サービス
US10275434B1 (en) Identifying a primary version of a document
JP4574356B2 (ja) 電子的ドキュメントレポジトリーマネジメントおよびアクセスシステム
Goldberg et al. Using collaborative filtering to weave an information tapestry
US7254593B2 (en) System and method for tracking annotations of data sources
JP4950041B2 (ja) カテゴリ固有電子コンテンツの管理に使用するためのクエリログの解析
JP3466857B2 (ja) 辞書更新方法および辞書更新システム
KR101137179B1 (ko) 컴퓨터 개체에의 액세스를 제어하기 위한 사용자 인터페이스
JP2005018754A (ja) 関連付けを有するコンピュータオブジェクトの共有
JP3588510B2 (ja) 情報フィルタリング装置
JPH11120190A (ja) 予約検索方法
US6694357B1 (en) Accessing, viewing and manipulation of references to non-modifiable data objects
US20050246387A1 (en) Method and apparatus for managing and manipulating digital files at the file component level
JP2003173329A (ja) 文書管理システム
JP3013802B2 (ja) 情報配信システム及び情報配信方法ならびにプログラムを記録した機械読み取り可能な記録媒体
JP2002297636A (ja) 特許情報検索サーバーシステム、特許情報検索・配信サーバーシステム、発明支援サーバーシステム、発明支援プログラム、並びに発明支援プログラムを記憶した情報記憶媒体
JP2000137725A (ja) 情報検索システム、情報検索方法およびその方法を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
Shadle The aggregator-neutral record: putting procedures into practice
JP2005250648A (ja) 記事要約装置およびニュース配信装置
JP2008015637A (ja) ファイルデータ管理方法及びそのシステム
JP2002279080A (ja) 記事スクラップ提供方法
Sanders et al. level analytics for journal aggregators
JP2007293746A (ja) ファイル管理システム、ファイル管理プログラム及びファイル管理方法
JPH08272805A (ja) 情報検索システム
JP3691558B2 (ja) 文書作成装置及び翻訳装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050317

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050317

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080527

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080725

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081111