JP4222166B2 - 文書収集装置、文書検索装置及び文書収集検索システム - Google Patents

文書収集装置、文書検索装置及び文書収集検索システム Download PDF

Info

Publication number
JP4222166B2
JP4222166B2 JP2003315703A JP2003315703A JP4222166B2 JP 4222166 B2 JP4222166 B2 JP 4222166B2 JP 2003315703 A JP2003315703 A JP 2003315703A JP 2003315703 A JP2003315703 A JP 2003315703A JP 4222166 B2 JP4222166 B2 JP 4222166B2
Authority
JP
Japan
Prior art keywords
document
same
search
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003315703A
Other languages
English (en)
Other versions
JP2005084904A (ja
Inventor
正睦 渕上
佳孝 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003315703A priority Critical patent/JP4222166B2/ja
Priority to US10/887,101 priority patent/US20050055366A1/en
Publication of JP2005084904A publication Critical patent/JP2005084904A/ja
Application granted granted Critical
Publication of JP4222166B2 publication Critical patent/JP4222166B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書収集装置、文書検索装置及び文書収集検索システムに関し、例えば、文書データを収集して文書データベースに保存させる文書収集装置、入力された検索条件を満たす文書データを検索する文書検索装置、文書収集装置及び文書検索装置を構成要素とし検索条件を満たす文書データを検索出力する文書収集検索システムに適用することができる。
従来、多数の文書を保存している文書保存装置(例えば、文書データベースや記憶装置)の中から、ユーザが必要とする文書を検索する場合、ユーザが入力したキーワードを含む文書を文書保存装置から検索する文書検索システムがある。
しかし、例えばインターネット上において、ネットワークのアドレスが異なるがために文書内容が同一でありながら、文書保存装置が複数の同一文書を保存してしまう等の理由から、重複した同一文書を検索結果として出力してしまうことがある。これは、ユーザ側にすれば、文書検索に長時間要するだけでなく必要な文書が得られない場合がある。また、文書検索システムにすれば、文書検索に係る処理負荷が増大してしまう等の問題がある。
かかる問題を解消する技術として、下記の特許文献1に示すような文書の同一性を判定して、同一又はほぼ同一であると判定された文書を削除する技術がある。
下記の特許文献1には、文書検索時に、入力キーワードに関連する関連語を文書中に出現する単語の中から選出して、入力キーワードと選出された関連語とに基づいて、文書を検索する文書検索装置に関するものである。
特許文献1では、文書データベース(文書保存装置)が、各文書に含まれている単語数や各単語の出現頻度等の文書内容を示す文書一覧表を備え、入力キーワードに対する関連語を選出する際に、文書一覧表の文書内容に基づいて同一又はほぼ同一の文書の有無を判定し、同一又はほぼ同一であると判定した文書をすべて削除し、削除されなかった残りの文書の中から関連語を選出する技術が記載されている。
特開2002−140366号公報
しかしながら、上述した特許文献1の技術は、文書検索に係るキーワードの入力時及び関連語(新たなキーワード)の選出されるたびに毎回文書間の同一性の判定を行なうため、文書間の同一性の判定に係る処理負荷が大きくなってしまうおそれがある。
これは、キーワードの入力時のみならず関連語の選出後においても、前回の文書同一性の判定結果を考慮することなく、その選出された関連語(新たなキーワード)に関連する関連語の選出に係る文書同一性の判定がなされるためである。
また、上述した特許文献1の技術は、関連語選出に関する技術であり、文書内容が同一と判定された文書を全て削除するものであるが、文書検索システムでは、文書内容が重複する同一文書の中から1個の文書のみを出力することが望まれる。
例えば、インターネットを利用して文書検索を行なう場合、Webページを文書として文書保存装置が保存するとき、同一文書でありながらWebページに割り当てられる名前(ネットワークアドレス)を複数持っているなどの理由から、文書保存装置が、全く同じ文書の写しを保存してしまう場合があるが、このような場合には、同一文書(同一ページ)のうちいずれかの文書のみを残し、他の同一文書(同一ページ)については不使用とすることが望ましい。
また、文書保存装置が保存する文書内容は、検索時に最新文書を出力できることが望ましいが、保存後の文書内容は全部又は一部修正・削除等動的に変更される場合があるため、検索時の文書同一性の判定を静的に行うことが困難であるという問題もある。
そのため、同一文書の存在にまつわる文書検索処理負担を軽減させ、かつ、文書検索時及び文書収集時に文書内容更新した文書同一性の判定結果を、次回の文書検索時及び次回の文書収集時にも反映させることが可能な文書収集装置、文書検索装置及び文書収集検索システムが求められている。
かかる課題を解決するために、第1の本発明の文書収集装置は、文書内容が同一である同一文書データが存在するか否かを示す同一文書情報を、各文書データに対応付けて保存している文書データベースに、外部から収集した文書データを保存させる文書収集装置であって、(1)収集対象文書データの文書位置と同一の文書位置の文書データが、上記文書データベースに保存されているか否かを確認する保存文書確認手段と、(2)収集対象文書データの文書位置と同一の文書位置の文書データが文書データベースに保存されている場合に、文書データベースに保存される当該文書データに対応付けられている同一文書情報に基づいて、当該文書データと同一の他の同一文書データが、文書データベースに存在するか否かを確認する同一文書存在確認手段と、(3)同一文書存在確認手段により、同一文書情報に基づく他の同一文書データが文書データベースに存在すると判断されると、上記収集対象文書データと、同一文書情報に基づく他の同一文書データとを取得する文書取得手段と、(4)文書取得手段が取得した、収集対象文書データと、同一文書情報に基づく他の同一文書データとの間で、所定の判定処理による文書データの比較を行い、文書内容の同一性を判定する文書同一性判定手段と、(5)文書同一性判定手段の判定結果に基づいて、取得した各文書データ同一文書情報を、文書内容が同一であるときには収集済であることを示す内容に更新し、文書内容が同一でないときには未収集であることを示す内容に更新する文書情報更新手段とを備えることを特徴とする。
第2の本発明の文書検索装置は、文書内容が同一である同一文書データが存在するか否かを示す同一文書情報及び文書内容が同一である同一文書データの中から選択した代表文書データを示す代表文書情報を、各文書データに対応付けて保存している文書データベースから、入力された検索条件を満たす文書を検索出力する文書検索装置であって、(1)検索条件を満たす文書データを文書データベースから検索する文書検索手段と、(2)文書検索手段が検索した各文書データの同一文書情報がなしとなっている文書データ、又は、複数の同一文書データについては代表文書情報を参照して複数の同一文書データの中から代表文書データのみを残し、代表文書データ以外の同一文書データを除去する同一文書除去手段と、(3)同一文書除去手段により残された各文書データの間で、所定の判定処理による文書データの比較を行い、文書同一性の判定をする検索文書同一性判定手段と、(4)検索文書同一性判定手段の判定結果に基づいて、文書内容が同一である場合に、複数の同一文書データが存在し、これら同一文書データから所定方法により選出した代表文書データを示す内容に、各文書データの同一文書情報及び代表文書情報を更新する検索文書情報更新手段と、(5)検索文書同一性判定手段による判定結果に基づく選出文書結果を出力する検索結果出力手段とを備えることを特徴とする。
第3の本発明の文書収集検索システムは、(1)少なくとも、文書内容が同一である同一文書データが存在するか否かを示す同一文書情報を、各文書データに対応付けて保存している文書データベースと、(2)第1の発明に係る文書収集装置と、(3)第2の発明に係る文書検索装置とを備えることを特徴とする。
以上、本発明に係る文書収集装置、文書検索装置及び文書収集検索システムによれば、文書検索に係る処理負担を軽減させることができ、文書検索時及び文書収集時の文書内容の更新を、次回の文書検索時及び次回の文書収集時の文書同一性判定に反映させることができ、また文書検索処理及び文書収集処理を高速化させることができる。
以下、本発明の文書収集装置、文書検索装置及び文書収集検索システムを実施するための最良の形態について説明する。
(A)第1の実施形態
以下では、本発明の文書収集装置、文書検索装置及び文書収集検索システムの第1の実施形態について図面を参照して説明する。
本実施形態は、インターネットを利用して、入力された検索条件に基づく文書データを検索する場合の適用について説明する。文書データは、文書ファイル、データ化された文書を含み、本実施形態ではHTML文書データを例とする(以下「文書」という。)
(A−1)第1の実施形態の構成
図1は、本実施形態に係る文書収集検索システムの機能的な全体構成を示す構成図である。
図1に示すように、文書収集検索システム1は、大別して、多数の文書を保存する文書データベース100と、収集対象文書(HTML文書)400を取得し、文書データベース100に登録させる文書収集装置200と、文書データベース100から入力された検索条件を満たす文書を検索して出力する文書検索装置300とを備える。
文書収集装置200は、少なくとも通信機能を有するものであり、例えば、制御部にプログラムを組込まれたコンピュータや、コンピュータの制御部により実行されるプログラムや、コンピュータの制御部より実行されるプログラムを記憶する記憶媒体や、例えばパソコン等の端末と通信することで得た情報を取り込む装置又は制御部により実行されるプログラムなどを適用することができる。
本実施形態では、文書収集装置200は、制御部201を持ち、制御部201により制御される機能として、取得部202、待ち集合203、収集済リスト204、比較部205、投入部206を備える。
また、文書検索装置300は、例えば、制御部にプログラムを組込まれたコンピュータや、コンピュータの制御部により実行されるプログラムや、コンピュータの制御部より実行されるプログラムを記憶する記憶媒体や、例えばパソコン等の端末と通信することで得た情報を取り込む装置又は制御部により実行されるプログラムなどを適用することができる。
本実施形態では、文書検索装置300は、入力部301、文書データベース(DB)検索部302(図1及び以下では、DB検索部とする。)、一致検出部303、更新部304、出力部305を備える。
以下では、文書収集装置200の内部構成の機能について説明する。
制御部201は、文書収集装置200の動作機能を制御するものである。
制御部201は、文書収集時に、収集対象文書の文書位置(例えば、文書に割り当てられているURL等)を示す収集対象の一覧を待ち集合203に与えて、収集対象の一覧を保持させるものである。制御部201は、収集対象である文書を収集する場合に、開始点として、予め指定された1つ以上の文書位置(例えばURL等)を指定した収集文書の一覧を待ち集合203に保持させる。
制御部201は、取得部202により収集された文書に基づいて、既に収集した収集対象の文書の文書位置を示す収集済文書の一覧を収集済リスト204に与えて、収集済文書の一覧を保持させるものである。
制御部201は、収集対象文書の文書位置を収集済リスト204の収集済文書の一覧と照合し、まだ収集されていない収集対象文書の文書位置を割り出すと共に、文書データベース100に収集対象文書に対応する文書と同一の文書があるか否かを検索し、その検索結果に応じて収集対象文書の文書位置を取得部202に与えて取得させるものである。
制御部201は、収集対象文書の文書位置を比較部205に与え、文書データベース100に、収集対象文書に対応する文書の文書位置が存在するか否かを判定させると共に、収集対象文書に対応する文書の文書位置が存在する場合に、その文書の同一文書情報に基づいて、文書データベース100で同一文書が存在するかを判定させるものである。また、制御部201は、取得部202が取得した文書を比較部205に与え、文書データベース100の各文書との文書同一性を判定させるものである。
また、制御部201は、取得した文書と、比較部205による各文書の同一性の判定結果とを各文書に対応付けた同一文書情報とを投入部206に与えて文書データベース100に保存させるものである。
待ち集合203は、制御部201から与えられた収集対象の一覧を保持するものである。図2に収集対象の一覧の例を示す。図2に示すように、収集対象の一覧は、収集対象文書の収集順番を示す順と、文書文書の文書位置と、文書収集検索システム1で文書を管理する文書IDとをそれぞれの文書に対応するようにまとめた一覧である。
例えば、図2で、収集順番(順)が「1」では、その収集対象文書が、「http://www.oki.com/jp/」のURLに存在することを示し、またこの収集対象文書を管理する文書IDが「1」であることを示す。
待ち集合203は、取得部202が収集対象である文書を取得した場合に、制御部201の制御により、収集対象の一覧の内容を変更するものである。つまり、待ち集合203は、取得部202の文書取得後に、その文書に関する文書位置及び文書IDを削除する。
収集済リスト204は、制御部201から与えられた収集済文書の一覧を保持するものである。図3に収集済文書の一覧の例を示す。収集済リスト204は、制御部201の制御により、収集対象文書について文書データベース100に保存・更新が終了した場合にその文書位置を記録する。図3では、収集済文書の文書位置のみを、収集済リスト204が記録し管理することとするが、文書位置及び文書IDを記録してもよいし、また文書IDのみを記録するようにしてもよい。
取得部202は、制御部202から文書位置を与えられ、その文書位置にある文書を取得するものである。取得部202は、文書取得後にその旨を制御部201に知らせることで、制御部201は、待ち集合203の収集対象の一覧の内容及び収集済リスト204の収集済文書の一覧の内容を変更させることができる。
比較部205は、制御部201から収集対象文書の文書位置を受け取り、文書データベース100を検索して、収集対象文書に対応する文書の文書位置が文書データベース100に存在するか否かを判定すると共に、収集対象文書に対応する文書の文書位置が存在する場合に、その文書の同一文書情報に基づいて、文書データベース100で同一文書が存在するかを判定するものである。
また、比較部205は、文書データベース100に収集対象文書に対応する文書について同一文書が存在している場合に、取得部202が取得した各同一文書について、文書同一性を判定するものである。
投入部206は、制御部201から与えられた文書をファイルに保存し、その文書の文書ID、文書の保存先を示すファイル名、文書の文書位置及び文書の文書同一情報を文書データベース100に書き込むものである。
次に、文書データベースについて説明する。図4は、文書データベース100の保存内容例を示す。
図4に示すように、文書データベース100は、自身が保存している各文書について、文書ID、文書収集装置200の投入部206が文書を保存しているファイル名、文書位置、各文書について文書データベース100に同一文書が存在するか否かを示す文書同一情報を保存する。
ここで、本実施形態での「同一文書情報」とは、文書データベース100が保存する文書の中で、ある文書と文書内容が同一である文書が存在しているか否かを示す情報を示すと共に、同一文書と判定された複数の同一文書の中から1個の代表文書を示す情報をいう。
例えば、本実施形態では、複数の同一文書のうち、文書IDが最小の文書を代表文書とする。
例えば、図4において、それぞれ文書位置は異なるが、「文書ID=1」と「文書ID=3」とがそれぞれ同一文書である場合、文書IDが最小である「文書ID=1」の文書を代表文書として同一文書情報を「なし」と示し、一方、「文書ID=3」の文書については代表文書の文書IDである「1」を同一文書情報に示す。
また例えば、図4において、「文書ID=2」と「文書ID=4」とがそれぞれ同一文書である場合、文書IDが最小である「文書ID=2」の文書を代表文書として同一文書情報を「なし」と示し、一方、「文書ID=4」の文書については代表文書の文書IDである「2」を同一文書情報に示す。
しかし、「同一文書情報」は、これに限ることなく、文書データベース100において、同一文書が存在することと、複数の同一文書の中から1個選択した代表文書を示すこととを認識させることができれば、他の方法であれば広く適用できる。例えば、これら2つの情報をそれぞれ文書毎に対応付けて保存してもよいし、また例えば、代表文書を示す情報として、同一文書のうち最新(収集時期が最も遅い)の文書を代表文書としてもよい。
次に、文書検索装置300の内部構成の機能について説明する。
入力部301は、入力された検索条件を取り込み、DB検索部302に与えるものである。入力部301は、例えば、ユーザの操作による、キーボード、テンキー等や、又は入力装置からネットワークを介して入力する入力手段などを適用できる。検索条件は、日本語、英語等の文字列や、数字や、記号や、又はこれらを組み合せたもの等、その他の検索キーワードであり、異なる複数の検索キーワードであってもよい。
DB検索部302は、入力部301から与えられた検索条件を受け取り、その検索条件を満たす文書を文書データベース100から検索するものである。DB検索部302は、文書データベース100の検索により該当する文書について、文書ID、ファイル名、文書位置、同一文書情報を検索結果として、文書データベース100から取り出し一致検出部303に与えるものである。
一致検出部303は、DB検索部302から検索結果を受け取り、その検索結果に基づいて、検索結果の中に同一文書が存在するか否かを判定し、同一文書が存在する場合に、それらの同一文書のうち代表文書のみを選択し、残りの同一文書を除去するものである。
まず、一致検出部303は、DB検索部302の検索結果から各文書の同一文書情報を参照し、同一文書情報が「なし」である文書のみを残し、同一文書情報が「なし」以外である文書を除去する。つまり、一致検出部303は、検索結果に含まれている文書のうち、同一文書を持たない文書、及び、同一文書を持つと既に分かっている複数の同一文書のうち代表文書を選択する。
つぎに、一致検出部303は、同一文書を持たない文書、及び、同一文書を持つと既に分かっている複数の同一文書のうち代表文書を残した検索結果の中で、さらに同一文書が存在するか否かの文書同一性の判定し、新たに同一文書が存在すると判定した場合には、それら同一文書の中から代表文書を選出する。なお、本実施形態では、複数の同一文書のうち文書IDが最小のものを代表文書とする。
一致検出部303は、同一文書情報に基づく他の同一文書を除去し、かつ、新たに検出した同一文書の中から代表文書を選択して得た選出文書結果を、出力部305に与える。
また、一致検出部303は、少なくとも、新たに検出した複数の同一文書に関する情報と、それら同一文書の中から選出した代表文書に関する情報とを更新部304に与える。
更新部304は、一致検出部303が新たに検出した同一文書の中から代表文書を選出した場合に、新たに検出した同一文書について、文書データベース100のの同一文書情報を更新するものである。
つまり、更新部304は、一致検出部303が新たに検出した同一文書の中から代表文書を選出した場合、一致検出部303が選出した代表文書(文書IDが最小の文書)については同一文書情報を「なし」のままに変更せず、代表文書以外の他の同一文書については同一文書情報を代表文書の文書IDに変更して文書データベース100に保存する。
このように、文書検索時に同一文書情報を更新することで、次回の文書検索時及び又は文書収集時に、今回の文書同一性の判定を反映させることができる。
出力部305は、一致検出部303からの選出文書結果を出力するものである。従って、出力部305が出力する選出文書結果は、一致検出部303が同一文書情報に基づく除去後の残りの文書であって、更に新たに同一文書を検出した場合にはそれらの同一文書の中から代表文書を選出した文書を出力する。
(A−2)第1の実施形態の動作
以下では、まず、文書収集装置200の文書収集動作について説明した後に、文書検索装置300の文書検索動作を説明する。
(A−2−1)文書収集動作について
図5は、文書収集装置200の文書収集動作のフローチャートである。
まず、文書収集する場合、制御部201の制御により、待ち集合203及び収集済リスト204は初期化が行われ、待ち集合203の収集対象の一覧及び収集済リスト204の収集済文書の一覧は空にされる(S201)。
待ち集合203及び収集済リスト204の初期化が終了すると、制御部201から、開始点として予め指定された文書の文書位置が、待ち集合203に与えられ、待ち集合203の収集対象の一覧として保持される(S1)。
例えば、予め指定された文書位置「http://www.oki.com/jp」(図4の文書データベース100において「文書ID=1」に対応)とした場合、この文書位置が待ち集合203に与えられる。
制御部201は、待ち集合203の収集文書の一覧に文書位置が示されているか否かを確認する(S2)。
なお、収集対象の一覧に文書位置が示されていない場合には収集動作を終了する(S22)。
収集文書の一覧に文書位置が1個以上示されている場合、制御部201により、収集文書の一覧の収集順番(順)に従って順番に文書位置が取り出される(S3)。
例えば、収集対象の一覧に、開始点として「http://www.oki.com/jp」のみが記載されている場合には、その開始点の文書位置が取り出されて、収集対象一覧は空になる。
制御部201は、待ち集合203から取り出した文書位置を、収集済リスト204の収集済文書の一覧と照合し、既に収集されている文書であるか否かを判定する(S4)。
制御部201により取り出された文書位置の文書が、既に収集済みである場合にはS2に戻り、収集動作が繰り返される。
また、制御部201により取り出された文書位置の文書が未収集である場合には、その文書位置と同一の文書位置が、文書データベース100に存在しているか否かを検索すると共に、その文書位置の文書が、文書データベース100に重複する同一文書が存在しているか否かが判定される(S5)。
つまり、制御部201は、まず、取り出した文書位置について、文書データベース100により、同一の文書位置があるか否かを検索する。その収集対象文書の文書位置に対応する文書位置が文書データベース100に存在する場合に、その文書位置に対応する同一文書情報を参照する。
また、収集対象文書の文書位置が、収集済文書の一覧に記載されておらず、かつ、文書データベース100に対応する文書位置がない場合(不明の場合)は、同一文書情報を参照せずにS6に進む。
そして、収集対象文書の文書位置に対応する文書データベース100の文書の同一文書情報が「なし」である場合には、文書データベース100においてその文書が同一文書を持たないと判定し、同一文書情報に他の文書IDが含まれている場合には、文書データベース100において、その文書が同一文書を持つと判定する。
例えば、収集対象文書が文書ID=1に対応するものとする場合、収集対象文書の文書位置について、図4に示す文書データベース100を検索すると、収集対象文書の文書位置に対応する文書位置(文書ID=1)を保存していることが分かる。そして、制御部201は、文書データベース100上での文書ID=1の同一文書情報が「なし」であることを確認することで、文書データベース100上で、収集対象文書(文書ID=1に対応)の文書を保存しており、かつ、同一文書が存在していないと判定できる。
しかし、例えば、収集対象文書を文書ID=3に対応するものとする場合、文書ID=3の同一文書情報が「1」であるので、制御部201は、収集対象文書について、文書データベース100上で収集対象文書に対応する文書は存在するが、その文書について同一文書が存在していると判定することができる。
S5において、収集対象文書について、文書データベース100上で、同一文書が存在していない、又は対応する文書位置がない(不明)と判定されると、収集対象文書の文書位置が、制御部201から取得部202に与えられ、その文書位置にある文書が取得される(S6)。
取得部202により収集対象文書が取得されると、その文書が、文書データベース100上に存在し、かつ、収集済リスト204に記載されていない場合、取得文書(収集対象文書)は、比較部205に与えられ、比較部205により、文書データベース100上の対応する文書の文書内容と比較され、文書内容が変更されているか否かが判定される(S7)。
ここで、文書データベース100上の文書内容が変更されているか否かの判定は、例えば、取得した文書のバイナリと、文書データベース100上の文書のバイナリとを比較し、同一である場合には文書内容が変更されていないと判定し、異なっている場合には文書内容が変更されていると判定する。
文書データベース100上の文書内容に変更がないと判定されると、S10に進み、制御部201により、収集済リスト204の収集済文書の一覧に、当該文書が収集済みである旨が追加される(S10)。
また、文書データベース100上の文書内容に変更があると判定された場合、又は、文書データベース100上で収集対象文書の文書位置が不明であると判定された場合、制御部201により、その取得した文書にリンクする1又は2以上の他の文書が参照され、その他の文書の文書位置が抽出され、抽出された他の文書の文書位置が、待ち集合203に与えられる(S8)。
図6は、文書収集動作における各構成要素のデータ管理経過を説明する説明図である。図6(A)は、開始点として文書ID=1に対応する文書位置とした場合の待ち集合203の収集対象の一覧を示す。例えば、この開始点に対応する文書(文書ID=1)の文書内容がS7において変更されていると判定されると、図6(B)に示すように、文書(文書ID=1)にリンクする他の文書(ここでは、文書ID=2及び5に対応する文書)の文書位置が抽出され、待ち集合203の収集対象の一覧に書き加えられる。なお、これら他の文書の文書位置が待ち集合203の収集対象の一覧に書き加えられると、収集対象の文書として順次収集動作が行われる。
制御部201から取得した文書が投入部206に与えられると、与えられた文書は、投入部206のファイルに保存され、文書を保存したファイル名、文書位置、文書ID、同一文書情報が文書データベース100に与えられて書き込まれる(S9)。
ここでは、文書データベース100に書き込まれる同一文書情報は「なし」のままである。これは、取得した文書に対応する文書について、文書データベース100上で重複した同一文書が存在しないためである。また、文書IDが未付与の場合には、他の文書IDと重複しないように、新たな文書IDが付与される。
投入部206による文書データベース100への書き込みがなされると、制御部201により、収集済リスト204の収集済文書の一覧に、当該文書が収集済みである旨が追加される(S10)。
図6(C)は、収集済リスト204の収集済文書の一覧を示し、図6(C)に示すように、投入部206により文書データベース100への書き込みが終了すると、収集済文書として書き加えられる。
S5に戻り、収集対象となる文書位置の文書について、文書データベース100上で、複数の重複する同一文書が存在すると判定されると、制御部201により、文書データベース100上に存在する同一文書の文書位置が取り出される(S11)。
例えば、収集対象とする文書の文書位置が文書ID=3に対応するものとする場合、文書データベース100上(図4参照)に、その文書ID=3に対応する同一文書として文書ID=1の文書が存在することとなる。
つまり、文書データベース100上では、収集対象の文書(文書ID=3)と、その文書と同一文書(代表文書)である文書ID=1の文書とが存在している。
この場合、制御部201は、文書データベース100から、収集対象文書(文書ID=3)の代表文書である同一文書(文書ID=1)の文書位置(「http://www.oki.com/jp」)を取り出すこととなる。
制御部201により取り出された文書データベース100上に存在する同一文書(代表文書)の文書位置は、取得部202に与えられ、その文書位置にある同一文書(代表文書)が取得される(S12)。
取得部202により同一文書(代表文書)が取得されると、収集済リスト204を参照して未収集である場合、その同一文書は比較部205に与えられ、その取得した文書に基づいて、文書データベース100上の文書内容が変更されているか否かが判定される(S13)。
ここで、文書データベース100上の文書内容が変更されているか否かの判定は、例えば、取得した同一文書(代表文書)のバイナリと文書データベース100上の文書(代表文書)のバイナリとを比較し、同一である場合には文書内容が変更されていないと判定し、異なっている場合には文書内容が変更されていると判定する。
文書データベース100上の文書内容に変更がないと判定されると、S16に進み、制御部201により、収集済リスト204の収集済文書の一覧に、当該文書が収集済みである旨が追加される(S16)。
また、文書データベース100上の文書内容に変更があると判定されると、制御部201により、その取得した同一文書(代表文書)にリンクする1又は2以上の他の文書が参照され、その他の文書の文書位置が抽出され、抽出された他の文書の文書位置が、待ち集合203に与えられる(S14)。なお、これら他の文書の文書位置が待ち集合203に与えられると、収集対象の一覧に保持されて、収集対象の文書として順次収集動作が行われる。
制御部201から取得した同一文書(代表文書)が投入部206に与えられると、与えられた文書(代表文書)は、投入部206のファイルに保存され、文書を保存したファイル名、文書位置、文書ID、同一文書情報が文書データベース100に与えられて書き込まれる(S15)。
なお、代表文書である同一文書(文書ID=1に対応)についての同一文書情報の更新であるので、同一文書情報は「なし」のままである。
投入部206による文書データベース100への書き込みがなされると、制御部201により、収集済リスト204の収集済文書の一覧に、当該文書(代表文書)が収集済みである旨が追加される(S16)。
以上のようにして、代表文書である同一文書を取得すると、次に、収集対象文書(文書ID=3)の文書位置が取得部202に与えられ、その文書位置に基づいて、収集対象の文書(文書ID=3)が取得される(S17)。
収集対象文書(文書ID=3)が取得されると、比較部205において、その取得した収集対象文書(文書ID=3)の文書内容と、文書データベース100上の同一文書(代表文書:文書ID=1)との文書内容とが同一であるか否かが判定される(S18)。
ここで、収集対象文書(文書ID=3)の文書内容と、同一文書(代表文書:文書ID=1)の文書内容との同一性の判定は、例えば、収集対象文書のバイナリと、同一文書のバイナリとを比較し、同一である場合には文書内容が同一であると判定し、異なっている場合には文書内容が同一でないと判定する。
比較部205による文書同一性の判定結果が同一である場合、S21に進み、制御部201により、収集済リスト204の収集済文書の一覧に、当該文書(代表文書)が収集済みである旨が追加される(S21)。
また、比較部205による文書同一性の判定結果が同一でない場合、制御部201により、その文書にリンクする1又は2以上の他の文書が参照され、その他の文書の文書位置が抽出され、抽出された他の文書の文書位置が、待ち集合203に与えられる(S19)。
収集対象文書は、制御部201により投入部206に与えられ、投入部206のファイルに保存され、文書を保存したファイル名、文書位置、文書ID、同一文書情報が文書データベース100に与えられて書き込まれる(S20)。
なお、この場合、収集対象文書(文書ID=3)の文書内容は、代表文書(文書ID=1)の文書内容と同一でないと判定されたので、図4及び図6(D)に示すように、当該収集対象文書(文書ID=3)の同一文書情報は、「1」から「なし」に更新される。
投入部206による文書データベース100への書き込みがなされると、制御部201により、収集済リスト204の収集済文書の一覧に、当該文書(代表文書)が収集済みである旨が追加される(S21)。
以上のようにして、文書収集装置200は、待ち集合203の収集対象の一覧に含まれる文書位置がなくなるまで繰り返し収集動作を行ない、収集対象の一覧が空になると、収集動作を終了する(S22)。
(A−2−2)文書検索動作について
続いて、文書検索装置300による文書検索動作について図7を参照して説明する。図7は、文書検索動作の動作フローチャートである。
まず、入力部301は、検索条件を取り込み、DB検索部302に与える(S30)。
入力部301から検索条件が与えられると、DB検索部302は、文書データベース100を検索して、検索条件を満たす文書を取り出し、検索結果として一致検出部303に与える(S31)。
一致検出部は303は、DB検索部302から検索結果を受け取ると、検索結果に載せられている文書の同一文書情報を参照して、同一文書情報が、「なし」となっている文書を残し、それ以外の文書を除去する(S32)。これにより、重複する複数の同一文書のうち、いずれかの文書(代表文書)のみを残し、重複する他の文書を除去することができる。
例えば、図8はDB検索部302による検索結果の例を示す。一致検出部302は、図8(A)に示すDB検索部302からの検索結果の中から、同一文書情報が「1」である文書ID=3の文書を除去する。
一致検出部303は、S32での文書除去後に残された各文書について、保存されているファイル位置から取り出し、それぞれの文書間で同一文書が存在するか否かの文書同一性の判定を行なう(S33)。
残された各文書間で同一文書が存在しない場合、一致検出部303は、それら各文書を選出文書結果として出力部305に与え、出力部305により出力される(S36)。
また、残された各文書間で同一文書が存在する場合、一致検出部303は、同一文書であると判定した複数の文書の中から、1つの代表文書を選出する(S34)。
例えば、図8(B)の結果において、一致検出部303が、例えば文書ID=2と文書ID=4とが同一であると判定した場合、文書IDが最小の文書を代表文書として選出する。つまりこの例の場合、一致検出部303は、文書ID=2の文書を代表文書として選出する。
一致検出部303は、どういう文書の中から代表文書を選出すると、少なくとも、同一文書であると判定した複数の文書に関する情報(同一文書のグループ)と、それら同一文書の中から選出した代表文書に関する情報とを更新部304に与える。
更新部304では、選出された代表文書については、同一文書情報を「なし」のまま変更せず、代表文書以外の同一文書については、同一文書情報を代表文書の文書IDに変更するように、文書データベース100上のデータベースを更新する(S35)。
また、一致検出部303は、同一文書を持たない文書と、同一文書の中から選出した代表文書とを選出文書結果(図8(C)参照)として出力部305に与え、出力部305により選出文書結果が出力される(S36)。
以上のようにして、入力された検索条件に基づく文書が出力されて終了する(S37)。
(A−3)第1の実施形態の効果
以上のように、本実施形態によれば、文書データベース100が保存している文書に関し同一文書情報をも管理し、文書収集装置200による収集対象文書の収集時に、同一文書情報に基づく同一文書の確認、及び、文書内容の変化に対応した同一文書情報の更新により、文書同一性判定の負担軽減、文書データベース100での文書管理の効率化及び文書検索処理に係る負担軽減を可能にすることができる。
また、本実施形態によれば、文書検索装置300による文書検索時に、同一文書情報に基づく同一文書を除去、及び、新たに同一文書を検出した場合の同一文書情報の更新により、文書同一性判定の負担軽減、文書検索数の減少、文書検索の高速化及び文書検索処理の負担軽減を可能にすることができる。
(B)第2の実施形態
次に、本発明の文書収集装置、文書検索装置及び文書収集検索システムの第2の実施形態について図面を参照して説明する。
第2の実施形態も、第1の実施形態と同様に、インターネットを利用して、入力された検索条件に基づく文書(HTML文書)を検索する場合の適用について説明する。
(B−1)第2の実施形態の構成
第2の実施形態が第1の実施形態と異なる点は、文書収集検出システムが、文書収集時及び又は文書検索時に、重複する同一文書を有する各文書について、同一文書数に応じた重みづけを行なうと共に、その重みを各文書毎に管理する点である。
図9は、第2の実施形態に係る文書収集検索システム2の全体構成を示す構成図である。
図9では、図1の第1の実施形態で説明した構成要素に対応する構成要素に関しては対応する符号を付す。なお、以下では、第1の実施形態で説明した構成要素の機能説明については省略し、第2の実施形態に特有の構成要素の機能説明について詳細に説明する。
文書データベース500は、自身が保存している各文書について、文書ID、ファイル名、文書位置、同一文書情報、重み情報を保存するものである。
重み情報は、同一文書を持つ文書に関する情報であり、本実施形態では、同一文書毎の「全同一文書数分の1」を重み情報とする。
例えば、図10は、文書データベース100の保存内容例であるが、図10において、「文書ID=」と「文書ID=3」とが同一文書であり、全同一文書数が「2」であるので、「文書ID=1」と「文書ID=3」との重み情報はそれぞれ「0.5」となる。また、同様に、「文書ID=2」と「文書ID=4」とが同一文書であるので、「文書ID=2」と「文書ID=4」との重み情報はそれぞれ「0.5」となる。
文書収集装置600は、制御部601と、投入部302との機能が、第1の実施形態の文書収集装置200と異なる。
制御部601は、収集対象文書が、収集済リスト204に記載されていない場合であって、かつ、文書データベース500上で収集対象文書に対応する文書が同一文書を持たない場合に、各同一文書の重み情報を更新させるものである。
このように、文書収集時に、以前に同一文書であると判定された文書について、文書内容が変化していることを判定した場合、重み情報を更新させることができる。
投入部602は、制御部601の制御により、比較部205の文書同一性の判定結果に応じて、同一文書として保存されていたが文書内容が変化した文書について、文書データベース500の重み情報及び同一文書情報を更新するものである。
文書検索装置700は、新たに重み計算部702を備え、一致検出部701と、更新部703と、出力部704との機能が、第1の実施形態の文書検索装置300と異なる。
重み計算部702は、一致検出部701から文書内容毎の同一文書数を受け取り、その文書内容毎の同一文書数に基づいて、文書内容毎の同一文書の重み計算をするものである。また、重み計算部702は、計算した重み計算結果を更新部703に与えるものである。
一致検出部701は、DB検索部302からの検索結果に基づいて、同一文書を検出し、それら同一文書の中から代表文書を選出するものである。また、一致検出部701は、選出した代表文書の重み情報が「1」である場合、文書内容毎の同一文書数を重み計算部702に与えるものである。
第1の実施形態の一致検出部303と異なる点は、一致検出部303の場合、検索結果から同一文書情報が「なし」以外である文書を除去するのに対し、一致検出部701は、同一文書の除去をしない点である。
つまり、一致検出部701は、検索結果に基づいて同一文書を持つものを文書内容毎にすべて検出して文書内容毎の同一文書数を割り出し、文書培養毎の同一文書数を重み計算部702に与えことで、重み計算部702による重み計算に反映させることができる。
勿論、一致検出部701は、同一文書情報を参照して、既に同一文書を持つものと分かっている情報をも加味して文書内容毎の同一文書数を割り出すようにする。
更新部703は、一致検出部701が検出した文書内容毎の同一文書の中から代表文書を選定した場合に、同一文書について文書内容毎に、文書データベース500の同一文書情報及び重み情報を更新するものである。
(B−2)第2の実施形態の動作
以下では、まず、文書収集装置600の文書収集動作について説明した後に、文書検索装置700の文書検索動作について説明する。
(B−2−1)文書収集動作について
図11は、文書収集動作を説明するフローチャートである。図11では、第1の実施形態で説明した動作に対応する動作については対応する符号を付す。
文書収集装置600の初期化及び開始点設定(S1)から収集対象文書に対応する文書が、文書データベース500で同一文書をもつか否かの判定(S5)までの動作は、第1の実施形態で説明した動作に対応するのでここでの説明を省略する。
さらに、S5において、収集対象文書に対応する文書が、文書データベース500で同一文書を持たない場合又は不明である場合の動作(S6〜S10)についても、第1の実施形態で説明した動作に対応するので個々での説明を省略する。
S5において、収集対象文書に対応する文書が、文書データベース500で同一文書を持つ場合、それら同一文書について各文書位置に基づいて各同一文書が取得されると共に、収集対象文書についても文書位置に基づいて文書が取得される(S11〜S17)。
S17までに、各同一文書及び収集対象文書の取得が行われると、比較部205により、収集対象文書の文書内容と、各同一文書の文書内容とが同一であるか否かが判定される(S18)。各同一文書の文書内容が同一であると判定されるとS21に進む。
なお、各同一文書の取得動作及び収集対象文書の取得動作(S11〜S17)、及び、文書同一性の判定に係る動作(S18及びS19)は、第1の実施形態で説明したので詳細な説明は省略する。
S18において、各同一文書の文書内容が同一でないと判定されると、制御部601により、各同一文書について、重み情報の再計算が行われ(S40)、文書データベース500の重み情報及び同一文書情報が更新される(S41)。
例えば、文書データベース500が図10の内容を保存しているとする。この場合、収集対象文書が文書ID=3に対応する文書である場合、図10より、収集対象文書(文書ID=3に対応)は、同一文書として文書ID=1の文書をもつことが分かる。
その後、比較部205により各同一文書(文書ID=1及び3)の文書内容が変化していると判定されると、図12に示すように、文書ID=1及び3の各文書の同一文書情報がそれぞれ「なし」に更新されると共に、重み情報がそれぞれ「0.5」から「1」に更新される。
文書データベース500の更新が終了すると、第1の実施形態で説明したように、収集済リスト204の収集済文書の一覧が変更され(S21)、待ち集合203の収集対象の一覧の文書位置がなくなるまで文書収集動作が繰り返されて終了する(S22)。
(B−2−2)文書検索動作について
次に、文書検索動作について図13のフローチャートを参照して説明する。図13では、第1の実施形態で説明した動作に対応する動作については対応する符号を付す。
DB検索部302が、文書データベース100を検索して、入力部301が取り込んだ検索条件を満たす文書を取り出し、検索結果として一致検出部701に与えるまでの動作は第1の実施形態で説明した動作に対応する(S30及びS31)。
一致検出部701は、DB検索部302から検索結果を受け取ると、検索結果に基づいて、各文書の文書同一性の判定を行なう(S33)。同一文書を持たないと判定された文書についてはS36に進む。
一致検出部701により検索結果から同一文書を持つと判定された文書について、一致検出部701により、文書内容毎の同一文書の中から、文書内容毎の代表文書が選出される(本実施形態では文書IDが最小の文書を代表文書とする)。
また、一致検出部701により代表文書が選出されると、一致検出部701により、代表文書の重み情報が「1」であるか否かを確認され、代表文書の重みが「1」でない場合にはS36に進み、代表文書の重みが「1」である場合には文書内容毎の同一文書数が割り出され、文書内容毎の同一文書数が重み計算部702に与えられる(S50)。
重み計算部702に一致検出部701から文書内容毎の同一文書数が与えられると、重み計算部702により、文書内容毎の重み計算が行われる(S51)。
重み計算部702による重み計算結果は、更新部703に与えられ、更新部703により、同一文書について文書内容毎に、文書データベース500の重み情報及び同一文書情報が更新される(S52)。
例えば、DB検索部302による検索結果が、図14に示す内容とする。一致検出部701により、文書ID=5及び6の文書が同一であると判定された場合について説明する。
一致検出部701は、同一文書である文書ID=5及び6のうち、文書IDが若い文書ID=5の文書を代表文書として選出する。また、一致検出部701は、文書ID=5の文書の重み情報をみて、重み情報が「0.5」であることを確認する(すなわち、重み情報が「1」でないと確認する)。
同一文書は、文書ID=5及び6の2文書であるので、一致検出部701は同一文書数「2」を重み計算部702に与え、重み計算部702は、その同一文書数「2」により、その文書内容についての重みを「0.5」と計算する。
重み計算部702による重み計算結果は、更新部703に与えられ、更新部703により、図10及び図15に示すように、文書データベース500の文書ID=5の文書について、同一文書情報が「なし」及び重み情報が「0.5」に更新され、文書データベース500の文書ID=6の文書について、同一文書情報が「5」及び重み情報が「0.5」に更新される。
このようにして文書データベース500の更新が終了すると、選出文書結果が出力部305から出力されて文書検索動作が終了する(S36及びS37)。
(B−3)第2の実施形態の効果
以上、本実施形態によれば、第1の実施形態で説明した同様の効果を奏する。
また、本実施形態によれば、文書検索装置600による文書検索時に、一致検出部701が、DB検索部302の検索結果のうち同一文書を除去しないため、同一文書除去に係る処理に係る時間の短縮、及び、同一文書数を割り出すことにより重み計算に反映させることができる。
(C)他の実施形態
(C−1)上述した第1及び第2の実施形態では、インターネットを利用した文書収集検索システムに関して説明したが、この形態に限ることなく広く適用できる。また、収集・検索対象文書をHTML文書として説明したが、その他の文書、書類等を収集・検索対象とした場合にも適用できる。更に、文書位置をURLとして説明したが、文書位置を特定できれば広く適用できる。
(C−2)上述した第1及び第2の実施形態では、文書収集時に予め指定された文書位置を開始点としたが、2回目以降の文書収集処理では、文書収集装置2000及び600が文書データベース100及び500に保存されている文書位置を取り出し、その文書位置を開始点としてもよい。
(C−3)上述した第1及び第2の実施形態では、文書同一性の判定を、単純にバイナリの一致・不一致で判定することとしたが、文書同一性を判定できるのであれば、文書の単語数や、統計確率的に求めた文書の適合度・単語の出現頻度等その他統計確率結果などに基づく他の判定方法を適用してもよい。
(C−4)上述した第1及び第2の実施形態では、同一文書の代表文書について、同一文書情報を「なし」として説明したが、代表文書と他の同一文書とを区別することができれば他の方法により示すようにしてもよい。例えば、代表文書自身の文書IDを同一文書情報に示すようにしてもよく、この場合、文書検索時(図6のS33)に、代表文書を同一文書から除外することとなる。
(C−5)上述した第1の実施形態の文書検索時では、一致検出部303が、検索結果から同一文書を除去することとして説明したが、除去せずに同一文書を検索しないようにすることができればよく、例えば、一致検出部303が、同一文書を検索しないように検索条件を変更したり、又は、検索対象の文書若しくは検索非対象の文書にフラグを立てるようにしてもよい。
(C−6)上述した第2の実施形態の重み計算では、重みを「同一文書数分の1」として示したが、文書内容を加味した重みを使用するようにしてもよい。
第1の実施形態の文書収集検索システムの全体構成図である。 第1の実施形態の待ち集合203が保持する収集対象の一覧の例を示す図である。 第1の実施形態の収集済リスト204が保持する収集済文書の一覧の例を示す図である。 第1の実施形態の文書データベース100の保存内容例を示す図である。 第1の実施形態の文書収集動作を示すフローチャートである。 第1の実施形態の文書収集動作に係る各構成要素のデータ管理経過を説明する図である。 第1の実施形態の文書検索動作を示すフローチャートである。 第1の実施形態のDB検索部302による検索結果例を示す図である。 第2の実施形態の文書収集検索システムの全体構成図である。 第2の実施形態の文書データベース500の保存内容例を示す図である。 第2の実施形態の文書収集動作を示すフローチャートである。 第2の実施形態の文書収集動作により更新された文書データベース500の保存内容例を示す図である。 第2の実施形態の文書検索動作を示すフローチャートである。 第2の実施形態のDB検索部203による検索結果例を示す図である。 第2の実施形態の文書検索動作により更新された文書データベース500の保存内容例を示す図である。
符号の説明
1、2…文書収集検索システム、100、500…文書データベース、
200、600…文書収集装置、201、601…制御部、202…取得部、
203…待ち集合、204…収集済リスト、205…比較部、
206、602…投入部、300、700…文書検索装置、
301…入力部、302…DB検索部、303、701…一致検出部、
304、703…更新部、305…出力部、702…重み計算部。

Claims (8)

  1. 文書内容が同一である同一文書データが存在するか否かを示す同一文書情報を、各文書データに対応付けて保存している文書データベースに、外部から収集した文書データを保存させる文書収集装置であって、
    収集対象文書データの文書位置と同一の文書位置の文書データが、上記文書データベースに保存されているか否かを確認する保存文書確認手段と、
    上記収集対象文書データの文書位置と同一の文書位置の文書データが上記文書データベースに保存されている場合に、上記文書データベースに保存される当該文書データに対応付けられている上記同一文書情報に基づいて、当該文書データと同一の他の同一文書データが、上記文書データベースに存在するか否かを確認する同一文書存在確認手段と、
    上記同一文書存在確認手段により、上記同一文書情報に基づく他の同一文書データが上記文書データベースに存在すると判断されると、上記収集対象文書データと、上記同一文書情報に基づく他の同一文書データとを取得する文書取得手段と、
    上記文書取得手段が取得した、上記収集対象文書データと、上記同一文書情報に基づく他の同一文書データとの間で、所定の判定処理による文書データの比較を行い、文書内容の同一性を判定する文書同一性判定手段と、
    上記文書同一性判定手段の判定結果に基づいて、取得した各文書データの上記同一文書情報を、文書内容が同一であるときには収集済であることを示す内容に更新し、文書内容が同一でないときには未収集であることを示す内容に更新する文書情報更新手段と
    を備えることを特徴とする文書収集装置。
  2. 上記文書データベースは、文書内容が同一である同一文書データの中から選択した代表文書データを示す代表文書情報を、各同一文書データについて対応付けて保存するものであって、
    上記文書同一性判定手段が判定した同一文書データの中から代表文書データを選出する代表文書選出手段を備え、
    上記文書情報更新手段は、上記代表文書選出手段の選出結果に基づいて、上記文書同一性判定手段が判定した同一文書データについての上記文書データベースの代表文書情報をも更新することを特徴とする請求項1に記載の文書収集装置。
  3. 上記文書データベースは、文書内容が同一である同一文書データに関する重み情報を、各同一文書データに対応付けて保存するものであって、
    上記文書情報更新手段が、上記文書同一性判定手段の判定結果に基づいて、上記重み情報を更新することを特徴とする請求項1又は2に記載の文書収集装置。
  4. 文書内容が同一である同一文書データが存在するか否かを示す同一文書情報及び文書内容が同一である同一文書データの中から選択した代表文書データを示す代表文書情報を、各文書データに対応付けて保存している文書データベースから、入力された検索条件を満たす文書を検索出力する文書検索装置であって、
    上記検索条件を満たす文書データを上記文書データベースから検索する文書検索手段と、
    上記文書検索手段が検索した各文書データの同一文書情報がなしとなっている文書データ、又は、複数の同一文書データについては代表文書情報を参照して複数の同一文書データの中から代表文書データのみを残し、代表文書データ以外の同一文書データを除去する同一文書除去手段と、
    上記同一文書除去手段により残された各文書データの間で、所定の判定処理による文書データの比較を行い、文書同一性の判定をする検索文書同一性判定手段と、
    上記検索文書同一性判定手段の判定結果に基づいて、文書内容が同一である場合に、複数の同一文書データが存在し、これら同一文書データから所定方法により選出した代表文書データを示す内容に、各文書データの同一文書情報及び代表文書情報を更新する検索文書情報更新手段と、
    上記検索文書同一性判定手段による判定結果に基づく選出文書結果を出力する検索結果出力手段と
    を備えることを特徴とする文書検索装置。
  5. 上記検索文書同一性判定手段が判定した同一文書データの中から代表文書データを選出する代表文書選出手段を備え、
    上記検索文書更新手段は、上記代表文書選出手段の選出結果に基づいて、上記検索文書同一性判定手段が判定した同一文書データについての上記文書データベースの代表文書情報をも更新することを特徴とする請求項に記載の文書検索装置。
  6. 上記代表文書選出手段が、複数の同一文書データの中から、上記文書データベースにおける文書識別情報が最小のものを上記代表文書データとして選出することを特徴とする請求項5に記載の文書検索装置。
  7. 上記文書データベースは、文書内容が同一である同一文書データに関する重み情報を、各同一各文書データに対応付けて保存するものであって、
    上記検索文書情報更新手段が、上記検索文書同一性判定手段の判定結果に基づいて、各同一文書の重み情報を更新することを特徴とする請求項4〜6のいずれかに記載の文書検索装置。
  8. 少なくとも、文書内容が同一である同一文書データが存在するか否かを示す同一文書情報を、各文書データに対応付けて保存している文書データベースと、
    外部から収集した文書データを上記文書データベースに保存する請求項1〜3のいずれかに記載の文書収集装置と、
    入力された検索条件を満たす文書データを上記データベースから検索出力する請求項4〜7のいずれかに記載の文書検索装置と
    を備えることを特徴とする文書収集検索システム。
JP2003315703A 2003-09-08 2003-09-08 文書収集装置、文書検索装置及び文書収集検索システム Expired - Fee Related JP4222166B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2003315703A JP4222166B2 (ja) 2003-09-08 2003-09-08 文書収集装置、文書検索装置及び文書収集検索システム
US10/887,101 US20050055366A1 (en) 2003-09-08 2004-07-09 Document collection apparatus, document retrieval apparatus and document collection/retrieval system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003315703A JP4222166B2 (ja) 2003-09-08 2003-09-08 文書収集装置、文書検索装置及び文書収集検索システム

Publications (2)

Publication Number Publication Date
JP2005084904A JP2005084904A (ja) 2005-03-31
JP4222166B2 true JP4222166B2 (ja) 2009-02-12

Family

ID=34225211

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003315703A Expired - Fee Related JP4222166B2 (ja) 2003-09-08 2003-09-08 文書収集装置、文書検索装置及び文書収集検索システム

Country Status (2)

Country Link
US (1) US20050055366A1 (ja)
JP (1) JP4222166B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007122643A (ja) * 2005-10-31 2007-05-17 Toshiba Corp データ検索システム、メタデータ同期方法およびデータ検索装置
CN104112012A (zh) * 2014-07-16 2014-10-22 江苏大学 一种针对信息检索结果多元化的分数规范化方法
CN106776851A (zh) * 2016-11-28 2017-05-31 国网上海市电力公司 文档结构化方法和设备
GB201708762D0 (en) 2017-06-01 2017-07-19 Microsoft Technology Licensing Llc Managing electronic slide decks

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5661364A (en) * 1995-12-11 1997-08-26 Planar Systems, Inc. Simplified mechanical package for EL displays
US5676351A (en) * 1996-08-09 1997-10-14 Steel City Corporation Fence post clip for fastening fencing to post
US6340824B1 (en) * 1997-09-01 2002-01-22 Kabushiki Kaisha Toshiba Semiconductor light emitting device including a fluorescent material
US6073130A (en) * 1997-09-23 2000-06-06 At&T Corp. Method for improving the results of a search in a structured database
US7596606B2 (en) * 1999-03-11 2009-09-29 Codignotto John D Message publishing system for publishing messages from identified, authorized senders
JP2002175877A (ja) * 2000-09-27 2002-06-21 Seiko Epson Corp 有機エレクトロルミネッセンス装置、有機エレクトロルミネッセンス装置の製造方法、電子機器
US6537688B2 (en) * 2000-12-01 2003-03-25 Universal Display Corporation Adhesive sealed organic optoelectronic structures

Also Published As

Publication number Publication date
US20050055366A1 (en) 2005-03-10
JP2005084904A (ja) 2005-03-31

Similar Documents

Publication Publication Date Title
JP5437557B2 (ja) 検索処理方法及び検索システム
JP5492187B2 (ja) 編集距離および文書情報を使用する検索結果順位付け
JP3225912B2 (ja) 情報検索装置、方法及び記録媒体
KR101740271B1 (ko) 온라인 상에서 실시간으로 업데이트되는 대규모 오디오 핑거프린트 데이터베이스의 구축 방법 및 장치
US8423885B1 (en) Updating search engine document index based on calculated age of changed portions in a document
US20120233096A1 (en) Optimizing an index of web documents
JP4896268B2 (ja) 情報価値を反映した情報検索方法及びその装置
JP3803961B2 (ja) データベース生成装置、データベース生成処理方法及びデータベース生成プログラム
JP2009271799A (ja) 企業相関情報抽出システム
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
JPH1031683A (ja) Url情報データベース構築方法及びそれを利用したインターネット検索サーバ
CN101310277B (zh) 获得文本的表示的方法和系统
JP4222166B2 (ja) 文書収集装置、文書検索装置及び文書収集検索システム
JP2008191982A (ja) 検索結果出力装置
JP5613536B2 (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
JP2012141681A (ja) クエリセグメント位置決定装置
JPWO2011070979A1 (ja) 辞書作成装置、単語収集方法、及び、プログラム
JP2002297660A (ja) 文字列類似度算出方法、装置、プログラム及び記録媒体
JP4219125B2 (ja) 全文検索装置、全文検索方法、プログラム、及び記録媒体
KR100371805B1 (ko) 관련 웹 사이트 제공 방법 및 시스템
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
JP2003186901A (ja) Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体
JP7412307B2 (ja) 作成支援装置、作成支援方法、および作成支援プログラム
JP5944368B2 (ja) 情報更新装置、情報更新方法、プログラム
JPH09204436A (ja) 情報空間探索方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080513

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080711

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080812

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081008

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081028

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081110

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111128

Year of fee payment: 3

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees