JP4222166B2 - 文書収集装置、文書検索装置及び文書収集検索システム - Google Patents
文書収集装置、文書検索装置及び文書収集検索システム Download PDFInfo
- Publication number
- JP4222166B2 JP4222166B2 JP2003315703A JP2003315703A JP4222166B2 JP 4222166 B2 JP4222166 B2 JP 4222166B2 JP 2003315703 A JP2003315703 A JP 2003315703A JP 2003315703 A JP2003315703 A JP 2003315703A JP 4222166 B2 JP4222166 B2 JP 4222166B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- same
- search
- data
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
以下では、本発明の文書収集装置、文書検索装置及び文書収集検索システムの第1の実施形態について図面を参照して説明する。
(A−1)第1の実施形態の構成
図1は、本実施形態に係る文書収集検索システムの機能的な全体構成を示す構成図である。
以下では、まず、文書収集装置200の文書収集動作について説明した後に、文書検索装置300の文書検索動作を説明する。
図5は、文書収集装置200の文書収集動作のフローチャートである。
続いて、文書検索装置300による文書検索動作について図7を参照して説明する。図7は、文書検索動作の動作フローチャートである。
以上のように、本実施形態によれば、文書データベース100が保存している文書に関し同一文書情報をも管理し、文書収集装置200による収集対象文書の収集時に、同一文書情報に基づく同一文書の確認、及び、文書内容の変化に対応した同一文書情報の更新により、文書同一性判定の負担軽減、文書データベース100での文書管理の効率化及び文書検索処理に係る負担軽減を可能にすることができる。
次に、本発明の文書収集装置、文書検索装置及び文書収集検索システムの第2の実施形態について図面を参照して説明する。
第2の実施形態が第1の実施形態と異なる点は、文書収集検出システムが、文書収集時及び又は文書検索時に、重複する同一文書を有する各文書について、同一文書数に応じた重みづけを行なうと共に、その重みを各文書毎に管理する点である。
以下では、まず、文書収集装置600の文書収集動作について説明した後に、文書検索装置700の文書検索動作について説明する。
図11は、文書収集動作を説明するフローチャートである。図11では、第1の実施形態で説明した動作に対応する動作については対応する符号を付す。
次に、文書検索動作について図13のフローチャートを参照して説明する。図13では、第1の実施形態で説明した動作に対応する動作については対応する符号を付す。
以上、本実施形態によれば、第1の実施形態で説明した同様の効果を奏する。
(C−1)上述した第1及び第2の実施形態では、インターネットを利用した文書収集検索システムに関して説明したが、この形態に限ることなく広く適用できる。また、収集・検索対象文書をHTML文書として説明したが、その他の文書、書類等を収集・検索対象とした場合にも適用できる。更に、文書位置をURLとして説明したが、文書位置を特定できれば広く適用できる。
200、600…文書収集装置、201、601…制御部、202…取得部、
203…待ち集合、204…収集済リスト、205…比較部、
206、602…投入部、300、700…文書検索装置、
301…入力部、302…DB検索部、303、701…一致検出部、
304、703…更新部、305…出力部、702…重み計算部。
Claims (8)
- 文書内容が同一である同一文書データが存在するか否かを示す同一文書情報を、各文書データに対応付けて保存している文書データベースに、外部から収集した文書データを保存させる文書収集装置であって、
収集対象文書データの文書位置と同一の文書位置の文書データが、上記文書データベースに保存されているか否かを確認する保存文書確認手段と、
上記収集対象文書データの文書位置と同一の文書位置の文書データが上記文書データベースに保存されている場合に、上記文書データベースに保存される当該文書データに対応付けられている上記同一文書情報に基づいて、当該文書データと同一の他の同一文書データが、上記文書データベースに存在するか否かを確認する同一文書存在確認手段と、
上記同一文書存在確認手段により、上記同一文書情報に基づく他の同一文書データが上記文書データベースに存在すると判断されると、上記収集対象文書データと、上記同一文書情報に基づく他の同一文書データとを取得する文書取得手段と、
上記文書取得手段が取得した、上記収集対象文書データと、上記同一文書情報に基づく他の同一文書データとの間で、所定の判定処理による文書データの比較を行い、文書内容の同一性を判定する文書同一性判定手段と、
上記文書同一性判定手段の判定結果に基づいて、取得した各文書データの上記同一文書情報を、文書内容が同一であるときには収集済であることを示す内容に更新し、文書内容が同一でないときには未収集であることを示す内容に更新する文書情報更新手段と
を備えることを特徴とする文書収集装置。 - 上記文書データベースは、文書内容が同一である同一文書データの中から選択した代表文書データを示す代表文書情報を、各同一文書データについて対応付けて保存するものであって、
上記文書同一性判定手段が判定した同一文書データの中から代表文書データを選出する代表文書選出手段を備え、
上記文書情報更新手段は、上記代表文書選出手段の選出結果に基づいて、上記文書同一性判定手段が判定した同一文書データについての上記文書データベースの代表文書情報をも更新することを特徴とする請求項1に記載の文書収集装置。 - 上記文書データベースは、文書内容が同一である同一文書データに関する重み情報を、各同一文書データに対応付けて保存するものであって、
上記文書情報更新手段が、上記文書同一性判定手段の判定結果に基づいて、上記重み情報を更新することを特徴とする請求項1又は2に記載の文書収集装置。 - 文書内容が同一である同一文書データが存在するか否かを示す同一文書情報及び文書内容が同一である同一文書データの中から選択した代表文書データを示す代表文書情報を、各文書データに対応付けて保存している文書データベースから、入力された検索条件を満たす文書を検索出力する文書検索装置であって、
上記検索条件を満たす文書データを上記文書データベースから検索する文書検索手段と、
上記文書検索手段が検索した各文書データの同一文書情報がなしとなっている文書データ、又は、複数の同一文書データについては代表文書情報を参照して、複数の同一文書データの中から代表文書データのみを残し、代表文書データ以外の同一文書データを除去する同一文書除去手段と、
上記同一文書除去手段により残された各文書データの間で、所定の判定処理による文書データの比較を行い、文書同一性の判定をする検索文書同一性判定手段と、
上記検索文書同一性判定手段の判定結果に基づいて、文書内容が同一である場合に、複数の同一文書データが存在し、これら同一文書データから所定方法により選出した代表文書データを示す内容に、各文書データの同一文書情報及び代表文書情報を更新する検索文書情報更新手段と、
上記検索文書同一性判定手段による判定結果に基づく選出文書結果を出力する検索結果出力手段と
を備えることを特徴とする文書検索装置。 - 上記検索文書同一性判定手段が判定した同一文書データの中から代表文書データを選出する代表文書選出手段を備え、
上記検索文書更新手段は、上記代表文書選出手段の選出結果に基づいて、上記検索文書同一性判定手段が判定した同一文書データについての上記文書データベースの代表文書情報をも更新することを特徴とする請求項4に記載の文書検索装置。 - 上記代表文書選出手段が、複数の同一文書データの中から、上記文書データベースにおける文書識別情報が最小のものを上記代表文書データとして選出することを特徴とする請求項5に記載の文書検索装置。
- 上記文書データベースは、文書内容が同一である同一文書データに関する重み情報を、各同一各文書データに対応付けて保存するものであって、
上記検索文書情報更新手段が、上記検索文書同一性判定手段の判定結果に基づいて、各同一文書の重み情報を更新することを特徴とする請求項4〜6のいずれかに記載の文書検索装置。 - 少なくとも、文書内容が同一である同一文書データが存在するか否かを示す同一文書情報を、各文書データに対応付けて保存している文書データベースと、
外部から収集した文書データを上記文書データベースに保存する請求項1〜3のいずれかに記載の文書収集装置と、
入力された検索条件を満たす文書データを上記データベースから検索出力する請求項4〜7のいずれかに記載の文書検索装置と
を備えることを特徴とする文書収集検索システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003315703A JP4222166B2 (ja) | 2003-09-08 | 2003-09-08 | 文書収集装置、文書検索装置及び文書収集検索システム |
US10/887,101 US20050055366A1 (en) | 2003-09-08 | 2004-07-09 | Document collection apparatus, document retrieval apparatus and document collection/retrieval system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003315703A JP4222166B2 (ja) | 2003-09-08 | 2003-09-08 | 文書収集装置、文書検索装置及び文書収集検索システム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005084904A JP2005084904A (ja) | 2005-03-31 |
JP4222166B2 true JP4222166B2 (ja) | 2009-02-12 |
Family
ID=34225211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003315703A Expired - Fee Related JP4222166B2 (ja) | 2003-09-08 | 2003-09-08 | 文書収集装置、文書検索装置及び文書収集検索システム |
Country Status (2)
Country | Link |
---|---|
US (1) | US20050055366A1 (ja) |
JP (1) | JP4222166B2 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007122643A (ja) * | 2005-10-31 | 2007-05-17 | Toshiba Corp | データ検索システム、メタデータ同期方法およびデータ検索装置 |
CN104112012A (zh) * | 2014-07-16 | 2014-10-22 | 江苏大学 | 一种针对信息检索结果多元化的分数规范化方法 |
CN106776851A (zh) * | 2016-11-28 | 2017-05-31 | 国网上海市电力公司 | 文档结构化方法和设备 |
GB201708762D0 (en) | 2017-06-01 | 2017-07-19 | Microsoft Technology Licensing Llc | Managing electronic slide decks |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5661364A (en) * | 1995-12-11 | 1997-08-26 | Planar Systems, Inc. | Simplified mechanical package for EL displays |
US5676351A (en) * | 1996-08-09 | 1997-10-14 | Steel City Corporation | Fence post clip for fastening fencing to post |
US6340824B1 (en) * | 1997-09-01 | 2002-01-22 | Kabushiki Kaisha Toshiba | Semiconductor light emitting device including a fluorescent material |
US6073130A (en) * | 1997-09-23 | 2000-06-06 | At&T Corp. | Method for improving the results of a search in a structured database |
US7596606B2 (en) * | 1999-03-11 | 2009-09-29 | Codignotto John D | Message publishing system for publishing messages from identified, authorized senders |
JP2002175877A (ja) * | 2000-09-27 | 2002-06-21 | Seiko Epson Corp | 有機エレクトロルミネッセンス装置、有機エレクトロルミネッセンス装置の製造方法、電子機器 |
US6537688B2 (en) * | 2000-12-01 | 2003-03-25 | Universal Display Corporation | Adhesive sealed organic optoelectronic structures |
-
2003
- 2003-09-08 JP JP2003315703A patent/JP4222166B2/ja not_active Expired - Fee Related
-
2004
- 2004-07-09 US US10/887,101 patent/US20050055366A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20050055366A1 (en) | 2005-03-10 |
JP2005084904A (ja) | 2005-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5437557B2 (ja) | 検索処理方法及び検索システム | |
JP5492187B2 (ja) | 編集距離および文書情報を使用する検索結果順位付け | |
JP3225912B2 (ja) | 情報検索装置、方法及び記録媒体 | |
KR101740271B1 (ko) | 온라인 상에서 실시간으로 업데이트되는 대규모 오디오 핑거프린트 데이터베이스의 구축 방법 및 장치 | |
US8423885B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
US20120233096A1 (en) | Optimizing an index of web documents | |
JP4896268B2 (ja) | 情報価値を反映した情報検索方法及びその装置 | |
JP3803961B2 (ja) | データベース生成装置、データベース生成処理方法及びデータベース生成プログラム | |
JP2009271799A (ja) | 企業相関情報抽出システム | |
JP4832952B2 (ja) | データベース解析システム及びデータベース解析方法及びプログラム | |
JPH1031683A (ja) | Url情報データベース構築方法及びそれを利用したインターネット検索サーバ | |
CN101310277B (zh) | 获得文本的表示的方法和系统 | |
JP4222166B2 (ja) | 文書収集装置、文書検索装置及び文書収集検索システム | |
JP2008191982A (ja) | 検索結果出力装置 | |
JP5613536B2 (ja) | 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体 | |
JP2012141681A (ja) | クエリセグメント位置決定装置 | |
JPWO2011070979A1 (ja) | 辞書作成装置、単語収集方法、及び、プログラム | |
JP2002297660A (ja) | 文字列類似度算出方法、装置、プログラム及び記録媒体 | |
JP4219125B2 (ja) | 全文検索装置、全文検索方法、プログラム、及び記録媒体 | |
KR100371805B1 (ko) | 관련 웹 사이트 제공 방법 및 시스템 | |
JP4915499B2 (ja) | 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム | |
JP2003186901A (ja) | Webサイト検索方法とシステム、並びに、この方法の実行プログラムとこの方法の実行プログラムを記録した記録媒体 | |
JP7412307B2 (ja) | 作成支援装置、作成支援方法、および作成支援プログラム | |
JP5944368B2 (ja) | 情報更新装置、情報更新方法、プログラム | |
JPH09204436A (ja) | 情報空間探索方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080513 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080711 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080812 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20081008 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081028 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081110 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111128 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |