JP3270351B2 - 電子化文書処理装置 - Google Patents

電子化文書処理装置

Info

Publication number
JP3270351B2
JP3270351B2 JP01939397A JP1939397A JP3270351B2 JP 3270351 B2 JP3270351 B2 JP 3270351B2 JP 01939397 A JP01939397 A JP 01939397A JP 1939397 A JP1939397 A JP 1939397A JP 3270351 B2 JP3270351 B2 JP 3270351B2
Authority
JP
Japan
Prior art keywords
document
abstract
line
keyword
tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01939397A
Other languages
English (en)
Other versions
JPH10222520A (ja
Inventor
顕司 小野
秀樹 平川
一男 住田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP01939397A priority Critical patent/JP3270351B2/ja
Priority to US09/016,488 priority patent/US6742163B1/en
Publication of JPH10222520A publication Critical patent/JPH10222520A/ja
Application granted granted Critical
Publication of JP3270351B2 publication Critical patent/JP3270351B2/ja
Priority to US10/782,765 priority patent/US7065708B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Machine Translation (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、ネットワークを介
してキーワード等を送信して取得した電子化文書を抄録
する電子化文書処理装置に関する。
【0002】
【従来の技術】近年、インターネットの普及に伴い、世
界中に存在するインターネットに接続されている計算機
に格納されている情報を簡単にアクセスできるようにな
ってきている。特に、WWW(World Wide
Web)は、HTTP(Hyper Text Tra
nsfer Protocol)を用いることにより、
利用者が世界中の情報をGUIベースのブラウザによっ
て簡単にアクセスできる仕組みを提供している。WWW
では、ある計算機上でhttpdと呼ぶソフトウェアを
用いる。このソフトウェアは、その計算機のデータベー
スに格納されているHTML(Hyper Text
Markup Language)で記述したハイパー
テキストファイルを、他の計算機から要求に応じてその
ハイパーテキストファイルを転送するものである。
【0003】インターネットに接続されている計算機
は、転送を要求するハイパーテキストファイルが存在す
るhttpdに対して、ハイパーテキストファイルのア
ドレスを指定することにより、指定したファイルを読み
込むことができる。HTMLの記述では、ハイパーテキ
ストファイル内のリンク情報が、前記アドレスが記述さ
れるので、HTTPのプロトコルに従ってブラウザは、
各httpd支配下のハイパーテキストファイルを表示
できる。音声、静止画、動画など様々なデータを出力で
きるようにすることで、マルチメディアデータを含むハ
イパーテキストをブラウザは表示することができる。
【0004】このWWWの仕組みにより、利用者はより
簡単にインターネット上の情報にアクセスできるように
なり、多くの個人や企業がWebページと呼ぶハイパー
テキストファイルを公開するようになってきている。
【0005】しかしながら、WWWではデータベースの
管理者がおらず、個々人がそれぞれ勝手にWebページ
を作成あるいは修正し、しかもその規模が膨大であるた
め(1996年度初頭における世界中で公開されている
Webページは4000万ページと推定されている)、
個々の利用者が自らが必要とするWebページがどこに
あるか(URLアドレスとして何を指定すれば必要なW
ebページを取得できるか)を知ることが困難な状況に
なっている。
【0006】このため、アクセス可能なWebページを
内容ベースで検索するシステムが開発され、サービスが
行われるようになってきた。すなわち、このようなWe
b検索サーバでは、キーワードを指定することにより、
そのキーワードを含むWebページを検索することがで
きる。利用者は、これらWeb検索サーバを用いて必要
なWebページを検索する。
【0007】検索結果は従来、ランキング上位の文書や
ページについて、文書のタイトルや見出し、キーワード
を一定量表示するのが普通である。また、検索サーバに
よっては、人手によって作成されたページの概要・紹介
文が登録されており、それを検索結果として表示するも
のもある。ユーザはそれを見て、検索されたページを直
接参照するかどうかを判断する。
【0008】以降、このように検索結果が提示される際
に各文書について表示されるものを、その文書の「抄
録」と呼ぶ。また、これら各文書の「抄録」をあつめた
ページを抄録ページあるいは抄録文書と呼ぶことにす
る。
【0009】
【発明が解決しようとする課題】検索結果の提示方式と
して、検索された文書の中の検索語の出現箇所を例え
ば、KWIC表示することが考えられる。KWIC表示
は一般的に、検索されたページを判断する材料として好
適である。しかし、実際は、検索サーバの検索結果の抄
録として実現されていない。その理由を以下に述べる。
【0010】上述の検索結果の提示は、1つの検索サー
バが生成するものである。検索サーバは不特定多数の人
間による検索要求に応じるため、検索結果の提示の生成
に多くの処理時間をかけることができない。したがっ
て、ごく簡単な処理で生成できるようなものを検索結果
として提示する、あるいは1つの文書について予め検索
結果として表示するテキストを作成しておいてその文書
が検索された際にはそれを提示する、といった方式を通
常とる。
【0011】KWIC表示はやや処理量の多い処理であ
るし、検索のたびに検索文字列が異なるので、予め作成
しておくことができない。したがって、あまり実現され
ていないのが現状である。
【0012】また、KWIC表示をする際、KWIC表
示された箇所から元ページの該当箇所を直接参照できる
ようにリンクを張っておくことが考えられるが、この処
理のためには元ページを改変しなければならない。検索
サーバのローカルディスク上に検索対象文書をそのまま
保持しておき、KWIC表示する際に、それをコピーし
たものを改変することにより対応することが考えられる
が、検索対象となるインターネット文書の全てを保持し
ておくことは容量的に困難である。また、著作権上困難
である。
【0013】検索結果の上位の文書をその都度、その文
書が存在するサイトから取得してきてそれを改変してK
WIC表示に利用することが考えられるが、これには数
分以上の時間がかかるので、多数のユーザからの検索要
求に応じる検索サーバでは実現できない。
【0014】そこで、本発明は、検索サーバで検索結果
の提示の生成つまり抄録文書の生成を行うのではなく、
クライアント側に検索結果の提示の生成を行うモジュー
ルを組み込む、あるいは、イントラネットと呼ばれる著
作権上の問題のないローカルネットワーク内で検索サー
バに全WEBページのコピーを保持しておき、それを適
宜改変することにより、KWIC表示を実現することに
より、抄録作成時の処理の分散化と、その抄録と元文書
との関連付け(例えばリンク、抽出された文字列の強調
表示等)を行うための元文書の改変が容易に行える電子
化文書処理装置を提供することを目的とする。
【0015】
【課題を解決するための手段】本発明の電子化文書処理
装置は、ユーザにより入力された検索情報に基づき検索
されて、所定のネットワークを介して転送されてきた電
子化文書を記憶する文書記憶手段と、前記検索情報に含
まれているキーワードを保存するキーワード記憶手段
と、前記文書記憶手段で記憶された電子化文書から少な
くとも前記キーワード記憶手段で記憶されたキーワード
を含む文字列を抽出するとともに、該抽出した文字列に
前記電子化文書中の該キーワードの存在位置へリンクす
るためのタグを挿入して抄録を作成する抄録作成手段
と、前記電子化文書を前記抄録に関連付けて表示可能な
ように、前記電子化文書中の前記キーワードの存在位置
に、前記抄録中の前記キーワードにリンクするためのタ
グを挿入して該電子化文書を改変する文書改変手段と、
この文書改変手段で改変された電子化文書を記憶する改
変文書記憶手段とを具備し、前記抄録作成手段で作成さ
れた抄録を提示して、その提示された抄録中のユーザに
より指示されたキーワードにリンクした前記改変された
電子化文書を前記改変文書記憶手段から読み出し、少な
くとも前記改変された電子化文書中の前記抄録にリンク
した箇所を提示することにより、検索された電子化文書
からキーワードを抽出して抄録を作成する際の処理の分
散化と、その抄録中の所定箇所と元文書へのリンクを張
るための元文書の改変が容易に行える。好ましくは、ユ
ーザにより入力された検索情報に基づき検索されて、所
定のネットワークを介して転送されてきた電子化文書が
複数あるとき、そのそれぞれについて作成された複数の
抄録から1つの抄録を作成する。検索結果の提示の生成
処理部がクライアント側にあるので、複数の検索サーバ
の検索結果をマージして、適宜選択して1つの検索結果
を生成することができる。また、クライアント側にダウ
ンロードされたページに対して改変を行うことは著作権
的には、個人利用の範囲内での改変にあたり、より制約
が少ない。したがって、例えばKWIC表示のためのリ
ンク生成が可能になる。
【0016】すなわち、検索結果の提示の生成処理部が
クライアント側にあるので、複数の検索サーバの検索結
果をマージして、適宜選択して1つの検索結果を生成す
ることができる。また、クライアント側にダウンロード
されたページに対して改変を行うことは著作権的には、
個人利用の範囲内での改変にあたり、より制約が少な
い。したがって、例えばKWIC表示のためのリンク生
成が可能になる。
【0017】
【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。まず、以下の説明で用いる用
語について説明する。インターネットとは、現在普及し
つつある世界規模の電子的情報通信ネットワークのこと
である。
【0018】HTML(Hypter Text Ma
rkup Language )とは、電子化文書、特
に電子化文書の表示体裁等を規定し、また表示する文書
あるいはその箇所の高速な変更を可能にする人工言語の
ことである。HTML記述を含む電子化文書をHTML
文書という。HTML文書中の個々のHTML記述のこ
とを、一般にタグと呼ぶ。また、HTML文書をWEB
ページ、あるいは単にページと呼ぶこともある。
【0019】HTMLのタグは通常記号「<」と「>」
とで挟まれた文字列として記述される。HTML文書は
テキストファイルである。なお、「<」と「>」とで挟
まれた部分を以降タグの内部と呼ぶ。また1つのタグを
「<…>」と表すことにする。ここで「…」は任意の文
字列であるが、記号「>」を含まない文字列であるとす
る。
【0020】インターネット文書とはインターネットを
経由してアクセス可能、つまり、参照、更新、受信つま
り取得、送信つまり登録などが可能な電子化文書のこと
である。WEB文書、WWW文書も同様の意味である。
WWW文書は特に、HTMLで記述された電子化文書を
さす。
【0021】URL(Universal Resou
rce Location)とは、インターネット文書
の所在するネットワーク上の場所とその文書名とを記述
する形式および、それによって記述された文書情報のこ
とである。
【0022】ブラウザとは電子化文書の表示装置あるい
はソフトウェア一般をさすが、特にHTML文書を表示
する表示装置あるいはソフトウェアのことである。通
常、URL記述された文書をインターネットを経由して
取得する手段を備えている。
【0023】ブラウザは、HTML文書の中の各箇所に
記述されたHTMLタグを解析し、そのタグによって指
示された表示形態で各箇所を表示する。KWIC(Ke
y Word In Context)とは、電子化文
書に対するフルテキスト検索の検索結果の提示方式の1
つであり、検索キーワードが出現している場合、その前
後の文字列とあわせて表示する表示形式である。そのキ
ーワードがどのような文脈で用いられているのかがある
程度分かるという効果がある。
【0024】FTPとはFile Translati
on Protocol の略である。インターネット
で電子化文書や電子化データ、プログラムを授受するた
めの普及したプロトコルである。
【0025】サイトとは、電子ネットワークの論理的構
成上1つの単位となる場所のことである。通常企業や大
学、各種公的団体が各々1つのサイトを構成している。
サイト毎に通信用に割り当てられたアドレス情報を持っ
ている。上述のFTPやURLは、そのアドレス情報を
その内部に記述するようになっている。
【0026】ダウンロードとは、あるサイトからファイ
ルを受信、取得することをいう。アップロードとは、あ
るサイトにファイルを送信、登録することをいう。リン
クとは、特にHTML文書においては、表示文書の変更
や表示箇所の変更を素早く行うためのタグのことであ
る。「リンクを張る」あるいは「リンクを埋め込む」と
は、文書甲の表示のある箇所に文書乙のある箇所へ表示
を素早く変更するための手段を配置することであり、文
書甲および乙の該当する場所に特定のタグを挿入するこ
とにより実現される。
【0027】文書甲において、リンクが張られた箇所は
表示に際して文字の色が変わる、あるいはアンダーライ
ンが施されるといった特殊な表示がなされるようになる
ので、ユーザはそこにリンクが存在していることがわか
るようになっている。また、マウスと呼ばれる画面上の
ポインティングデバイスを該当箇所に持っていくとマウ
スカーソルの形状が変化するので、それによってもそこ
にリンクが存在することがわかるようになっている。そ
して該当個所にマウスカーソルを持っていき、マウスの
ボタンをクリックすると、文書Z、あるいは文書Zの中
のリンクを張られた個所に表示が変更されるようになっ
ている。
【0028】文書甲の中のボタンやアイコンと呼ばれる
絵柄にリンクを配することも可能である。このように、
文書甲の中のある文字列や絵柄にリンクを張ることを、
その場所をクリッカブルにする、という。またそのよう
な場所は、クリッカブルになっているともいう。
【0029】サーバ・クライアント方式とは、LANや
インターネットなどのコンピュータネットワーク上で近
年発達した処理様式であり、サーバと呼ばれる一般的に
小数の高速大容量な、サービス内容毎にある程度特化さ
れたハードウェア及びソフトウェア構成をもつコンピュ
ータと、クライアントと呼ばれる各種サービスのユーザ
インタフェース機能を担当する多数のコンピュータが通
信を行いながら協調的に処理を進めることによって、全
体の処理を分散する方式のことである。後述する検索サ
ーバは、インターネット上の文書検索サービスを行う為
に提供されたサーバのことである。
【0030】ホームページとは、各サイト毎に準備され
たWWW文書をさす。また、個人が準備する場合もあ
る。一般にホームページは、その企業あるいは団体の公
的なエントリポイント、つまりそのサイトに何らかの目
的をもってアクセスするユーザがまず最初に訪れるペー
ジである。ホームページから下位の組織あるいは主題毎
に準備された複数のページへリンクが張られていること
が通常である。このような場合、前者をトップページ、
後者をサブページと呼ぶ。サブページは通常、より下位
のサブページへのリンクをもっており、階層的になって
いる。
【0031】イントラネットとは、通常企業や団体およ
びその下部株組織(部や課)毎に敷設されたLANであ
り、セキュリティやデータのトラフィックの管理がそれ
を単位として行われるものである。
【0032】HTTPサーバとは、HTTPメッセージ
通信を処理するLAN上の計算機サーバである。HTT
Pサーバは、クライアントからのHTTPメッセージを
受理し、TCP/IPといったコンピュータ間通信プロ
トコルに基づいて、外部計算機とのファイルの送受信を
行う。外部計算機から送られてきたファイルは、そのフ
ァイルの取得を要求したHTTPクライアントに送られ
ると同時に、キャッシュと呼ばれるHTTPサーバのデ
ィスク領域に一時的に保管される。そして、同じクライ
アント、あるいは別のクライアントから同じファイルの
取得要求があった場合には、特に特定のない限り、その
キャッシュに存在するファイルが取り出されてクライア
ントに送信される。このように、一度HTTPサーバの
キャッシュに保管されたファイルは以降、そのファイル
が元々あった計算機との間で通信処理されることがなく
なり、負荷が分散される。またファイル取得までの時間
も短縮される。
【0033】LAN内部に多くのクライアントマシンが
存在する場合、LANを細分化して階層化し、各LAN
毎にPROXYサーバ(プロキシサーバ)と呼ばれるサ
ーバを設け、そのLAN内部のクライアントは、HTT
Pサーバでなく、各PROXYサーバとの間でHTTP
メッセージを送受信するようにし、各PROXYサーバ
のみが、HTTPサーバと直接HTTPメッセージのや
りとりをするようにする。このようにすることにより、
HTTPサーバの負荷分散が実現できる。
【0034】なお、以下の説明において、抄録をつくる
対象となる検索された電子化文書が例えばHTML文書
で、電子化文書から作成される抄録中のキーワードを例
えば、KWICにて表示する場合を例にとり説明する。
【0035】また、以下の説明で作成される抄録は、取
得した電子化文書の概要を把握するために、その電子化
文書を短縮化すること、および短縮化して得られた電子
化文書のことで、検索された電子化文書中から抽出され
た文書のタイトル、クルーフレーズを含む行、見出し
行、キーワードを含む行(KWIC行)から構成され
る。
【0036】また、抄録にリンクするように改変された
元の電子化文書をKWIC文書と呼ぶことがある。 (第1の実施形態)図1は、本発明の第1の実施形態に
係る抄録作成装置の構成例を概略的に示したものであ
る。
【0037】図1において、抄録作成装置11の要部
は、キーワード保持部12、抄録処理部14、文書保存
部13から構成される。キーワード保存部12は、抄録
処理部14が抄録文書、具体的には、例えばKWIC表
示を作成するのに用いるキーワードを保持している。
【0038】文書保存部13は、抄録をつくる対象とな
る検索された電子化文書と、それから作成された抄録文
書および、KWIC表示の便宜のために複製・改変され
た文書を保持する。
【0039】なお、KWIC表示の便宜のために複製・
改変された文書を、以降便宜的にKWIC文書と呼ぶこ
とにする。抄録処理部14は、文書保存部13に保存さ
れた電子化文書、例えば、HTML文書を解析して、キ
ーワードの前後の文字列を抽出して抄録文書(KWIC
表示)を作成するとともに、元の電子化文書を複製、改
変して、文書中のキーワード部分がはっきりわかるよう
に文書中のキーワードの出現箇所にHTMLタグを埋め
込む。また、抄録文書の各々のKWIC表示から、元文
書中の該当箇所を速やかに参照できるように抄録文書と
KWIC文書の両文書に特定の対応するタグを埋め込む
ことによって、リンクをはる。
【0040】次に、図1の抄録作成装置の抄録処理部1
4の処理動作について、図2に示すフローチャートを参
照して説明する。抄録処理部14は、まず、前処理とし
て、抄録対象となる文書を読み込み、文字コードの統一
や、極端に長い行の分割を行う(ステップS1)。日本
語の電子化テキストに用いられている漢字コードには、
通常JISコード、SJISコード、EUCコードとい
ったものがあるが、適宜変換を行い、どれか1つに統合
する。行の分割の際には、htmlタグが分割されない
よう、つまり記号「<」と記号「>」の間で改行しない
ように、また2バイト文字コードが分割されないように
する。
【0041】行分割のアルゴリズムは、以下のとおりで
ある。まず、1行の最大長Nを設定しておく。つぎに、
ある行の長さがN以上である場合、行の先頭からN文字
目が、なにかのタグの内部であるかどうかを判定する。
具体的には、次のように行う。
【0042】行の先頭からN文字以下の箇所に出現する
記号「<」および「>」のうち出現箇所(行の先頭から
の文字数)が最もNに近いものを選び、その値をそれぞ
れ「A」、「B」とする。存在しない場合は「0」とす
る。
【0043】AがBより大きい場合、行の先頭からN文
字目はそれ以前に記号「<」が出現していてかつその出
現より以降に記号「>」が出現していない箇所であるこ
と、すなわち何かのタグの内部であることがわかる。
【0044】何かのタグの内部であると判定されたとき
は、Nに最も近い箇所の記号「<」の前で、すなわち行
の先頭からA−1文字目の地点で行分割を行う。A=1
の場合、つまり行頭に「<」が存在し、このタグがN文
字を越しているような場合は、行頭から数えて最初に出
現した「>」の箇所の後ろで改行するようにする。この
場合、1行の長さがNを超えることになる。以降の処理
で出てくるタグの除去処理およびタグのスコープ判定処
理がタグの途中に改行が挿入されているケースに対応し
ている場合は、行頭からN文字目で改行する。この場合
は、タグの内部で改行されることになる。
【0045】行分割を行い、改行を行った地点から後ろ
の文字列の長さがN以上である場合は、上述の処理をそ
れに対して繰り返す。このようにして、改行後の文字列
がN以下になるまで同様の処理を繰り返す。
【0046】前処理の後、各行について以下の処理を繰
り返す(ステップS2〜ステップS16)。まず、その
行が<TITLE>…</TITLE>タグを含んでい
る場合、その2つのタグの間の文字列をタイトルとして
抽出し、タイトルレジスタに登録する(ステップS3、
ステップS4)。このタイトル行に関しては、後述する
KWIC行抽出、クルーフレーズ行抽出、見出し行抽出
および冒頭行抽出は行わない。
【0047】<TITLE>タグと</TITLE>タ
グとが同じ行に存在せず、間に何行か存在する場合があ
る。この処理は、正確には<TITLE>タグのスコー
プにある文字列を判定して抽出しなければならない。こ
の処理については後述する。
【0048】次に、その行のHTMLタグ部分以外の部
分にキーワード保持部12に保持されているキーワード
が含まれている場合、KWIC行カウンタをインクリメ
ントし、その行に含まれるタグを取り除いて、KWIC
行として抽出し、KWIC行レジスタに登録する。KW
IC電子化文書名とKWIC行カウンタに登録されてい
るKWIC行番号をキーとするタグ、および強調表示を
指示するタグを、KWIC行の中のキーワード部分の前
後に挿入する(ステップS5、ステップS6)。
【0049】なお、行をまたがってキーワードが存在す
る場合があり、その抽出漏れを防ぐため、キーワード検
出する際は、一時的に保持された前の行と現在の行とを
つなげたものに対してキーワード検出するようにする。
キーワードが複数含まれている場合は、それぞれについ
て同様の処理を行う。
【0050】次に、その行のHTMLタグ部分以外の部
分にクルーフレーズが含まれている場合、クルーフレー
ズ行カウンタをインクリメントし、その行に含まれるタ
グを取り除いて、クルーフレーズ行として抽出し、クル
ーフレーズ行レジスタに登録する(ステップS7、ステ
ップS8)。
【0051】クルーフレーズとは、文書中の重要な部分
の前後に現れる、そのページの概要を示すような文に含
まれることの多い、一般的な単語や慣用表現で語句のこ
とで、例えば、 「へようこそ」 「このホームページでは」 「弊社では」 「Welcome to」 等があげられる。
【0052】クルーフレーズのような単語や表現を含む
文を抽出して抄録文書中に提示すれば、文書の概要を把
握するのに好適である。次に、その行に含まれるタグあ
るいはその行がそのスコープ中であるようなタグをチェ
ックして、そのタグが見出し相当である場合、見出し行
カウンタをインクリメントし、その行に含まれるタグを
取り除いて、見出し行として抽出して見出し行レジスタ
に登録する(ステップS9、ステップS10)。
【0053】見出し行であることを示すHTMLタグと
しては、例えば、次のようなものがある。 <H1>…</H1> <H2>…</H2> <H3>…</H3> <STRONG>…</STRONG> <BIG>…</BIG> <EM>…</EM> なお、タグのスコープについては、後述する。
【0054】タグの除去とは、行の文字列の中の記号
「<」と「>」とで挟まれた箇所を、それらの記号を含
めて削除することである。このことを以降「<…>」を
削除する、というように表現する。
【0055】タグの除去においては、次に述べる例外的
な処理を行う。前処理において長い行の分割を行う際
に、タグの途中で行が分割されないように、つまり、
「<」と「>」とで挟まれた箇所の途中で行分割しない
ようにしているが、あるタグが極端に長いときは、タグ
の内部で分割されている場合がある。この場合、「…<
…$」、「^…>…」という2つの行に分割されている
ことになる。ここで「…」は記号「<」、「>」を含ま
ない任意の文字列であり、記号「$」、「^」はそれぞ
れ行の最後および行の先頭を示すための便宜的な記号で
ある。このような場合、タグの除去として、「…<…
$」の行の文字列「<…$」の部分を除去し、「^…>
…」の行の文字列「^…>」を削除する。
【0056】次に、文書の先頭から予め定められた一定
の文字量(しきい値)に達するまで無条件に、冒頭行カ
ウンタをインクリメントし、行からタグを取り除いて、
冒頭行として抽出し、冒頭行レジスタに登録する(ステ
ップS11、ステップS12)。このとき、タグを除去
すると文字が残らない場合は、抽出しない。また、タイ
トル行については抽出しない。
【0057】この一定の文字量とは、例えば、標準的な
ブラウザの標準的なフォントによる表示によって表示可
能な1行の文字数をMとし、また1文書の抄録として提
示する行数をNとすると、N*Mである。
【0058】メモリ等の制約がない場合は、読み込んだ
全ての行について、タグを除去した文字列を冒頭行レジ
スタに登録する。以下の説明では、こちらのケースの場
合を説明する。
【0059】次に、読み込んだ行を、KWIC電子化文
書として出力する(ステップS13〜ステップS1
5)。このKWIC電子化文書は元の電子化文書と殆ど
同じものであり、文書中のキーワード箇所が表示の際に
目立つように、そのキーワードの前後にそのキーワード
を太く表示する。あるいは大きなフォントで表示する、
あるいは白ぬきで表示する、あるいは斜体文字で表示す
る、あるいはアンダーラインを付加するなどの表示を指
示するHTMLタグを埋め込んである。また、抄録文書
からのリンク先を示すHTMLタグが埋め込まれてい
る。ユーザが抄録文書を読み、抄録文書中に埋め込まれ
たリンクを辿って原ページを参照した際に提示されるの
はこのKWIC文書の方である。
【0060】キーワードのあった行については、その行
のキーワードの前後に、KWIC行カウンタに登録され
ているKWIC行番号をキーとするタグ、および強調表
示を指示するタグを挿入して、出力する。そうでない行
については、前処理終了後の行がそのまま出力される。
【0061】さて、このようにして全ての行を読み込ん
で見出し行、クルーフレーズ行、KWIC行抽出した
後、抽出された行から一定数の行を以下の基準で選択し
て、その文書の抄録として出力する(ステップS17〜
ステップS18)。この抄録として表示する行を選択す
る処理が、出力調整処理である。
【0062】以下この出力調整処理について説明する。
なお、以下の説明で、標準的なブラウザの標準的なフォ
ントによる表示によって表示可能な1行の文字数をMと
する。また1文書の抄録として提示する行数をNとす
る。
【0063】KWICとして抽出された行のタグを除い
た文字数の合計がM*N以上である場合、文字数の総和
がM*Nに収まるようにKWIC行レジスタの先頭か
ら、つまり、元の行番号の小さい方から選ぶ。KWIC
行として抽出された行の文字数の合計がM*N以下であ
る場合は、抽出した全てのKWIC行を選択する。
【0064】このようにして選択された行の文字数の総
和をMで割った値に、余りが出たときは「1」足した
値、つまり、それらの行を結合してつまり1行として表
示した場合の表示上の行数をKとする。
【0065】KがN未満である場合は、見出し行からの
選択を行う。タグを除いた部分の文字数の総和がM*
(N−K)に収まるように見出し行レジスタの先頭か
ら、つまり、元の行番号の小さい方から選ぶ。文字数の
総和がM*(N−K)以下である場合は、抽出した全て
の見出し行を選択する。
【0066】このようにして選択された行の文字数の総
和をMで割った値に、余りが出たときは1足した値、つ
まり、それらの行を結合してつまり1行として表示した
場合の表示上の行数をLとする。
【0067】なお、KWIC行レジスタからすでに選択
されている行は、見出し行からの選択においてその行を
選択しない。1文書の抄録として表示できる量は限られ
ているので、その文書の抄録として同じ箇所が複数回表
示されるのをさけ、できるだけ異なる箇所が表示される
ようにという配慮からである。
【0068】K+L<Nである場合は、冒頭行からの選
択を行う。文字数の総和がM*(N−K−L)に収まる
ように冒頭行を先頭から、つまり、元の行番号の小さい
方から選ぶ。冒頭行から選択する際、既にKWIC行あ
るいは見出し行から選択されている行については、選択
しない。
【0069】なお、クルーフレーズ行の選択は以下のよ
うに行う。クルーフレーズ行は文書全体の概要を示唆す
ることが多いので、抄録文書中の、各文書の文書タイト
ルの表示(通常この箇所をクリックすると原文書にリン
クジャンプするように、現文書へのリンクが埋め込まれ
ている)の後に表示するのが好適である。文書タイトル
の文字数をLとして、M−L程度にその文字数が収まる
ように、抽出したクルーフレーズ行を先頭つまりクルー
フレーズ行番号の小さいものから選ぶ。
【0070】このようにして選択したKWIC行、見出
し行、クルーフレーズ行と、タイトル行とに表示体裁を
整える為の若干のタグを付加して抄録文書に出力する。
以下、ある文書に対する抄録例をもとに上述した抄録処
理部14の処理を具体的に説明する。
【0071】図3は、抄録処理の対象となるHTML文
書の一具体例を示したものである。図3において、「<
…>」はHTMLのタグである。図4は、図3の文書の
標準的なブラウザによる表示例である。
【0072】図5は、図3に示したHTML文書に対し
前処理を施した段階での、各行を示している。説明の便
宜上、左端に行番号を付加している。図中5行目から1
7行目、あるいは25行から28行目などは、行の分割
がされた結果である。
【0073】この各行に対して、見出し行抽出、クルー
フレーズ行抽出、KWIC行抽出、および冒頭抽出を行
う。キーワード保持部12にはキーワードとして、例え
ば、「インターネット」および「イントラネット」の2
つが登録されているとする。
【0074】第1行は見出し相当を示すタグもなく、ク
ルーフレーズ、キーワードも存在しないので、見出し
行、クルーフレーズ行、KWIC行として抽出されな
い。タグを除去すると文字が残らないので、冒頭行とし
ても抽出されない。第1行はそのまま、KWIC文書に
出力される。
【0075】第2行は見出し相当を示すタグである「<
TITLE>」タグがあるので、タグを除いてタイトル
行レジスタに登録する。第2行はタイトル行なので、K
WIC行抽出、クルーフレーズ行抽出、見出し行抽出、
冒頭行抽出を行わない。第2行はそのまま、KWIC電
子化文書に出力される。
【0076】第3行から第19行は、タグのみからなる
部分なので、見出し行、クルーフレーズ行、KWIC行
として抽出されない。各行はそのまま、KWIC電子化
文書に出力される。
【0077】第20行はキーワード「インターネット」
を含むので、KWIC行カウンタをインクリメントし、
タグを除去した後、文字列「インターネット」の前後に
KWIC文書名とKWICカウンタ値をキーとするリン
クタグを挿入してKWICレジスタに登録する。
【0078】具体的には、例えば、KWIC文書の文書
名を「mod.html」として、「<A HREF
=”mod.html#KWIC1><B>」というタ
グと「</B></A>」というタグを文字列「インタ
ーネット」の前後に挿入して、KWIC行レジスタに登
録する。ここで「KWIC1」の「1」は、KWICカ
ウンタの値である。
【0079】第20行は前の行の<h1>タグのスコー
プであるので、見出し行カウンタをインクリメントし
て、タグ部分を取り除いた後、見出し行レジスタに登録
する。ここで、タグのスコープについて説明する。スコ
ープとは、あるタグが指示する表示形態等の指示が適用
される、文書中のHTML記述部分以外の文字列部分の
ことである。HTMLのタグにはスコープを持たないタ
グとスコープを持つタグの2種類が存在する。前者は、
例えば「<BR>」タグであり、これはその文書が表示
される際にその箇所で改行を促す効果がある。後者は、
例えば「<H1>…</H1>」タグであり、両者の間
の文字列を利用可能な最大のフォントで表示するように
指示するものである。後者のスコープを持つタグがHT
MLでは一般的であり、通常「<AAA>…</AAA
>」(AAAは文字列)という対応する2つのタグによ
って指定される。一般に前者を開始タグあるいはビギン
タグ、後者を終了タグあるいはエンドタグと呼ぶ。
【0080】このように、順次読み込まれる行が、以前
に読み込んだ行に含まれるHTMLビギンタグのスコー
プである場合がある。したがって、現在の行が以前読み
込んだ行に含まれるどのHTMLタグのスコープである
かを記憶しておき、適宜処理する必要がある。
【0081】また、読み込んだ行の途中にビギンタグや
エンドタグがある場合、ビギンタグの前およびエンドタ
グの後の文字列はそのタグのスコープではない。見出し
行抽出は、特定のタグのスコープにある文字列の抽出を
行うものであるので、スコープ以外の文字列は、同じ行
にあっても除外する。
【0082】この処理は、一般にSGMLパーザーある
いはHTMLパーザーと呼ばれる既存のパージング、つ
まり構文解析技術によって実現されているので、詳述し
ない。
【0083】本論に戻る。図5の第20行は、また冒頭
行として、冒頭行カウンタをインクリメントして、タグ
部分を取り除いた後、冒頭行レジスタに登録する。
【0084】さて、第20行はKWIC行だったので、
キーワード「インターネット」の前後に「<A NAM
E=”KWIC1”><STRONG>」、「</ST
RONG>」というタグを挿入して、KWIC電子化文
書に出力する。「KWIC1」の「1」は、KWIC行
カウンタの値である。
【0085】第21行はキーワード「イントラネット」
を含むので、KWIC号カウンタをインクリメントし、
タグを除去した後、文字列「イントラネット」の前後に
KWICカウンタ値をキーとするリンクタグを挿入して
KWICレジスタに登録する。具体的には、KWIC文
書の文書名を「aaa.html」として、「<AHR
EF=”aaa.html#KWIC2><B>」とい
うタグと「</B></A>」というタグを文字列「イ
ンターネット」の前後に挿入して、KWIC行レジスタ
に登録する。ここで「KWIC2」の「2」は、KWI
Cカウンタの値である。
【0086】第21行は前の行の<h1>タグのスコー
プであるので、見出し行カウンタをインクリメントし
て、タグ部分を取り除いた後、見出し行レジスタに登録
する。第21行はまた冒頭行として、冒頭行カウンタを
インクリメントして、タグ部分を取り除いた後、冒頭行
レジスタに登録する。
【0087】さて、第21行はKWIC行だったので、
キーワード「イントラネット」の前後に「<A NAM
E=”KWIC2”><STRONG>」、「</ST
RONG>」というタグを挿入して、KWIC電子化文
書に出力する。「KWIC2」の「2」は、KWIC行
カウンタの値である。
【0088】このようにして全ての行を処理した後の、
KWICレジスタ、見出し行レジスタおよび冒頭行レジ
スタの内容の一例をそれぞれ、図8、図9、図10に示
す。図8〜図10の第1欄はそれぞれ、KWIC行番
号、見出し行番号、冒頭行番号で、第2欄は、その行の
元文書中の行番号である。
【0089】なお、この文書にはクルーフレーズが出現
しなかったので、クルーフレーズレジスタは空である。
また、KWIC電子化文書は、図6のようになる。この
文書は、標準的なブラウザでは、図7のように表示され
る。図4の元文書に比べて、キーワード「インターネッ
ト」および「イントラネット」がゴジックで表示される
ようになっていることがわかる。
【0090】次に、出力調整処理について述べる。な
お、標準的なブラウザの標準的にフォントによる表示に
よって表示可能な1行の文字数を63文字とし、また1
文書の抄録として提示する行数を15行とする。なお、
日本語全角文字はアスキー文字2字分として数える。
【0091】KWIC行レジスタに登録された行のタグ
を除いた文字数は463であり、63*15以下なの
で、その全てが選択される。463/63=7余り22
なので、これらの表示に要する行数Kは8である。
【0092】次に見出し行からの選択が行われる。見出
し行番号2、3の行はKWIC行として既に選択されて
いるので、選択しない。残りの行のタグ部分を除いた文
字数の総和は50であり、50<63*(15−8)な
ので、残りの行の全て、つまり、見出し行番号4、5、
6の行が選択される。50/63=0余り50なので、
これらの表示に要する行数Lは1である。
【0093】次に冒頭行からの選択が行われる。既にK
WIC行あるいは見出し行として選択された行を飛ばし
て、文字数が63*(15−8−1)未満に収まるよう
に行を選択すると、冒頭行番号4、7、9、10の4行
が選択される。
【0094】これら選択した行とタイトル行に表示体裁
を整えるためのタグを付加して、抄録文書として出力し
たものが、図11である。これは、ブラウザでは、例え
ば、図12のように表示される。
【0095】図12において、第1行目は抽出したタイ
トル行である。この箇所をクリックすると、KWIC文
書に表示が変更されるように、リングが埋め込まれてい
る。また、選択されたKWIC行、見出し行および冒頭
行はそれぞれ、「KWIC」、「見出し」、「冒頭文字
列」という見出しをつけて表示されている。選択された
各行は、記号「/」を介して1行に接続して表示してい
る。これは限られたスペースで多くの文字を表示するた
めにとった体裁である。もちろん、各行毎に改行して、
別の行として表示することも考えられる。
【0096】図12の表示のなかで、太字で表示されて
いる「インターネット」や「イントラネット」は、クリ
ッカブルになっていて、KWIC文書の対応する箇所へ
のリンクが埋め込まれている。例えば、5行目の「イン
トラネット」という文字部分にマウスカーソルをもって
いき、マウスボタンをおす、つまりクリックすると、こ
の箇所には<A HREF=”mod.html#kw
ic5”>というリンクが埋め込まれており、ファイル
名mod.htmlつまりKWIC文書の中の、<A
NAME=”kwic5”>というタグが埋め込まれた
箇所に表示が即座に変更される。つまり、図14のよう
に表示が変更する。
【0097】このようにして、抄録文書中のKWIC表
示から、そのKWIC箇所に対応する原文の該当箇所に
即座に表示を変更することができる。なお、本実施形態
では、クルーフレーズが出現しなかったが、存在した場
合には、タイトル行の後に出力するのが好ましい。
【0098】また本実施形態では、同じ行がKWIC行
と見出し行の両方で抽出された場合、KWIC行として
表示しているが、見出し行として表示することも考えら
れる。その場合の表示例を図13に示す。
【0099】また、本実施形態のバリエーションとし
て、発見したキーワードのKWICとしてその行を出す
のではなく、そのキーワードの前の一定数の文字とその
キーワードの後の一定数の文字を出すというものも考え
られる。
【0100】この場合、キーワードが行末に近い位置に
あった場合は、その行の末尾と次の行の先頭部分の文字
を表示することになる。キーワードが行頭に近い位置に
あった場合は、前の行の末尾とその行の前半とを表示す
ることになる。
【0101】さらに、キーワードの後方あるいは前方の
KWICとして表示する文字列を、句点など文の終わり
や区切りを示す記号までの文字列とすることも考えられ
る。 (第2の実施形態)第1の実施形態で説明した抄録作成
装置11は、具体的には検索サーバあるいは検索クライ
アントの内部に一モジュールとして実装される。
【0102】次に、本発明の第2の実施形態として、図
1の抄録作成装置が検索クライアントの内部に実装され
て電子化文書処理装置を構成する場合について説明す
る。図15に、第2の実施形態に係る検索クライアント
の構成例を概略的に示す。なお、図15に示した検索ク
ライアントは、例えば図16に示したようなネットワー
ク環境での利用を前提にしている。
【0103】図15において、検索クライアント装置3
0は、図1の文書保存部13、キーワード保持部12、
抄録処理部14に加え、さらに、電子化文書表示処理部
16、ディスプレイ18、キーボード20、マウス1
9、入力部17、通信部15とから構成される。なお、
図1と同一部分には同一符号を付し、点線で囲ってあ
る。以降この部分を抄録作成部11と呼ぶことにする。
【0104】文書保存部13は、抄録の対象となる複数
の電子化文書、それらがKWIC表示用に改変されたも
の、および作成された抄録文書の3つの他に、他の検索
サーバから送られてきた検索結果であるところの、ラン
キングされた電子化文書の名前とネットワーク上の所在
情報とその抄録とからなる検索結果をも保存する。
【0105】電子化文書表示処理部16は、前述したブ
ラウザに相当するものである。キーボード20、マウス
19については特に説明を要するような事柄はない。入
力部17はキーボードやマウスからの入力を通信部1
5、キーワード保持部13等に伝達する処理部であり、
OSの一部である。特に説明を要するような事柄はな
い。
【0106】ディスプレイ18は普通のCRT等であれ
ばよく、特に説明を要するようなことはない。通信部1
5は、インターネットあるいはLAN等のネットワーク
と接続しており、例えば、前述したHTTPやFTPプ
ロトコルによって情報の授受が可能になっている。
【0107】次に、図17に示すフローチャートを参照
して、図15に示した検索クライアント装置の全体の処
理動作について説明する。システムはまず、適当なプロ
ンプトあるいは画面を提示して、ユーザから検索キーワ
ードを所得し、キーワード保持部12に登録する(ステ
ップS20)。検索キーワード以外に、それらの検索条
件(AND検索、OR検索など)や、検索対象とする文
書の範囲(国内か国外か、期間など)や、検索を要求す
る検索サーバの指定を、ユーザから受け付ける。もちろ
んこれらはデフォルト値を設定しておいて、ユーザから
の変更指定があった場合のみ、その情報を変更するとい
うのが実際的である。
【0108】次にシステムは、インターネットを介して
検索サーバに検索要求を送出する(ステップS21)。
具体的には、検索のキーワード、対象分野や対象文書の
種類、期間の情報を所定の形式で送出する。これは、各
検索サーバに固有のフォーマットがあるので、各検索サ
ーバ毎に、そのフォーマットにあうように修正されてH
TTPによって送出される。
【0109】次に、検索サーバから送られてきた検索結
果を文書保存部13に保持する(ステップS22)。図
18(a)に、検索サーバから送られていた検索結果の
例を示す。このHTML文書は、ブラウザによる通常の
表示では図18(b)のように表示される。
【0110】次に、検索結果にランキングされたWEB
文書をそれらが存在する各サイトからダウンロードする
(ステップS23)。ダウンロードされたWEB文書
は、文書保持部13に保持される。
【0111】次に抄録作成部11は、第1の実施形態で
説明した手法で、キーワード保持部12に保持されたキ
ーワードを利用して各文書の抄録を作成する。同時に、
KWIC表示用のKWIC電子化文書を生成する(ステ
ップS24)。各文書毎に作成した抄録を集めて、1つ
の抄録文書とする(ステップS25)。
【0112】図19に作成された抄録文書の例を示す。
このHTML文書は、ブラウザによって図20のように
表示される。ユーザは抄録文書を読み、場合によっては
KWIC文書を参照する。このためGUIは電子化文書
表示処理部16、つまりブラウザが処理する。
【0113】以上が抄録作成部11を含んだ検索クライ
アント装置30の動作の概略である。上述した検索クラ
イアント装置30のバリエーションとして、以下のよう
なものも考えられる。
【0114】例えば、図21に示すように、図15の構
成に、さらに検索結果マージ部25という処理部を加え
た検索クライアント装置40が考えられる。図21の検
索クライアント装置40は、キーワード取得後、複数の
検索サーバに、検索要求を送信し、受信した複数の検索
結果を文書保持部13に保持する。
【0115】次に、検索結果マージ部25は、これらの
検索結果をマージして1つの記事ランキングを生成す
る。マージの仕方にはいろいろある。例えば、複数の検
索結果に含まれる記事はより上位にランキングするか、
あるいはランキングの平均を取る、といったことが考え
られる。あるいは、文書が作成・登録された時期がより
最近のものを優先する、などが考えられる。これによっ
て、より精度の高い記事ランキングを得ることができ
る。
【0116】以降の処理は、前述同様である。なお、マ
ージされたランキングに従って全ての文書の抄録を作成
するように抄録処理部14の処理を説明したが、検索サ
ーバによっては、検索された各文書について、人手によ
って作成された抄録を添付して、検索結果として送信し
てくるサーバもある。そのようなサーバからの検索結果
に含まれる文書がマージ後のランキングに含まれる場合
は、その文書については新たに抄録を作成せず送られて
きた抄録をそのまま抄録として表示し、そうでない文書
についてのみ、抄録を生成するという方式も考えられ
る。
【0117】また、別のバリエーションとして、以下の
ようなものも考えられる。これは、検索されたページが
サブページである場合、トップページからそのページに
至るまでの中間ページのタイトルや章節見出しを階層的
に表示する、というものである。
【0118】この処理は、まず、検索されたページから
トップページに至るまでの中間ページを取得する。その
方法は以下の通りである。検索されたページの中(特に
末尾)に「…へ戻る」というリンクがあった場合、それ
は上位のページ、あるいはトップページを示している。
そのページをダウンロードし、それがトップページでな
い場合は、そのページに対して、同様の処理を行う。こ
のようにして、トップページに辿り着くまで「…戻る」
というリンクを辿っていく。
【0119】あるいは、そのページの中に埋め込まれた
リンクの飛び先の文書の所在情報(URL)に含まれる
ディレクトリ数が、現在のページのURLのディレクト
リ数より少ない場合、そのページは一般的により上位の
階層のページであると判断できる。このようにして、よ
り上位のページを検出することができる。
【0120】トップページであるかどうかの判定は、U
RLのアドレスからヒューリスティカルに判定できる。
通常トップページのURLは「http://aa.b
bb」あるいは、「http://aaa.bbb/i
ndex.html」といった形をしている。ここで、
「bbb」は、日本国内のもので、企業なら「co.j
p」、大学なら「ad.jp」、公的組織なら「or.
jp」といったように、決められている。
【0121】サブページは「http://aaa.b
bb/ccc/ddd/eee.html」といった形
をしている。一般に、「/…/」で区切られた領域をデ
ィレクトリという。上の例では、サブページのURL
は、トップページのURLから2ディレクトリ分下位に
位置していることがわかる。
【0122】トップページまで辿り着いた場合、各ペー
ジのタイトルとページ中のリンクが所在した箇所が属す
る章節見出しを、上位ページのものから順に抽出する。
解析例を図22を参照して説明する。図22(a)は検
索されたページ、図22(b)は図22(a)の1レベ
ル上位のページ、図22(c)は22(b)の1レベル
上位のページ、図22(d)は図22(c)の1レベル
上位のページ、図22(e)は図22(d)の1レベル
上位のページであり、トップページ(ホームページ)で
ある。
【0123】図22(a)に示したHTML文書の末尾
に「Memory Indexに戻る」とあり、そのリ
ンク先が図22(b)に示したHTML文書である。同
様に、図22(b)示したHTML文書の末尾に「メモ
リ対応機種選択に戻る」とあり、そのリンク先が図22
(c)に示したHTML文書である。このようにして、
1つずつ上位のページを辿っていくことにより、トップ
ページである図22(e)に示したHTML文書に到着
する。
【0124】図22(b)では、「…へ戻る」が複数あ
り、各階層へのリンクが存在している。このような場
合、1階層上位のページがどれであるか判定する必要が
起きるが、各々のリンク先のURLのアドレスに含まれ
るディレクトリの個数(深さ)を比較することにより、
ヒューリスティカルに判定することができる。一般にデ
ィレクトリの個数が少ないものほど、より上位のページ
である。
【0125】さて、このようにして得られた階層的なペ
ージについて、各ページのタイトル、つまり<TITL
E>…</TITLE>の部分の文字列を抽出して、階
層的に表示したものが、図23である。検索されたペー
ジの抄録の中にこのような情報を提示することにより、
検索されたページのコンテキスト(周囲のページとの関
係)がわかり、そのページの概要の把握に役に立つ。こ
の階層表示の各々について、それをクリックするとその
文字列がタイトルとなっている中間ページに表示文書が
変更するように、リンクを埋め込むことも有用である。
【0126】さて、各ページからタイトルを抽出する代
わりに、各ページについてサブページに飛ぶリンクが貼
り付けられた文字列(クリッカブルになっているとこ
ろ)と、<H1>…</H1>タグなどでマークアップ
されていて見出し相当と判断される文字列のうちそのリ
ンクに最も近いものとを抽出して表示したものが、図2
4である。この表示も図23の場合と同様の効果があ
る。
【0127】(第3の実施形態)次に、本発明の第3の
実施形態として図1の抄録作成装置11がイントラネッ
ト文書検索サーバと呼ばれる検索サーバの内部に具備さ
れている場合について説明する。
【0128】図25にイントラネット文書検索サーバ5
0の要部の構成例を示す。このイントラネット文書検索
サーバは、図26に示すようにイントラネットと呼ばれ
るLAN内部のHTTPサーバ上に設置される。
【0129】図25では、図1と同一部分には同一符号
を付し、異なる部分について説明する。すなわち、図1
の文書保存部13、キーワード保持部12、抄録処理部
14に加え、さらに、通信部15、インデクスファイル
作成部51、インデックスファイル格納部52、検索部
53、文書収集部54から構成されている。それ以外の
構成部は通常の検索サーバと同じ構成である。
【0130】文書保存部13には、イントラネット内部
の文書つまり社内の文書とインターネット文書のうち、
著作権的に問題のない文書のコピーが保管される。文書
収集部54は、定期的に社内および社外のインターネッ
ト文書を収拾し、保管されている文書をアップデートす
る。この収拾のための処理は通常ロボットと呼ばれてい
る。
【0131】イントラネット文書検索サーバ50は、文
書保存部13に収集されたイントラネット文書を高速に
検索するものであり、通常キーワード検索しやすいよう
にインデックスファイル作成部51ではインデックスフ
ァイルを作成して、インデックスファイル格納部52に
保持している。
【0132】文書保存部13にはまた、検索された文書
の抄録文書とKWIC文書とが保存される。通信部15
は、HTTPサーバあるいはPROXYサーバとの通信
を行う。
【0133】キーワード保持部12には、ユーザから送
られてきた検索要求に含まれるキーワード等が保持され
る。検索部53は、キーワード保持部12に保管された
キーワードなどの検索条件に基づいてインデックスファ
イルを検索し、検索する。
【0134】図25のイントラネット文書検索サーバ5
0の処理動作について、以下説明する。クライアントか
らの検索要求はHTTPサーバでまず受理され、検索対
象が社内文書である場合は、HTTP上の検索サーバが
起動され、検索される。検索結果の文書は文書保存部1
3から直ちに取り出され、抄録処理部14によって、そ
の抄録が作成され、クライアントにランキングと作成さ
れた抄録が送出される。
【0135】クライアントからの検索要求で、検索対象
が社内文書でない場合は、その検索要求はHTTPサー
バから社外の各検索サーバに再転送される。以降の処理
は第1の実施形態の説明とほぼ同様である。異なる部分
は、検索結果のマージ処理や抄録作成処理がクライアン
トのPC上でなく、HTTP上でなされるという点であ
る。
【0136】このように、イントラネットにおいては、
社内の全WEBページのコピーを保持しておくことがで
きるので、検索サーバの側に抄録処理を備えることがで
きる。またこの場合、検索結果に含まれる各文書をその
文書が存在する場所からダウンロードしてくる処理を省
くことができるので、抄録作成処理を検索処理の後、直
ちに行うことができる。従って、ユーザへの抄録の提示
をより高速に行うことができる。
【0137】
【発明の効果】電子化文書の抄録作成をクライアント端
末あるいはイントラネット内部の検索サーバ上でおこな
うことにより、検索された電子化文書からキーワードを
抽出して抄録を作成する際の処理の分散化と、その抄録
中の所定箇所と元文書へのリンクを張るための元文書の
改変が容易に行える。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る抄録作成装置の
構成例を示した図。
【図2】抄録作成処理の概略手順を説明するためのフロ
ーチャート。
【図3】抄録処理の対象となるHTML文書の一具体例
を示した図。
【図4】図3のHTML文書の標準的なブラウザによる
表示例を示した図。
【図5】図3に示したHTML文書に対し前処理を施し
た結果の一例を示した図。
【図6】KWIC電子化文書の一例を示した図。
【図7】図6のKWIC電子化文書の標準的なブラウザ
による表示例を示した図。
【図8】KWIC行レジスタに格納されるデータの一例
を示した図。
【図9】見出し行レジスタに格納されるデータの一例を
示した図。
【図10】冒頭行レジスタに格納されるデータの一例を
示した図。
【図11】抄録文書の一例を示した図。
【図12】図11の抄録文書の標準的なブラウザによる
表示例を示した図。
【図13】抄録文書の標準的なブラウザによる他の表示
例を示した図。
【図14】図12の抄録文書にリンクされたKWIC文
書の表示例を示した図。
【図15】本発明の第2の実施形態に係る電子化文書処
理装置(検索クライアント)の構成例を示した図。
【図16】図15の検索クライアントのネットワーク環
境の一例を示した図。
【図17】図15の検索クライアントの抄録作成処理手
順を説明するためのフローチャート。
【図18】検索サーバから送られていた検索結果、およ
び、ブラウザによる表示例を示した図。
【図19】抄録文書の一例を示した図。
【図20】図19に示した抄録文書のブラウザによる表
示例を示した図。
【図21】電子化文書処理装置(検索クライアント)の
他の構成例を示した図。
【図22】検索された電子化文書(サブページ)から、
それにリンクされたホームページまでの階層的なページ
の検索方法について説明するための図。
【図23】検索された階層的なページの表示例(各ペー
ジから抽出されたページタイトルの表示)を示した図。
【図24】検索された階層的なページの表示例(各ペー
ジから抽出された見出し相当の文字列の表示)を示した
図。
【図25】本発明の第3の実施液体に係る電子化文書作
成装置(イントラネット文書検索サーバ)の構成例を示
した図。
【図26】図25の電子化文書作成装置のネットワーク
環境例を示した図。
【符号の説明】
11…抄録作成装置 12…キーワード保持部 13…文書保持部 14…抄録処理部 15…通信部 16…電子化文書表示処理装置 17…入力部 30…電子化文書処理装置(検索クライアント) 50…電子化文書処理装置(イントラネット文書検索サ
ーバ)
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平4−18673(JP,A) 特開 平4−169971(JP,A) 特開 平4−281566(JP,A) 特開 平7−129605(JP,A) 伊藤,木下,小山,菊地,インターネ ット高速全文検索登録ソフトウェア”P anaSearch/Web”,Nat ional TECHNICAL RE PORT,日本,1996年10月18日,第42 巻 第5号,第104−109頁 野口,佐藤,上野,墨田,石川,検索 型ナビゲーションを実現したホームペー ジ知的検索システムの開発,情報処理学 学シンポジウム論文集,日本,1996年12 月 5日,第96巻 第11号,第91−96頁 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 17/21 JICSTファイル(JOIS)

Claims (3)

    (57)【特許請求の範囲】
  1. 【請求項1】 ユーザにより入力された検索情報に基づ
    き検索されて、所定のネットワークを介して転送されて
    きた電子化文書を記憶する文書記憶手段と、 前記検索情報に含まれているキーワードを保存するキー
    ワード記憶手段と、 前記文書記憶手段で記憶された電子化文書から少なくと
    も前記キーワード記憶手段で記憶されたキーワードを含
    む文字列を抽出するとともに、該抽出した文字列に前記
    電子化文書中の該キーワードの存在位置へリンクするた
    めのタグを挿入して抄録を作成する抄録作成手段と、 前記電子化文書を前記抄録に関連付けて表示可能なよう
    に、前記電子化文書中の前記キーワードの存在位置に、
    前記抄録中の前記キーワードにリンクするためのタグを
    挿入して該電子化文書を改変する文書改変手段と、 この文書改変手段で改変された電子化文書を記憶する改
    変文書記憶手段とを具備し、 前記抄録作成手段で作成された抄録を提示して、その提
    示された抄録中のユーザにより指示されたキーワードに
    リンクした前記改変された電子化文書を前記改変文書記
    憶手段から読み出し、少なくとも前記改変された電子化
    文書中の前記抄録にリンクした箇所を提示することを特
    徴とする電子化文書処理装置。
  2. 【請求項2】 ユーザにより入力された検索情報に基づ
    き検索されて、所定のネットワークを介して転送されて
    きた電子化文書が複数あるとき、そのそれぞれについて
    作成された複数の抄録から1つの抄録を作成することを
    特徴とする請求項1記載の電子化文書処理装置。
  3. 【請求項3】 前記電子化文書はHTML(Hyper
    Text Markup Language)文書で
    あることを特徴とする請求項1記載の電子化文書処理装
    置。
JP01939397A 1997-01-31 1997-01-31 電子化文書処理装置 Expired - Fee Related JP3270351B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP01939397A JP3270351B2 (ja) 1997-01-31 1997-01-31 電子化文書処理装置
US09/016,488 US6742163B1 (en) 1997-01-31 1998-01-30 Displaying multiple document abstracts in a single hyperlinked abstract, and their modified source documents
US10/782,765 US7065708B2 (en) 1997-01-31 2004-02-23 Displaying multiple ranked document abstracts in a single hyperlinked abstract, and their modified source documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01939397A JP3270351B2 (ja) 1997-01-31 1997-01-31 電子化文書処理装置

Publications (2)

Publication Number Publication Date
JPH10222520A JPH10222520A (ja) 1998-08-21
JP3270351B2 true JP3270351B2 (ja) 2002-04-02

Family

ID=11998048

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01939397A Expired - Fee Related JP3270351B2 (ja) 1997-01-31 1997-01-31 電子化文書処理装置

Country Status (2)

Country Link
US (2) US6742163B1 (ja)
JP (1) JP3270351B2 (ja)

Families Citing this family (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6802042B2 (en) * 1999-06-01 2004-10-05 Yodlee.Com, Inc. Method and apparatus for providing calculated and solution-oriented personalized summary-reports to a user through a single user-interface
US7844594B1 (en) * 1999-06-18 2010-11-30 Surfwax, Inc. Information search, retrieval and distillation into knowledge objects
JP2001022788A (ja) * 1999-07-13 2001-01-26 Nec Corp 情報検索装置および情報検索プログラムを記録した記録媒体
US7340464B2 (en) * 2000-03-10 2008-03-04 General Electric Company Method for automated web site maintenance via searching
US7900130B1 (en) * 2000-05-26 2011-03-01 Libredigital, Inc. Method, system and computer program product for embedding a hyperlink within a version of a paper
US6990496B1 (en) * 2000-07-26 2006-01-24 Koninklijke Philips Electronics N.V. System and method for automated classification of text by time slicing
US7478089B2 (en) * 2003-10-29 2009-01-13 Kontera Technologies, Inc. System and method for real-time web page context analysis for the real-time insertion of textual markup objects and dynamic content
US7451099B2 (en) * 2000-08-30 2008-11-11 Kontera Technologies, Inc. Dynamic document context mark-up technique implemented over a computer network
US7284008B2 (en) * 2000-08-30 2007-10-16 Kontera Technologies, Inc. Dynamic document context mark-up technique implemented over a computer network
JP4293721B2 (ja) * 2000-10-13 2009-07-08 富士通株式会社 携帯電子ビューワシステム
US7155491B1 (en) 2000-11-13 2006-12-26 Websidestory, Inc. Indirect address rewriting
US7426687B1 (en) 2001-01-04 2008-09-16 Omniture, Inc. Automatic linking of documents
US20020152238A1 (en) * 2001-04-17 2002-10-17 Hayes Todd R. System and method to provide information corresponding to hyperlinked text in an online HTML document
JP4729736B2 (ja) * 2001-07-27 2011-07-20 学校法人日本大学 インターネット検索結果修飾装置及びプログラム
CN1167027C (zh) * 2001-08-03 2004-09-15 富士通株式会社 格式文档中的信息的抽取装置及抽取方法
US20040205666A1 (en) * 2001-10-05 2004-10-14 Poynor Todd Allan System and method for anticipated file editing
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
JP4208484B2 (ja) * 2002-05-23 2009-01-14 シャープ株式会社 情報処理方法、情報処理システム、情報取得装置、コンピュータプログラム、及び記録媒体
US20040044958A1 (en) * 2002-08-27 2004-03-04 Wolf John P. Systems and methods for inserting a metadata tag in a document
US9280603B2 (en) * 2002-09-17 2016-03-08 Yahoo! Inc. Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US7194693B2 (en) * 2002-10-29 2007-03-20 International Business Machines Corporation Apparatus and method for automatically highlighting text in an electronic document
JP4243958B2 (ja) * 2003-01-30 2009-03-25 株式会社リコー 文書検索装置、プログラム、及び記録媒体
US20050154737A1 (en) * 2003-12-29 2005-07-14 O'donnell Michael Clipping service for licensable works of authorship
JP2005301502A (ja) * 2004-04-08 2005-10-27 Simple Create:Kk 広告システム、端末装置、および端末装置用プログラム
US20060101012A1 (en) * 2004-11-11 2006-05-11 Chad Carson Search system presenting active abstracts including linked terms
US7606794B2 (en) * 2004-11-11 2009-10-20 Yahoo! Inc. Active Abstracts
US20060218173A1 (en) * 2005-03-22 2006-09-28 International Business Machines Corporation Method, system, and program product for invention mining
JP4238849B2 (ja) * 2005-06-30 2009-03-18 カシオ計算機株式会社 Webページ閲覧装置、Webページ閲覧方法、及びWebページ閲覧処理プログラム
US20070087214A1 (en) * 2005-10-14 2007-04-19 Portnoy Robert C Methods for stretch blow molding polymeric articles
US8250061B2 (en) * 2006-01-30 2012-08-21 Yahoo! Inc. Learning retrieval functions incorporating query differentiation for information retrieval
US20100138451A1 (en) * 2006-04-03 2010-06-03 Assaf Henkin Techniques for facilitating on-line contextual analysis and advertising
EP2054789A4 (en) * 2006-04-03 2013-01-16 Kontera Technologies Inc IN MOBILE DEVICES IMPLEMENTED CONTEXTUAL ADVERTISING TECHNIQUES
US8688992B2 (en) * 2006-11-02 2014-04-01 Recombo, Inc. System and method for generating agreements
US20080172597A1 (en) * 2007-01-16 2008-07-17 Siemens Medical Solutions Usa, Inc. Data Field Referencing Text Processing System
US20080195599A1 (en) * 2007-02-14 2008-08-14 Zh Computer, Inc. Hyperlink content abstraction
US20090164949A1 (en) * 2007-12-20 2009-06-25 Kontera Technologies, Inc. Hybrid Contextual Advertising Technique
US8984398B2 (en) * 2008-08-28 2015-03-17 Yahoo! Inc. Generation of search result abstracts
JP5317638B2 (ja) * 2008-11-13 2013-10-16 日本電信電話株式会社 Web文書主要コンテンツ抽出装置及びプログラム
JP5341672B2 (ja) * 2009-08-21 2013-11-13 キヤノン株式会社 データ処理装置、データ処理方法、および、プログラム
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US9336184B2 (en) 2010-12-17 2016-05-10 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9104992B2 (en) 2010-12-17 2015-08-11 Microsoft Technology Licensing, Llc Business application publication
US9024952B2 (en) 2010-12-17 2015-05-05 Microsoft Technology Licensing, Inc. Discovering and configuring representations of data via an insight taxonomy
US9304672B2 (en) 2010-12-17 2016-04-05 Microsoft Technology Licensing, Llc Representation of an interactive document as a graph of entities
US9069557B2 (en) 2010-12-17 2015-06-30 Microsoft Technology Licensing, LLP Business intelligence document
US9864966B2 (en) 2010-12-17 2018-01-09 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9110957B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data mining in a business intelligence document
US9171272B2 (en) 2010-12-17 2015-10-27 Microsoft Technology Licensing, LLP Automated generation of analytic and visual behavior
US9111238B2 (en) 2010-12-17 2015-08-18 Microsoft Technology Licensing, Llc Data feed having customizable analytic and visual behavior
US9805039B2 (en) * 2012-11-27 2017-10-31 Yoav Shalom Namir Method and system for archiving a document
US9325711B2 (en) 2012-12-11 2016-04-26 Servmax, Inc. Apparatus and data processing systems for accessing an object
CN106294372B (zh) * 2015-05-15 2019-06-25 阿里巴巴集团控股有限公司 应用程序页面快速访问方法及应用其的移动终端
JP6717909B2 (ja) * 2018-10-02 2020-07-08 テクマトリックス株式会社 要約生成サーバ、要約生成システム及び要約生成方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JP2783558B2 (ja) * 1988-09-30 1998-08-06 株式会社東芝 要約生成方法および要約生成装置
US5050071A (en) * 1988-11-04 1991-09-17 Harris Edward S Text retrieval method for texts created by external application programs
JPH0418673A (ja) * 1990-05-11 1992-01-22 Hitachi Ltd テキスト情報抽出方法および装置
JP2831837B2 (ja) * 1990-11-02 1998-12-02 株式会社東芝 文書検索装置
JP2937521B2 (ja) * 1991-03-08 1999-08-23 株式会社東芝 文書検索装置
JPH05101102A (ja) 1991-10-03 1993-04-23 Matsushita Electric Ind Co Ltd 検索装置
US5384703A (en) * 1993-07-02 1995-01-24 Xerox Corporation Method and apparatus for summarizing documents according to theme
JP3383049B2 (ja) * 1993-09-13 2003-03-04 株式会社東芝 文書検索装置
JPH07249042A (ja) 1994-03-08 1995-09-26 Fuji Xerox Co Ltd 文書処理装置
JPH0855132A (ja) 1994-08-16 1996-02-27 Nippon Telegr & Teleph Corp <Ntt> テキスト検索結果提示方法およびテキスト検索装置
GB9426165D0 (en) * 1994-12-23 1995-02-22 Anthony Andre C Method of retrieving and displaying data
US5946678A (en) * 1995-01-11 1999-08-31 Philips Electronics North America Corporation User interface for document retrieval
JPH08255172A (ja) 1995-03-16 1996-10-01 Toshiba Corp 文書検索システム
JP3571408B2 (ja) * 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US5963205A (en) * 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5768580A (en) * 1995-05-31 1998-06-16 Oracle Corporation Methods and apparatus for dynamic classification of discourse
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5778397A (en) * 1995-06-28 1998-07-07 Xerox Corporation Automatic method of generating feature probabilities for automatic extracting summarization
US5867164A (en) * 1995-09-29 1999-02-02 Apple Computer, Inc. Interactive document summarization
JP3612125B2 (ja) 1995-12-14 2005-01-19 株式会社東芝 情報フィルタリング方法および情報フィルタリング装置
US5924108A (en) * 1996-03-29 1999-07-13 Microsoft Corporation Document summarizer for word processors
US5873107A (en) * 1996-03-29 1999-02-16 Apple Computer, Inc. System for automatically retrieving information relevant to text being authored
EP0810534B1 (en) * 1996-05-13 2003-03-19 Oki Electric Industry Co., Ltd. Document display system and electronic dictionary
US6374237B1 (en) * 1996-12-24 2002-04-16 Intel Corporation Data set selection based upon user profile
US5960383A (en) * 1997-02-25 1999-09-28 Digital Equipment Corporation Extraction of key sections from texts using automatic indexing techniques
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
US6345284B1 (en) * 1997-06-06 2002-02-05 Netscape Communications Corporation Extraction and tagging control palette
US5933822A (en) 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6230168B1 (en) * 1997-11-26 2001-05-08 International Business Machines Corp. Method for automatically constructing contexts in a hypertext collection
US6199077B1 (en) * 1998-12-08 2001-03-06 Yodlee.Com, Inc. Server-side web summary generation and presentation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
伊藤,木下,小山,菊地,インターネット高速全文検索登録ソフトウェア"PanaSearch/Web",National TECHNICAL REPORT,日本,1996年10月18日,第42巻 第5号,第104−109頁
野口,佐藤,上野,墨田,石川,検索型ナビゲーションを実現したホームページ知的検索システムの開発,情報処理学学シンポジウム論文集,日本,1996年12月 5日,第96巻 第11号,第91−96頁

Also Published As

Publication number Publication date
US20040162842A1 (en) 2004-08-19
US6742163B1 (en) 2004-05-25
JPH10222520A (ja) 1998-08-21
US7065708B2 (en) 2006-06-20

Similar Documents

Publication Publication Date Title
JP3270351B2 (ja) 電子化文書処理装置
US6021416A (en) Dynamic source code capture for a selected region of a display
CN1104696C (zh) 自动添加信息的超级文本链接接收文件的系统和方法
JP4574356B2 (ja) 電子的ドキュメントレポジトリーマネジメントおよびアクセスシステム
US6094649A (en) Keyword searches of structured databases
US6223178B1 (en) Subscription and internet advertising via searched and updated bookmark sets
US5892908A (en) Method of extracting network information
US7653870B1 (en) System and method of dynamically generating index information
US7809710B2 (en) System and method for extracting content for submission to a search engine
US6073170A (en) Information filtering device and information filtering method
US7062707B1 (en) System and method of providing multiple items of index information for a single data object
EP1072984A2 (en) Method and system for providing native language query service
EP2273390A1 (en) Client-server application development and deployment system
JP2010541074A (ja) 検索結果ページ上に対話要素を含めるためのシステム及び方法
JPH1153392A (ja) 情報フィルタリング装置および同装置に適用される関連情報提供方法
US20030110210A1 (en) Information communication system
KR100455439B1 (ko) 인터넷 자원의 도메인화와 확장 사이트맵을 이용한정보검색 및 브라우징방법
JP2003233618A (ja) 横断検索方法,及び、横断検索プログラム
JPH10143541A (ja) 情報フィルタリング装置および情報フィルタリング方法
US7124126B1 (en) Information retrieval apparatus and recording medium having an information retrieval program recorded
JP4417497B2 (ja) 情報検索装置及びプログラムを記憶した記憶媒体
JP2002015005A (ja) 情報提供方法及びシステム
JP2001075859A (ja) 情報巡回獲得装置
JP2001084169A (ja) 文書データベースアクセス装置
KR20010082966A (ko) 관련 웹 사이트 제공 방법 및 시스템

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080118

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090118

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100118

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110118

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120118

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130118

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140118

Year of fee payment: 12

LAPS Cancellation because of no payment of annual fees