JP3270351B2

JP3270351B2 - 電子化文書処理装置

Info

Publication number: JP3270351B2
Application number: JP01939397A
Authority: JP
Inventors: 顕司小野; 秀樹平川; 一男住田
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1997-01-31
Filing date: 1997-01-31
Publication date: 2002-04-02
Anticipated expiration: 2017-01-31
Also published as: US20040162842A1; US6742163B1; JPH10222520A; US7065708B2

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ネットワークを介
してキーワード等を送信して取得した電子化文書を抄録
する電子化文書処理装置に関する。

【０００２】

【従来の技術】近年、インターネットの普及に伴い、世
界中に存在するインターネットに接続されている計算機
に格納されている情報を簡単にアクセスできるようにな
ってきている。特に、ＷＷＷ（ＷｏｒｌｄＷｉｄｅ
Ｗｅｂ）は、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａ
ｎｓｆｅｒＰｒｏｔｏｃｏｌ）を用いることにより、
利用者が世界中の情報をＧＵＩベースのブラウザによっ
て簡単にアクセスできる仕組みを提供している。ＷＷＷ
では、ある計算機上でｈｔｔｐｄと呼ぶソフトウェアを
用いる。このソフトウェアは、その計算機のデータベー
スに格納されているＨＴＭＬ（ＨｙｐｅｒＴｅｘｔ
ＭａｒｋｕｐＬａｎｇｕａｇｅ）で記述したハイパー
テキストファイルを、他の計算機から要求に応じてその
ハイパーテキストファイルを転送するものである。

【０００３】インターネットに接続されている計算機
は、転送を要求するハイパーテキストファイルが存在す
るｈｔｔｐｄに対して、ハイパーテキストファイルのア
ドレスを指定することにより、指定したファイルを読み
込むことができる。ＨＴＭＬの記述では、ハイパーテキ
ストファイル内のリンク情報が、前記アドレスが記述さ
れるので、ＨＴＴＰのプロトコルに従ってブラウザは、
各ｈｔｔｐｄ支配下のハイパーテキストファイルを表示
できる。音声、静止画、動画など様々なデータを出力で
きるようにすることで、マルチメディアデータを含むハ
イパーテキストをブラウザは表示することができる。

【０００４】このＷＷＷの仕組みにより、利用者はより
簡単にインターネット上の情報にアクセスできるように
なり、多くの個人や企業がＷｅｂページと呼ぶハイパー
テキストファイルを公開するようになってきている。

【０００５】しかしながら、ＷＷＷではデータベースの
管理者がおらず、個々人がそれぞれ勝手にＷｅｂページ
を作成あるいは修正し、しかもその規模が膨大であるた
め（１９９６年度初頭における世界中で公開されている
Ｗｅｂページは４０００万ページと推定されている）、
個々の利用者が自らが必要とするＷｅｂページがどこに
あるか（ＵＲＬアドレスとして何を指定すれば必要なＷ
ｅｂページを取得できるか）を知ることが困難な状況に
なっている。

【０００６】このため、アクセス可能なＷｅｂページを
内容ベースで検索するシステムが開発され、サービスが
行われるようになってきた。すなわち、このようなＷｅ
ｂ検索サーバでは、キーワードを指定することにより、
そのキーワードを含むＷｅｂページを検索することがで
きる。利用者は、これらＷｅｂ検索サーバを用いて必要
なＷｅｂページを検索する。

【０００７】検索結果は従来、ランキング上位の文書や
ページについて、文書のタイトルや見出し、キーワード
を一定量表示するのが普通である。また、検索サーバに
よっては、人手によって作成されたページの概要・紹介
文が登録されており、それを検索結果として表示するも
のもある。ユーザはそれを見て、検索されたページを直
接参照するかどうかを判断する。

【０００８】以降、このように検索結果が提示される際
に各文書について表示されるものを、その文書の「抄
録」と呼ぶ。また、これら各文書の「抄録」をあつめた
ページを抄録ページあるいは抄録文書と呼ぶことにす
る。

【０００９】

【発明が解決しようとする課題】検索結果の提示方式と
して、検索された文書の中の検索語の出現箇所を例え
ば、ＫＷＩＣ表示することが考えられる。ＫＷＩＣ表示
は一般的に、検索されたページを判断する材料として好
適である。しかし、実際は、検索サーバの検索結果の抄
録として実現されていない。その理由を以下に述べる。

【００１０】上述の検索結果の提示は、１つの検索サー
バが生成するものである。検索サーバは不特定多数の人
間による検索要求に応じるため、検索結果の提示の生成
に多くの処理時間をかけることができない。したがっ
て、ごく簡単な処理で生成できるようなものを検索結果
として提示する、あるいは１つの文書について予め検索
結果として表示するテキストを作成しておいてその文書
が検索された際にはそれを提示する、といった方式を通
常とる。

【００１１】ＫＷＩＣ表示はやや処理量の多い処理であ
るし、検索のたびに検索文字列が異なるので、予め作成
しておくことができない。したがって、あまり実現され
ていないのが現状である。

【００１２】また、ＫＷＩＣ表示をする際、ＫＷＩＣ表
示された箇所から元ページの該当箇所を直接参照できる
ようにリンクを張っておくことが考えられるが、この処
理のためには元ページを改変しなければならない。検索
サーバのローカルディスク上に検索対象文書をそのまま
保持しておき、ＫＷＩＣ表示する際に、それをコピーし
たものを改変することにより対応することが考えられる
が、検索対象となるインターネット文書の全てを保持し
ておくことは容量的に困難である。また、著作権上困難
である。

【００１３】検索結果の上位の文書をその都度、その文
書が存在するサイトから取得してきてそれを改変してＫ
ＷＩＣ表示に利用することが考えられるが、これには数
分以上の時間がかかるので、多数のユーザからの検索要
求に応じる検索サーバでは実現できない。

【００１４】そこで、本発明は、検索サーバで検索結果
の提示の生成つまり抄録文書の生成を行うのではなく、
クライアント側に検索結果の提示の生成を行うモジュー
ルを組み込む、あるいは、イントラネットと呼ばれる著
作権上の問題のないローカルネットワーク内で検索サー
バに全ＷＥＢページのコピーを保持しておき、それを適
宜改変することにより、ＫＷＩＣ表示を実現することに
より、抄録作成時の処理の分散化と、その抄録と元文書
との関連付け（例えばリンク、抽出された文字列の強調
表示等）を行うための元文書の改変が容易に行える電子
化文書処理装置を提供することを目的とする。

【００１５】

【課題を解決するための手段】本発明の電子化文書処理
装置は、ユーザにより入力された検索情報に基づき検索
されて、所定のネットワークを介して転送されてきた電
子化文書を記憶する文書記憶手段と、前記検索情報に含
まれているキーワードを保存するキーワード記憶手段
と、前記文書記憶手段で記憶された電子化文書から少な
くとも前記キーワード記憶手段で記憶されたキーワード
を含む文字列を抽出するとともに、該抽出した文字列に
前記電子化文書中の該キーワードの存在位置へリンクす
るためのタグを挿入して抄録を作成する抄録作成手段
と、前記電子化文書を前記抄録に関連付けて表示可能な
ように、前記電子化文書中の前記キーワードの存在位置
に、前記抄録中の前記キーワードにリンクするためのタ
グを挿入して該電子化文書を改変する文書改変手段と、
この文書改変手段で改変された電子化文書を記憶する改
変文書記憶手段とを具備し、前記抄録作成手段で作成さ
れた抄録を提示して、その提示された抄録中のユーザに
より指示されたキーワードにリンクした前記改変された
電子化文書を前記改変文書記憶手段から読み出し、少な
くとも前記改変された電子化文書中の前記抄録にリンク
した箇所を提示することにより、検索された電子化文書
からキーワードを抽出して抄録を作成する際の処理の分
散化と、その抄録中の所定箇所と元文書へのリンクを張
るための元文書の改変が容易に行える。好ましくは、ユ
ーザにより入力された検索情報に基づき検索されて、所
定のネットワークを介して転送されてきた電子化文書が
複数あるとき、そのそれぞれについて作成された複数の
抄録から１つの抄録を作成する。検索結果の提示の生成
処理部がクライアント側にあるので、複数の検索サーバ
の検索結果をマージして、適宜選択して１つの検索結果
を生成することができる。また、クライアント側にダウ
ンロードされたページに対して改変を行うことは著作権
的には、個人利用の範囲内での改変にあたり、より制約
が少ない。したがって、例えばＫＷＩＣ表示のためのリ
ンク生成が可能になる。

【００１６】すなわち、検索結果の提示の生成処理部が
クライアント側にあるので、複数の検索サーバの検索結
果をマージして、適宜選択して１つの検索結果を生成す
ることができる。また、クライアント側にダウンロード
されたページに対して改変を行うことは著作権的には、
個人利用の範囲内での改変にあたり、より制約が少な
い。したがって、例えばＫＷＩＣ表示のためのリンク生
成が可能になる。

【００１７】

【発明の実施の形態】以下、本発明の実施形態について
図面を参照して説明する。まず、以下の説明で用いる用
語について説明する。インターネットとは、現在普及し
つつある世界規模の電子的情報通信ネットワークのこと
である。

【００１８】ＨＴＭＬ（ＨｙｐｔｅｒＴｅｘｔＭａ
ｒｋｕｐＬａｎｇｕａｇｅ）とは、電子化文書、特
に電子化文書の表示体裁等を規定し、また表示する文書
あるいはその箇所の高速な変更を可能にする人工言語の
ことである。ＨＴＭＬ記述を含む電子化文書をＨＴＭＬ
文書という。ＨＴＭＬ文書中の個々のＨＴＭＬ記述のこ
とを、一般にタグと呼ぶ。また、ＨＴＭＬ文書をＷＥＢ
ページ、あるいは単にページと呼ぶこともある。

【００１９】ＨＴＭＬのタグは通常記号「＜」と「＞」
とで挟まれた文字列として記述される。ＨＴＭＬ文書は
テキストファイルである。なお、「＜」と「＞」とで挟
まれた部分を以降タグの内部と呼ぶ。また１つのタグを
「＜…＞」と表すことにする。ここで「…」は任意の文
字列であるが、記号「＞」を含まない文字列であるとす
る。

【００２０】インターネット文書とはインターネットを
経由してアクセス可能、つまり、参照、更新、受信つま
り取得、送信つまり登録などが可能な電子化文書のこと
である。ＷＥＢ文書、ＷＷＷ文書も同様の意味である。
ＷＷＷ文書は特に、ＨＴＭＬで記述された電子化文書を
さす。

【００２１】ＵＲＬ（ＵｎｉｖｅｒｓａｌＲｅｓｏｕ
ｒｃｅＬｏｃａｔｉｏｎ）とは、インターネット文書
の所在するネットワーク上の場所とその文書名とを記述
する形式および、それによって記述された文書情報のこ
とである。

【００２２】ブラウザとは電子化文書の表示装置あるい
はソフトウェア一般をさすが、特にＨＴＭＬ文書を表示
する表示装置あるいはソフトウェアのことである。通
常、ＵＲＬ記述された文書をインターネットを経由して
取得する手段を備えている。

【００２３】ブラウザは、ＨＴＭＬ文書の中の各箇所に
記述されたＨＴＭＬタグを解析し、そのタグによって指
示された表示形態で各箇所を表示する。ＫＷＩＣ（Ｋｅ
ｙＷｏｒｄＩｎＣｏｎｔｅｘｔ）とは、電子化文
書に対するフルテキスト検索の検索結果の提示方式の１
つであり、検索キーワードが出現している場合、その前
後の文字列とあわせて表示する表示形式である。そのキ
ーワードがどのような文脈で用いられているのかがある
程度分かるという効果がある。

【００２４】ＦＴＰとはＦｉｌｅＴｒａｎｓｌａｔｉ
ｏｎＰｒｏｔｏｃｏｌの略である。インターネット
で電子化文書や電子化データ、プログラムを授受するた
めの普及したプロトコルである。

【００２５】サイトとは、電子ネットワークの論理的構
成上１つの単位となる場所のことである。通常企業や大
学、各種公的団体が各々１つのサイトを構成している。
サイト毎に通信用に割り当てられたアドレス情報を持っ
ている。上述のＦＴＰやＵＲＬは、そのアドレス情報を
その内部に記述するようになっている。

【００２６】ダウンロードとは、あるサイトからファイ
ルを受信、取得することをいう。アップロードとは、あ
るサイトにファイルを送信、登録することをいう。リン
クとは、特にＨＴＭＬ文書においては、表示文書の変更
や表示箇所の変更を素早く行うためのタグのことであ
る。「リンクを張る」あるいは「リンクを埋め込む」と
は、文書甲の表示のある箇所に文書乙のある箇所へ表示
を素早く変更するための手段を配置することであり、文
書甲および乙の該当する場所に特定のタグを挿入するこ
とにより実現される。

【００２７】文書甲において、リンクが張られた箇所は
表示に際して文字の色が変わる、あるいはアンダーライ
ンが施されるといった特殊な表示がなされるようになる
ので、ユーザはそこにリンクが存在していることがわか
るようになっている。また、マウスと呼ばれる画面上の
ポインティングデバイスを該当箇所に持っていくとマウ
スカーソルの形状が変化するので、それによってもそこ
にリンクが存在することがわかるようになっている。そ
して該当個所にマウスカーソルを持っていき、マウスの
ボタンをクリックすると、文書Ｚ、あるいは文書Ｚの中
のリンクを張られた個所に表示が変更されるようになっ
ている。

【００２８】文書甲の中のボタンやアイコンと呼ばれる
絵柄にリンクを配することも可能である。このように、
文書甲の中のある文字列や絵柄にリンクを張ることを、
その場所をクリッカブルにする、という。またそのよう
な場所は、クリッカブルになっているともいう。

【００２９】サーバ・クライアント方式とは、ＬＡＮや
インターネットなどのコンピュータネットワーク上で近
年発達した処理様式であり、サーバと呼ばれる一般的に
小数の高速大容量な、サービス内容毎にある程度特化さ
れたハードウェア及びソフトウェア構成をもつコンピュ
ータと、クライアントと呼ばれる各種サービスのユーザ
インタフェース機能を担当する多数のコンピュータが通
信を行いながら協調的に処理を進めることによって、全
体の処理を分散する方式のことである。後述する検索サ
ーバは、インターネット上の文書検索サービスを行う為
に提供されたサーバのことである。

【００３０】ホームページとは、各サイト毎に準備され
たＷＷＷ文書をさす。また、個人が準備する場合もあ
る。一般にホームページは、その企業あるいは団体の公
的なエントリポイント、つまりそのサイトに何らかの目
的をもってアクセスするユーザがまず最初に訪れるペー
ジである。ホームページから下位の組織あるいは主題毎
に準備された複数のページへリンクが張られていること
が通常である。このような場合、前者をトップページ、
後者をサブページと呼ぶ。サブページは通常、より下位
のサブページへのリンクをもっており、階層的になって
いる。

【００３１】イントラネットとは、通常企業や団体およ
びその下部株組織（部や課）毎に敷設されたＬＡＮであ
り、セキュリティやデータのトラフィックの管理がそれ
を単位として行われるものである。

【００３２】ＨＴＴＰサーバとは、ＨＴＴＰメッセージ
通信を処理するＬＡＮ上の計算機サーバである。ＨＴＴ
Ｐサーバは、クライアントからのＨＴＴＰメッセージを
受理し、ＴＣＰ／ＩＰといったコンピュータ間通信プロ
トコルに基づいて、外部計算機とのファイルの送受信を
行う。外部計算機から送られてきたファイルは、そのフ
ァイルの取得を要求したＨＴＴＰクライアントに送られ
ると同時に、キャッシュと呼ばれるＨＴＴＰサーバのデ
ィスク領域に一時的に保管される。そして、同じクライ
アント、あるいは別のクライアントから同じファイルの
取得要求があった場合には、特に特定のない限り、その
キャッシュに存在するファイルが取り出されてクライア
ントに送信される。このように、一度ＨＴＴＰサーバの
キャッシュに保管されたファイルは以降、そのファイル
が元々あった計算機との間で通信処理されることがなく
なり、負荷が分散される。またファイル取得までの時間
も短縮される。

【００３３】ＬＡＮ内部に多くのクライアントマシンが
存在する場合、ＬＡＮを細分化して階層化し、各ＬＡＮ
毎にＰＲＯＸＹサーバ（プロキシサーバ）と呼ばれるサ
ーバを設け、そのＬＡＮ内部のクライアントは、ＨＴＴ
Ｐサーバでなく、各ＰＲＯＸＹサーバとの間でＨＴＴＰ
メッセージを送受信するようにし、各ＰＲＯＸＹサーバ
のみが、ＨＴＴＰサーバと直接ＨＴＴＰメッセージのや
りとりをするようにする。このようにすることにより、
ＨＴＴＰサーバの負荷分散が実現できる。

【００３４】なお、以下の説明において、抄録をつくる
対象となる検索された電子化文書が例えばＨＴＭＬ文書
で、電子化文書から作成される抄録中のキーワードを例
えば、ＫＷＩＣにて表示する場合を例にとり説明する。

【００３５】また、以下の説明で作成される抄録は、取
得した電子化文書の概要を把握するために、その電子化
文書を短縮化すること、および短縮化して得られた電子
化文書のことで、検索された電子化文書中から抽出され
た文書のタイトル、クルーフレーズを含む行、見出し
行、キーワードを含む行（ＫＷＩＣ行）から構成され
る。

【００３６】また、抄録にリンクするように改変された
元の電子化文書をＫＷＩＣ文書と呼ぶことがある。（第１の実施形態）図１は、本発明の第１の実施形態に
係る抄録作成装置の構成例を概略的に示したものであ
る。

【００３７】図１において、抄録作成装置１１の要部
は、キーワード保持部１２、抄録処理部１４、文書保存
部１３から構成される。キーワード保存部１２は、抄録
処理部１４が抄録文書、具体的には、例えばＫＷＩＣ表
示を作成するのに用いるキーワードを保持している。

【００３８】文書保存部１３は、抄録をつくる対象とな
る検索された電子化文書と、それから作成された抄録文
書および、ＫＷＩＣ表示の便宜のために複製・改変され
た文書を保持する。

【００３９】なお、ＫＷＩＣ表示の便宜のために複製・
改変された文書を、以降便宜的にＫＷＩＣ文書と呼ぶこ
とにする。抄録処理部１４は、文書保存部１３に保存さ
れた電子化文書、例えば、ＨＴＭＬ文書を解析して、キ
ーワードの前後の文字列を抽出して抄録文書（ＫＷＩＣ
表示）を作成するとともに、元の電子化文書を複製、改
変して、文書中のキーワード部分がはっきりわかるよう
に文書中のキーワードの出現箇所にＨＴＭＬタグを埋め
込む。また、抄録文書の各々のＫＷＩＣ表示から、元文
書中の該当箇所を速やかに参照できるように抄録文書と
ＫＷＩＣ文書の両文書に特定の対応するタグを埋め込む
ことによって、リンクをはる。

【００４０】次に、図１の抄録作成装置の抄録処理部１
４の処理動作について、図２に示すフローチャートを参
照して説明する。抄録処理部１４は、まず、前処理とし
て、抄録対象となる文書を読み込み、文字コードの統一
や、極端に長い行の分割を行う（ステップＳ１）。日本
語の電子化テキストに用いられている漢字コードには、
通常ＪＩＳコード、ＳＪＩＳコード、ＥＵＣコードとい
ったものがあるが、適宜変換を行い、どれか１つに統合
する。行の分割の際には、ｈｔｍｌタグが分割されない
よう、つまり記号「＜」と記号「＞」の間で改行しない
ように、また２バイト文字コードが分割されないように
する。

【００４１】行分割のアルゴリズムは、以下のとおりで
ある。まず、１行の最大長Ｎを設定しておく。つぎに、
ある行の長さがＮ以上である場合、行の先頭からＮ文字
目が、なにかのタグの内部であるかどうかを判定する。
具体的には、次のように行う。

【００４２】行の先頭からＮ文字以下の箇所に出現する
記号「＜」および「＞」のうち出現箇所（行の先頭から
の文字数）が最もＮに近いものを選び、その値をそれぞ
れ「Ａ」、「Ｂ」とする。存在しない場合は「０」とす
る。

【００４３】ＡがＢより大きい場合、行の先頭からＮ文
字目はそれ以前に記号「＜」が出現していてかつその出
現より以降に記号「＞」が出現していない箇所であるこ
と、すなわち何かのタグの内部であることがわかる。

【００４４】何かのタグの内部であると判定されたとき
は、Ｎに最も近い箇所の記号「＜」の前で、すなわち行
の先頭からＡ−１文字目の地点で行分割を行う。Ａ＝１
の場合、つまり行頭に「＜」が存在し、このタグがＮ文
字を越しているような場合は、行頭から数えて最初に出
現した「＞」の箇所の後ろで改行するようにする。この
場合、１行の長さがＮを超えることになる。以降の処理
で出てくるタグの除去処理およびタグのスコープ判定処
理がタグの途中に改行が挿入されているケースに対応し
ている場合は、行頭からＮ文字目で改行する。この場合
は、タグの内部で改行されることになる。

【００４５】行分割を行い、改行を行った地点から後ろ
の文字列の長さがＮ以上である場合は、上述の処理をそ
れに対して繰り返す。このようにして、改行後の文字列
がＮ以下になるまで同様の処理を繰り返す。

【００４６】前処理の後、各行について以下の処理を繰
り返す（ステップＳ２〜ステップＳ１６）。まず、その
行が＜ＴＩＴＬＥ＞…＜／ＴＩＴＬＥ＞タグを含んでい
る場合、その２つのタグの間の文字列をタイトルとして
抽出し、タイトルレジスタに登録する（ステップＳ３、
ステップＳ４）。このタイトル行に関しては、後述する
ＫＷＩＣ行抽出、クルーフレーズ行抽出、見出し行抽出
および冒頭行抽出は行わない。

【００４７】＜ＴＩＴＬＥ＞タグと＜／ＴＩＴＬＥ＞タ
グとが同じ行に存在せず、間に何行か存在する場合があ
る。この処理は、正確には＜ＴＩＴＬＥ＞タグのスコー
プにある文字列を判定して抽出しなければならない。こ
の処理については後述する。

【００４８】次に、その行のＨＴＭＬタグ部分以外の部
分にキーワード保持部１２に保持されているキーワード
が含まれている場合、ＫＷＩＣ行カウンタをインクリメ
ントし、その行に含まれるタグを取り除いて、ＫＷＩＣ
行として抽出し、ＫＷＩＣ行レジスタに登録する。ＫＷ
ＩＣ電子化文書名とＫＷＩＣ行カウンタに登録されてい
るＫＷＩＣ行番号をキーとするタグ、および強調表示を
指示するタグを、ＫＷＩＣ行の中のキーワード部分の前
後に挿入する（ステップＳ５、ステップＳ６）。

【００４９】なお、行をまたがってキーワードが存在す
る場合があり、その抽出漏れを防ぐため、キーワード検
出する際は、一時的に保持された前の行と現在の行とを
つなげたものに対してキーワード検出するようにする。
キーワードが複数含まれている場合は、それぞれについ
て同様の処理を行う。

【００５０】次に、その行のＨＴＭＬタグ部分以外の部
分にクルーフレーズが含まれている場合、クルーフレー
ズ行カウンタをインクリメントし、その行に含まれるタ
グを取り除いて、クルーフレーズ行として抽出し、クル
ーフレーズ行レジスタに登録する（ステップＳ７、ステ
ップＳ８）。

【００５１】クルーフレーズとは、文書中の重要な部分
の前後に現れる、そのページの概要を示すような文に含
まれることの多い、一般的な単語や慣用表現で語句のこ
とで、例えば、「へようこそ」「このホームページでは」「弊社では」「Ｗｅｌｃｏｍｅｔｏ」等があげられる。

【００５２】クルーフレーズのような単語や表現を含む
文を抽出して抄録文書中に提示すれば、文書の概要を把
握するのに好適である。次に、その行に含まれるタグあ
るいはその行がそのスコープ中であるようなタグをチェ
ックして、そのタグが見出し相当である場合、見出し行
カウンタをインクリメントし、その行に含まれるタグを
取り除いて、見出し行として抽出して見出し行レジスタ
に登録する（ステップＳ９、ステップＳ１０）。

【００５３】見出し行であることを示すＨＴＭＬタグと
しては、例えば、次のようなものがある。＜Ｈ１＞…＜／Ｈ１＞＜Ｈ２＞…＜／Ｈ２＞＜Ｈ３＞…＜／Ｈ３＞＜ＳＴＲＯＮＧ＞…＜／ＳＴＲＯＮＧ＞＜ＢＩＧ＞…＜／ＢＩＧ＞＜ＥＭ＞…＜／ＥＭ＞なお、タグのスコープについては、後述する。

【００５４】タグの除去とは、行の文字列の中の記号
「＜」と「＞」とで挟まれた箇所を、それらの記号を含
めて削除することである。このことを以降「＜…＞」を
削除する、というように表現する。

【００５５】タグの除去においては、次に述べる例外的
な処理を行う。前処理において長い行の分割を行う際
に、タグの途中で行が分割されないように、つまり、
「＜」と「＞」とで挟まれた箇所の途中で行分割しない
ようにしているが、あるタグが極端に長いときは、タグ
の内部で分割されている場合がある。この場合、「…＜
…＄」、「＾…＞…」という２つの行に分割されている
ことになる。ここで「…」は記号「＜」、「＞」を含ま
ない任意の文字列であり、記号「＄」、「＾」はそれぞ
れ行の最後および行の先頭を示すための便宜的な記号で
ある。このような場合、タグの除去として、「…＜…
＄」の行の文字列「＜…＄」の部分を除去し、「＾…＞
…」の行の文字列「＾…＞」を削除する。

【００５６】次に、文書の先頭から予め定められた一定
の文字量（しきい値）に達するまで無条件に、冒頭行カ
ウンタをインクリメントし、行からタグを取り除いて、
冒頭行として抽出し、冒頭行レジスタに登録する（ステ
ップＳ１１、ステップＳ１２）。このとき、タグを除去
すると文字が残らない場合は、抽出しない。また、タイ
トル行については抽出しない。

【００５７】この一定の文字量とは、例えば、標準的な
ブラウザの標準的なフォントによる表示によって表示可
能な１行の文字数をＭとし、また１文書の抄録として提
示する行数をＮとすると、Ｎ＊Ｍである。

【００５８】メモリ等の制約がない場合は、読み込んだ
全ての行について、タグを除去した文字列を冒頭行レジ
スタに登録する。以下の説明では、こちらのケースの場
合を説明する。

【００５９】次に、読み込んだ行を、ＫＷＩＣ電子化文
書として出力する（ステップＳ１３〜ステップＳ１
５）。このＫＷＩＣ電子化文書は元の電子化文書と殆ど
同じものであり、文書中のキーワード箇所が表示の際に
目立つように、そのキーワードの前後にそのキーワード
を太く表示する。あるいは大きなフォントで表示する、
あるいは白ぬきで表示する、あるいは斜体文字で表示す
る、あるいはアンダーラインを付加するなどの表示を指
示するＨＴＭＬタグを埋め込んである。また、抄録文書
からのリンク先を示すＨＴＭＬタグが埋め込まれてい
る。ユーザが抄録文書を読み、抄録文書中に埋め込まれ
たリンクを辿って原ページを参照した際に提示されるの
はこのＫＷＩＣ文書の方である。

【００６０】キーワードのあった行については、その行
のキーワードの前後に、ＫＷＩＣ行カウンタに登録され
ているＫＷＩＣ行番号をキーとするタグ、および強調表
示を指示するタグを挿入して、出力する。そうでない行
については、前処理終了後の行がそのまま出力される。

【００６１】さて、このようにして全ての行を読み込ん
で見出し行、クルーフレーズ行、ＫＷＩＣ行抽出した
後、抽出された行から一定数の行を以下の基準で選択し
て、その文書の抄録として出力する（ステップＳ１７〜
ステップＳ１８）。この抄録として表示する行を選択す
る処理が、出力調整処理である。

【００６２】以下この出力調整処理について説明する。
なお、以下の説明で、標準的なブラウザの標準的なフォ
ントによる表示によって表示可能な１行の文字数をＭと
する。また１文書の抄録として提示する行数をＮとす
る。

【００６３】ＫＷＩＣとして抽出された行のタグを除い
た文字数の合計がＭ＊Ｎ以上である場合、文字数の総和
がＭ＊Ｎに収まるようにＫＷＩＣ行レジスタの先頭か
ら、つまり、元の行番号の小さい方から選ぶ。ＫＷＩＣ
行として抽出された行の文字数の合計がＭ＊Ｎ以下であ
る場合は、抽出した全てのＫＷＩＣ行を選択する。

【００６４】このようにして選択された行の文字数の総
和をＭで割った値に、余りが出たときは「１」足した
値、つまり、それらの行を結合してつまり１行として表
示した場合の表示上の行数をＫとする。

【００６５】ＫがＮ未満である場合は、見出し行からの
選択を行う。タグを除いた部分の文字数の総和がＭ＊
（Ｎ−Ｋ）に収まるように見出し行レジスタの先頭か
ら、つまり、元の行番号の小さい方から選ぶ。文字数の
総和がＭ＊（Ｎ−Ｋ）以下である場合は、抽出した全て
の見出し行を選択する。

【００６６】このようにして選択された行の文字数の総
和をＭで割った値に、余りが出たときは１足した値、つ
まり、それらの行を結合してつまり１行として表示した
場合の表示上の行数をＬとする。

【００６７】なお、ＫＷＩＣ行レジスタからすでに選択
されている行は、見出し行からの選択においてその行を
選択しない。１文書の抄録として表示できる量は限られ
ているので、その文書の抄録として同じ箇所が複数回表
示されるのをさけ、できるだけ異なる箇所が表示される
ようにという配慮からである。

【００６８】Ｋ＋Ｌ＜Ｎである場合は、冒頭行からの選
択を行う。文字数の総和がＭ＊（Ｎ−Ｋ−Ｌ）に収まる
ように冒頭行を先頭から、つまり、元の行番号の小さい
方から選ぶ。冒頭行から選択する際、既にＫＷＩＣ行あ
るいは見出し行から選択されている行については、選択
しない。

【００６９】なお、クルーフレーズ行の選択は以下のよ
うに行う。クルーフレーズ行は文書全体の概要を示唆す
ることが多いので、抄録文書中の、各文書の文書タイト
ルの表示（通常この箇所をクリックすると原文書にリン
クジャンプするように、現文書へのリンクが埋め込まれ
ている）の後に表示するのが好適である。文書タイトル
の文字数をＬとして、Ｍ−Ｌ程度にその文字数が収まる
ように、抽出したクルーフレーズ行を先頭つまりクルー
フレーズ行番号の小さいものから選ぶ。

【００７０】このようにして選択したＫＷＩＣ行、見出
し行、クルーフレーズ行と、タイトル行とに表示体裁を
整える為の若干のタグを付加して抄録文書に出力する。
以下、ある文書に対する抄録例をもとに上述した抄録処
理部１４の処理を具体的に説明する。

【００７１】図３は、抄録処理の対象となるＨＴＭＬ文
書の一具体例を示したものである。図３において、「＜
…＞」はＨＴＭＬのタグである。図４は、図３の文書の
標準的なブラウザによる表示例である。

【００７２】図５は、図３に示したＨＴＭＬ文書に対し
前処理を施した段階での、各行を示している。説明の便
宜上、左端に行番号を付加している。図中５行目から１
７行目、あるいは２５行から２８行目などは、行の分割
がされた結果である。

【００７３】この各行に対して、見出し行抽出、クルー
フレーズ行抽出、ＫＷＩＣ行抽出、および冒頭抽出を行
う。キーワード保持部１２にはキーワードとして、例え
ば、「インターネット」および「イントラネット」の２
つが登録されているとする。

【００７４】第１行は見出し相当を示すタグもなく、ク
ルーフレーズ、キーワードも存在しないので、見出し
行、クルーフレーズ行、ＫＷＩＣ行として抽出されな
い。タグを除去すると文字が残らないので、冒頭行とし
ても抽出されない。第１行はそのまま、ＫＷＩＣ文書に
出力される。

【００７５】第２行は見出し相当を示すタグである「＜
ＴＩＴＬＥ＞」タグがあるので、タグを除いてタイトル
行レジスタに登録する。第２行はタイトル行なので、Ｋ
ＷＩＣ行抽出、クルーフレーズ行抽出、見出し行抽出、
冒頭行抽出を行わない。第２行はそのまま、ＫＷＩＣ電
子化文書に出力される。

【００７６】第３行から第１９行は、タグのみからなる
部分なので、見出し行、クルーフレーズ行、ＫＷＩＣ行
として抽出されない。各行はそのまま、ＫＷＩＣ電子化
文書に出力される。

【００７７】第２０行はキーワード「インターネット」
を含むので、ＫＷＩＣ行カウンタをインクリメントし、
タグを除去した後、文字列「インターネット」の前後に
ＫＷＩＣ文書名とＫＷＩＣカウンタ値をキーとするリン
クタグを挿入してＫＷＩＣレジスタに登録する。

【００７８】具体的には、例えば、ＫＷＩＣ文書の文書
名を「ｍｏｄ．ｈｔｍｌ」として、「＜ＡＨＲＥＦ
＝”ｍｏｄ．ｈｔｍｌ＃ＫＷＩＣ１＞＜Ｂ＞」というタ
グと「＜／Ｂ＞＜／Ａ＞」というタグを文字列「インタ
ーネット」の前後に挿入して、ＫＷＩＣ行レジスタに登
録する。ここで「ＫＷＩＣ１」の「１」は、ＫＷＩＣカ
ウンタの値である。

【００７９】第２０行は前の行の＜ｈ１＞タグのスコー
プであるので、見出し行カウンタをインクリメントし
て、タグ部分を取り除いた後、見出し行レジスタに登録
する。ここで、タグのスコープについて説明する。スコ
ープとは、あるタグが指示する表示形態等の指示が適用
される、文書中のＨＴＭＬ記述部分以外の文字列部分の
ことである。ＨＴＭＬのタグにはスコープを持たないタ
グとスコープを持つタグの２種類が存在する。前者は、
例えば「＜ＢＲ＞」タグであり、これはその文書が表示
される際にその箇所で改行を促す効果がある。後者は、
例えば「＜Ｈ１＞…＜／Ｈ１＞」タグであり、両者の間
の文字列を利用可能な最大のフォントで表示するように
指示するものである。後者のスコープを持つタグがＨＴ
ＭＬでは一般的であり、通常「＜ＡＡＡ＞…＜／ＡＡＡ
＞」（ＡＡＡは文字列）という対応する２つのタグによ
って指定される。一般に前者を開始タグあるいはビギン
タグ、後者を終了タグあるいはエンドタグと呼ぶ。

【００８０】このように、順次読み込まれる行が、以前
に読み込んだ行に含まれるＨＴＭＬビギンタグのスコー
プである場合がある。したがって、現在の行が以前読み
込んだ行に含まれるどのＨＴＭＬタグのスコープである
かを記憶しておき、適宜処理する必要がある。

【００８１】また、読み込んだ行の途中にビギンタグや
エンドタグがある場合、ビギンタグの前およびエンドタ
グの後の文字列はそのタグのスコープではない。見出し
行抽出は、特定のタグのスコープにある文字列の抽出を
行うものであるので、スコープ以外の文字列は、同じ行
にあっても除外する。

【００８２】この処理は、一般にＳＧＭＬパーザーある
いはＨＴＭＬパーザーと呼ばれる既存のパージング、つ
まり構文解析技術によって実現されているので、詳述し
ない。

【００８３】本論に戻る。図５の第２０行は、また冒頭
行として、冒頭行カウンタをインクリメントして、タグ
部分を取り除いた後、冒頭行レジスタに登録する。

【００８４】さて、第２０行はＫＷＩＣ行だったので、
キーワード「インターネット」の前後に「＜ＡＮＡＭ
Ｅ＝”ＫＷＩＣ１”＞＜ＳＴＲＯＮＧ＞」、「＜／ＳＴ
ＲＯＮＧ＞」というタグを挿入して、ＫＷＩＣ電子化文
書に出力する。「ＫＷＩＣ１」の「１」は、ＫＷＩＣ行
カウンタの値である。

【００８５】第２１行はキーワード「イントラネット」
を含むので、ＫＷＩＣ号カウンタをインクリメントし、
タグを除去した後、文字列「イントラネット」の前後に
ＫＷＩＣカウンタ値をキーとするリンクタグを挿入して
ＫＷＩＣレジスタに登録する。具体的には、ＫＷＩＣ文
書の文書名を「ａａａ．ｈｔｍｌ」として、「＜ＡＨＲ
ＥＦ＝”ａａａ．ｈｔｍｌ＃ＫＷＩＣ２＞＜Ｂ＞」とい
うタグと「＜／Ｂ＞＜／Ａ＞」というタグを文字列「イ
ンターネット」の前後に挿入して、ＫＷＩＣ行レジスタ
に登録する。ここで「ＫＷＩＣ２」の「２」は、ＫＷＩ
Ｃカウンタの値である。

【００８６】第２１行は前の行の＜ｈ１＞タグのスコー
プであるので、見出し行カウンタをインクリメントし
て、タグ部分を取り除いた後、見出し行レジスタに登録
する。第２１行はまた冒頭行として、冒頭行カウンタを
インクリメントして、タグ部分を取り除いた後、冒頭行
レジスタに登録する。

【００８７】さて、第２１行はＫＷＩＣ行だったので、
キーワード「イントラネット」の前後に「＜ＡＮＡＭ
Ｅ＝”ＫＷＩＣ２”＞＜ＳＴＲＯＮＧ＞」、「＜／ＳＴ
ＲＯＮＧ＞」というタグを挿入して、ＫＷＩＣ電子化文
書に出力する。「ＫＷＩＣ２」の「２」は、ＫＷＩＣ行
カウンタの値である。

【００８８】このようにして全ての行を処理した後の、
ＫＷＩＣレジスタ、見出し行レジスタおよび冒頭行レジ
スタの内容の一例をそれぞれ、図８、図９、図１０に示
す。図８〜図１０の第１欄はそれぞれ、ＫＷＩＣ行番
号、見出し行番号、冒頭行番号で、第２欄は、その行の
元文書中の行番号である。

【００８９】なお、この文書にはクルーフレーズが出現
しなかったので、クルーフレーズレジスタは空である。
また、ＫＷＩＣ電子化文書は、図６のようになる。この
文書は、標準的なブラウザでは、図７のように表示され
る。図４の元文書に比べて、キーワード「インターネッ
ト」および「イントラネット」がゴジックで表示される
ようになっていることがわかる。

【００９０】次に、出力調整処理について述べる。な
お、標準的なブラウザの標準的にフォントによる表示に
よって表示可能な１行の文字数を６３文字とし、また１
文書の抄録として提示する行数を１５行とする。なお、
日本語全角文字はアスキー文字２字分として数える。

【００９１】ＫＷＩＣ行レジスタに登録された行のタグ
を除いた文字数は４６３であり、６３＊１５以下なの
で、その全てが選択される。４６３／６３＝７余り２２
なので、これらの表示に要する行数Ｋは８である。

【００９２】次に見出し行からの選択が行われる。見出
し行番号２、３の行はＫＷＩＣ行として既に選択されて
いるので、選択しない。残りの行のタグ部分を除いた文
字数の総和は５０であり、５０＜６３＊（１５−８）な
ので、残りの行の全て、つまり、見出し行番号４、５、
６の行が選択される。５０／６３＝０余り５０なので、
これらの表示に要する行数Ｌは１である。

【００９３】次に冒頭行からの選択が行われる。既にＫ
ＷＩＣ行あるいは見出し行として選択された行を飛ばし
て、文字数が６３＊（１５−８−１）未満に収まるよう
に行を選択すると、冒頭行番号４、７、９、１０の４行
が選択される。

【００９４】これら選択した行とタイトル行に表示体裁
を整えるためのタグを付加して、抄録文書として出力し
たものが、図１１である。これは、ブラウザでは、例え
ば、図１２のように表示される。

【００９５】図１２において、第１行目は抽出したタイ
トル行である。この箇所をクリックすると、ＫＷＩＣ文
書に表示が変更されるように、リングが埋め込まれてい
る。また、選択されたＫＷＩＣ行、見出し行および冒頭
行はそれぞれ、「ＫＷＩＣ」、「見出し」、「冒頭文字
列」という見出しをつけて表示されている。選択された
各行は、記号「／」を介して１行に接続して表示してい
る。これは限られたスペースで多くの文字を表示するた
めにとった体裁である。もちろん、各行毎に改行して、
別の行として表示することも考えられる。

【００９６】図１２の表示のなかで、太字で表示されて
いる「インターネット」や「イントラネット」は、クリ
ッカブルになっていて、ＫＷＩＣ文書の対応する箇所へ
のリンクが埋め込まれている。例えば、５行目の「イン
トラネット」という文字部分にマウスカーソルをもって
いき、マウスボタンをおす、つまりクリックすると、こ
の箇所には＜ＡＨＲＥＦ＝”ｍｏｄ．ｈｔｍｌ＃ｋｗ
ｉｃ５”＞というリンクが埋め込まれており、ファイル
名ｍｏｄ．ｈｔｍｌつまりＫＷＩＣ文書の中の、＜Ａ
ＮＡＭＥ＝”ｋｗｉｃ５”＞というタグが埋め込まれた
箇所に表示が即座に変更される。つまり、図１４のよう
に表示が変更する。

【００９７】このようにして、抄録文書中のＫＷＩＣ表
示から、そのＫＷＩＣ箇所に対応する原文の該当箇所に
即座に表示を変更することができる。なお、本実施形態
では、クルーフレーズが出現しなかったが、存在した場
合には、タイトル行の後に出力するのが好ましい。

【００９８】また本実施形態では、同じ行がＫＷＩＣ行
と見出し行の両方で抽出された場合、ＫＷＩＣ行として
表示しているが、見出し行として表示することも考えら
れる。その場合の表示例を図１３に示す。

【００９９】また、本実施形態のバリエーションとし
て、発見したキーワードのＫＷＩＣとしてその行を出す
のではなく、そのキーワードの前の一定数の文字とその
キーワードの後の一定数の文字を出すというものも考え
られる。

【０１００】この場合、キーワードが行末に近い位置に
あった場合は、その行の末尾と次の行の先頭部分の文字
を表示することになる。キーワードが行頭に近い位置に
あった場合は、前の行の末尾とその行の前半とを表示す
ることになる。

【０１０１】さらに、キーワードの後方あるいは前方の
ＫＷＩＣとして表示する文字列を、句点など文の終わり
や区切りを示す記号までの文字列とすることも考えられ
る。（第２の実施形態）第１の実施形態で説明した抄録作成
装置１１は、具体的には検索サーバあるいは検索クライ
アントの内部に一モジュールとして実装される。

【０１０２】次に、本発明の第２の実施形態として、図
１の抄録作成装置が検索クライアントの内部に実装され
て電子化文書処理装置を構成する場合について説明す
る。図１５に、第２の実施形態に係る検索クライアント
の構成例を概略的に示す。なお、図１５に示した検索ク
ライアントは、例えば図１６に示したようなネットワー
ク環境での利用を前提にしている。

【０１０３】図１５において、検索クライアント装置３
０は、図１の文書保存部１３、キーワード保持部１２、
抄録処理部１４に加え、さらに、電子化文書表示処理部
１６、ディスプレイ１８、キーボード２０、マウス１
９、入力部１７、通信部１５とから構成される。なお、
図１と同一部分には同一符号を付し、点線で囲ってあ
る。以降この部分を抄録作成部１１と呼ぶことにする。

【０１０４】文書保存部１３は、抄録の対象となる複数
の電子化文書、それらがＫＷＩＣ表示用に改変されたも
の、および作成された抄録文書の３つの他に、他の検索
サーバから送られてきた検索結果であるところの、ラン
キングされた電子化文書の名前とネットワーク上の所在
情報とその抄録とからなる検索結果をも保存する。

【０１０５】電子化文書表示処理部１６は、前述したブ
ラウザに相当するものである。キーボード２０、マウス
１９については特に説明を要するような事柄はない。入
力部１７はキーボードやマウスからの入力を通信部１
５、キーワード保持部１３等に伝達する処理部であり、
ＯＳの一部である。特に説明を要するような事柄はな
い。

【０１０６】ディスプレイ１８は普通のＣＲＴ等であれ
ばよく、特に説明を要するようなことはない。通信部１
５は、インターネットあるいはＬＡＮ等のネットワーク
と接続しており、例えば、前述したＨＴＴＰやＦＴＰプ
ロトコルによって情報の授受が可能になっている。

【０１０７】次に、図１７に示すフローチャートを参照
して、図１５に示した検索クライアント装置の全体の処
理動作について説明する。システムはまず、適当なプロ
ンプトあるいは画面を提示して、ユーザから検索キーワ
ードを所得し、キーワード保持部１２に登録する（ステ
ップＳ２０）。検索キーワード以外に、それらの検索条
件（ＡＮＤ検索、ＯＲ検索など）や、検索対象とする文
書の範囲（国内か国外か、期間など）や、検索を要求す
る検索サーバの指定を、ユーザから受け付ける。もちろ
んこれらはデフォルト値を設定しておいて、ユーザから
の変更指定があった場合のみ、その情報を変更するとい
うのが実際的である。

【０１０８】次にシステムは、インターネットを介して
検索サーバに検索要求を送出する（ステップＳ２１）。
具体的には、検索のキーワード、対象分野や対象文書の
種類、期間の情報を所定の形式で送出する。これは、各
検索サーバに固有のフォーマットがあるので、各検索サ
ーバ毎に、そのフォーマットにあうように修正されてＨ
ＴＴＰによって送出される。

【０１０９】次に、検索サーバから送られてきた検索結
果を文書保存部１３に保持する（ステップＳ２２）。図
１８（ａ）に、検索サーバから送られていた検索結果の
例を示す。このＨＴＭＬ文書は、ブラウザによる通常の
表示では図１８（ｂ）のように表示される。

【０１１０】次に、検索結果にランキングされたＷＥＢ
文書をそれらが存在する各サイトからダウンロードする
（ステップＳ２３）。ダウンロードされたＷＥＢ文書
は、文書保持部１３に保持される。

【０１１１】次に抄録作成部１１は、第１の実施形態で
説明した手法で、キーワード保持部１２に保持されたキ
ーワードを利用して各文書の抄録を作成する。同時に、
ＫＷＩＣ表示用のＫＷＩＣ電子化文書を生成する（ステ
ップＳ２４）。各文書毎に作成した抄録を集めて、１つ
の抄録文書とする（ステップＳ２５）。

【０１１２】図１９に作成された抄録文書の例を示す。
このＨＴＭＬ文書は、ブラウザによって図２０のように
表示される。ユーザは抄録文書を読み、場合によっては
ＫＷＩＣ文書を参照する。このためＧＵＩは電子化文書
表示処理部１６、つまりブラウザが処理する。

【０１１３】以上が抄録作成部１１を含んだ検索クライ
アント装置３０の動作の概略である。上述した検索クラ
イアント装置３０のバリエーションとして、以下のよう
なものも考えられる。

【０１１４】例えば、図２１に示すように、図１５の構
成に、さらに検索結果マージ部２５という処理部を加え
た検索クライアント装置４０が考えられる。図２１の検
索クライアント装置４０は、キーワード取得後、複数の
検索サーバに、検索要求を送信し、受信した複数の検索
結果を文書保持部１３に保持する。

【０１１５】次に、検索結果マージ部２５は、これらの
検索結果をマージして１つの記事ランキングを生成す
る。マージの仕方にはいろいろある。例えば、複数の検
索結果に含まれる記事はより上位にランキングするか、
あるいはランキングの平均を取る、といったことが考え
られる。あるいは、文書が作成・登録された時期がより
最近のものを優先する、などが考えられる。これによっ
て、より精度の高い記事ランキングを得ることができ
る。

【０１１６】以降の処理は、前述同様である。なお、マ
ージされたランキングに従って全ての文書の抄録を作成
するように抄録処理部１４の処理を説明したが、検索サ
ーバによっては、検索された各文書について、人手によ
って作成された抄録を添付して、検索結果として送信し
てくるサーバもある。そのようなサーバからの検索結果
に含まれる文書がマージ後のランキングに含まれる場合
は、その文書については新たに抄録を作成せず送られて
きた抄録をそのまま抄録として表示し、そうでない文書
についてのみ、抄録を生成するという方式も考えられ
る。

【０１１７】また、別のバリエーションとして、以下の
ようなものも考えられる。これは、検索されたページが
サブページである場合、トップページからそのページに
至るまでの中間ページのタイトルや章節見出しを階層的
に表示する、というものである。

【０１１８】この処理は、まず、検索されたページから
トップページに至るまでの中間ページを取得する。その
方法は以下の通りである。検索されたページの中（特に
末尾）に「…へ戻る」というリンクがあった場合、それ
は上位のページ、あるいはトップページを示している。
そのページをダウンロードし、それがトップページでな
い場合は、そのページに対して、同様の処理を行う。こ
のようにして、トップページに辿り着くまで「…戻る」
というリンクを辿っていく。

【０１１９】あるいは、そのページの中に埋め込まれた
リンクの飛び先の文書の所在情報（ＵＲＬ）に含まれる
ディレクトリ数が、現在のページのＵＲＬのディレクト
リ数より少ない場合、そのページは一般的により上位の
階層のページであると判断できる。このようにして、よ
り上位のページを検出することができる。

【０１２０】トップページであるかどうかの判定は、Ｕ
ＲＬのアドレスからヒューリスティカルに判定できる。
通常トップページのＵＲＬは「ｈｔｔｐ：／／ａａ．ｂ
ｂｂ」あるいは、「ｈｔｔｐ：／／ａａａ．ｂｂｂ／ｉ
ｎｄｅｘ．ｈｔｍｌ」といった形をしている。ここで、
「ｂｂｂ」は、日本国内のもので、企業なら「ｃｏ．ｊ
ｐ」、大学なら「ａｄ．ｊｐ」、公的組織なら「ｏｒ．
ｊｐ」といったように、決められている。

【０１２１】サブページは「ｈｔｔｐ：／／ａａａ．ｂ
ｂｂ／ｃｃｃ／ｄｄｄ／ｅｅｅ．ｈｔｍｌ」といった形
をしている。一般に、「／…／」で区切られた領域をデ
ィレクトリという。上の例では、サブページのＵＲＬ
は、トップページのＵＲＬから２ディレクトリ分下位に
位置していることがわかる。

【０１２２】トップページまで辿り着いた場合、各ペー
ジのタイトルとページ中のリンクが所在した箇所が属す
る章節見出しを、上位ページのものから順に抽出する。
解析例を図２２を参照して説明する。図２２（ａ）は検
索されたページ、図２２（ｂ）は図２２（ａ）の１レベ
ル上位のページ、図２２（ｃ）は２２（ｂ）の１レベル
上位のページ、図２２（ｄ）は図２２（ｃ）の１レベル
上位のページ、図２２（ｅ）は図２２（ｄ）の１レベル
上位のページであり、トップページ（ホームページ）で
ある。

【０１２３】図２２（ａ）に示したＨＴＭＬ文書の末尾
に「ＭｅｍｏｒｙＩｎｄｅｘに戻る」とあり、そのリ
ンク先が図２２（ｂ）に示したＨＴＭＬ文書である。同
様に、図２２（ｂ）示したＨＴＭＬ文書の末尾に「メモ
リ対応機種選択に戻る」とあり、そのリンク先が図２２
（ｃ）に示したＨＴＭＬ文書である。このようにして、
１つずつ上位のページを辿っていくことにより、トップ
ページである図２２（ｅ）に示したＨＴＭＬ文書に到着
する。

【０１２４】図２２（ｂ）では、「…へ戻る」が複数あ
り、各階層へのリンクが存在している。このような場
合、１階層上位のページがどれであるか判定する必要が
起きるが、各々のリンク先のＵＲＬのアドレスに含まれ
るディレクトリの個数（深さ）を比較することにより、
ヒューリスティカルに判定することができる。一般にデ
ィレクトリの個数が少ないものほど、より上位のページ
である。

【０１２５】さて、このようにして得られた階層的なペ
ージについて、各ページのタイトル、つまり＜ＴＩＴＬ
Ｅ＞…＜／ＴＩＴＬＥ＞の部分の文字列を抽出して、階
層的に表示したものが、図２３である。検索されたペー
ジの抄録の中にこのような情報を提示することにより、
検索されたページのコンテキスト（周囲のページとの関
係）がわかり、そのページの概要の把握に役に立つ。こ
の階層表示の各々について、それをクリックするとその
文字列がタイトルとなっている中間ページに表示文書が
変更するように、リンクを埋め込むことも有用である。

【０１２６】さて、各ページからタイトルを抽出する代
わりに、各ページについてサブページに飛ぶリンクが貼
り付けられた文字列（クリッカブルになっているとこ
ろ）と、＜Ｈ１＞…＜／Ｈ１＞タグなどでマークアップ
されていて見出し相当と判断される文字列のうちそのリ
ンクに最も近いものとを抽出して表示したものが、図２
４である。この表示も図２３の場合と同様の効果があ
る。

【０１２７】（第３の実施形態）次に、本発明の第３の
実施形態として図１の抄録作成装置１１がイントラネッ
ト文書検索サーバと呼ばれる検索サーバの内部に具備さ
れている場合について説明する。

【０１２８】図２５にイントラネット文書検索サーバ５
０の要部の構成例を示す。このイントラネット文書検索
サーバは、図２６に示すようにイントラネットと呼ばれ
るＬＡＮ内部のＨＴＴＰサーバ上に設置される。

【０１２９】図２５では、図１と同一部分には同一符号
を付し、異なる部分について説明する。すなわち、図１
の文書保存部１３、キーワード保持部１２、抄録処理部
１４に加え、さらに、通信部１５、インデクスファイル
作成部５１、インデックスファイル格納部５２、検索部
５３、文書収集部５４から構成されている。それ以外の
構成部は通常の検索サーバと同じ構成である。

【０１３０】文書保存部１３には、イントラネット内部
の文書つまり社内の文書とインターネット文書のうち、
著作権的に問題のない文書のコピーが保管される。文書
収集部５４は、定期的に社内および社外のインターネッ
ト文書を収拾し、保管されている文書をアップデートす
る。この収拾のための処理は通常ロボットと呼ばれてい
る。

【０１３１】イントラネット文書検索サーバ５０は、文
書保存部１３に収集されたイントラネット文書を高速に
検索するものであり、通常キーワード検索しやすいよう
にインデックスファイル作成部５１ではインデックスフ
ァイルを作成して、インデックスファイル格納部５２に
保持している。

【０１３２】文書保存部１３にはまた、検索された文書
の抄録文書とＫＷＩＣ文書とが保存される。通信部１５
は、ＨＴＴＰサーバあるいはＰＲＯＸＹサーバとの通信
を行う。

【０１３３】キーワード保持部１２には、ユーザから送
られてきた検索要求に含まれるキーワード等が保持され
る。検索部５３は、キーワード保持部１２に保管された
キーワードなどの検索条件に基づいてインデックスファ
イルを検索し、検索する。

【０１３４】図２５のイントラネット文書検索サーバ５
０の処理動作について、以下説明する。クライアントか
らの検索要求はＨＴＴＰサーバでまず受理され、検索対
象が社内文書である場合は、ＨＴＴＰ上の検索サーバが
起動され、検索される。検索結果の文書は文書保存部１
３から直ちに取り出され、抄録処理部１４によって、そ
の抄録が作成され、クライアントにランキングと作成さ
れた抄録が送出される。

【０１３５】クライアントからの検索要求で、検索対象
が社内文書でない場合は、その検索要求はＨＴＴＰサー
バから社外の各検索サーバに再転送される。以降の処理
は第１の実施形態の説明とほぼ同様である。異なる部分
は、検索結果のマージ処理や抄録作成処理がクライアン
トのＰＣ上でなく、ＨＴＴＰ上でなされるという点であ
る。

【０１３６】このように、イントラネットにおいては、
社内の全ＷＥＢページのコピーを保持しておくことがで
きるので、検索サーバの側に抄録処理を備えることがで
きる。またこの場合、検索結果に含まれる各文書をその
文書が存在する場所からダウンロードしてくる処理を省
くことができるので、抄録作成処理を検索処理の後、直
ちに行うことができる。従って、ユーザへの抄録の提示
をより高速に行うことができる。

【０１３７】

【発明の効果】電子化文書の抄録作成をクライアント端
末あるいはイントラネット内部の検索サーバ上でおこな
うことにより、検索された電子化文書からキーワードを
抽出して抄録を作成する際の処理の分散化と、その抄録
中の所定箇所と元文書へのリンクを張るための元文書の
改変が容易に行える。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る抄録作成装置の
構成例を示した図。

【図２】抄録作成処理の概略手順を説明するためのフロ
ーチャート。

【図３】抄録処理の対象となるＨＴＭＬ文書の一具体例
を示した図。

【図４】図３のＨＴＭＬ文書の標準的なブラウザによる
表示例を示した図。

【図５】図３に示したＨＴＭＬ文書に対し前処理を施し
た結果の一例を示した図。

【図６】ＫＷＩＣ電子化文書の一例を示した図。

【図７】図６のＫＷＩＣ電子化文書の標準的なブラウザ
による表示例を示した図。

【図８】ＫＷＩＣ行レジスタに格納されるデータの一例
を示した図。

【図９】見出し行レジスタに格納されるデータの一例を
示した図。

【図１０】冒頭行レジスタに格納されるデータの一例を
示した図。

【図１１】抄録文書の一例を示した図。

【図１２】図１１の抄録文書の標準的なブラウザによる
表示例を示した図。

【図１３】抄録文書の標準的なブラウザによる他の表示
例を示した図。

【図１４】図１２の抄録文書にリンクされたＫＷＩＣ文
書の表示例を示した図。

【図１５】本発明の第２の実施形態に係る電子化文書処
理装置（検索クライアント）の構成例を示した図。

【図１６】図１５の検索クライアントのネットワーク環
境の一例を示した図。

【図１７】図１５の検索クライアントの抄録作成処理手
順を説明するためのフローチャート。

【図１８】検索サーバから送られていた検索結果、およ
び、ブラウザによる表示例を示した図。

【図１９】抄録文書の一例を示した図。

【図２０】図１９に示した抄録文書のブラウザによる表
示例を示した図。

【図２１】電子化文書処理装置（検索クライアント）の
他の構成例を示した図。

【図２２】検索された電子化文書（サブページ）から、
それにリンクされたホームページまでの階層的なページ
の検索方法について説明するための図。

【図２３】検索された階層的なページの表示例（各ペー
ジから抽出されたページタイトルの表示）を示した図。

【図２４】検索された階層的なページの表示例（各ペー
ジから抽出された見出し相当の文字列の表示）を示した
図。

【図２５】本発明の第３の実施液体に係る電子化文書作
成装置（イントラネット文書検索サーバ）の構成例を示
した図。

【図２６】図２５の電子化文書作成装置のネットワーク
環境例を示した図。

【符号の説明】

１１…抄録作成装置１２…キーワード保持部１３…文書保持部１４…抄録処理部１５…通信部１６…電子化文書表示処理装置１７…入力部３０…電子化文書処理装置（検索クライアント）５０…電子化文書処理装置（イントラネット文書検索サ
ーバ）

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開平４−18673（ＪＰ，Ａ) 特開平４−169971（ＪＰ，Ａ) 特開平４−281566（ＪＰ，Ａ) 特開平７−129605（ＪＰ，Ａ) 伊藤，木下，小山，菊地，インターネット高速全文検索登録ソフトウェア”ＰａｎａＳｅａｒｃｈ／Ｗｅｂ”，ＮａｔｉｏｎａｌＴＥＣＨＮＩＣＡＬＲＥＰＯＲＴ，日本，1996年10月18日，第42 巻第５号，第104−109頁野口，佐藤，上野，墨田，石川，検索型ナビゲーションを実現したホームページ知的検索システムの開発，情報処理学学シンポジウム論文集，日本，1996年12 月５日，第96巻第11号，第91−96頁 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 17/21 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】ユーザにより入力された検索情報に基づ
き検索されて、所定のネットワークを介して転送されて
きた電子化文書を記憶する文書記憶手段と、前記検索情報に含まれているキーワードを保存するキー
ワード記憶手段と、前記文書記憶手段で記憶された電子化文書から少なくと
も前記キーワード記憶手段で記憶されたキーワードを含
む文字列を抽出するとともに、該抽出した文字列に前記
電子化文書中の該キーワードの存在位置へリンクするた
めのタグを挿入して抄録を作成する抄録作成手段と、前記電子化文書を前記抄録に関連付けて表示可能なよう
に、前記電子化文書中の前記キーワードの存在位置に、
前記抄録中の前記キーワードにリンクするためのタグを
挿入して該電子化文書を改変する文書改変手段と、この文書改変手段で改変された電子化文書を記憶する改
変文書記憶手段とを具備し、前記抄録作成手段で作成された抄録を提示して、その提
示された抄録中のユーザにより指示されたキーワードに
リンクした前記改変された電子化文書を前記改変文書記
憶手段から読み出し、少なくとも前記改変された電子化
文書中の前記抄録にリンクした箇所を提示することを特
徴とする電子化文書処理装置。
【請求項２】ユーザにより入力された検索情報に基づ
き検索されて、所定のネットワークを介して転送されて
きた電子化文書が複数あるとき、そのそれぞれについて
作成された複数の抄録から１つの抄録を作成することを
特徴とする請求項１記載の電子化文書処理装置。
【請求項３】前記電子化文書はＨＴＭＬ（Ｈｙｐｅｒ
ＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）文書で
あることを特徴とする請求項１記載の電子化文書処理装
置。