JP2000057152A

JP2000057152A - 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number: JP2000057152A
Application number: JP10222934A
Authority: JP
Inventors: Kenichi Numata; 賢一沼田
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 1998-08-06
Filing date: 1998-08-06
Publication date: 2000-02-25
Anticipated expiration: 2018-08-06
Also published as: JP4010058B2

Abstract

(57)【要約】【課題】文書中のキーワードを他の文書中の最小限の
関連記述に関連付ける処理を高速に行うことができるよ
うにする。【解決手段】階層構造関連付け手段２は、文書蓄積手
段１から読み込んだ被関連付け対象文書２ａを構成する
各要素の上位構造と下位構造とを関連付ける。キーワー
ド抽出手段３は、被関連付け対象文書２ａ中の特定の属
性を有する処理対象要素からキーワードを抽出する。文
書内容検索手段４は、抽出されたキーワードに基づい
て、文書蓄積手段１中の文書を検索する。キーワード関
連付け手段５は、検出された文書４ａの内容中のキーワ
ードと、キーワードの抽出元となる被関連付け対象文書
２ａの処理対象要素とを関連付ける。このような処理を
実行すれば、文書中のキーワードから関連付けられた情
報を取ることで、他の文書中で関連する必要最小限の内
容を参照することができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は文書関連付け装置、
文書閲覧装置、文書関連付けプログラムを記録したコン
ピュータ読み取り可能な記録媒体、及び文書閲覧プログ
ラムを記録したコンピュータ読み取り可能な記録媒体に
関し、特に文書中のあるキーワードとそのキーワードに
関連する他の文書の内容を関連付ける文書関連付け装
置、文書中のあるキーワードとそのキーワードに関連す
る他の文書の内容とが関連付けられた文書群中の文書を
閲覧する文書閲覧装置、前記文書関連付け装置をコンピ
ュータ上で実現するための文書関連付けプログラムを記
録したコンピュータ読み取り可能な記録媒体、及び前記
文書閲覧装置をコンピュータ上で実現するための文書閲
覧プログラムを記録したコンピュータ読み取り可能な記
録媒体に関する。

【０００２】

【従来の技術】ネットワーク上に散在する電子文書群を
リンクによって関連付けることが可能な、いわゆるハイ
パーテキストシステムが、World Wide Web(WWW) の普及
により、一般に広く利用されるようになってきている。
ハイパーテキストシステムでは、ある文書中のキーワー
ドに対して、より詳しい情報を持つ他の文書の内容への
ハイパーリンクを付与しておく。これによって、利用者
がその文書を閲覧していて、ハイパーリンクが付与され
た記述に関してより詳しく知りたいと思ったときには、
そのハイパーリンクを辿ることによって関連情報を知る
ことができる。

【０００３】ところが、一般的にこのようなハイパーテ
キスト文書を作成するためには、文書の作成者が手作業
でキーワードと他の文書との関連付けを行ってハイパー
リンクを作成する必要があり、多大の労力と時間を要す
る。そこで、この問題を解決するために、文書中のキー
ワードを自動抽出して、他の文書から同一または同義の
キーワードを含むものを検索することによって、文書間
の関連付けすなわちハイパーリンクを自動的に作成する
ことが考えられている。

【０００４】このとき単純に同一または同義のキーワー
ドを手がかりとして文書を関連付けるだけでは、ハイパ
ーリンクを辿ることによって、より詳しい説明が得られ
るという保証がない。なぜならば、関連付けられた文書
のいずれにおいても同一または同義のキーワードが一言
参照されているだけでそのキーワードの説明に当たる記
述がない場合が往々にしてあり得るからである。

【０００５】この問題を解決する１つの方法として、特
開平５−２０３６２号公報に開示された「文書テキスト
間の連鎖自動作成システム」がある。この公報に開示さ
れた方法では、まず、文書テキストから重要キーワード
を抽出し、抽出したキーワードの文書における重要度を
算出する。その上で、同一のキーワードを共有する文書
どうしで、キーワードの重要度の低い方の文書からキー
ワードの重要度の高い方の文書への、単方向の関連付け
を自動生成する。この方法では、同一のキーワードを手
がかりとして文書を関連付けているが、同一キーワード
の文書における重要度の高い文書のほうが、重要度の低
い文書よりも、そのキーワードに関してより詳しく説明
されているものと仮定している。これによって、文書中
のあるキーワードから、より詳しい説明が記述された他
の文書に対するハイパーリンクが自動的に生成される。
以下のこの方法を第１の従来技術とする。

【０００６】また、上記問題を解決する別の方法として
特開平７−３２５８２７号公報に開示された「ハイパー
テキスト自動生成装置」がある。この公報には、同一ま
たは同義のキーワードを持つ文書どうしを関連付ける際
に、一方の文書のキーワードから、他の文書の同一また
は同義のキーワードを持つ章や節の見出しに対してハイ
パーリンクを生成する方法が示されている。この方法で
は、あるキーワードが見出しに含まれる場合、見出し以
下の内容において、そのキーワードについて詳しく説明
されている可能性が高いと仮定している。これによっ
て、文書中のあるキーワードから、より詳しい説明に対
するハイパーリンクが自動的に生成される。以下のこの
方法を第２の従来技術とする。

【０００７】

【発明が解決しようとする課題】しかし、いずれの従来
技術においても、以下のような問題点があった。第１の
従来技術では、関連付けの対象はある文書中のキーワー
ドと他の文書全体である。そのため、関連付けられる他
の文書の記述量が多い場合には、たとえ関連付けられた
キーワードに対する詳しい説明が文書中に記述されてい
たとしても、文書中で関連する記述を見つけ出すことが
困難である。

【０００８】第２の従来技術では、ある文書中のキーワ
ードに対して、同一または同義のキーワードが含まれる
他の文書が複数存在する場合には、予め与えられた戦略
に従って候補をいずれか１つに絞るようになっている。
そのため、利用者が実際に知りたい情報が関連付けの対
象から洩れてしまうおそれがある。なお、この問題につ
いては、例えば関連付けの対象となる候補が複数存在す
る場合にその候補全てを関連付けてしまうことによって
洩れを防ぐことができる。しかし、この場合には、利用
者が複数の関連付けられた記述を順次閲覧し、必要な情
報を探すという手間がかかる。

【０００９】さらに、上記２つの従来技術のいずれにお
いても、関連付けの対象となるキーワードを自動抽出す
るために、文書全体に対して形態素解析を行う必要があ
る。形態素解析を高精度に行うには、かなり複雑な処理
を行わなければならない。そのため、従来の技術を用い
て大量の文書間のハイパーリンクを自動作成するには、
処理に非常に時間がかかってしまうという問題点があっ
た。

【００１０】本発明はこのような点に鑑みてなされたも
のであり、文書中のキーワードを他の文書中の最小限の
関連記述に関連付ける処理を高速に行うことができる文
書関連付け装置を提供することを目的とする。

【００１１】また、本発明の第２の目的は、文書中のキ
ーワードを他の文書中の最小限の関連記述に関連付けら
れた文書群内の文書を閲覧するための文書閲覧装置を提
供することである。

【００１２】また、本発明の第３の目的は、文書中のキ
ーワードを他の文書中の最小限の関連記述に関連付ける
処理をコンピュータに高速に行わせることができる文書
関連付けプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することである。

【００１３】また、本発明の第４の目的は、文書中のキ
ーワードを他の文書中の最小限の関連記述に関連付けら
れた文書群内の文書をコンピュータを用いて閲覧するた
めの文書閲覧プログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することである。

【００１４】

【課題を解決するための手段】本発明では上記課題を解
決するために、文書間の関連付けを行う文書関連付け装
置において、階層的な論理構造の文書群を格納する文書
蓄積手段と、前記文書蓄積手段に格納されている文書を
被関連付け対象文書とし、前記被関連付け対象文書を構
成する各要素の上位構造と下位構造とを関連付ける階層
構造関連付け手段と、前記被関連付け対象文書中の特定
の属性を有する処理対象要素に含まれる内容からキーワ
ードを抽出するキーワード抽出手段と、前記キーワード
抽出手段により抽出された前記キーワードを含む文書
を、前記文書蓄積手段内より検索する文書内容検索手段
と、前記文書内容検索手段により検出された文書中の前
記キーワードと、前記キーワードの抽出元となる前記被
関連付け対象文書内の前記処理対象要素とを関連付ける
キーワード関連付け手段と、を有することを特徴とする
文書関連付け装置が提供される。

【００１５】このような文書関連付け装置によれば、階
層構造関連付け手段により、前記文書蓄積手段に格納さ
れている文書が被関連付け対象文書とされ、その被関連
付け対象文書を構成する各要素の上位構造と下位構造と
が関連付けられる。また、キーワード抽出手段により、
被関連付け対象文書中の特定の属性を有する処理対象要
素に含まれる内容からキーワードが抽出される。する
と、内容検索手段により、キーワード抽出手段が抽出し
たキーワードを含む文書が文書蓄積手段内から検索され
る。そして、キーワード関連付け手段により、文書内容
検索手段により検出された文書中のキーワードと、キー
ワードの抽出元となる被関連付け対象文書内の処理対象
要素とが関連付けられる。

【００１６】また上記課題を解決するために、構造化文
書の内容を閲覧する文書閲覧装置において、階層的な論
理構造の文書群を格納する文書蓄積手段と、前記文書蓄
積手段に格納されている被関連付け対象文書に対して、
前記被関連付け対象文書を構成する各要素の上位構造と
下位構造とを関連付ける階層構造関連付け手段と、前記
被関連付け対象文書中の特定の属性を有する処理対象要
素に含まれる内容から、キーワードを抽出するキーワー
ド抽出手段と、前記キーワード抽出手段により抽出され
た前記キーワードに基づいて、前記文書蓄積手段に蓄積
されている他の文書の内容を検索する文書内容検索手段
と、前記文書内容検索手段により検出された文書中の前
記キーワードと、前記キーワードの抽出元となる前記被
関連付け対象文書内の前記処理対象要素とを関連付ける
キーワード関連付け手段と、文書閲覧要求に応じて、前
記文書蓄積手段から文書を抽出する文書抽出手段と、前
記文書抽出手段にて抽出された文書中で、前記キーワー
ド関連付け手段により関連付けられた前記キーワードが
選択されると、前記キーワードに対して関連付けられた
前記被関連付け対象文書中の関連要素及び前記関連要素
に関連付けられている下位の要素を順次抽出する要素抽
出手段と、前記要素抽出手段により抽出された前記関連
要素の内容及び前記関連要素に関連付けられている下位
の要素の内容を抽出する内容抽出手段と、を有すること
を特徴とする文書閲覧装置が提供される。

【００１７】このような文書閲覧装置によれば、階層構
造関連付け手段により、前記文書蓄積手段に格納されて
いる文書が被関連付け対象文書とされ、その被関連付け
対象文書を構成する各要素の上位構造と下位構造とが関
連付けられる。また、キーワード抽出手段により、被関
連付け対象文書中の特定の属性を有する処理対象要素に
含まれる内容からキーワードが抽出される。すると、内
容検索手段により、キーワード抽出手段が抽出したキー
ワードを含む文書が文書蓄積手段内から検索される。そ
して、キーワード関連付け手段により、文書内容検索手
段により検出された文書中のキーワードと、キーワード
の抽出元となる被関連付け対象文書内の処理対象要素と
が関連付けられる。さらに、文書閲覧要求が入力される
と、文書抽出手段により、文書閲覧要求に応じた文書が
文書蓄積手段から抽出される。この文書抽出手段にて抽
出された文書中で、キーワード関連付け手段により関連
付けられたキーワードが選択されると、要素抽出手段に
より、キーワードに対して関連付けられた被関連付け対
象文書中の関連要素及び関連要素に関連付けられている
下位の要素が順次抽出される。

【００１８】さらに、内容抽出手段により、前記要素抽
出手段により抽出された前記関連要素の内容及び関連要
素に関連付けられている下位の要素の内容が抽出され
る。また上記課題を解決するために、文書間の関連付け
を行うための文書関連付けプログラムを記録したコンピ
ュータ読み取り可能な記録媒体において、階層的な論理
構造の文書群を格納する文書蓄積手段、前記文書蓄積手
段に格納されている文書を被関連付け対象文書とし、前
記被関連付け対象文書を構成する各要素の上位構造と下
位構造とを関連付ける階層構造関連付け手段、前記被関
連付け対象文書中の特定の属性を有する処理対象要素に
含まれる内容からキーワードを抽出するキーワード抽出
手段、前記キーワード抽出手段により抽出された前記キ
ーワードを含む文書を、前記文書蓄積手段内より検索す
る文書内容検索手段、前記文書内容検索手段により検出
された文書中の前記キーワードと、前記キーワードの抽
出元となる前記被関連付け対象文書内の前記処理対象要
素とを関連付けるキーワード関連付け手段、としてコン
ピュータを機能させることを特徴とする文書関連付けプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体が提供される。

【００１９】この記録媒体に記録された文書関連付けプ
ログラムをコンピュータに実行させれば、上記本発明に
係る文書関連付け装置の機能がコンピュータ上に構築さ
れる。

【００２０】また上記課題を解決するために、構造化文
書の内容を閲覧するための文書閲覧プログラムを記録し
たコンピュータ読み取り可能な記録媒体において、階層
的な論理構造の文書群を格納する文書蓄積手段、前記文
書蓄積手段に格納されている被関連付け対象文書に対し
て、前記被関連付け対象文書を構成する各要素の上位構
造と下位構造とを関連付ける階層構造関連付け手段、前
記被関連付け対象文書中の特定の属性を有する処理対象
要素に含まれる内容から、キーワードを抽出するキーワ
ード抽出手段、前記キーワード抽出手段により抽出され
た前記キーワードに基づいて、前記文書蓄積手段に蓄積
されている他の文書の内容を検索する文書内容検索手段
と、前記文書内容検索手段により検出された文書中の前
記キーワードと、前記キーワードの抽出元となる前記被
関連付け対象文書内の前記処理対象要素とを関連付ける
キーワード関連付け手段、文書閲覧要求に応じて、前記
文書蓄積手段から文書を抽出する文書抽出手段、前記文
書抽出手段にて抽出された文書中で、前記キーワード関
連付け手段により関連付けられた前記キーワードが選択
されると、前記キーワードに対して関連付けられた前記
被関連付け対象文書中の関連要素及び前記関連要素に関
連付けられている下位の要素を順次抽出する要素抽出手
段、前記要素抽出手段により抽出された前記関連要素の
内容及び前記関連要素に関連付けられている下位の要素
の内容を抽出する内容抽出手段、としてコンピュータを
機能させることを特徴とする文書閲覧プログラムを記録
したコンピュータ読み取り可能な記録媒体が提供され
る。

【００２１】この記録媒体に記録された文書閲覧プログ
ラムをコンピュータに実行させれば、上記本発明に係る
文書閲覧装置の機能がコンピュータ上に構築される。

【００２２】

【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図１は、本発明の原理構成図であ
る。本発明の文書関連付け装置は、以下の要素で構成さ
れる。

【００２３】文書蓄積手段１は、階層的な論理構造の文
書群を蓄積する。構造化された文書としては、ＳＧＭＬ
の規定に従って作成された文書などがある。階層構造関
連付け手段２は、文書蓄積手段１から被関連付け対象文
書２ａを読み込み、読み込んだ被関連付け対象文書２ａ
を構成する各要素の上位構造と下位構造とを関連付け
る。例えば、各要素に識別子を与える。そして、各要素
に対して、その要素の下位構造となる要素の識別子の情
報を持たせる。要素間の関連付けを行った被関連付け対
象文書２ａは、文書蓄積手段１に戻す。

【００２４】キーワード抽出手段３は、被関連付け対象
文書２ａ中の特定の属性を有する処理対象要素に含まれ
る内容からキーワードを抽出する。例えば、表題として
の属性を有する要素と、見出しとしての属性を有する要
素とを、処理対象要素とする。すると、キーワード抽出
手段３は、抽出元の要素の識別子と、その要素から抽出
されたキーワードの集合とを対応づけたキーワード対応
表３ａを内部で生成する。そして、被関連付け対象文書
２ａに関するキーワード対応表３ａを文書内容検索手段
４に渡す。

【００２５】文書内容検索手段４は、キーワード抽出手
段３により抽出されたキーワードに基づいて、文書蓄積
手段１に蓄積されている他の文書の内容を検索する。見
つけ出した文書４ａは、キーワード関連付け手段５に渡
す。

【００２６】キーワード関連付け手段５は、文書内容検
索手段４により検出された文書４ａの内容中のキーワー
ドと、キーワードの抽出元となる被関連付け対象文書２
ａの処理対象要素とを関連付ける。被関連付け対象文書
２ａの特定の要素への関連付けを行った文書５ａは、文
書蓄積手段１に格納する。

【００２７】このような文書関連付け装置によれば、階
層構造関連付け手段２に読み込まれた被関連付け対象文
書２ａは、各要素の上位構造と下位構造との関連付けが
行われ、文書蓄積手段１に戻される。このとき、キーワ
ード抽出手段３により、各要素の内容の中からキーワー
ドが抽出される。すると、文書内容検索手段４により、
抽出されたキーワードに基づいて文書蓄積手段１内の文
書が検索される。検出された文書４ａはキーワード関連
付け手段５に渡され、文書４ａの内容中のキーワード
と、キーワードの抽出元となる被関連付け対象文書２ａ
の処理対象要素とが関連付けられる。そして、処理対象
要素との関連付けが行われた文書５ａは、文書蓄積手段
１に戻される。

【００２８】このような処理を、文書蓄積手段１に格納
されている全ての文書を被関連付け対象文書２ａとして
実行すれば、ある文書中のキーワードが他の文書中の特
定の要素（表題や見出し）に関連付けられ、さらに、そ
の要素から下位構造に関連付けられる。そのため、文書
蓄積手段１内の文書を閲覧する場合には、文書中のキー
ワードから他の文書中の必要最小限の関連付けられた内
容を参照することができる。

【００２９】しかも、関連付けに際して文書中の表題も
しくは見出しなどの特定の要素だけを対象としてキーワ
ード抽出処理を行うので、形態素解析のようなキーワー
ド抽出に必要な煩雑な処理を文書全体に対して施す必要
がなくなる。その結果、関連付けの処理効率が向上す
る。

【００３０】次に、本発明の文書関連付け装置によって
文書間の関連付けを行い、それらの文書を閲覧すること
ができる文書閲覧装置を第１の実施の形態として以下に
説明する。

【００３１】図２は、本発明を適用した文書閲覧装置の
構成を示す図である。この文書閲覧装置は、文書蓄積部
１１、階層構造関連付け部１２、キーワード抽出部１
３、文書内容検索部１４、キーワード関連付け部１５、
文書抽出部１６、見出し抽出部１７、見出し選択部１
８、内容抽出部１９、表示部２０、及び入力部２１から
構成されている。

【００３２】文書蓄積部１１は、表題、章の見出し、節
の見出し、段落等の論理構造を有する文書群を蓄積す
る。階層構造関連付け部１２は、文書蓄積部１１に蓄積
された文書を読み込み、表題、見出しの階層( 章見出
し、節見出しなど) 、見出しに対応する内容( 例えばあ
る節の段落の並び) を関連付ける。

【００３３】キーワード抽出部１３は、階層構造関連付
け部１２にて関連付けられた表題および見出しの階層か
らキーワードを抽出する。文書内容検索部１４は、キー
ワード抽出部１３にて抽出されたキーワードを用いて、
文書蓄積部１１に蓄積された文書群を対象に、与えられ
たキーワードを内容に持つ文書を検索する。

【００３４】キーワード関連付け部１５は、文書内容検
索部１４にて検索された文書中のキーワードと、該キー
ワードを抽出した表題および見出しの階層を関連付け
る。文書抽出部１６は、文書蓄積部１１に蓄積された文
書群から、入力部２１で利用者が入力した要求に応じて
文書を抽出し、表示部２０に表示する。

【００３５】見出し抽出部１７は、文書抽出部１６によ
り抽出され、表示部２０に表示された文書中で、利用者
が入力部２１によりキーワードを指定した場合に、指定
されたキーワードで関連付けられている他の文書の表題
もしくは見出しを文書蓄積部１１から抽出し、表示部２
０に表示する。また、抽出された前記表題もしくは見出
しのさらに下位の見出しを文書蓄積部１１から抽出し、
表示部２０に表示する。

【００３６】見出し選択部１８は、入力部２１で利用者
が入力した要求に応じて、見出し抽出部１７により表題
もしくは見出しが複数抽出された場合にはそのうちの１
つの表題もしくは見出しを選択し、前記表題もしくは見
出しに下位の見出しが複数存在する場合にはそのうちの
１つの見出しを選択する。

【００３７】内容抽出部１９は、見出し抽出部１７によ
り抽出された表題、見出しもしくは順次抽出された下位
の見出しが、その見出しに対応する内容と関連付けられ
ている場合に、文書蓄積部１１からその内容を抽出し、
表示部２０に表示する。

【００３８】表示部２０は、文書抽出部１６により抽出
された文書、見出し抽出部１７により抽出された他の文
書の表題もしくは見出し、および内容抽出部１９により
抽出された他の文書の内容を、画面上に表示する。

【００３９】入力部２１は、文書抽出部１６により抽出
する文書の指定、文書抽出部１６により抽出された文書
中でのキーワードの選択、見出し抽出部１７により抽出
された表題もしくは見出しが複数存在する場合の選択の
指示等を行う。

【００４０】次に、このような構成の文書閲覧装置によ
り、文書蓄積部１１に格納されている文書群に対して文
書間の関連付けを行う手順について説明する。図３は、
文書間の関連付けを行う手順を示すフローチャートであ
る。以下の処理をステップ番号に沿って説明する。［Ｓ１］階層構造関連付け部１２が、文書蓄積部１１か
ら未処理の文書を１つ読み込む。［Ｓ２］階層構造関連付け部１２が、読み込んだ文書の
構造を解析する。［Ｓ３］階層構造関連付け部１２が、表題、見出し、及
び内容を関連付ける。［Ｓ４］キーワード抽出部１３が、表題及び見出しの内
容の中からキーワードを抽出する。［Ｓ５］文書内容検索部１４が、キーワード抽出部１３
が抽出したキーワードを含む文書を、文書蓄積部１１の
中から検索する。［Ｓ６］キーワード関連付け部１５が、文書内容検索部
１４によって検出された文書内のキーワードに合致した
部分に対して、そのキーワードの抽出元となった表題も
しくは見出しを関連付ける。［Ｓ７］キーワード関連付け部１５が、キーワードの関
連付けの終了した文書を文書蓄積部１１へ格納する。［Ｓ８］階層構造関連付け部１２は、文書蓄積部１１に
格納されている全ての文書の処理を行ったか否かを判断
し、全ての文書に対する処理が終了していれば文書間の
関連付け処理を終了し、そうでなければステップＳ１に
進み未処理の文書に対する処理を行う。

【００４１】このような処理を行うことにより、各文書
の内容に含まれるキーワードから、そのキーワードを表
題もしくは見出しとして含む文書の該当する表題若しく
は見出しへリンクを張ることができる。

【００４２】以下に、具体例を用いて処理内容の詳細を
説明する。なお、以下の例では、表題、見出し等の論理
構造を有する文書の一例として、国際規格であるＳＧＭ
Ｌ(Standard Generalized Markup Language; ISO8879)
に基づく表現を用いているが、表題、見出し、見出しに
対応する内容が表現できる体系であればＳＧＭＬでなく
ともよい。

【００４３】まず、階層構造関連付け部１２が、文書蓄
積部１１に蓄積された文書を１つ読み込む（ステップＳ
１）。ここで、以下のような文書を読み込んだものとす
る。図４は、関連付けの対象となるキーワードを見出し
に含む文書の第１の例を示す図である。この文書３１
は、以下のような構造定義に従って作成されている。

【００４４】文書中の各要素は、その開始と終了を示す
タグによって囲まれている。ある要素Ａについて、開始
タグは＜Ａ＞、終了タグは＜／Ａ＞で示される。文書
は、文書の開始を示すタグ＜doc ＞と、文書の終了を示
すタグ＜／doc ＞によって囲まれている。文書要素(do
c) は表題を示す要素(title) と章を示す要素(sect1)
の並びとを包含している。章要素(sect1) は見出しを示
す要素(head)と段落を示す要素(para)の並びとを包含し
ているか、もしくは、見出し要素(head)と節を示す要素
(sect2) の並びを包含している。節要素(sect2) は見出
し要素(head)と段落要素(para)の並びを包含している。
また、表題要素(title) 、見出し要素(head)、段落要素
(para)は、その内容としてテキスト（文字列）を持つ。

【００４５】なお、本実施の形態で例示する文書では、
要素の名前としてdoc 、title 、sect1 、sect2 、hea
d、paraを用いているが、文書中で表題、見出し、本文
が特定できれば、名前はなんでもよい。また、章や節の
構造はさらに深く入れ子になっていてもよい。例えば、
節要素(sect2) がさらに下位の節要素(sect3) を含むよ
うになっていてもよい。

【００４６】このような文書３１を読み込んだ階層構造
関連付け部１２は、読み込んだ文書の表題、見出し、段
落等の文書構造を解析し、文書中の各要素に一意な識別
子を付与する（ステップＳ２）。

【００４７】図５は、各要素に一意な識別子を付与した
文書を示す図である。この図では、各要素に属性名「i
d」の値として識別子を付与している。この文書３２で
は、文書要素(doc) に「d1」という識別子を付与してい
る。文書要素の識別子が、文書３２自身の識別子とな
る。そのため、文書要素の識別子は、文書蓄積部１１に
格納されている文書の中で一意に識別できるような記号
が用いられる。

【００４８】文書３２中の文書要素以外の要素に関して
は、文書３２内において一意に識別できればよい。ここ
では、表題要素(title) に「t1」という識別子を付与
し、章要素(sect1) にそれぞれ「s1」、「s2」、「s3」
という識別子を付与し、見出し要素(head)にそれぞれ
「h1」、「h2」、「h3」という識別子を付与し、段落要
素(para)にそれぞれ「p1」、「p2」、「p3」、「p4」と
いう識別子を付与している。

【００４９】次に、階層構造関連付け部１２は文書３２
の表題、見出し、もしあれば下位の見出し、見出しに対
応する段落の並びを関連付ける( ステップＳ３) 。本実
施の形態では、文書の表題から見出しへの関連付けを、
表題要素(title) の属性として見出しの識別子の並びを
設定することによって表現する。また、見出しから下位
の見出しへの関連付けもしくは見出しから対応する内容
への関連付けは、見出し要素(head)の属性として下位の
見出し要素の識別子もしくは内容となる段落要素(para)
の識別子の並びを設定することによって表現する。

【００５０】図６は、表題、見出し、内容を関連付けた
文書の例を示す図である。この文書３３は、図５に示す
文書３２の表題要素および見出し要素に、関連付ける見
出し要素もしくは段落要素の識別子の並びを属性名「re
f 」の値として付与したものである。この例では、識別
子の並びを空白文字によって区切っている。例えば、表
題要素(title) の下位には３つの見出し要素(head)があ
るため、表題要素(title) の属性名「ref 」の値は、
「h1 h2 h3」となる。

【００５１】次に、キーワード抽出部１３が階層構造関
連付け部１２によって関連付けられた表題もしくは見出
しからキーワードを抽出する（ステップＳ４）。キーワ
ードの抽出方法としては、従来の形態素解析などの手法
を利用すればよい。本実施の形態では、形態素解析の結
果から名詞と判定された単語をキーワードとして利用す
る。また、ひらがな語など、キーワードになりにくいも
のは、予めストップワードとして登録しておき、キーワ
ードの抽出対象から外す。キーワード抽出部１３は、要
素と、その要素に含まれるキーワードとの対応関係を示
すキーワード対応表を作成し、一時的に保持する。

【００５２】図７は、キーワード対応表の例を示す図で
ある。これは、図６に示した文書３３の表題要素(titl
e) および見出し要素(head)と、そこから抽出したキー
ワードとの対応関係を示すキーワード対応表４１であ
る。キーワード対応表４１には、「要素の種類」、「識
別子」、および「キーワード」の項目が設けられてい
る。「要素の種類」の項目には、キーワードの抽出を行
った要素の種類が設定される。この例は、「表題」か
「見出し」のいずれかである。「識別子」の項目には、
キーワードの抽出を行った要素の識別子が設定される。
「キーワード」の項目には、キーワードの抽出を行った
要素に含まれていたキーワードの集合が設定される。

【００５３】このように、文書中の表題要素および見出
し要素のみに対して形態素解析処理を行うので、文書全
体に対して形態素解析処理を行う必要はない。一般に文
書の表題や見出しに含まれるテキストの量は、文書全体
のテキスト量に比して非常に少ないので、形態素解析の
処理コストを大幅に削減することができる。

【００５４】次に、文書内容検索部１４は、キーワード
抽出部１３により抽出されたキーワードを用いて、文書
蓄積部１１に蓄積された他の文書の内容を検索する（ス
テップＳ５）。例えば、表題要素(title) から抽出され
た「SGML」というキーワードを用いて、文書蓄積部１１
内の文書を検索を行った場合、以下のような文書が検出
される。

【００５５】図８は、関連付けの対象となるキーワード
を本文中に含む文書の例を示す図である。この文書５１
は、段落要素(para)の内容に含まれるテキスト「...SGM
L へ変換する。... 」の「SGML」が一致したことによ
り、検出される。なお、この文書５１は、図４に示した
文書３１と同様の構造定義に従って作成された文書であ
る。

【００５６】図８のような文書５１が見つかったら、そ
のキーワード関連付け部１５はキーワードと一致する文
書５１の内容と、そのキーワードを含む表題もしくは見
出しを関連付ける（ステップＳ６）。具体的には、テキ
スト「...SGML へ変換する。... 」中の「SGML」を参照
元要素としてタグ付けし、図６に示した文書３３の表題
要素(title) の識別子を、参照元の要素の属性として設
定する。

【００５７】図９は、キーワードと表題との関連付けが
行われた文書の例を示す図である。この文書５２では、
キーワード「SGML」は関連付けを示す要素(link)の開始
タグと終了タグによって囲まれ、link要素の属性「ref
」の値として文書「d1」の表題「t1」への関連付けが
設定されている。ここで属性「ref 」の値として、文書
要素の識別子「d1」と表題要素の識別子「t1」を「. 」
によって接続しているのは、識別子「t1」が他の文書の
ある要素においてたまたま使われている場合に、関連付
けの対象を一意に決定できなくなることを防ぐためであ
る。

【００５８】なお、本実施の形態では文書要素の識別子
と表題要素もしくは見出し要素とを接続するために「.
」を用いているので、要素に識別子を付与する際には
識別子自身に「. 」を含めないようにする。

【００５９】また、本実施の形態では、文書要素(doc)
の識別子が、文書蓄積部１１に蓄積されている文書を一
意に識別できるように付与されているため、この文書要
素を用いて文書を識別しているが、文書を識別するため
の識別子を文書全体に対して付与して、それを関連付け
の識別子として用いてもよい。このような識別子として
は、文書の実体がファイルである場合にはファイル名を
用いたり、文書がＷＷＷ(World Wide Web)上で公開され
る場合にはＵＲＬ(Uniform Resource Locator)を用いた
りすることができる。

【００６０】ステップＳ４にて抽出された全てのキーワ
ードに対して他の文書内容を検索し、ステップＳ６にて
キーワードの関連付けが終了したら、関連付けされた文
書は文書蓄積部１１に格納される（ステップＳ７）。こ
のとき、関連付けの対象となった元の文書の内容は上書
きされる。

【００６１】そして、文書蓄積部１１に蓄積された全て
の文書について、上記ステップＳ１〜ステップＳ７の処
理が行われたかどうかを調べ（ステップＳ８）、まだ処
理されていない文書があればステップＳ１へ戻って処理
を継続し、全ての文書について処理が終了していれば、
文書間の関連付けの処理を終了する。

【００６２】以上の処理が行われることにより、図９に
示した文書５２に対しても、階層構造の関連付けが行わ
れる。図１０は、図９の文書に対して階層構造の関連付
けを行った結果を示す図である。この文書５３は、文書
要素(doc) の識別子として「d2」が付与されている。

【００６３】次に、本発明に基づく文書関連付け装置に
より、関連付けを利用して、文書中のあるキーワードか
ら、そのキーワードに対する説明記述を参照する手順に
ついて説明する。

【００６４】図１１は、関連付けの利用手順を示すフロ
ーチャートである。このフローチャートをステップ番号
に沿って簡単に説明する。［Ｓ１１］利用者が入力部２１を用いて文書の表示要求
を入力すると、文書抽出部１６が該当する文書を文書蓄
積部１１内から抽出する。抽出した文書の内容は、表示
部２０の画面に表示される。［Ｓ１２］利用者が入力部２１を用いてキーワードを選
択する。［Ｓ１３］見出し抽出部１７が、ステップＳ１２にて選
択されたキーワードの関連付け情報すなわちlink要素の
属性「ref 」の識別子を参照し、文書蓄積部１１から該
当する識別子を持つ文書の表題もしくは見出しを抽出す
る。あるいは後述するステップＳ１４，Ｓ１５で見出し
選択部１８によって選択された表題もしくは見出しの下
位の見出しを、文書蓄積部１１から抽出する。そして、
抽出した表題もしくは見出しを表示部２０に表示する。［Ｓ１４］見出し選択部１８が、見出し抽出部１７によ
って抽出された見出しが複数か否かを判断し、複数であ
ればステップＳ１５へ処理を進め、１つだけであればそ
の表題もしくは見出しを選択してステップＳ１６へ処理
を進める。［Ｓ１５］見出し選択部１８が、入力部２１で利用者が
入力した要求に応じて、見出し抽出部１７により表題も
しくは見出しが複数抽出された場合にはそのうちの１つ
の表題もしくは見出しを選択する。［Ｓ１６］見出し選択部１８は、選択された表題もしく
は見出しに関して、下位の見出しが存在するか否かを判
断する。この実施の形態では、ステップＳ１３にて抽出
された表題要素(title) もしくは見出し要素(head)の属
性「ref 」の値として設定されている識別子を持つ要素
を特定し、その要素が見出し要素(title)であるかない
かを判定する。下位の見出しが存在していればステップ
Ｓ１３に進み、存在していなければステップＳ１７に進
む。［Ｓ１７］内容抽出部１９が、ステップＳ１５にて選択
された見出し要素に関連付けられた内容に対応する要素
を抽出し、表示部２０の画面に表示する。

【００６５】以下に、関連付けの利用に関する処理を具
体例を用いて説明する。まず利用者が図１０に示した文
書５３の表示要求を入力部２１により指示したものとす
る。すると、文書５３の内容が表示部２０の画面に表示
される。

【００６６】図１２は、文書の内容を表示した際の表示
画面の例を示す図である。この表示画面６１では、文書
中のタグにより表題、見出し、段落、関連付けられたキ
ーワードなどを識別し、それぞれに対して適切なレイア
ウトを定めて画面表示を行っている。例えば表題は大き
めのフォントでセンタリングして表示し、見出しは大き
めのフォントで番号を付与して表示し、他の文書の見出
し等に関連付けられたキーワードは下線を付与して強調
している。

【００６７】次に、利用者が、表示部２０に表示された
文書を参照し、関連付けの付与された「SGML」の表示箇
所をマウスでクリックするなどの方法で選択したものと
する（ステップＳ１２）。すると、見出し抽出部１７
が、選択されたキーワード「SGML」の関連付け情報すな
わちlink要素の属性「ref 」の識別子を参照し、文書蓄
積部１１から該当する識別子「d1」を持つ文書３３内の
該当する表題「t1」を抽出し、表示部２０に表示する
（ステップＳ１３）。

【００６８】図１３は、見出しを表示した際の表示画面
の例を示す図である。前述の関連付けの処理によりキー
ワード「SGML」は関連付けを示すlink要素によってタグ
付けされており、その属性「ref 」の値として「d1.t1
」が設定されているので、図６に示した文書３３の表
題要素( 識別子は「t1」) が見出し抽出部１７により抽
出され、表題要素の内容「SGMLによる電子出版」を含む
表示画面６２が、表示部２０により表示される。

【００６９】このとき、抽出された表題が複数か否かの
判定が見出し抽出部１７によって行われるが（ステップ
Ｓ１４）、この例では抽出された表題もしくは見出しが
１つだけである。そこで、見出し抽出部１７は、抽出さ
れた見出しに関連付けられた下位の見出しが存在するか
どうかを判定する（ステップＳ１６）。この例では、識
別子「t1」を持つ表題要素の属性「ref 」の値として、
「h1 h2 h3」の３つの要素が関連付けられており、いず
れも見出し要素である。従って、ステップＳ１３へ戻り
見出しの抽出が行われる。

【００７０】図１４は、下位の見出しを表示した際の表
示画面の例を示す図である。これは、図１３に示した表
示画面６２の例から、「SGMLによる電子出版」を内容に
持つ表題要素に関連付けられている下位の見出しを表示
部２０に表示したときの表示画面６３の例を示したもの
である。すなわち、図６に示した文書３３において、識
別子「t1」を持つ表題要素の属性「ref 」の値として設
定されている３つの見出し要素( 識別子はh1、h2、h3)
の内容「はじめに」「電子出版の歴史」「関連ツール」
を抽出し、表示部２０の画面に表示している。

【００７１】ここで、再び見出し選択部１８が、抽出さ
れた見出しが複数であるか否かの判断を行う（ステップ
Ｓ１４）。ここでは、３つの見出しが抽出されているの
で、利用者は表示部２０に表示されている複数の表題も
しくは見出しから入力部２１により１つを選択する（ス
テップＳ１５）。この例では、図１４に表示されている
３つの見出しの内容のうち「関連ツール」をマウス等で
選択したものとする。

【００７２】すると、見出し選択部１８が、選択された
見出し「関連ツール」に関連付けられた下位の見出しが
存在するかどうかを判定する（ステップＳ１６）。図６
に示した文書３３において、「関連ツール」を内容に持
つ見出し要素( 識別子は「h3」) の属性「ref 」の値と
して設定されている識別子p3、p4、．．．の要素はいず
れも見出しではない。したがって、内容抽出部１９が、
内容の抽出を行う（ステップＳ１７）。

【００７３】図１５は、内容を表示した際の表示画面の
例を示す図である。これは、図１４に示した表示画面６
３の例から、「関連ツール」を内容に持つ見出し要素に
関連付けられている内容を表示部２０に表示したときの
表示画面６４の例である。すなわち、図６に示した文書
３３において、識別子「h3」を持つ見出し要素の属性
「ref 」の値として設定されている段落要素（識別子p
3、p4、．．．）の内容を抽出し、表示部２０に表示す
る。

【００７４】このように、関連する内容の候補が複数存
在する場合にも、見出しを表示して選択することにより
必要最小限の関連付けられた内容を参照することができ
る。また、表示部２０に表示される表題もしくは見出し
から、利用者が内容を参照する必要がないと判断した場
合は、内容の参照を行う前に処理を中断することも可能
である。したがって、利用者は内容の詳細を全て読むこ
となく必要な情報を効率良く見つけることが可能であ
る。

【００７５】次に、第２の実施の形態について説明す
る。第２の実施の形態は、ある文書内容中のキーワード
に対して、他の文書の表題もしくは見出しが複数関連付
けられている場合に、関連付けられた内容をさらに効率
的に抽出できるようにした文書閲覧装置である。なお、
第２の実施の形態の構成要素は、図２に示した第１の実
施の形態の構成要素と同じであるため、図２に示した構
成を用いて第２の実施の形態を説明する。また、第２の
実施の形態における文書間の関連付け処理は、第１の実
施の形態と同様であるため説明を省略する。

【００７６】そこで、第２の実施の形態による関連付け
参照処理について、以下に説明する。図１６は、第２の
実施の形態における関連付け参照の処理の流れを示すフ
ローチャートである。以下の処理をステップ番号に沿っ
て説明する。［Ｓ２１］利用者が文書蓄積部１１に蓄積された文書群
から抽出する文書を入力部２１により指示すると、文書
抽出部１６は、指示された文書を抽出し、表示部２０に
表示する。［Ｓ２２］利用者が表示部２０に表示された文書を参照
し、入力部２１より関連付けの付与されたキーワードの
表示箇所をマウスでクリックするなどの方法で選択す
る。［Ｓ２３］見出し抽出部１７は、ステップＳ２２にて選
択されたキーワードの関連付け情報すなわちlink要素の
属性「ref 」の識別子を参照し、文書蓄積部１１から該
当する識別子を持つ文書の表題もしくは見出しを抽出す
る。［Ｓ２４］見出し抽出部１７は、ステップＳ２３にて抽
出された表題もしくは見出しが１つであるか複数である
かを判定し、抽出された表題もしくは見出しが複数あれ
ば、ステップＳ２５へ進み、１つしかなければステップ
Ｓ２９へ進む。［Ｓ２５］見出し抽出部１７は、ステップＳ２４にて抽
出された表題もしくは見出しが複数あると判定される
と、それらの表題もしくは見出しを文書ごとにグループ
化する。［Ｓ２６］見出し抽出部１７は、ステップＳ２５にてま
とめられた文書ごとの関連付けのグループを、同一文書
内への関連付けの数、および関連付けられる表題もしく
は見出しの階層の深さから算出される重要度に応じて並
べ替える。［Ｓ２７］見出し抽出部１７は、ステップＳ２５にて文
書ごとにグループ化された関連付けを、関連付けられる
表題もしくは見出しの階層の深さから算出される重要度
に応じて各グループ内で並び替える。［Ｓ２８］利用者は表示部２０に表示されている複数の
表題もしくは見出しから入力部２１により１つを選択す
る。［Ｓ２９］見出し抽出部１７は、ステップＳ２３にて抽
出された表題もしくは見出しが１つである場合またはス
テップＳ２８にて見出しが選択された場合に、その表題
もしくは見出しに関連付けられた下位の見出しが存在す
るかどうかを判定する。もし下位の見出しが存在すれば
ステップＳ２３に戻って下位の見出しを抽出する。下位
の見出しが存在しなければステップＳ３０へ進む。［Ｓ３０］内容抽出部１９が、ステップＳ２８にて選択
された見出し要素に関連付けられた内容に対応する要素
を抽出し、表示部２０の画面に表示する。

【００７７】このようにして、ある文書内容中のキーワ
ードに対して、他の文書の表題もしくは見出しが複数関
連付けられている場合に、関連付けられた内容を効率的
に抽出することができる。以下にこの処理の詳細を、具
体例を用いて説明する。

【００７８】本実施の形態では、第１の実施の形態で示
した文書以外に、関連付けの対象となるキーワード「SG
ML」を表題に含む次のような文書が、文書蓄積部１１に
格納されているものとする。

【００７９】図１７は、関連付けの対象となるキーワー
ドを表題に含む文書の第２の例を示す図である。この文
書７１には、文書要素(doc) に「d3」という識別子が付
与されている。また、「id="t1" 」の表題要素(title)
、「id="h2" 」の見出し要素(head)、および「id="h3"
」の見出し要素(head)の内容に「SGML」のキーワード
が含まれている。

【００８０】図１８は、関連付けの対象となるキーワー
ドを表題に含む文書の第３の例を示す図である。この文
書８１には、文書要素(doc) に「d4」という識別子が付
与されている。また、「id="h21"」の見出し要素(head)
と「id="h22"」の見出し要素(head)との内容に「SGML」
のキーワードが含まれている。

【００８１】図４に示した文書３１に加え、図１７，図
１８に示した文書７１，８１に対して関連付け処理が行
われると、図８に示した文書５１は以下のように、他の
文書の表題もしくは見出しに関連付けられる。

【００８２】図１９は、キーワードと表題もしくは見出
しとの関連付けを行った文書の例を示す図である。この
図に示すように、文書５４は、他の複数の文書の表題も
しくは見出しに関連付けられている。すなわち、図１９
において、キーワード「SGML」に対してそれをタグ付け
するlink要素の属性によって、文書「d1」の表題「t1」
( 内容は「SGMLによる電子出版」) 、文書「d3」の表題
「t1」( 内容は「SGMLへの招待」) 、見出し「h2」( 内
容は「SGMLとHTML」) および見出し「h3」( 内容は「SG
MLとXML 」) 、文書「d4」の見出し「h21 」( 内容は
「SGML文書の検索」) および見出し「h22 」( 内容は
「SGMLデータベースシステム」) の合計６個の表題もし
くは見出しが関連付けられている。

【００８３】以下、このように関連付けられている文書
群を対象として、図１６に示したフローチャートに沿っ
て関連付け参照の処理の流れを説明する。まず利用者が
文書蓄積部１１に蓄積された文書群から抽出する文書を
入力部２１により指示すると、文書抽出部１６は、指示
された文書を抽出し、表示部２０に表示する（ステップ
Ｓ２１）。ここで表示部２０に表示される文書は図１９
に示した文書５４であるものとする。図１９に示す文書
５４を表示部２０に表示した場合、link要素の属性値は
画面上に表示されないので、第１の実施の形態の場合と
同じく図１２に示すように表示画面６１が表示される。

【００８４】次に、利用者が表示部２０に表示された文
書５４を参照し、入力部２１より関連付けの付与された
キーワード「SGML」の表示箇所をマウスでクリックする
などの方法で選択する（ステップＳ２２）。見出し抽出
部１７は、ステップＳ２２にて選択されたキーワードの
関連付け情報すなわちlink要素の属性「ref 」の識別子
を参照し、文書蓄積部１１から該当する識別子を持つ文
書の表題もしくは見出しを抽出する（ステップＳ２
３）。

【００８５】次に、見出し抽出部１７は、ステップＳ２
３にて抽出された表題もしくは見出しが１つであるか複
数であるかを判定する（ステップＳ２４）。図１９に示
した例では、合計６個の表題もしくは見出しが抽出され
るので、ステップＳ２５へ進む。

【００８６】次に、見出し抽出部１７は、ステップＳ２
４にて抽出された表題もしくは見出しが複数あると判定
されると、それらの表題もしくは見出しを文書ごとにグ
ループ化する（ステップＳ２５）。図１９の文書５４で
は、文書「d1」の表題「t1」を１つのグループに、文書
「d2」の表題「t1」、見出し「h2」および見出し「h3」
を１つのグループに、文書「d3」の見出し「h21 」およ
び見出し「h22 」を１つのグループにまとめる。

【００８７】このように、抽出された表題もしくは見出
しを文書ごとにグループ化することで、同一文書内の関
連する記述を連続して参照することができるようにな
る。次に、見出し抽出部１７は、ステップＳ２５にてま
とめられた文書ごとの関連付けのグループを、同一文書
内への関連付けの数、および関連付けられる表題もしく
は見出しの階層の深さから算出される重要度に応じて並
べ替える（ステップＳ２６）。本実施の形態では文書ご
との重要度を次の式によって算出する。

【００８８】

【数１】

【００８９】式（１）において、ｎは、その文書で関連
付けられている表題もしくは見出しに対して１から順に
割り振られた数字の最大値を表す。ｄｉは、数字（ｉ）
が割り振られた表題もしくは見出しの階層構造における
深さを表す( 表題の深さを０とする) 。すなわち、表題
についてはｄｉ＝０、第１レベルの見出しについてはｄ
ｉ＝１、第２レベルの見出しについてはｄｉ＝２などと
なる。式（１）に従って各文書の重要度を計算すると、
図６に示した文書３３は表題「t1」が１つだけ関連付け
られているので重要度＝２^-0＝１、図１７に示した文書
７１は表題「t1」、見出し「h2」および見出し「h3」の
３つが関連付けられているので重要度＝２^-0＋２^-1＋２
^-1＝２、図１８に示した文書８１は見出し「h21 」およ
び見出し「h22 」の２つが関連付けられているので重要
度＝２^-2＋２^-2＝０．５となる。したがって、文書ごと
の重要度にしたがって文書「d2」、文書「d1」、文書
「d3」の順に関連付けのグループを並べ替える。

【００９０】なお、文書ごとの重要度の算出方法は、式
（１）に示したものに限定されるわけではない。関連付
けられる表題もしくは見出しが多いほうが重要度がより
高くなるように、また、関連付けられる表題もしくは見
出しの階層の深さが浅いほうが重要度がより高くなるよ
うに重要度を決めればよい。このような重要度の決定方
法は、同一文書内で関連付けられる表題もしくは見出し
が多いほうが、そのキーワードが文書全体の主題に関係
する可能性が高いと考えられ、また、関連付けられる表
題もしくは見出しの階層の深さが浅いほうが、そのキー
ワードについてより包括的に説明されている可能性が高
いと考えられるので、有効な方法である。

【００９１】次に、見出し抽出部１７は、ステップＳ２
５にて文書ごとにグループ化された関連付けを、関連付
けられる表題もしくは見出しの階層の深さから算出され
る重要度に応じて各グループ内で並び替える（ステップ
Ｓ２７）。本実施の形態では、階層の深さが浅いほうが
重要度が高いものとする。また、階層の深さが同一であ
る場合には、文書中で先に出現するほうが重要度が高い
ものとする。あるいは、文書中での出現順序を優先した
重要度を用いてもよい。

【００９２】以上の処理が行われた後、抽出された表題
もしくは見出しが表示部２０に表示される。図２０は、
複数の見出しを表示する表示画面の例を示す図である。
これは、図１２に示した表示画面６１中でキーワード
「SGML」を選択したときに表示される表示画面１０１の
例を示したものである。図２０に表示されている表題も
しくは見出しは、上記処理により、文書ごとにグループ
化され、重要度順に並べ替えられている。

【００９３】次に、利用者は表示部２０に表示されてい
る複数の表題もしくは見出しから入力部２１により１つ
を選択する（ステップＳ２８）。すると、見出し抽出部
１７は、ステップＳ２３にて抽出された表題もしくは見
出しが１つである場合またはステップＳ２８にて見出し
が選択された場合に、その表題もしくは見出しに関連付
けられた下位の見出しが存在するかどうかを判定する
（ステップＳ２９）。

【００９４】このように、関連付けられる表題もしくは
見出しが同一文書内に複数存在する場合や、関連付けら
れる表題もしくは見出しを持つ文書が複数存在する場合
に、重要なものから優先的に参照できるので、たとえ１
つのキーワードに多量の文書の表題や見出しが関連付け
られている場合でも、効率的に関連付けられた内容を参
照することができる。

【００９５】なお、上記の処理機能は、コンピュータに
よって実現することができる。その場合、文書関連付け
装置及び文書閲覧装置が有すべき機能の処理内容は、コ
ンピュータで読み取り可能な記録媒体に記録されたプロ
グラムに記述しておく。そして、このプログラムをコン
ピュータで実行することにより、上記処理がコンピュー
タで実現される。コンピュータで読み取り可能な記録媒
体としては、磁気記録装置や半導体メモリ等がある。市
場に流通させる場合には、ＣＤ−ＲＯＭ(Compact Disk
Read Only Memory) やフロッピーディスク等の可搬型記
録媒体にプログラムを格納して流通させたり、ネットワ
ークを介して接続されたコンピュータの記憶装置に格納
しておき、ネットワークを通じて他のコンピュータに転
送することもできる。コンピュータで実行する際には、
コンピュータ内のハードディスク装置等にプログラムを
格納しておき、メインメモリにロードして実行する。

【００９６】

【発明の効果】以上説明したように、本発明の文書関連
付け装置では、文書中のキーワードと被関連付け対象文
書の処理対象要素とを関連付けるとともに、被関連付け
対象文書中の要素の上位構造と下位構造とを関連付ける
ようにしたため、文書中のキーワードから他の文書中の
要素及びその要素の下位構造を順次辿ることができ、必
要最小限の関連付けられた内容を参照することができ
る。しかも、特定の要素からのみキーワードの抽出を行
うため、キーワード抽出に伴う複雑な処理を限られた範
囲に対して実行することができ、関連付け処理を高速に
行うことが可能となる。

【００９７】また、本発明の文書閲覧装置では、文書中
のキーワードと被関連付け対象文書の処理対象要素とを
関連付けるとともに、被関連付け対象文書中の要素の上
位構造と下位構造とを関連付けておき、文書中のキーワ
ードが指定されると、そのキーワードの関連要素の内容
とその下位構造の内容を抽出するようにしたため、キー
ワードを指定したユーザは、そのキーワードに関する必
要最小限の関連要素の内容を参照することができる。

【００９８】また、本発明の文書関連付けプログラムを
記録したコンピュータ読み取り可能な記録媒体では、記
録された文書関連付けプログラムをコンピュータに実行
させることにより、文書中のキーワードと被関連付け対
象文書の処理対象要素とを関連付けるとともに、被関連
付け対象文書中の要素の上位構造と下位構造とを関連付
ける処理を、コンピュータに高速に行わせることが可能
となる。すなわち、文書中のキーワードを他の文書の最
小限の関連記述に関連付ける処理を、コンピュータに高
速に行わせることができる。

【００９９】また、本発明の文書閲覧プログラムを記録
したコンピュータ読み取り可能な記録媒体では、記録さ
れた文書閲覧プログラムをコンピュータに実行させるこ
とにより、文書中のキーワードと被関連付け対象文書の
処理対象要素とを関連付けるとともに、被関連付け対象
文書中の要素の上位構造と下位構造とを関連付けてお
き、文書中のキーワードが指定されると、そのキーワー
ドの関連要素の内容とその下位構造の内容を抽出するよ
うな処理をコンピュータに行わせることが可能となる。
すなわち、コンピュータに対してキーワードを指定した
ユーザは、そのキーワードに関する必要最小限の関連要
素の内容を参照することができる。

【図面の簡単な説明】

【図１】本発明の原理構成図である。

【図２】本発明を適用した文書閲覧装置の構成を示す
図である。

【図３】文書間の関連付けを行う手順を示すフローチ
ャートである。

【図４】関連付けの対象となるキーワードを見出しに
含む文書の第１の例を示す図である。

【図５】各要素に一意な識別子を付与した文書を示す
図である。

【図６】表題、見出し、内容を関連付けた文書の例を
示す図である。

【図７】キーワード対応表の例を示す図である。

【図８】関連付けの対象となるキーワードを本文中に
含む文書の例を示す図である。

【図９】キーワードと表題との関連付けが行われた文
書の例を示す図である。

【図１０】図９の文書に対して階層構造の関連付けを
行った結果を示す図である。

【図１１】関連付けの利用手順を示すフローチャート
である。

【図１２】文書の内容を表示した際の表示画面の例を
示す図である。

【図１３】見出しを表示した際の表示画面の例を示す
図である。

【図１４】下位の見出しを表示した際の表示画面の例
を示す図である。

【図１５】内容を表示した際の表示画面の例を示す図
である。

【図１６】第２の実施の形態における関連付け参照の
処理の流れを示すフローチャートである。

【図１７】関連付けの対象となるキーワードを表題に
含む文書の第２の例を示す図である。

【図１８】関連付けの対象となるキーワードを表題に
含む文書の第３の例を示す図である。

【図１９】キーワードと表題もしくは見出しとの関連
付けを行った文書の例を示す図である。

【図２０】複数の見出しを表示する表示画面の例を示
す図である。

【符号の説明】

１文書蓄積手段２階層構造関連付け手段２ａ被関連付け対象文書３キーワード抽出手段３ａキーワード対応表４文書内容検索手段４ａ文書５キーワード関連付け手段５ａ文書

Claims

【特許請求の範囲】

【請求項１】文書間の関連付けを行う文書関連付け装
置において、階層的な論理構造の文書群を格納する文書蓄積手段と、前記文書蓄積手段に格納されている文書を被関連付け対
象文書とし、前記被関連付け対象文書を構成する各要素
の上位構造と下位構造とを関連付ける階層構造関連付け
手段と、前記被関連付け対象文書中の特定の属性を有する処理対
象要素に含まれる内容からキーワードを抽出するキーワ
ード抽出手段と、前記キーワード抽出手段により抽出された前記キーワー
ドを含む文書を、前記文書蓄積手段内より検索する文書
内容検索手段と、前記文書内容検索手段により検出された文書中の前記キ
ーワードと、前記キーワードの抽出元となる前記被関連
付け対象文書内の前記処理対象要素とを関連付けるキー
ワード関連付け手段と、を有することを特徴とする文書関連付け装置。
【請求項２】前記キーワード抽出手段は、前記被関連
付け対象文書の表題としての属性を有する要素と、記載
内容の見出しとしての属性を有する要素とを、前記処理
対象要素として取り扱うことを特徴とする請求項１記載
の文書関連付け装置。
【請求項３】構造化文書の内容を閲覧する文書閲覧装
置において、階層的な論理構造の文書群を格納する文書蓄積手段と、前記文書蓄積手段に格納されている被関連付け対象文書
に対して、前記被関連付け対象文書を構成する各要素の
上位構造と下位構造とを関連付ける階層構造関連付け手
段と、前記被関連付け対象文書中の特定の属性を有する処理対
象要素に含まれる内容から、キーワードを抽出するキー
ワード抽出手段と、前記キーワード抽出手段により抽出された前記キーワー
ドに基づいて、前記文書蓄積手段に蓄積されている他の
文書の内容を検索する文書内容検索手段と、前記文書内容検索手段により検出された文書中の前記キ
ーワードと、前記キーワードの抽出元となる前記被関連
付け対象文書内の前記処理対象要素とを関連付けるキー
ワード関連付け手段と、文書閲覧要求に応じて、前記文書蓄積手段から文書を抽
出する文書抽出手段と、前記文書抽出手段にて抽出された文書中で、前記キーワ
ード関連付け手段により関連付けられた前記キーワード
が選択されると、前記キーワードに対して関連付けられ
た前記被関連付け対象文書中の関連要素及び前記関連要
素に関連付けられている下位の要素を順次抽出する要素
抽出手段と、前記要素抽出手段により抽出された前記関連要素の内容
及び前記関連要素に関連付けられている下位の要素の内
容を抽出する内容抽出手段と、を有することを特徴とする文書閲覧装置。
【請求項４】前記要素抽出手段により複数の前記関連
要素が抽出された場合には、そのうちの１つの前記関連
要素を選択し、選択した前記関連要素に関連付けられた
下位の要素が複数存在する場合にはそのうちの１つの要
素を選択する要素選択手段をさらに有し、前記内容抽出手段は、前記要素選択手段により選択され
た前記関連要素の内容及び選択された下位の要素の内容
を抽出する、ことを特徴とする請求項３記載の文書閲覧装置。
【請求項５】前記要素抽出手段は、前記キーワード関
連付け手段により関連付けられた要素が複数抽出され、
かつそれらの要素が同一文書内に存在する場合には、同
一文書内に存在する要素への関連付けをグループ化して
抽出することを特徴とする請求項３記載の文書閲覧装
置。
【請求項６】前記要素抽出手段は、文書ごとの関連付
けをグループ化した場合には、同一文書内への関連付け
の数、および関連付けられる要素の階層の深さから算出
される重要度に応じて、各グループを並べ替えることを
特徴とする請求項５記載の文書閲覧装置。
【請求項７】前記要素抽出手段は、文書ごとにグルー
プ化された関連付け要素群を、関連付けられる要素の階
層の深さから算出される重要度および文書中での出現順
序に応じてグループ内で並べ替えることを特徴とする請
求項５記載の文書閲覧装置。
【請求項８】文書間の関連付けを行うための文書関連
付けプログラムを記録したコンピュータ読み取り可能な
記録媒体において、階層的な論理構造の文書群を格納する文書蓄積手段、前記文書蓄積手段に格納されている文書を被関連付け対
象文書とし、前記被関連付け対象文書を構成する各要素
の上位構造と下位構造とを関連付ける階層構造関連付け
手段、前記被関連付け対象文書中の特定の属性を有する処理対
象要素に含まれる内容からキーワードを抽出するキーワ
ード抽出手段、前記キーワード抽出手段により抽出された前記キーワー
ドを含む文書を、前記文書蓄積手段内より検索する文書
内容検索手段、前記文書内容検索手段により検出された文書中の前記キ
ーワードと、前記キーワードの抽出元となる前記被関連
付け対象文書内の前記処理対象要素とを関連付けるキー
ワード関連付け手段、としてコンピュータを機能させることを特徴とする文書
関連付けプログラムを記録したコンピュータ読み取り可
能な記録媒体。
【請求項９】構造化文書の内容を閲覧するための文書
閲覧プログラムを記録したコンピュータ読み取り可能な
記録媒体において、階層的な論理構造の文書群を格納する文書蓄積手段、前記文書蓄積手段に格納されている被関連付け対象文書
に対して、前記被関連付け対象文書を構成する各要素の
上位構造と下位構造とを関連付ける階層構造関連付け手
段、前記被関連付け対象文書中の特定の属性を有する処理対
象要素に含まれる内容から、キーワードを抽出するキー
ワード抽出手段、前記キーワード抽出手段により抽出された前記キーワー
ドに基づいて、前記文書蓄積手段に蓄積されている他の
文書の内容を検索する文書内容検索手段と、前記文書内容検索手段により検出された文書中の前記キ
ーワードと、前記キーワードの抽出元となる前記被関連
付け対象文書内の前記処理対象要素とを関連付けるキー
ワード関連付け手段、文書閲覧要求に応じて、前記文書蓄積手段から文書を抽
出する文書抽出手段、前記文書抽出手段にて抽出された文書中で、前記キーワ
ード関連付け手段により関連付けられた前記キーワード
が選択されると、前記キーワードに対して関連付けられ
た前記被関連付け対象文書中の関連要素及び前記関連要
素に関連付けられている下位の要素を順次抽出する要素
抽出手段、前記要素抽出手段により抽出された前記関連要素の内容
及び前記関連要素に関連付けられている下位の要素の内
容を抽出する内容抽出手段、としてコンピュータを機能させることを特徴とする文書
閲覧プログラムを記録したコンピュータ読み取り可能な
記録媒体。