JP2000057152A - 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 - Google Patents

文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体

Info

Publication number
JP2000057152A
JP2000057152A JP10222934A JP22293498A JP2000057152A JP 2000057152 A JP2000057152 A JP 2000057152A JP 10222934 A JP10222934 A JP 10222934A JP 22293498 A JP22293498 A JP 22293498A JP 2000057152 A JP2000057152 A JP 2000057152A
Authority
JP
Japan
Prior art keywords
document
keyword
associating
extracting
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10222934A
Other languages
English (en)
Other versions
JP2000057152A5 (ja
JP4010058B2 (ja
Inventor
Kenichi Numata
賢一 沼田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP22293498A priority Critical patent/JP4010058B2/ja
Publication of JP2000057152A publication Critical patent/JP2000057152A/ja
Publication of JP2000057152A5 publication Critical patent/JP2000057152A5/ja
Application granted granted Critical
Publication of JP4010058B2 publication Critical patent/JP4010058B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書中のキーワードを他の文書中の最小限の
関連記述に関連付ける処理を高速に行うことができるよ
うにする。 【解決手段】 階層構造関連付け手段2は、文書蓄積手
段1から読み込んだ被関連付け対象文書2aを構成する
各要素の上位構造と下位構造とを関連付ける。キーワー
ド抽出手段3は、被関連付け対象文書2a中の特定の属
性を有する処理対象要素からキーワードを抽出する。文
書内容検索手段4は、抽出されたキーワードに基づい
て、文書蓄積手段1中の文書を検索する。キーワード関
連付け手段5は、検出された文書4aの内容中のキーワ
ードと、キーワードの抽出元となる被関連付け対象文書
2aの処理対象要素とを関連付ける。このような処理を
実行すれば、文書中のキーワードから関連付けられた情
報を取ることで、他の文書中で関連する必要最小限の内
容を参照することができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書関連付け装置、
文書閲覧装置、文書関連付けプログラムを記録したコン
ピュータ読み取り可能な記録媒体、及び文書閲覧プログ
ラムを記録したコンピュータ読み取り可能な記録媒体に
関し、特に文書中のあるキーワードとそのキーワードに
関連する他の文書の内容を関連付ける文書関連付け装
置、文書中のあるキーワードとそのキーワードに関連す
る他の文書の内容とが関連付けられた文書群中の文書を
閲覧する文書閲覧装置、前記文書関連付け装置をコンピ
ュータ上で実現するための文書関連付けプログラムを記
録したコンピュータ読み取り可能な記録媒体、及び前記
文書閲覧装置をコンピュータ上で実現するための文書閲
覧プログラムを記録したコンピュータ読み取り可能な記
録媒体に関する。
【0002】
【従来の技術】ネットワーク上に散在する電子文書群を
リンクによって関連付けることが可能な、いわゆるハイ
パーテキストシステムが、World Wide Web(WWW) の普及
により、一般に広く利用されるようになってきている。
ハイパーテキストシステムでは、ある文書中のキーワー
ドに対して、より詳しい情報を持つ他の文書の内容への
ハイパーリンクを付与しておく。これによって、利用者
がその文書を閲覧していて、ハイパーリンクが付与され
た記述に関してより詳しく知りたいと思ったときには、
そのハイパーリンクを辿ることによって関連情報を知る
ことができる。
【0003】ところが、一般的にこのようなハイパーテ
キスト文書を作成するためには、文書の作成者が手作業
でキーワードと他の文書との関連付けを行ってハイパー
リンクを作成する必要があり、多大の労力と時間を要す
る。そこで、この問題を解決するために、文書中のキー
ワードを自動抽出して、他の文書から同一または同義の
キーワードを含むものを検索することによって、文書間
の関連付けすなわちハイパーリンクを自動的に作成する
ことが考えられている。
【0004】このとき単純に同一または同義のキーワー
ドを手がかりとして文書を関連付けるだけでは、ハイパ
ーリンクを辿ることによって、より詳しい説明が得られ
るという保証がない。なぜならば、関連付けられた文書
のいずれにおいても同一または同義のキーワードが一言
参照されているだけでそのキーワードの説明に当たる記
述がない場合が往々にしてあり得るからである。
【0005】この問題を解決する1つの方法として、特
開平5−20362号公報に開示された「文書テキスト
間の連鎖自動作成システム」がある。この公報に開示さ
れた方法では、まず、文書テキストから重要キーワード
を抽出し、抽出したキーワードの文書における重要度を
算出する。その上で、同一のキーワードを共有する文書
どうしで、キーワードの重要度の低い方の文書からキー
ワードの重要度の高い方の文書への、単方向の関連付け
を自動生成する。この方法では、同一のキーワードを手
がかりとして文書を関連付けているが、同一キーワード
の文書における重要度の高い文書のほうが、重要度の低
い文書よりも、そのキーワードに関してより詳しく説明
されているものと仮定している。これによって、文書中
のあるキーワードから、より詳しい説明が記述された他
の文書に対するハイパーリンクが自動的に生成される。
以下のこの方法を第1の従来技術とする。
【0006】また、上記問題を解決する別の方法として
特開平7−325827号公報に開示された「ハイパー
テキスト自動生成装置」がある。この公報には、同一ま
たは同義のキーワードを持つ文書どうしを関連付ける際
に、一方の文書のキーワードから、他の文書の同一また
は同義のキーワードを持つ章や節の見出しに対してハイ
パーリンクを生成する方法が示されている。この方法で
は、あるキーワードが見出しに含まれる場合、見出し以
下の内容において、そのキーワードについて詳しく説明
されている可能性が高いと仮定している。これによっ
て、文書中のあるキーワードから、より詳しい説明に対
するハイパーリンクが自動的に生成される。以下のこの
方法を第2の従来技術とする。
【0007】
【発明が解決しようとする課題】しかし、いずれの従来
技術においても、以下のような問題点があった。第1の
従来技術では、関連付けの対象はある文書中のキーワー
ドと他の文書全体である。そのため、関連付けられる他
の文書の記述量が多い場合には、たとえ関連付けられた
キーワードに対する詳しい説明が文書中に記述されてい
たとしても、文書中で関連する記述を見つけ出すことが
困難である。
【0008】第2の従来技術では、ある文書中のキーワ
ードに対して、同一または同義のキーワードが含まれる
他の文書が複数存在する場合には、予め与えられた戦略
に従って候補をいずれか1つに絞るようになっている。
そのため、利用者が実際に知りたい情報が関連付けの対
象から洩れてしまうおそれがある。なお、この問題につ
いては、例えば関連付けの対象となる候補が複数存在す
る場合にその候補全てを関連付けてしまうことによって
洩れを防ぐことができる。しかし、この場合には、利用
者が複数の関連付けられた記述を順次閲覧し、必要な情
報を探すという手間がかかる。
【0009】さらに、上記2つの従来技術のいずれにお
いても、関連付けの対象となるキーワードを自動抽出す
るために、文書全体に対して形態素解析を行う必要があ
る。形態素解析を高精度に行うには、かなり複雑な処理
を行わなければならない。そのため、従来の技術を用い
て大量の文書間のハイパーリンクを自動作成するには、
処理に非常に時間がかかってしまうという問題点があっ
た。
【0010】本発明はこのような点に鑑みてなされたも
のであり、文書中のキーワードを他の文書中の最小限の
関連記述に関連付ける処理を高速に行うことができる文
書関連付け装置を提供することを目的とする。
【0011】また、本発明の第2の目的は、文書中のキ
ーワードを他の文書中の最小限の関連記述に関連付けら
れた文書群内の文書を閲覧するための文書閲覧装置を提
供することである。
【0012】また、本発明の第3の目的は、文書中のキ
ーワードを他の文書中の最小限の関連記述に関連付ける
処理をコンピュータに高速に行わせることができる文書
関連付けプログラムを記録したコンピュータ読み取り可
能な記録媒体を提供することである。
【0013】また、本発明の第4の目的は、文書中のキ
ーワードを他の文書中の最小限の関連記述に関連付けら
れた文書群内の文書をコンピュータを用いて閲覧するた
めの文書閲覧プログラムを記録したコンピュータ読み取
り可能な記録媒体を提供することである。
【0014】
【課題を解決するための手段】本発明では上記課題を解
決するために、文書間の関連付けを行う文書関連付け装
置において、階層的な論理構造の文書群を格納する文書
蓄積手段と、前記文書蓄積手段に格納されている文書を
被関連付け対象文書とし、前記被関連付け対象文書を構
成する各要素の上位構造と下位構造とを関連付ける階層
構造関連付け手段と、前記被関連付け対象文書中の特定
の属性を有する処理対象要素に含まれる内容からキーワ
ードを抽出するキーワード抽出手段と、前記キーワード
抽出手段により抽出された前記キーワードを含む文書
を、前記文書蓄積手段内より検索する文書内容検索手段
と、前記文書内容検索手段により検出された文書中の前
記キーワードと、前記キーワードの抽出元となる前記被
関連付け対象文書内の前記処理対象要素とを関連付ける
キーワード関連付け手段と、を有することを特徴とする
文書関連付け装置が提供される。
【0015】このような文書関連付け装置によれば、階
層構造関連付け手段により、前記文書蓄積手段に格納さ
れている文書が被関連付け対象文書とされ、その被関連
付け対象文書を構成する各要素の上位構造と下位構造と
が関連付けられる。また、キーワード抽出手段により、
被関連付け対象文書中の特定の属性を有する処理対象要
素に含まれる内容からキーワードが抽出される。する
と、内容検索手段により、キーワード抽出手段が抽出し
たキーワードを含む文書が文書蓄積手段内から検索され
る。そして、キーワード関連付け手段により、文書内容
検索手段により検出された文書中のキーワードと、キー
ワードの抽出元となる被関連付け対象文書内の処理対象
要素とが関連付けられる。
【0016】また上記課題を解決するために、構造化文
書の内容を閲覧する文書閲覧装置において、階層的な論
理構造の文書群を格納する文書蓄積手段と、前記文書蓄
積手段に格納されている被関連付け対象文書に対して、
前記被関連付け対象文書を構成する各要素の上位構造と
下位構造とを関連付ける階層構造関連付け手段と、前記
被関連付け対象文書中の特定の属性を有する処理対象要
素に含まれる内容から、キーワードを抽出するキーワー
ド抽出手段と、前記キーワード抽出手段により抽出され
た前記キーワードに基づいて、前記文書蓄積手段に蓄積
されている他の文書の内容を検索する文書内容検索手段
と、前記文書内容検索手段により検出された文書中の前
記キーワードと、前記キーワードの抽出元となる前記被
関連付け対象文書内の前記処理対象要素とを関連付ける
キーワード関連付け手段と、文書閲覧要求に応じて、前
記文書蓄積手段から文書を抽出する文書抽出手段と、前
記文書抽出手段にて抽出された文書中で、前記キーワー
ド関連付け手段により関連付けられた前記キーワードが
選択されると、前記キーワードに対して関連付けられた
前記被関連付け対象文書中の関連要素及び前記関連要素
に関連付けられている下位の要素を順次抽出する要素抽
出手段と、前記要素抽出手段により抽出された前記関連
要素の内容及び前記関連要素に関連付けられている下位
の要素の内容を抽出する内容抽出手段と、を有すること
を特徴とする文書閲覧装置が提供される。
【0017】このような文書閲覧装置によれば、階層構
造関連付け手段により、前記文書蓄積手段に格納されて
いる文書が被関連付け対象文書とされ、その被関連付け
対象文書を構成する各要素の上位構造と下位構造とが関
連付けられる。また、キーワード抽出手段により、被関
連付け対象文書中の特定の属性を有する処理対象要素に
含まれる内容からキーワードが抽出される。すると、内
容検索手段により、キーワード抽出手段が抽出したキー
ワードを含む文書が文書蓄積手段内から検索される。そ
して、キーワード関連付け手段により、文書内容検索手
段により検出された文書中のキーワードと、キーワード
の抽出元となる被関連付け対象文書内の処理対象要素と
が関連付けられる。さらに、文書閲覧要求が入力される
と、文書抽出手段により、文書閲覧要求に応じた文書が
文書蓄積手段から抽出される。この文書抽出手段にて抽
出された文書中で、キーワード関連付け手段により関連
付けられたキーワードが選択されると、要素抽出手段に
より、キーワードに対して関連付けられた被関連付け対
象文書中の関連要素及び関連要素に関連付けられている
下位の要素が順次抽出される。
【0018】さらに、内容抽出手段により、前記要素抽
出手段により抽出された前記関連要素の内容及び関連要
素に関連付けられている下位の要素の内容が抽出され
る。また上記課題を解決するために、文書間の関連付け
を行うための文書関連付けプログラムを記録したコンピ
ュータ読み取り可能な記録媒体において、階層的な論理
構造の文書群を格納する文書蓄積手段、前記文書蓄積手
段に格納されている文書を被関連付け対象文書とし、前
記被関連付け対象文書を構成する各要素の上位構造と下
位構造とを関連付ける階層構造関連付け手段、前記被関
連付け対象文書中の特定の属性を有する処理対象要素に
含まれる内容からキーワードを抽出するキーワード抽出
手段、前記キーワード抽出手段により抽出された前記キ
ーワードを含む文書を、前記文書蓄積手段内より検索す
る文書内容検索手段、前記文書内容検索手段により検出
された文書中の前記キーワードと、前記キーワードの抽
出元となる前記被関連付け対象文書内の前記処理対象要
素とを関連付けるキーワード関連付け手段、としてコン
ピュータを機能させることを特徴とする文書関連付けプ
ログラムを記録したコンピュータ読み取り可能な記録媒
体が提供される。
【0019】この記録媒体に記録された文書関連付けプ
ログラムをコンピュータに実行させれば、上記本発明に
係る文書関連付け装置の機能がコンピュータ上に構築さ
れる。
【0020】また上記課題を解決するために、構造化文
書の内容を閲覧するための文書閲覧プログラムを記録し
たコンピュータ読み取り可能な記録媒体において、階層
的な論理構造の文書群を格納する文書蓄積手段、前記文
書蓄積手段に格納されている被関連付け対象文書に対し
て、前記被関連付け対象文書を構成する各要素の上位構
造と下位構造とを関連付ける階層構造関連付け手段、前
記被関連付け対象文書中の特定の属性を有する処理対象
要素に含まれる内容から、キーワードを抽出するキーワ
ード抽出手段、前記キーワード抽出手段により抽出され
た前記キーワードに基づいて、前記文書蓄積手段に蓄積
されている他の文書の内容を検索する文書内容検索手段
と、前記文書内容検索手段により検出された文書中の前
記キーワードと、前記キーワードの抽出元となる前記被
関連付け対象文書内の前記処理対象要素とを関連付ける
キーワード関連付け手段、文書閲覧要求に応じて、前記
文書蓄積手段から文書を抽出する文書抽出手段、前記文
書抽出手段にて抽出された文書中で、前記キーワード関
連付け手段により関連付けられた前記キーワードが選択
されると、前記キーワードに対して関連付けられた前記
被関連付け対象文書中の関連要素及び前記関連要素に関
連付けられている下位の要素を順次抽出する要素抽出手
段、前記要素抽出手段により抽出された前記関連要素の
内容及び前記関連要素に関連付けられている下位の要素
の内容を抽出する内容抽出手段、としてコンピュータを
機能させることを特徴とする文書閲覧プログラムを記録
したコンピュータ読み取り可能な記録媒体が提供され
る。
【0021】この記録媒体に記録された文書閲覧プログ
ラムをコンピュータに実行させれば、上記本発明に係る
文書閲覧装置の機能がコンピュータ上に構築される。
【0022】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照して説明する。図1は、本発明の原理構成図であ
る。本発明の文書関連付け装置は、以下の要素で構成さ
れる。
【0023】文書蓄積手段1は、階層的な論理構造の文
書群を蓄積する。構造化された文書としては、SGML
の規定に従って作成された文書などがある。階層構造関
連付け手段2は、文書蓄積手段1から被関連付け対象文
書2aを読み込み、読み込んだ被関連付け対象文書2a
を構成する各要素の上位構造と下位構造とを関連付け
る。例えば、各要素に識別子を与える。そして、各要素
に対して、その要素の下位構造となる要素の識別子の情
報を持たせる。要素間の関連付けを行った被関連付け対
象文書2aは、文書蓄積手段1に戻す。
【0024】キーワード抽出手段3は、被関連付け対象
文書2a中の特定の属性を有する処理対象要素に含まれ
る内容からキーワードを抽出する。例えば、表題として
の属性を有する要素と、見出しとしての属性を有する要
素とを、処理対象要素とする。すると、キーワード抽出
手段3は、抽出元の要素の識別子と、その要素から抽出
されたキーワードの集合とを対応づけたキーワード対応
表3aを内部で生成する。そして、被関連付け対象文書
2aに関するキーワード対応表3aを文書内容検索手段
4に渡す。
【0025】文書内容検索手段4は、キーワード抽出手
段3により抽出されたキーワードに基づいて、文書蓄積
手段1に蓄積されている他の文書の内容を検索する。見
つけ出した文書4aは、キーワード関連付け手段5に渡
す。
【0026】キーワード関連付け手段5は、文書内容検
索手段4により検出された文書4aの内容中のキーワー
ドと、キーワードの抽出元となる被関連付け対象文書2
aの処理対象要素とを関連付ける。被関連付け対象文書
2aの特定の要素への関連付けを行った文書5aは、文
書蓄積手段1に格納する。
【0027】このような文書関連付け装置によれば、階
層構造関連付け手段2に読み込まれた被関連付け対象文
書2aは、各要素の上位構造と下位構造との関連付けが
行われ、文書蓄積手段1に戻される。このとき、キーワ
ード抽出手段3により、各要素の内容の中からキーワー
ドが抽出される。すると、文書内容検索手段4により、
抽出されたキーワードに基づいて文書蓄積手段1内の文
書が検索される。検出された文書4aはキーワード関連
付け手段5に渡され、文書4aの内容中のキーワード
と、キーワードの抽出元となる被関連付け対象文書2a
の処理対象要素とが関連付けられる。そして、処理対象
要素との関連付けが行われた文書5aは、文書蓄積手段
1に戻される。
【0028】このような処理を、文書蓄積手段1に格納
されている全ての文書を被関連付け対象文書2aとして
実行すれば、ある文書中のキーワードが他の文書中の特
定の要素(表題や見出し)に関連付けられ、さらに、そ
の要素から下位構造に関連付けられる。そのため、文書
蓄積手段1内の文書を閲覧する場合には、文書中のキー
ワードから他の文書中の必要最小限の関連付けられた内
容を参照することができる。
【0029】しかも、関連付けに際して文書中の表題も
しくは見出しなどの特定の要素だけを対象としてキーワ
ード抽出処理を行うので、形態素解析のようなキーワー
ド抽出に必要な煩雑な処理を文書全体に対して施す必要
がなくなる。その結果、関連付けの処理効率が向上す
る。
【0030】次に、本発明の文書関連付け装置によって
文書間の関連付けを行い、それらの文書を閲覧すること
ができる文書閲覧装置を第1の実施の形態として以下に
説明する。
【0031】図2は、本発明を適用した文書閲覧装置の
構成を示す図である。この文書閲覧装置は、文書蓄積部
11、階層構造関連付け部12、キーワード抽出部1
3、文書内容検索部14、キーワード関連付け部15、
文書抽出部16、見出し抽出部17、見出し選択部1
8、内容抽出部19、表示部20、及び入力部21から
構成されている。
【0032】文書蓄積部11は、表題、章の見出し、節
の見出し、段落等の論理構造を有する文書群を蓄積す
る。階層構造関連付け部12は、文書蓄積部11に蓄積
された文書を読み込み、表題、見出しの階層( 章見出
し、節見出しなど) 、見出しに対応する内容( 例えばあ
る節の段落の並び) を関連付ける。
【0033】キーワード抽出部13は、階層構造関連付
け部12にて関連付けられた表題および見出しの階層か
らキーワードを抽出する。文書内容検索部14は、キー
ワード抽出部13にて抽出されたキーワードを用いて、
文書蓄積部11に蓄積された文書群を対象に、与えられ
たキーワードを内容に持つ文書を検索する。
【0034】キーワード関連付け部15は、文書内容検
索部14にて検索された文書中のキーワードと、該キー
ワードを抽出した表題および見出しの階層を関連付け
る。文書抽出部16は、文書蓄積部11に蓄積された文
書群から、入力部21で利用者が入力した要求に応じて
文書を抽出し、表示部20に表示する。
【0035】見出し抽出部17は、文書抽出部16によ
り抽出され、表示部20に表示された文書中で、利用者
が入力部21によりキーワードを指定した場合に、指定
されたキーワードで関連付けられている他の文書の表題
もしくは見出しを文書蓄積部11から抽出し、表示部2
0に表示する。また、抽出された前記表題もしくは見出
しのさらに下位の見出しを文書蓄積部11から抽出し、
表示部20に表示する。
【0036】見出し選択部18は、入力部21で利用者
が入力した要求に応じて、見出し抽出部17により表題
もしくは見出しが複数抽出された場合にはそのうちの1
つの表題もしくは見出しを選択し、前記表題もしくは見
出しに下位の見出しが複数存在する場合にはそのうちの
1つの見出しを選択する。
【0037】内容抽出部19は、見出し抽出部17によ
り抽出された表題、見出しもしくは順次抽出された下位
の見出しが、その見出しに対応する内容と関連付けられ
ている場合に、文書蓄積部11からその内容を抽出し、
表示部20に表示する。
【0038】表示部20は、文書抽出部16により抽出
された文書、見出し抽出部17により抽出された他の文
書の表題もしくは見出し、および内容抽出部19により
抽出された他の文書の内容を、画面上に表示する。
【0039】入力部21は、文書抽出部16により抽出
する文書の指定、文書抽出部16により抽出された文書
中でのキーワードの選択、見出し抽出部17により抽出
された表題もしくは見出しが複数存在する場合の選択の
指示等を行う。
【0040】次に、このような構成の文書閲覧装置によ
り、文書蓄積部11に格納されている文書群に対して文
書間の関連付けを行う手順について説明する。図3は、
文書間の関連付けを行う手順を示すフローチャートであ
る。以下の処理をステップ番号に沿って説明する。 [S1]階層構造関連付け部12が、文書蓄積部11か
ら未処理の文書を1つ読み込む。 [S2]階層構造関連付け部12が、読み込んだ文書の
構造を解析する。 [S3]階層構造関連付け部12が、表題、見出し、及
び内容を関連付ける。 [S4]キーワード抽出部13が、表題及び見出しの内
容の中からキーワードを抽出する。 [S5]文書内容検索部14が、キーワード抽出部13
が抽出したキーワードを含む文書を、文書蓄積部11の
中から検索する。 [S6]キーワード関連付け部15が、文書内容検索部
14によって検出された文書内のキーワードに合致した
部分に対して、そのキーワードの抽出元となった表題も
しくは見出しを関連付ける。 [S7]キーワード関連付け部15が、キーワードの関
連付けの終了した文書を文書蓄積部11へ格納する。 [S8]階層構造関連付け部12は、文書蓄積部11に
格納されている全ての文書の処理を行ったか否かを判断
し、全ての文書に対する処理が終了していれば文書間の
関連付け処理を終了し、そうでなければステップS1に
進み未処理の文書に対する処理を行う。
【0041】このような処理を行うことにより、各文書
の内容に含まれるキーワードから、そのキーワードを表
題もしくは見出しとして含む文書の該当する表題若しく
は見出しへリンクを張ることができる。
【0042】以下に、具体例を用いて処理内容の詳細を
説明する。なお、以下の例では、表題、見出し等の論理
構造を有する文書の一例として、国際規格であるSGM
L(Standard Generalized Markup Language; ISO8879)
に基づく表現を用いているが、表題、見出し、見出しに
対応する内容が表現できる体系であればSGMLでなく
ともよい。
【0043】まず、階層構造関連付け部12が、文書蓄
積部11に蓄積された文書を1つ読み込む(ステップS
1)。ここで、以下のような文書を読み込んだものとす
る。図4は、関連付けの対象となるキーワードを見出し
に含む文書の第1の例を示す図である。この文書31
は、以下のような構造定義に従って作成されている。
【0044】文書中の各要素は、その開始と終了を示す
タグによって囲まれている。ある要素Aについて、開始
タグは<A>、終了タグは</A>で示される。文書
は、文書の開始を示すタグ<doc >と、文書の終了を示
すタグ</doc >によって囲まれている。文書要素(do
c) は表題を示す要素(title) と章を示す要素(sect1)
の並びとを包含している。章要素(sect1) は見出しを示
す要素(head)と段落を示す要素(para)の並びとを包含し
ているか、もしくは、見出し要素(head)と節を示す要素
(sect2) の並びを包含している。節要素(sect2) は見出
し要素(head)と段落要素(para)の並びを包含している。
また、表題要素(title) 、見出し要素(head)、段落要素
(para)は、その内容としてテキスト(文字列)を持つ。
【0045】なお、本実施の形態で例示する文書では、
要素の名前としてdoc 、title 、sect1 、sect2 、hea
d、paraを用いているが、文書中で表題、見出し、本文
が特定できれば、名前はなんでもよい。また、章や節の
構造はさらに深く入れ子になっていてもよい。例えば、
節要素(sect2) がさらに下位の節要素(sect3) を含むよ
うになっていてもよい。
【0046】このような文書31を読み込んだ階層構造
関連付け部12は、読み込んだ文書の表題、見出し、段
落等の文書構造を解析し、文書中の各要素に一意な識別
子を付与する(ステップS2)。
【0047】図5は、各要素に一意な識別子を付与した
文書を示す図である。この図では、各要素に属性名「i
d」の値として識別子を付与している。この文書32で
は、文書要素(doc) に「d1」という識別子を付与してい
る。文書要素の識別子が、文書32自身の識別子とな
る。そのため、文書要素の識別子は、文書蓄積部11に
格納されている文書の中で一意に識別できるような記号
が用いられる。
【0048】文書32中の文書要素以外の要素に関して
は、文書32内において一意に識別できればよい。ここ
では、表題要素(title) に「t1」という識別子を付与
し、章要素(sect1) にそれぞれ「s1」、「s2」、「s3」
という識別子を付与し、見出し要素(head)にそれぞれ
「h1」、「h2」、「h3」という識別子を付与し、段落要
素(para)にそれぞれ「p1」、「p2」、「p3」、「p4」と
いう識別子を付与している。
【0049】次に、階層構造関連付け部12は文書32
の表題、見出し、もしあれば下位の見出し、見出しに対
応する段落の並びを関連付ける( ステップS3) 。本実
施の形態では、文書の表題から見出しへの関連付けを、
表題要素(title) の属性として見出しの識別子の並びを
設定することによって表現する。また、見出しから下位
の見出しへの関連付けもしくは見出しから対応する内容
への関連付けは、見出し要素(head)の属性として下位の
見出し要素の識別子もしくは内容となる段落要素(para)
の識別子の並びを設定することによって表現する。
【0050】図6は、表題、見出し、内容を関連付けた
文書の例を示す図である。この文書33は、図5に示す
文書32の表題要素および見出し要素に、関連付ける見
出し要素もしくは段落要素の識別子の並びを属性名「re
f 」の値として付与したものである。この例では、識別
子の並びを空白文字によって区切っている。例えば、表
題要素(title) の下位には3つの見出し要素(head)があ
るため、表題要素(title) の属性名「ref 」の値は、
「h1 h2 h3」となる。
【0051】次に、キーワード抽出部13が階層構造関
連付け部12によって関連付けられた表題もしくは見出
しからキーワードを抽出する(ステップS4)。キーワ
ードの抽出方法としては、従来の形態素解析などの手法
を利用すればよい。本実施の形態では、形態素解析の結
果から名詞と判定された単語をキーワードとして利用す
る。また、ひらがな語など、キーワードになりにくいも
のは、予めストップワードとして登録しておき、キーワ
ードの抽出対象から外す。キーワード抽出部13は、要
素と、その要素に含まれるキーワードとの対応関係を示
すキーワード対応表を作成し、一時的に保持する。
【0052】図7は、キーワード対応表の例を示す図で
ある。これは、図6に示した文書33の表題要素(titl
e) および見出し要素(head)と、そこから抽出したキー
ワードとの対応関係を示すキーワード対応表41であ
る。キーワード対応表41には、「要素の種類」、「識
別子」、および「キーワード」の項目が設けられてい
る。「要素の種類」の項目には、キーワードの抽出を行
った要素の種類が設定される。この例は、「表題」か
「見出し」のいずれかである。「識別子」の項目には、
キーワードの抽出を行った要素の識別子が設定される。
「キーワード」の項目には、キーワードの抽出を行った
要素に含まれていたキーワードの集合が設定される。
【0053】このように、文書中の表題要素および見出
し要素のみに対して形態素解析処理を行うので、文書全
体に対して形態素解析処理を行う必要はない。一般に文
書の表題や見出しに含まれるテキストの量は、文書全体
のテキスト量に比して非常に少ないので、形態素解析の
処理コストを大幅に削減することができる。
【0054】次に、文書内容検索部14は、キーワード
抽出部13により抽出されたキーワードを用いて、文書
蓄積部11に蓄積された他の文書の内容を検索する(ス
テップS5)。例えば、表題要素(title) から抽出され
た「SGML」というキーワードを用いて、文書蓄積部11
内の文書を検索を行った場合、以下のような文書が検出
される。
【0055】図8は、関連付けの対象となるキーワード
を本文中に含む文書の例を示す図である。この文書51
は、段落要素(para)の内容に含まれるテキスト「...SGM
L へ変換する。... 」の「SGML」が一致したことによ
り、検出される。なお、この文書51は、図4に示した
文書31と同様の構造定義に従って作成された文書であ
る。
【0056】図8のような文書51が見つかったら、そ
のキーワード関連付け部15はキーワードと一致する文
書51の内容と、そのキーワードを含む表題もしくは見
出しを関連付ける(ステップS6)。具体的には、テキ
スト「...SGML へ変換する。... 」中の「SGML」を参照
元要素としてタグ付けし、図6に示した文書33の表題
要素(title) の識別子を、参照元の要素の属性として設
定する。
【0057】図9は、キーワードと表題との関連付けが
行われた文書の例を示す図である。この文書52では、
キーワード「SGML」は関連付けを示す要素(link)の開始
タグと終了タグによって囲まれ、link要素の属性「ref
」の値として文書「d1」の表題「t1」への関連付けが
設定されている。ここで属性「ref 」の値として、文書
要素の識別子「d1」と表題要素の識別子「t1」を「. 」
によって接続しているのは、識別子「t1」が他の文書の
ある要素においてたまたま使われている場合に、関連付
けの対象を一意に決定できなくなることを防ぐためであ
る。
【0058】なお、本実施の形態では文書要素の識別子
と表題要素もしくは見出し要素とを接続するために「.
」を用いているので、要素に識別子を付与する際には
識別子自身に「. 」を含めないようにする。
【0059】また、本実施の形態では、文書要素(doc)
の識別子が、文書蓄積部11に蓄積されている文書を一
意に識別できるように付与されているため、この文書要
素を用いて文書を識別しているが、文書を識別するため
の識別子を文書全体に対して付与して、それを関連付け
の識別子として用いてもよい。このような識別子として
は、文書の実体がファイルである場合にはファイル名を
用いたり、文書がWWW(World Wide Web)上で公開され
る場合にはURL(Uniform Resource Locator)を用いた
りすることができる。
【0060】ステップS4にて抽出された全てのキーワ
ードに対して他の文書内容を検索し、ステップS6にて
キーワードの関連付けが終了したら、関連付けされた文
書は文書蓄積部11に格納される(ステップS7)。こ
のとき、関連付けの対象となった元の文書の内容は上書
きされる。
【0061】そして、文書蓄積部11に蓄積された全て
の文書について、上記ステップS1〜ステップS7の処
理が行われたかどうかを調べ(ステップS8)、まだ処
理されていない文書があればステップS1へ戻って処理
を継続し、全ての文書について処理が終了していれば、
文書間の関連付けの処理を終了する。
【0062】以上の処理が行われることにより、図9に
示した文書52に対しても、階層構造の関連付けが行わ
れる。図10は、図9の文書に対して階層構造の関連付
けを行った結果を示す図である。この文書53は、文書
要素(doc) の識別子として「d2」が付与されている。
【0063】次に、本発明に基づく文書関連付け装置に
より、関連付けを利用して、文書中のあるキーワードか
ら、そのキーワードに対する説明記述を参照する手順に
ついて説明する。
【0064】図11は、関連付けの利用手順を示すフロ
ーチャートである。このフローチャートをステップ番号
に沿って簡単に説明する。 [S11]利用者が入力部21を用いて文書の表示要求
を入力すると、文書抽出部16が該当する文書を文書蓄
積部11内から抽出する。抽出した文書の内容は、表示
部20の画面に表示される。 [S12]利用者が入力部21を用いてキーワードを選
択する。 [S13]見出し抽出部17が、ステップS12にて選
択されたキーワードの関連付け情報すなわちlink要素の
属性「ref 」の識別子を参照し、文書蓄積部11から該
当する識別子を持つ文書の表題もしくは見出しを抽出す
る。あるいは後述するステップS14,S15で見出し
選択部18によって選択された表題もしくは見出しの下
位の見出しを、文書蓄積部11から抽出する。そして、
抽出した表題もしくは見出しを表示部20に表示する。 [S14]見出し選択部18が、見出し抽出部17によ
って抽出された見出しが複数か否かを判断し、複数であ
ればステップS15へ処理を進め、1つだけであればそ
の表題もしくは見出しを選択してステップS16へ処理
を進める。 [S15]見出し選択部18が、入力部21で利用者が
入力した要求に応じて、見出し抽出部17により表題も
しくは見出しが複数抽出された場合にはそのうちの1つ
の表題もしくは見出しを選択する。 [S16]見出し選択部18は、選択された表題もしく
は見出しに関して、下位の見出しが存在するか否かを判
断する。この実施の形態では、ステップS13にて抽出
された表題要素(title) もしくは見出し要素(head)の属
性「ref 」の値として設定されている識別子を持つ要素
を特定し、その要素が見出し要素(title)であるかない
かを判定する。下位の見出しが存在していればステップ
S13に進み、存在していなければステップS17に進
む。 [S17]内容抽出部19が、ステップS15にて選択
された見出し要素に関連付けられた内容に対応する要素
を抽出し、表示部20の画面に表示する。
【0065】以下に、関連付けの利用に関する処理を具
体例を用いて説明する。まず利用者が図10に示した文
書53の表示要求を入力部21により指示したものとす
る。すると、文書53の内容が表示部20の画面に表示
される。
【0066】図12は、文書の内容を表示した際の表示
画面の例を示す図である。この表示画面61では、文書
中のタグにより表題、見出し、段落、関連付けられたキ
ーワードなどを識別し、それぞれに対して適切なレイア
ウトを定めて画面表示を行っている。例えば表題は大き
めのフォントでセンタリングして表示し、見出しは大き
めのフォントで番号を付与して表示し、他の文書の見出
し等に関連付けられたキーワードは下線を付与して強調
している。
【0067】次に、利用者が、表示部20に表示された
文書を参照し、関連付けの付与された「SGML」の表示箇
所をマウスでクリックするなどの方法で選択したものと
する(ステップS12)。すると、見出し抽出部17
が、選択されたキーワード「SGML」の関連付け情報すな
わちlink要素の属性「ref 」の識別子を参照し、文書蓄
積部11から該当する識別子「d1」を持つ文書33内の
該当する表題「t1」を抽出し、表示部20に表示する
(ステップS13)。
【0068】図13は、見出しを表示した際の表示画面
の例を示す図である。前述の関連付けの処理によりキー
ワード「SGML」は関連付けを示すlink要素によってタグ
付けされており、その属性「ref 」の値として「d1.t1
」が設定されているので、図6に示した文書33の表
題要素( 識別子は「t1」) が見出し抽出部17により抽
出され、表題要素の内容「SGMLによる電子出版」を含む
表示画面62が、表示部20により表示される。
【0069】このとき、抽出された表題が複数か否かの
判定が見出し抽出部17によって行われるが(ステップ
S14)、この例では抽出された表題もしくは見出しが
1つだけである。そこで、見出し抽出部17は、抽出さ
れた見出しに関連付けられた下位の見出しが存在するか
どうかを判定する(ステップS16)。この例では、識
別子「t1」を持つ表題要素の属性「ref 」の値として、
「h1 h2 h3」の3つの要素が関連付けられており、いず
れも見出し要素である。従って、ステップS13へ戻り
見出しの抽出が行われる。
【0070】図14は、下位の見出しを表示した際の表
示画面の例を示す図である。これは、図13に示した表
示画面62の例から、「SGMLによる電子出版」を内容に
持つ表題要素に関連付けられている下位の見出しを表示
部20に表示したときの表示画面63の例を示したもの
である。すなわち、図6に示した文書33において、識
別子「t1」を持つ表題要素の属性「ref 」の値として設
定されている3つの見出し要素( 識別子はh1、h2、h3)
の内容「はじめに」「電子出版の歴史」「関連ツール」
を抽出し、表示部20の画面に表示している。
【0071】ここで、再び見出し選択部18が、抽出さ
れた見出しが複数であるか否かの判断を行う(ステップ
S14)。ここでは、3つの見出しが抽出されているの
で、利用者は表示部20に表示されている複数の表題も
しくは見出しから入力部21により1つを選択する(ス
テップS15)。この例では、図14に表示されている
3つの見出しの内容のうち「関連ツール」をマウス等で
選択したものとする。
【0072】すると、見出し選択部18が、選択された
見出し「関連ツール」に関連付けられた下位の見出しが
存在するかどうかを判定する(ステップS16)。図6
に示した文書33において、「関連ツール」を内容に持
つ見出し要素( 識別子は「h3」) の属性「ref 」の値と
して設定されている識別子p3、p4、...の要素はいず
れも見出しではない。したがって、内容抽出部19が、
内容の抽出を行う(ステップS17)。
【0073】図15は、内容を表示した際の表示画面の
例を示す図である。これは、図14に示した表示画面6
3の例から、「関連ツール」を内容に持つ見出し要素に
関連付けられている内容を表示部20に表示したときの
表示画面64の例である。すなわち、図6に示した文書
33において、識別子「h3」を持つ見出し要素の属性
「ref 」の値として設定されている段落要素(識別子p
3、p4、...)の内容を抽出し、表示部20に表示す
る。
【0074】このように、関連する内容の候補が複数存
在する場合にも、見出しを表示して選択することにより
必要最小限の関連付けられた内容を参照することができ
る。また、表示部20に表示される表題もしくは見出し
から、利用者が内容を参照する必要がないと判断した場
合は、内容の参照を行う前に処理を中断することも可能
である。したがって、利用者は内容の詳細を全て読むこ
となく必要な情報を効率良く見つけることが可能であ
る。
【0075】次に、第2の実施の形態について説明す
る。第2の実施の形態は、ある文書内容中のキーワード
に対して、他の文書の表題もしくは見出しが複数関連付
けられている場合に、関連付けられた内容をさらに効率
的に抽出できるようにした文書閲覧装置である。なお、
第2の実施の形態の構成要素は、図2に示した第1の実
施の形態の構成要素と同じであるため、図2に示した構
成を用いて第2の実施の形態を説明する。また、第2の
実施の形態における文書間の関連付け処理は、第1の実
施の形態と同様であるため説明を省略する。
【0076】そこで、第2の実施の形態による関連付け
参照処理について、以下に説明する。図16は、第2の
実施の形態における関連付け参照の処理の流れを示すフ
ローチャートである。以下の処理をステップ番号に沿っ
て説明する。 [S21]利用者が文書蓄積部11に蓄積された文書群
から抽出する文書を入力部21により指示すると、文書
抽出部16は、指示された文書を抽出し、表示部20に
表示する。 [S22]利用者が表示部20に表示された文書を参照
し、入力部21より関連付けの付与されたキーワードの
表示箇所をマウスでクリックするなどの方法で選択す
る。 [S23]見出し抽出部17は、ステップS22にて選
択されたキーワードの関連付け情報すなわちlink要素の
属性「ref 」の識別子を参照し、文書蓄積部11から該
当する識別子を持つ文書の表題もしくは見出しを抽出す
る。 [S24]見出し抽出部17は、ステップS23にて抽
出された表題もしくは見出しが1つであるか複数である
かを判定し、抽出された表題もしくは見出しが複数あれ
ば、ステップS25へ進み、1つしかなければステップ
S29へ進む。 [S25]見出し抽出部17は、ステップS24にて抽
出された表題もしくは見出しが複数あると判定される
と、それらの表題もしくは見出しを文書ごとにグループ
化する。 [S26]見出し抽出部17は、ステップS25にてま
とめられた文書ごとの関連付けのグループを、同一文書
内への関連付けの数、および関連付けられる表題もしく
は見出しの階層の深さから算出される重要度に応じて並
べ替える。 [S27]見出し抽出部17は、ステップS25にて文
書ごとにグループ化された関連付けを、関連付けられる
表題もしくは見出しの階層の深さから算出される重要度
に応じて各グループ内で並び替える。 [S28]利用者は表示部20に表示されている複数の
表題もしくは見出しから入力部21により1つを選択す
る。 [S29]見出し抽出部17は、ステップS23にて抽
出された表題もしくは見出しが1つである場合またはス
テップS28にて見出しが選択された場合に、その表題
もしくは見出しに関連付けられた下位の見出しが存在す
るかどうかを判定する。もし下位の見出しが存在すれば
ステップS23に戻って下位の見出しを抽出する。下位
の見出しが存在しなければステップS30へ進む。 [S30]内容抽出部19が、ステップS28にて選択
された見出し要素に関連付けられた内容に対応する要素
を抽出し、表示部20の画面に表示する。
【0077】このようにして、ある文書内容中のキーワ
ードに対して、他の文書の表題もしくは見出しが複数関
連付けられている場合に、関連付けられた内容を効率的
に抽出することができる。以下にこの処理の詳細を、具
体例を用いて説明する。
【0078】本実施の形態では、第1の実施の形態で示
した文書以外に、関連付けの対象となるキーワード「SG
ML」を表題に含む次のような文書が、文書蓄積部11に
格納されているものとする。
【0079】図17は、関連付けの対象となるキーワー
ドを表題に含む文書の第2の例を示す図である。この文
書71には、文書要素(doc) に「d3」という識別子が付
与されている。また、「id="t1" 」の表題要素(title)
、「id="h2" 」の見出し要素(head)、および「id="h3"
」の見出し要素(head)の内容に「SGML」のキーワード
が含まれている。
【0080】図18は、関連付けの対象となるキーワー
ドを表題に含む文書の第3の例を示す図である。この文
書81には、文書要素(doc) に「d4」という識別子が付
与されている。また、「id="h21"」の見出し要素(head)
と「id="h22"」の見出し要素(head)との内容に「SGML」
のキーワードが含まれている。
【0081】図4に示した文書31に加え、図17,図
18に示した文書71,81に対して関連付け処理が行
われると、図8に示した文書51は以下のように、他の
文書の表題もしくは見出しに関連付けられる。
【0082】図19は、キーワードと表題もしくは見出
しとの関連付けを行った文書の例を示す図である。この
図に示すように、文書54は、他の複数の文書の表題も
しくは見出しに関連付けられている。すなわち、図19
において、キーワード「SGML」に対してそれをタグ付け
するlink要素の属性によって、文書「d1」の表題「t1」
( 内容は「SGMLによる電子出版」) 、文書「d3」の表題
「t1」( 内容は「SGMLへの招待」) 、見出し「h2」( 内
容は「SGMLとHTML」) および見出し「h3」( 内容は「SG
MLとXML 」) 、文書「d4」の見出し「h21 」( 内容は
「SGML文書の検索」) および見出し「h22 」( 内容は
「SGMLデータベースシステム」) の合計6個の表題もし
くは見出しが関連付けられている。
【0083】以下、このように関連付けられている文書
群を対象として、図16に示したフローチャートに沿っ
て関連付け参照の処理の流れを説明する。まず利用者が
文書蓄積部11に蓄積された文書群から抽出する文書を
入力部21により指示すると、文書抽出部16は、指示
された文書を抽出し、表示部20に表示する(ステップ
S21)。ここで表示部20に表示される文書は図19
に示した文書54であるものとする。図19に示す文書
54を表示部20に表示した場合、link要素の属性値は
画面上に表示されないので、第1の実施の形態の場合と
同じく図12に示すように表示画面61が表示される。
【0084】次に、利用者が表示部20に表示された文
書54を参照し、入力部21より関連付けの付与された
キーワード「SGML」の表示箇所をマウスでクリックする
などの方法で選択する(ステップS22)。見出し抽出
部17は、ステップS22にて選択されたキーワードの
関連付け情報すなわちlink要素の属性「ref 」の識別子
を参照し、文書蓄積部11から該当する識別子を持つ文
書の表題もしくは見出しを抽出する(ステップS2
3)。
【0085】次に、見出し抽出部17は、ステップS2
3にて抽出された表題もしくは見出しが1つであるか複
数であるかを判定する(ステップS24)。図19に示
した例では、合計6個の表題もしくは見出しが抽出され
るので、ステップS25へ進む。
【0086】次に、見出し抽出部17は、ステップS2
4にて抽出された表題もしくは見出しが複数あると判定
されると、それらの表題もしくは見出しを文書ごとにグ
ループ化する(ステップS25)。図19の文書54で
は、文書「d1」の表題「t1」を1つのグループに、文書
「d2」の表題「t1」、見出し「h2」および見出し「h3」
を1つのグループに、文書「d3」の見出し「h21 」およ
び見出し「h22 」を1つのグループにまとめる。
【0087】このように、抽出された表題もしくは見出
しを文書ごとにグループ化することで、同一文書内の関
連する記述を連続して参照することができるようにな
る。次に、見出し抽出部17は、ステップS25にてま
とめられた文書ごとの関連付けのグループを、同一文書
内への関連付けの数、および関連付けられる表題もしく
は見出しの階層の深さから算出される重要度に応じて並
べ替える(ステップS26)。本実施の形態では文書ご
との重要度を次の式によって算出する。
【0088】
【数1】
【0089】式(1)において、nは、その文書で関連
付けられている表題もしくは見出しに対して1から順に
割り振られた数字の最大値を表す。diは、数字(i)
が割り振られた表題もしくは見出しの階層構造における
深さを表す( 表題の深さを0とする) 。すなわち、表題
についてはdi=0、第1レベルの見出しについてはd
i=1、第2レベルの見出しについてはdi=2などと
なる。式(1)に従って各文書の重要度を計算すると、
図6に示した文書33は表題「t1」が1つだけ関連付け
られているので重要度=2-0=1、図17に示した文書
71は表題「t1」、見出し「h2」および見出し「h3」の
3つが関連付けられているので重要度=2-0+2-1+2
-1=2、図18に示した文書81は見出し「h21 」およ
び見出し「h22 」の2つが関連付けられているので重要
度=2-2+2-2=0.5となる。したがって、文書ごと
の重要度にしたがって文書「d2」、文書「d1」、文書
「d3」の順に関連付けのグループを並べ替える。
【0090】なお、文書ごとの重要度の算出方法は、式
(1)に示したものに限定されるわけではない。関連付
けられる表題もしくは見出しが多いほうが重要度がより
高くなるように、また、関連付けられる表題もしくは見
出しの階層の深さが浅いほうが重要度がより高くなるよ
うに重要度を決めればよい。このような重要度の決定方
法は、同一文書内で関連付けられる表題もしくは見出し
が多いほうが、そのキーワードが文書全体の主題に関係
する可能性が高いと考えられ、また、関連付けられる表
題もしくは見出しの階層の深さが浅いほうが、そのキー
ワードについてより包括的に説明されている可能性が高
いと考えられるので、有効な方法である。
【0091】次に、見出し抽出部17は、ステップS2
5にて文書ごとにグループ化された関連付けを、関連付
けられる表題もしくは見出しの階層の深さから算出され
る重要度に応じて各グループ内で並び替える(ステップ
S27)。本実施の形態では、階層の深さが浅いほうが
重要度が高いものとする。また、階層の深さが同一であ
る場合には、文書中で先に出現するほうが重要度が高い
ものとする。あるいは、文書中での出現順序を優先した
重要度を用いてもよい。
【0092】以上の処理が行われた後、抽出された表題
もしくは見出しが表示部20に表示される。図20は、
複数の見出しを表示する表示画面の例を示す図である。
これは、図12に示した表示画面61中でキーワード
「SGML」を選択したときに表示される表示画面101の
例を示したものである。図20に表示されている表題も
しくは見出しは、上記処理により、文書ごとにグループ
化され、重要度順に並べ替えられている。
【0093】次に、利用者は表示部20に表示されてい
る複数の表題もしくは見出しから入力部21により1つ
を選択する(ステップS28)。すると、見出し抽出部
17は、ステップS23にて抽出された表題もしくは見
出しが1つである場合またはステップS28にて見出し
が選択された場合に、その表題もしくは見出しに関連付
けられた下位の見出しが存在するかどうかを判定する
(ステップS29)。
【0094】このように、関連付けられる表題もしくは
見出しが同一文書内に複数存在する場合や、関連付けら
れる表題もしくは見出しを持つ文書が複数存在する場合
に、重要なものから優先的に参照できるので、たとえ1
つのキーワードに多量の文書の表題や見出しが関連付け
られている場合でも、効率的に関連付けられた内容を参
照することができる。
【0095】なお、上記の処理機能は、コンピュータに
よって実現することができる。その場合、文書関連付け
装置及び文書閲覧装置が有すべき機能の処理内容は、コ
ンピュータで読み取り可能な記録媒体に記録されたプロ
グラムに記述しておく。そして、このプログラムをコン
ピュータで実行することにより、上記処理がコンピュー
タで実現される。コンピュータで読み取り可能な記録媒
体としては、磁気記録装置や半導体メモリ等がある。市
場に流通させる場合には、CD−ROM(Compact Disk
Read Only Memory) やフロッピーディスク等の可搬型記
録媒体にプログラムを格納して流通させたり、ネットワ
ークを介して接続されたコンピュータの記憶装置に格納
しておき、ネットワークを通じて他のコンピュータに転
送することもできる。コンピュータで実行する際には、
コンピュータ内のハードディスク装置等にプログラムを
格納しておき、メインメモリにロードして実行する。
【0096】
【発明の効果】以上説明したように、本発明の文書関連
付け装置では、文書中のキーワードと被関連付け対象文
書の処理対象要素とを関連付けるとともに、被関連付け
対象文書中の要素の上位構造と下位構造とを関連付ける
ようにしたため、文書中のキーワードから他の文書中の
要素及びその要素の下位構造を順次辿ることができ、必
要最小限の関連付けられた内容を参照することができ
る。しかも、特定の要素からのみキーワードの抽出を行
うため、キーワード抽出に伴う複雑な処理を限られた範
囲に対して実行することができ、関連付け処理を高速に
行うことが可能となる。
【0097】また、本発明の文書閲覧装置では、文書中
のキーワードと被関連付け対象文書の処理対象要素とを
関連付けるとともに、被関連付け対象文書中の要素の上
位構造と下位構造とを関連付けておき、文書中のキーワ
ードが指定されると、そのキーワードの関連要素の内容
とその下位構造の内容を抽出するようにしたため、キー
ワードを指定したユーザは、そのキーワードに関する必
要最小限の関連要素の内容を参照することができる。
【0098】また、本発明の文書関連付けプログラムを
記録したコンピュータ読み取り可能な記録媒体では、記
録された文書関連付けプログラムをコンピュータに実行
させることにより、文書中のキーワードと被関連付け対
象文書の処理対象要素とを関連付けるとともに、被関連
付け対象文書中の要素の上位構造と下位構造とを関連付
ける処理を、コンピュータに高速に行わせることが可能
となる。すなわち、文書中のキーワードを他の文書の最
小限の関連記述に関連付ける処理を、コンピュータに高
速に行わせることができる。
【0099】また、本発明の文書閲覧プログラムを記録
したコンピュータ読み取り可能な記録媒体では、記録さ
れた文書閲覧プログラムをコンピュータに実行させるこ
とにより、文書中のキーワードと被関連付け対象文書の
処理対象要素とを関連付けるとともに、被関連付け対象
文書中の要素の上位構造と下位構造とを関連付けてお
き、文書中のキーワードが指定されると、そのキーワー
ドの関連要素の内容とその下位構造の内容を抽出するよ
うな処理をコンピュータに行わせることが可能となる。
すなわち、コンピュータに対してキーワードを指定した
ユーザは、そのキーワードに関する必要最小限の関連要
素の内容を参照することができる。
【図面の簡単な説明】
【図1】 本発明の原理構成図である。
【図2】 本発明を適用した文書閲覧装置の構成を示す
図である。
【図3】 文書間の関連付けを行う手順を示すフローチ
ャートである。
【図4】 関連付けの対象となるキーワードを見出しに
含む文書の第1の例を示す図である。
【図5】 各要素に一意な識別子を付与した文書を示す
図である。
【図6】 表題、見出し、内容を関連付けた文書の例を
示す図である。
【図7】 キーワード対応表の例を示す図である。
【図8】 関連付けの対象となるキーワードを本文中に
含む文書の例を示す図である。
【図9】 キーワードと表題との関連付けが行われた文
書の例を示す図である。
【図10】 図9の文書に対して階層構造の関連付けを
行った結果を示す図である。
【図11】 関連付けの利用手順を示すフローチャート
である。
【図12】 文書の内容を表示した際の表示画面の例を
示す図である。
【図13】 見出しを表示した際の表示画面の例を示す
図である。
【図14】 下位の見出しを表示した際の表示画面の例
を示す図である。
【図15】 内容を表示した際の表示画面の例を示す図
である。
【図16】 第2の実施の形態における関連付け参照の
処理の流れを示すフローチャートである。
【図17】 関連付けの対象となるキーワードを表題に
含む文書の第2の例を示す図である。
【図18】 関連付けの対象となるキーワードを表題に
含む文書の第3の例を示す図である。
【図19】 キーワードと表題もしくは見出しとの関連
付けを行った文書の例を示す図である。
【図20】 複数の見出しを表示する表示画面の例を示
す図である。
【符号の説明】
1 文書蓄積手段 2 階層構造関連付け手段 2a 被関連付け対象文書 3 キーワード抽出手段 3a キーワード対応表 4 文書内容検索手段 4a 文書 5 キーワード関連付け手段 5a 文書

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文書間の関連付けを行う文書関連付け装
    置において、 階層的な論理構造の文書群を格納する文書蓄積手段と、 前記文書蓄積手段に格納されている文書を被関連付け対
    象文書とし、前記被関連付け対象文書を構成する各要素
    の上位構造と下位構造とを関連付ける階層構造関連付け
    手段と、 前記被関連付け対象文書中の特定の属性を有する処理対
    象要素に含まれる内容からキーワードを抽出するキーワ
    ード抽出手段と、 前記キーワード抽出手段により抽出された前記キーワー
    ドを含む文書を、前記文書蓄積手段内より検索する文書
    内容検索手段と、 前記文書内容検索手段により検出された文書中の前記キ
    ーワードと、前記キーワードの抽出元となる前記被関連
    付け対象文書内の前記処理対象要素とを関連付けるキー
    ワード関連付け手段と、 を有することを特徴とする文書関連付け装置。
  2. 【請求項2】 前記キーワード抽出手段は、前記被関連
    付け対象文書の表題としての属性を有する要素と、記載
    内容の見出しとしての属性を有する要素とを、前記処理
    対象要素として取り扱うことを特徴とする請求項1記載
    の文書関連付け装置。
  3. 【請求項3】 構造化文書の内容を閲覧する文書閲覧装
    置において、 階層的な論理構造の文書群を格納する文書蓄積手段と、 前記文書蓄積手段に格納されている被関連付け対象文書
    に対して、前記被関連付け対象文書を構成する各要素の
    上位構造と下位構造とを関連付ける階層構造関連付け手
    段と、 前記被関連付け対象文書中の特定の属性を有する処理対
    象要素に含まれる内容から、キーワードを抽出するキー
    ワード抽出手段と、 前記キーワード抽出手段により抽出された前記キーワー
    ドに基づいて、前記文書蓄積手段に蓄積されている他の
    文書の内容を検索する文書内容検索手段と、 前記文書内容検索手段により検出された文書中の前記キ
    ーワードと、前記キーワードの抽出元となる前記被関連
    付け対象文書内の前記処理対象要素とを関連付けるキー
    ワード関連付け手段と、 文書閲覧要求に応じて、前記文書蓄積手段から文書を抽
    出する文書抽出手段と、 前記文書抽出手段にて抽出された文書中で、前記キーワ
    ード関連付け手段により関連付けられた前記キーワード
    が選択されると、前記キーワードに対して関連付けられ
    た前記被関連付け対象文書中の関連要素及び前記関連要
    素に関連付けられている下位の要素を順次抽出する要素
    抽出手段と、 前記要素抽出手段により抽出された前記関連要素の内容
    及び前記関連要素に関連付けられている下位の要素の内
    容を抽出する内容抽出手段と、 を有することを特徴とする文書閲覧装置。
  4. 【請求項4】 前記要素抽出手段により複数の前記関連
    要素が抽出された場合には、そのうちの1つの前記関連
    要素を選択し、選択した前記関連要素に関連付けられた
    下位の要素が複数存在する場合にはそのうちの1つの要
    素を選択する要素選択手段をさらに有し、 前記内容抽出手段は、前記要素選択手段により選択され
    た前記関連要素の内容及び選択された下位の要素の内容
    を抽出する、 ことを特徴とする請求項3記載の文書閲覧装置。
  5. 【請求項5】 前記要素抽出手段は、前記キーワード関
    連付け手段により関連付けられた要素が複数抽出され、
    かつそれらの要素が同一文書内に存在する場合には、同
    一文書内に存在する要素への関連付けをグループ化して
    抽出することを特徴とする請求項3記載の文書閲覧装
    置。
  6. 【請求項6】 前記要素抽出手段は、文書ごとの関連付
    けをグループ化した場合には、同一文書内への関連付け
    の数、および関連付けられる要素の階層の深さから算出
    される重要度に応じて、各グループを並べ替えることを
    特徴とする請求項5記載の文書閲覧装置。
  7. 【請求項7】 前記要素抽出手段は、文書ごとにグルー
    プ化された関連付け要素群を、関連付けられる要素の階
    層の深さから算出される重要度および文書中での出現順
    序に応じてグループ内で並べ替えることを特徴とする請
    求項5記載の文書閲覧装置。
  8. 【請求項8】 文書間の関連付けを行うための文書関連
    付けプログラムを記録したコンピュータ読み取り可能な
    記録媒体において、 階層的な論理構造の文書群を格納する文書蓄積手段、 前記文書蓄積手段に格納されている文書を被関連付け対
    象文書とし、前記被関連付け対象文書を構成する各要素
    の上位構造と下位構造とを関連付ける階層構造関連付け
    手段、 前記被関連付け対象文書中の特定の属性を有する処理対
    象要素に含まれる内容からキーワードを抽出するキーワ
    ード抽出手段、 前記キーワード抽出手段により抽出された前記キーワー
    ドを含む文書を、前記文書蓄積手段内より検索する文書
    内容検索手段、 前記文書内容検索手段により検出された文書中の前記キ
    ーワードと、前記キーワードの抽出元となる前記被関連
    付け対象文書内の前記処理対象要素とを関連付けるキー
    ワード関連付け手段、 としてコンピュータを機能させることを特徴とする文書
    関連付けプログラムを記録したコンピュータ読み取り可
    能な記録媒体。
  9. 【請求項9】 構造化文書の内容を閲覧するための文書
    閲覧プログラムを記録したコンピュータ読み取り可能な
    記録媒体において、 階層的な論理構造の文書群を格納する文書蓄積手段、 前記文書蓄積手段に格納されている被関連付け対象文書
    に対して、前記被関連付け対象文書を構成する各要素の
    上位構造と下位構造とを関連付ける階層構造関連付け手
    段、 前記被関連付け対象文書中の特定の属性を有する処理対
    象要素に含まれる内容から、キーワードを抽出するキー
    ワード抽出手段、 前記キーワード抽出手段により抽出された前記キーワー
    ドに基づいて、前記文書蓄積手段に蓄積されている他の
    文書の内容を検索する文書内容検索手段と、 前記文書内容検索手段により検出された文書中の前記キ
    ーワードと、前記キーワードの抽出元となる前記被関連
    付け対象文書内の前記処理対象要素とを関連付けるキー
    ワード関連付け手段、 文書閲覧要求に応じて、前記文書蓄積手段から文書を抽
    出する文書抽出手段、 前記文書抽出手段にて抽出された文書中で、前記キーワ
    ード関連付け手段により関連付けられた前記キーワード
    が選択されると、前記キーワードに対して関連付けられ
    た前記被関連付け対象文書中の関連要素及び前記関連要
    素に関連付けられている下位の要素を順次抽出する要素
    抽出手段、 前記要素抽出手段により抽出された前記関連要素の内容
    及び前記関連要素に関連付けられている下位の要素の内
    容を抽出する内容抽出手段、 としてコンピュータを機能させることを特徴とする文書
    閲覧プログラムを記録したコンピュータ読み取り可能な
    記録媒体。
JP22293498A 1998-08-06 1998-08-06 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP4010058B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP22293498A JP4010058B2 (ja) 1998-08-06 1998-08-06 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP22293498A JP4010058B2 (ja) 1998-08-06 1998-08-06 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体

Publications (3)

Publication Number Publication Date
JP2000057152A true JP2000057152A (ja) 2000-02-25
JP2000057152A5 JP2000057152A5 (ja) 2005-01-13
JP4010058B2 JP4010058B2 (ja) 2007-11-21

Family

ID=16790167

Family Applications (1)

Application Number Title Priority Date Filing Date
JP22293498A Expired - Fee Related JP4010058B2 (ja) 1998-08-06 1998-08-06 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4010058B2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008059428A (ja) * 2006-09-01 2008-03-13 Mitsubishi Electric Corp 文書データ管理装置及び文書データ管理方法及びプログラム
WO2009154241A1 (ja) * 2008-06-18 2009-12-23 日本電気株式会社 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
JPWO2008038368A1 (ja) * 2006-09-28 2010-01-28 株式会社ナビタイムジャパン ウィンドウ表示システム
US7813915B2 (en) 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
JP2011034583A (ja) * 2004-06-30 2011-02-17 Google Inc ユーザ情報及びコンテキストに基づいて自動的に生成されるリンクを用いる高品質なドキュメント・ブラウジング
JP2012108921A (ja) * 2011-12-16 2012-06-07 Navitime Japan Co Ltd ウィンドウ表示システム
WO2015125209A1 (ja) * 2014-02-18 2015-08-27 株式会社日立製作所 情報構造化システム及び情報構造化方法
WO2016021289A1 (ja) * 2014-08-07 2016-02-11 廣幸 田中 電子ファイルの生成装置、生成方法、プログラム、及びハイパーリンクとアンカーを用いるデータ構造および電子ファイル
WO2016190446A1 (en) * 2015-05-26 2016-12-01 Hiroyuki Tanaka Electronic file structure, non-transitory computer-readable storage medium, electronic file generation apparatus, electronic file generation method, and electronic file

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7813915B2 (en) 2000-09-25 2010-10-12 Fujitsu Limited Apparatus for reading a plurality of documents and a method thereof
US8386914B2 (en) 2004-06-30 2013-02-26 Google Inc. Enhanced document browsing with automatically generated links to relevant information
US9697205B2 (en) 2004-06-30 2017-07-04 Google Inc. Enhanced document browsing with automatically generated links to relevant information
JP2011034583A (ja) * 2004-06-30 2011-02-17 Google Inc ユーザ情報及びコンテキストに基づいて自動的に生成されるリンクを用いる高品質なドキュメント・ブラウジング
JP2008059428A (ja) * 2006-09-01 2008-03-13 Mitsubishi Electric Corp 文書データ管理装置及び文書データ管理方法及びプログラム
JPWO2008038368A1 (ja) * 2006-09-28 2010-01-28 株式会社ナビタイムジャパン ウィンドウ表示システム
WO2009154241A1 (ja) * 2008-06-18 2009-12-23 日本電気株式会社 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
JP5429165B2 (ja) * 2008-06-18 2014-02-26 日本電気株式会社 検索式生成システム、検索式生成方法、検索式生成用プログラム、及び記録媒体
JP2012108921A (ja) * 2011-12-16 2012-06-07 Navitime Japan Co Ltd ウィンドウ表示システム
WO2015125209A1 (ja) * 2014-02-18 2015-08-27 株式会社日立製作所 情報構造化システム及び情報構造化方法
JPWO2015125209A1 (ja) * 2014-02-18 2017-03-30 株式会社日立製作所 情報構造化システム及び情報構造化方法
JP5926470B1 (ja) * 2014-08-07 2016-05-25 廣幸 田中 電子ファイルの構造、コンピュータ読み取り可能な記憶媒体、電子ファイル生成装置、電子ファイル生成方法、電子ファイル
JP2016224936A (ja) * 2014-08-07 2016-12-28 廣幸 田中 電子ファイルの構造、コンピュータ読み取り可能な記憶媒体、電子ファイル生成装置、電子ファイル生成方法、電子ファイル
WO2016021289A1 (ja) * 2014-08-07 2016-02-11 廣幸 田中 電子ファイルの生成装置、生成方法、プログラム、及びハイパーリンクとアンカーを用いるデータ構造および電子ファイル
WO2016190446A1 (en) * 2015-05-26 2016-12-01 Hiroyuki Tanaka Electronic file structure, non-transitory computer-readable storage medium, electronic file generation apparatus, electronic file generation method, and electronic file

Also Published As

Publication number Publication date
JP4010058B2 (ja) 2007-11-21

Similar Documents

Publication Publication Date Title
JP3108015B2 (ja) ハイパーテキスト検索装置
Lu et al. Annotating search results from web databases
JP4805929B2 (ja) インラインのコンテキストクエリを用いた検索システムおよび方法
US6101503A (en) Active markup--a system and method for navigating through text collections
US8478792B2 (en) Systems and methods for presenting information based on publisher-selected labels
US7680778B2 (en) Support for reverse and stemmed hit-highlighting
RU2335013C2 (ru) Способы и системы для улучшения ранжирования поиска с использованием информации о статье
US6094649A (en) Keyword searches of structured databases
Lu et al. Annotating structured data of the deep Web
JP4437500B2 (ja) データをタグ情報に対応付けて管理する技術
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
US20100332325A1 (en) Menu search
US20060123042A1 (en) Block importance analysis to enhance browsing of web page search results
US20080282151A1 (en) Document segmentation based on visual gaps
US20040054654A1 (en) Information search system, information search method, HTML document structure analyzing method, and program product
JP2005122295A (ja) 関係図作成プログラム、関係図作成方法、および関係図作成装置
EP3077918A1 (en) Systems and methods for in-memory database search
US20090307215A1 (en) Network resource annotation and search system
US8219934B2 (en) Method and code module for facilitating navigation between webpages
US20100082594A1 (en) Building a topic based webpage based on algorithmic and community interactions
US8612431B2 (en) Multi-part record searches
JP2000057152A (ja) 文書関連付け装置、文書閲覧装置、文書関連付けプログラムを記録したコンピュータ読み取り可能な記録媒体及び文書閲覧プログラムを記録したコンピュータ読み取り可能な記録媒体
US9223853B2 (en) Query expansion using add-on terms with assigned classifications
Wanjari et al. Automatic news extraction system for Indian online news papers
Matošević Text summarization techniques for meta description generation in process of search engine optimization

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040218

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070306

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070410

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070611

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070827

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100914

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110914

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120914

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130914

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees