JPH06309365A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH06309365A
JPH06309365A JP5115400A JP11540093A JPH06309365A JP H06309365 A JPH06309365 A JP H06309365A JP 5115400 A JP5115400 A JP 5115400A JP 11540093 A JP11540093 A JP 11540093A JP H06309365 A JPH06309365 A JP H06309365A
Authority
JP
Japan
Prior art keywords
document
search
unit
headline
stored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5115400A
Other languages
English (en)
Inventor
Miki Watanabe
美樹 渡辺
Hirofumi Komatsubara
弘文 小松原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP5115400A priority Critical patent/JPH06309365A/ja
Publication of JPH06309365A publication Critical patent/JPH06309365A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 文書あるいは文書要素を検索するための検索
用情報を容易に作成することができる文書処理装置を提
供すること。 【構成】 見出し検出手段(121)は、文書を文書記
憶手段(11)に登録する際に、検索用の情報を見出し
を基に作成し、その検索用情報を検索用情報記憶手段に
も登録する。検索用情報を作成するために、まず、文書
から見出しを検出する。検索用情報生成手段(122)
は検出した見出しの位置に対応する見出し文字列を抽出
すると共に、その見出し文字列とそれを含む文書との対
応関係を表す検索用情報を生成し、検索用情報記憶手段
(13)へ記憶する。

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、文書の登録および検索
を容易にした文書処理装置に関する。 【0002】 【従来の技術】大量の文書を登録し、必要に応じて登録
された文書を検索し、文書の作成等に利用することので
きる文書処理システムにおいて、目的の文書を速やかに
検索するためにキーワードを各文書に対応して付けるこ
とが一般的に行われている。このキーワード検索を行う
文書処理システムに文書を登録するにはその文書にふさ
わしいキーワードを付加することが必要であり、その文
書の内容を変更したときには更新の必要がある。そのた
め文書の登録や更新をする作業が煩雑になる。この作業
を軽減するための技術として特開平3−156678号
公報記載の技術がある。これは登録すべき文書の編集中
に文字列を指定することにより、その文字列を検索用の
情報すなわちキーワードとして簡単に登録できるように
したものである。 【0003】文書を作成、編集する際に、既存の文書の
一部を再利用することにより文書の作成効率を向上させ
ようとすることが広く行われている。このような再利用
を促進するために、文書からその内容の一部を文書部品
として切り出して登録することが行われている。これ
は、例えば特開平3−157753号公報、特開平2−
148250号公報、特開平3−8087号公報等に開
示されている。しかし、これらの技術では、文書部品を
再利用するためには、予め文書部品ごとにデータベース
に登録する必要がある。 【0004】このように文書から取り出された文書部品
が大量になると、目的の文書部品を見つけ出すことが困
難となる。大量の文書から目的の文書を見つけ出すため
の前述の特開平3−156678号公報のような、文書
にキーワードを付加する技術を文書部品の検索に適用す
ることが可能である。 【0005】また、従来、文書検索手法として、文書
名、著者名、キーワードなどの文書属性による検索が多
用されている。文書属性検索では、所望する文書を検索
しづらいことから、文書内容の全域を検索対象とする全
文検索の手法が注目されている。全文検索は、検索対象
となるデータが多くなることから、性能向上を行うため
に検索対象となる文書を予めスキャンし、検索用のイン
デックスの作成を行ったりしている。 【0006】一方、属性検索を行い、結果が複数になっ
た場合にどの文書が所望の文書であるかを判別するため
に文書の一部を表示させるという方式(特開平3−92
961号公報)がある。この方式では、属性検索で該当
した文書を検索の途中に該当する度に文書毎に文書の一
部を表示するようになっている。 【0007】 【発明が解決しようとする課題】文書の登録時にキーワ
ードを付ける従来技術(例えば、前記特開平3−156
678号公報)ではキーワードとなる文字列を文書中か
ら取り出し、それらを一つの検索用ファイルにまとめる
方法を示しているが、キーワードとして登録する文字列
を明示的に指定しなければならないため、長大な文書の
登録の際は登録の作業が煩雑になるという問題がある。
また、キーワードを登録すると、キーワードとして指定
された文字列が通常の文書編集処理によって変更された
り削除された場合にその変更が検索データに反映され
ず、キーワードの登録が正確に行われないという問題が
ある。 【0008】また、前述の再利用したい文書部品だけを
選択的に格納して、効率的に再利用を行なおうとする前
述の従来技術(特開平2−148250号公報や特開平
3−8087号公報等)では、文書部品を再利用するた
めには、予め文書部品ごとにデータベースに登録する必
要がある。これは一々文書部品を個別に登録するという
手間と再利用されるかどうかということを登録時に判断
する必要があり、登録作業が面倒であるという問題があ
る。 【0009】また、属性検索を行い、結果が複数になっ
た場合にどの文書が所望の文書かを判別するために文書
の一部を表示させるという方式(特開平3−92961
号公報)においては、文書毎に文書の一部が表示される
ので、所望の文書かどうか判断するのに手間が掛かると
いう問題、並びに、文書の表示すべき部分を指定できな
いという問題がある。 【0010】そこで、本発明は、文書あるいは文書要素
を検索するための検索用情報を容易に作成することがで
きる文書処理装置を提供することを課題とする。 【0011】また、本発明は登録文書または登録文書要
素に変更が施されても、その変更が検索用情報に反映さ
れ、検索用情報を常に正確に保つことのできる文書処理
装置を提供することを課題とする。 【0012】また、本発明は検索により複数の文書また
は文書要素が得られた時に、その中から所望のものを速
やかに見つけ出すことのできる文書処理装置を提供する
ことを課題とする。 【0013】 【課題を解決するための手段】本発明の文書処理装置
は、文書を記憶する文書記憶手段(図1の11、図10
の101)と、前記文書記憶手段に記憶される文書から
章、節、図表等の見出しを表す文字列を検出する見出し
検出手段(図1の121、図10の1021)と、前記
見出し検出手段により検出された文字列と前記文書記憶
手段により記憶された文書との対応関係を表す検索用情
報を生成する検索用情報生成手段(図1の122、図1
0の1022)と、前記検索用情報生成手段により生成
された検索用情報を記憶する検索用情報記憶手段(図1
の13、図10の103)とを具備する。 【0014】 また、本発明(請求項2)は、上記構成の
文書処理装置において、文書記憶手段に記憶された文書
を編集する文書編集手段(図10の108)と、前記文
書編集手段により追加、変更、削除された見出しを抽
出、記録する見出し編集記録手段(図10の109)
と、前記見出し編集記録手段により記録された見出しの
追加、変更、削除等の編集事項を検索用情報記憶手段に
反映させる検索用情報更新手段(図10の1023)と
を設けたことを特徴とする。 【0015】本発明(請求項3)は、文書要素から構成
される文書を記憶する文書記憶手段(図17の171、
図22の221)と、文書要素の属性を検索条件として
指定して、文書記憶手段の文書から、検索条件を満たす
文書要素を検索する文書要素検索手段(図17の17
4、図22の223)とを設けた文書処理装置である。 【0016】本発明(請求項4)は、前記発明(請求項
3)の文書処理装置において、前記文書要素検索手段に
より取り出された文書要素を所定の形式で組み合わせて
一つの文書を作成する作成手段(図22の224)を設
けたものである。 【0017】本発明(請求項5)は、前記発明(請求項
3)の文書処理装置において、前記文書記憶手段に記憶
される文書から見出しを表す文字列を検出する見出し検
出手段(図17の1721)と、前記見出し検出手段に
より検出された文字列と前記文書記憶手段により記憶さ
れた各文書の文書要素との対応関係を表す文書要素検索
用情報を生成する検索用情報生成手段(図17の17
2)と、前記検索用情報生成手段により生成された文書
要素検索用情報を記憶する検索用情報記憶手段(図17
の173)とを設け、前記文書要素検索手段(図17の
174)は、前記検索用情報記憶手段に記憶された検索
用情報を用いて、指定の検索条件を満たす文書要素を取
り出すように構成したものである。 【0018】本発明(請求項6)は、文書要素を記憶す
る文書要素記憶手段(図7の71)と、前記文書要素記
憶手段に記憶される文書要素から見出しを表す文字列を
検出する見出し検出手段(図7の721)と、前記見出
し検出手段により検出された文字列と前記文書記憶手段
により記憶された文書要素との対応関係を表す文書要素
検索用情報を生成する検索用情報生成手段(図7の72
2)と、前記検索用情報生成手段により生成された文書
要素検索用情報を記憶する検索用情報記憶手段(図7の
73)とを設けた文書処理装置である。 【0019】 【作用】本発明(請求項1)の文書処理装置において、
見出し検出手段(121)は、文書を文書記憶手段(1
1)に登録する際に、検索用の情報を作成し、その検索
用情報を検索用情報記憶手段にも登録する。検索用情報
を作成するために、まず、文書から見出しを検出する。
文書記憶手段(11)に格納される対象の文書として構
造化文書を対象とする場合には、その構造により表題、
見出し、図形、本文などを区別する情報を有しているの
で、見出し検出手段はそれらを調べることにより見出し
の位置を検出する。構造化文書ではない一般の文書を対
象とする場合には、文書を解析し、見出しの特徴を有す
る部分、例えば数字で始まる行や前後の行と異なるフォ
ントを用いた行等、を検出する。検索用情報生成手段
(122)は検出した見出しの位置に対応する見出し文
字列を抽出すると共に、その見出し文字列とそれを含む
文書との対応関係を表す検索用情報を生成し、検索用情
報記憶手段(13)へ記憶する。本発明によれば、文書
に含まれる見出しを見出し検出手段により抽出して、検
索用情報を作成し、従来のキーワードの代わりに登録す
るようにしたので、キーワードを選定する煩雑な作業を
要することなく容易に検索対象文書の登録が可能にな
る。 【0020】本発明(請求項2)において、文書記憶手
段(図17の171、図22の221)には、章、節、
図、表、イメージのような文書要素から構成される文書
(図18、図19)が記憶されている。文書要素検索手
段(図17の174、図22の223)は、文書要素の
属性が検索条件として与えられると、文書記憶手段の文
書を検索し、検索条件を満たす文書要素を取り出す。本
発明によれば、文書要素を選択的に格納するのではな
く、文書そのものを格納し、検索は文書要素単位で取り
出すようにしたことにより、既存文書を構成する全ての
文書要素を再利用の対象とすることができる。さらに文
書として格納しているので、格納時に、いちいち文書要
素の指定をする手間が省くことができ、また、文書の編
集のみを行えば文書要素を検索用に別途編集する必要が
ない。 【0021】 前記文書要素を単位として検索することの
できる発明(請求項2)において作成手段(図22の2
24)を設けた発明(請求項3)は、前記文書要素検索
手段により取り出された複数の文書要素を所定の形式で
組み合わせて一つの文書を作成する。例えば、ある論文
の集まりからそのアブストラクトのみを抽出し、そのア
ブストラクトと文書名を組みにした段落で構成される一
つの仮想文書を作成できる(例えば図27)。この例の
場合、ユーザにその仮想文書を提示することにより、所
望の論文を容易に探すことができる。本発明によれば、
既存文書の所望の部分を抽出して一つの別の文書として
ユーザに提示することができるので、ユーザは提示され
た文書を見て必要な文書の選択をすることができ、ま
た、文書の要素を格納時の目的とは別の複数の目的に再
利用することができる。 【0022】文書全体を登録した文書からの文書要素の
検索は、その文書が構造化文書である場合には、その文
書構造のルートをたどることにより容易におこなうこと
ができるが、前述の見出しを抽出して検索用情報を生成
し、この検索用情報により検索するようにした場合(請
求項4)には、文書要素の登録が容易になると共に、よ
り高速の検索が可能となる。 【0023】文書記憶手段に記憶された文書または文書
部品に対して文書編集手段により編集可能に構成した本
発明(請求項5)の文書処理装置においては、文書編集
手段による見出しの追加、変更、削除などを見出し編集
記録手段により記録する。検索用情報更新手段は、この
記録に基づいて検索用情報を更新する。これにより、編
集の結果が検索用情報に反映され、文書の検索を常に正
確になるように維持できる。 【0024】本発明(請求項6)は、文書要素記憶手段
(71)に文書要素を単位として登録するものにおい
て、見出しを抽出して検索用情報を生成するものであ
る。即ち、見出し検出手段(721)は、文書要素を文
書要素記憶手段に登録する際に、検索用情報を作成し、
その検索用情報を検索用情報記憶手段(73)にも登録
する。検索用情報を作成するために、まず、文書要素か
ら見出しを検出する。文書要素記憶手段に格納される対
象の文書要素として構造化文書に適用される形式を持つ
ものを対象とする場合には、その構造により文書要素が
表題、見出し、図形、本文などを区別する情報を有して
いるので、見出し検出手段はそれらを調べることにより
見出しを含む文書要素を検出する。構造化文書ではない
一般の文書を対象とする場合には、文書部品を解析し、
見出しの特徴を有する部分、例えば数字で始まる行や前
後の行と異なるフォントを用いた行等、を検出する。検
索用情報生成手段(722)は検出した見出しを含む文
書要素にある見出し文字列を抽出すると共に、その見出
し文字列とそれを含む文書要素との対応関係を表す検索
用情報を生成し、検索用情報記憶手段へ記憶する。本発
明によれば、文書要素に含まれる見出しを見出し検出手
段により抽出して、検索用情報を作成し、従来のキーワ
ードの代わりに登録するようにしたので、キーワードを
選定する煩雑な作業を要することなく容易に検索対象文
書要素の登録が可能になる。 【0025】 【実施例】 (第1の実施例)図1は本発明の第1の実施例の文書処
理装置の構成を示すブロック図である。この装置は、図
1に示すように、文書データ記憶部11、検索用情報作
成部12、検索用見出し記憶部13、見出し検索部1
4、文書検索ユーザインタフェース15、文書指定部1
6、文書取り出し部17、文書表示装置18および文書
作成装置19からなっている。 【0026】文書データ記憶部11は文書作成装置19
により作成された文書を記憶するために用いられる。 【0027】検索用情報作成部12は、文書作成装置1
9からの文書データを文書データ記憶部11に記憶する
際に、文書データに含まれる見出しから検索用情報を作
成するものであり、文書作成装置19により作成された
文書データを解析し、章、節、図表の見出しとなる部分
を検出する見出し検出部121と、検出した見出しの文
字列を複写し文書データとの対応を付けて出力する見出
し複写部122とを有している。 【0028】検索用見出し記憶部13は、検索用情報作
成部12により作成された、見出しとなる文字列と文書
データ記憶部11に記憶される文書データとの対応付け
を表す検索用情報を記憶するためのものである。 【0029】見出し検索部14は文書を検索する際に用
いられ、文書検索ユーザインタフェース15により与え
られた文字列と同じまたはそれを含む見出しを検索用見
出し記憶部13から検索し、該当する見出しを含む文書
の一覧を作成するためのものである。 【0030】文書検索ユーザインタフェース15は、見
出し検索部14に渡す文字列をユーザが入力したり、与
えられた文書の一覧を表示しユーザから目的とする文書
を文書指定部16により指定させるための入出力を司る
ために用いられる。 【0031】文書指定部16は見出し検索部14より作
成された文書の一覧を文書検索ユーザインタフェース1
5により表示し、取り出すべき文書をユーザに選択させ
るためのものである。 【0032】文書取り出し部14は、文書指定部16に
より指定された文書データを文書データ記憶部11から
取り出すためのものである。 【0033】文書表示装置18は文書取り出し部17に
より取り出された文書を表示させるために用いられる。 【0034】文書作成装置19は文書データを作成する
ために用いられる。 【0035】このように構成された文書記処理装置にお
いて、検索用情報の作成記憶、および文書データの記
憶、検索、表示の動作を詳細に説明する。 【0036】図2は検索用情報の作成、記憶を行う処理
の流れを示すものである。見出し部分は、文書データが
ODAなどの構造化文書であれば、構造から容易に検出
できるが、文書データが構造化文書でなくとも内容を解
析することで検出可能である。そこで文書データが図3
(a)のような構造化文書である場合と図3(b)のよ
うな構造化されていない文書である場合のそれぞれにつ
いて説明する。 【0037】文書データは、まず、文書作成装置19に
より作成される。作成された文書データは文書データ記
憶部11により記憶される。文書データを記憶するに
は、フロッピーディスク、ハードディスクなどの外部記
憶装置を用いるが、データベース管理システムなど高度
なシステムを用いることも可能である。文書データが文
書データ記憶部11に記憶されると同時に、この文書デ
ータから見出し検出部121により見出部分の検出処理
が行われるとともに、見出し複写部122による見出し
の内容の複写が行われる。 【0038】図2においてpは文書内容を指し示すポイ
ンタである。ポインタの指し示す対象は、構造化文書の
場合、図3(a)に示されるように木構造のノードであ
る。 【0039】まずステップS21によりpが文書の開始
点を指し示すように初期化される。開始点は図3(a)
の木構造のルートに当たるとなる。 【0040】続いて、ステップS22により現在pが指
し示している部分が見出しであるか否かを調べる。ここ
で、関数typeはpの指し示している対象の種類を調
べ、それが見出しであれば見出しであることを表す値を
返す。構造化文書では木構造の各ノードに、そのノード
の種類、例えば表題、見出し、図形、本文などを区別す
る値が設定されているので、関数typeはこの値を調
べることによってpが見出しであるか否かを知ることが
できる。図3(a)では、種類が見出しであるノード
を二重丸で示している。 【0041】ステップS22によりpが見出しであると
判定された場合、ステップS23において見出し複写部
12によりその内容が複写される。複写された見出しは
文書データを指し示す情報との対応表の形式にして検索
用情報として検索用見出し記憶部13に記憶される。図
3(a)に示すような構造化文書ではpが見出しである
場合にはその子は内容部であり、見出しの内容となる文
字列がこの内容部に格納されている。よって、複写対象
はこの内容部に格納されている文字列となる。 【0042】ステップS22によりpが見出しでないと
判定された場合、または、ステップS23により内容の
複写が終了した後に、ステップS24によりp:=ne
xt(p)によりpが次のノードを指し示すようにす
る。ここで、次のノードとは、pに子がある場合にはそ
の最も左の子となるノードであり、子がない場合で右隣
の兄弟があればそのノード、右隣の兄弟がなければ親の
右隣の兄弟となるノードである。親の右隣の兄弟がない
場合にはさらに親の右隣の兄弟を調べ、最初に見つかっ
たノードとする。どの親にも右隣の兄弟がない場合には
文書構造をすべて検査し終わったことになるのでpに終
了したことを表すnilを設定する。 【0043】続いて、pの値を調べ、nilであれば終
了し、nilでなければステップS22に戻って繰り返
し処理を続ける。 【0044】次に、図3(b)のような構造化されてい
ない文書に対する処理について説明する。ポインタpの
指し示す対象は、構造化されていない文書では図3
(b)に示されるように文字または行の先頭位置であ
る。 【0045】まず、図2の処理フローのステップS21
によりpが文書の開始点を指し示すように初期化され
る。開始点は文書の最初の行、文字である。 【0046】続いてステップS22により現在pが指し
示している部分が見出しであるか否かを調べる。関数t
ypeは、構造化されていない文書では、pの指し示し
ている部分が、例えば数字で始まる、または、前後の行
と異なるフォントが用いられているなどの条件を満たす
か否かで、対象となっている部分が見出しであるか否か
を調べる。 【0047】ステップS22によりpが見出しであると
判定された場合、ステップS23によりその内容が複写
される。複写された見出しは文書データを指し示す情報
との対応表の形式で検索用情報として見出し記憶部13
に記憶される。複写の範囲もステップS22において関
数typeが用いたものと同様の条件を用いて決定す
る。 【0048】ステップS22によりpが見出しでないと
判定された場合、または、ステップS23により内容の
複写が終了した後にステップS24によりp:=nex
t(p)によりpが次の行、文字を指し示すようにす
る。次の行、文字がない場合には文書すべて検査し終わ
ったことになるのでpに終了したことを表すnilを設
定する。 【0049】続いてステップS25でpの値を調べ、n
ilであれば終了し、nilでなければステップS22
に戻って繰り返し処理を続ける。 【0050】図4は、見出しと文書の対応関係を表す対
応表の実現方法を示している。ここで、41は見出しと
文書の対応を表す対応表であり、表の左側の列に見出し
複写部122により複写された見出しを表す文字列43
が格納され、右側の列に対応する文書データを示す情報
42が格納される。44〜47は文書データ記憶部11
により記憶された文書データである。対応表41と文書
データ44〜47は同一のファイルに記憶してもよい
が、別々のファイルに記憶しさらに文書データ44〜4
7を個別のファイルに記憶することもできる。 【0051】対応表41と文書データ44〜47が同一
のファイルに記憶される場合、対応表41の右側の列に
は対応する文書データのファイル内での場所をポインタ
として記憶することができる。 【0052】また、対応表41と文書データ44〜47
が別々のファイルに記憶されている場合には、対応表4
1の右側の列には対応する文書データが記憶されている
ファイルの名前とそのファイル中の場所を記憶する。 【0053】さらに文書データ44〜47が個別のファ
イルに記憶される場合には、対応表41の右側の列には
対応する文書データが記憶されているファイルの名前を
記録する。 【0054】また、図4では同じ見出しに対して、対応
表41に個別の行を作成しているが、同じ見出しを一行
にまとめ、複数の文書データを対応付けることも可能で
ある。 【0055】このようにして記憶された文書データから
特定の文書データを、前記作成・記憶された検索用見出
し情報により、取り出す検索処理について説明する。図
5はその検索処理の流れを示す図である。 【0056】検索する文字列をユーザが入力するため
に、文書検索ユーザインタフェース15を用いる。入力
する文字列は単一の完成された文字列でもよいが、正規
表現などにより複数の文字列を表すものでもよい。ま
た、検索する文字列を複数指定しそれらをAND/OR
で統合することで、指定された複数の文字列を同時に含
んでいる文書や一つでも含んでいる文書などの検索を指
示することも可能である。 【0057】図5は検索処理のフローを示すものであ
る。図5においてcは問い合わせの条件を表すデータ、
iは対応表41の行を示す整数型の変数、uは対応表4
1から指されている文書で条件を満たすものを記憶する
集合型の変数である。 【0058】ステップS51でまず問い合わせの条件を
表すデータをcに代入する。条件を表すデータは、例え
ば正規表現により表すことができる。ここでは説明のた
め、正規表現「.* aa .* | .*x」で
『「aa」を含むまたは「x」で終わる文字列』を指定
する。 【0059】ステップS52でi、uを初期化する。次
にステップS53で対応表のi行目である「対応表
[i]」に記憶されている文字列が条件cを満たすか否
かを調べる。iが1のときには対応表41の1行目を調
べる。 【0060】ステップS53により調べた結果、条件を
満たす場合にはステップS54により「対応表[i]」
から指されている文書をuに追加する。図4の例では、
対応表の1行目に記憶されている文字列「aa」が条件
cの『「aa」を含む』を満たすので、文書データを指
し示す情報をuに追加する。 【0061】ステップS53の判定の結果、条件を満た
さないとされた場合、またはステップS54が終了した
後に、ステップS55によりiの値が1だけ増える。 【0062】続いてステップS56によりその値が対応
表41の大きさを越えていないか調べられ、越えていな
い場合にはステップS53にもどり、iが対応表41の
大きさを越えるまで繰り返される。 【0063】図4の例では、この処理が終了した後に、
uには文書データ44、45、47を指し示す情報が記
憶される。これらの文書の一覧が文書検索ユーザインタ
フェース15により表示され、ユーザが文書指定部16
によりその一覧の中から目的の文書を一つまたは複数指
定すると、その指定された文書が文書取り出し部17に
より文書データ記憶部11から取り出され、文書表示装
置18により表示される。 【0064】なお、以上の実施例では、各見出しを検出
するごとに、対応する見出しの内容を複写し、検索用情
報として登録する例を説明したが、一つの文書について
見出しを検出したら見出し表に登録してゆき、その見出
し表への登録がすべて終わった後に、その見出し表に基
づいて見出しと文書を指し示す情報との対応表を作成す
るように変更実施することもできる。図6は見出し表と
文書データとの関係を示す図であり、見出し表には検出
した見出しの位置を示すポインタを順次格納する。 【0065】以上説明したように、本実施例は文書の見
出しとなる文字列を検索用の情報として自動的に抽出
し、登録するようにしたので、文書データを保存する際
に、従来技術のように別途キーワードなどを指示する煩
わしいキーワード抽出作業を必要とせず、文書データを
容易に保存することができる。かつ検索時には目的とす
る文書を迅速かつ容易に取り出すことができる。 【0066】(第2の実施例)第1の実施例は、検索さ
れたデータを文書単位で取り出して表示すものである
が、第2の実施例は検索されたデータを文書部品単位で
取り出して文書作成に利用するようにしたものである。 【0067】図7は本発明の第2の実施例の文書処理装
置の構成を示すブロック図である。この装置は、図7に
示すように、文書部品記憶部71、検索用情報作成部7
2、検索用見出し記憶部73、見出し検索部74、文書
部品検索ユーザインタフェース75、文書部品指定部7
6、文書部品取り出し部77、文書作成装置78および
文書部品作成装置79からなっている。 【0068】文書部品記憶部71は文書部品作成装置7
9により作成された文書部品を記憶するものである。 【0069】検索用情報作成部72は、文書部品作成装
置79からの文書部品を文書部品記憶部71に記憶する
際に、文書部品に含まれる見出しから検索用情報を作成
するものであり、文書部品作成装置79により作成され
た文書部品を解析し、章、節、図表の見出しとなる部分
を検出する見出し検出部721と、検出した見出しの文
字列を複写し文書部品との対応を付けて出力する見出し
複写部722とを有している。 【0070】検索用見出し記憶部73は、検索用情報作
成部72により作成された、見出しとなる文字列と文書
部品記憶部71に記憶される文書部品との対応付けを表
す検索用情報を記憶するものである。 【0071】見出し検索部74は文書部品を検索する際
に用いられ、文書部品検索ユーザインタフェース75に
より与えられた文字列と同じまたはそれを含む見出しを
検索用見出し記憶部73から検索し、該当する見出しを
含む文書部品の一覧を作成するものである。 【0072】文書部品検索ユーザインタフェース75
は、見出し検索部74に渡す文字列をユーザが入力した
り、与えられた文書部品の一覧を表示しユーザから目的
とする文書部品を文書部品指定部76により指定させる
ための入出力を司るものである。 【0073】文書部品指定部76は見出し検索部74よ
り作成された文書部品の一覧を文書部品検索ユーザイン
タフェース75により表示し、取り出すべき文書部品を
ユーザに選択させるものである。 【0074】文書部品取り出し部74は、文書部品指定
部76により指定された文書部品を文書部品記憶部71
から取り出すものである。 【0075】文書作成装置78は文書部品取り出し部7
7により取り出された文書部品を利用して文書データを
作成するものである。 【0076】文書部品作成装置79は文書部品を作成す
るものである。 【0077】以上のように構成された第2の実施例の文
書記処理装置において、検索用情報の作成記憶の動作を
説明する。文書部品は、まず文書部品作成装置79によ
り作成される。作成された文書部品は文書部品記憶71
により記憶される。文書部品を記憶するには、フロッピ
ーディスク、ハードディスクなどの外部記憶装置を用い
るが、データベース管理システムなど高度なシステムを
用いることも可能である。文書部品が文書部品記憶部7
1に記憶されると同時にこの文書部品から見出し検出部
721により見出し部分が検出される。見出し部分は、
文書部品がODAなどの構造化文書に用いることができ
る形式で作成されたものであれば、その構造から容易に
検出することができる。文書部品が構造化文書用のもの
でなくとも内容を解析することにより検出可能である。
例えば文書部品がテキストであれば数字で始まる、また
は、前後の行と異なるフォントが用いられているなど、
文書部品が図や表であれば「図」「表」の文字を含む最
初または最後の行であるというような条件を満たすか否
かで、対象となっている部分が見出しであるか否かを調
べる。 【0078】検出した見出しは、文書部品中の場所を指
すポインタなどによって示され、表形式で一時記憶され
る。図8は、検出された見出しの記憶方法を示してい
る。ここで81は見出し表であり検出された見出しを示
すポインタが記憶される。82、83、84は文書部品
であり、文書部品作成装置79により作成されたもので
ある。検出された見出しは図8のようにポイインタなど
によって図中の文書部品82〜84中の場所で指し示
し、図中81の見出し表に登録しておく。 【0079】このようにして得られた見出し表81と文
書部品82、83、84…から、見出しとなる文字列が
見出し複写部722により複写され、見出しと文書部品
記憶部71により記憶された文書部品の対応を表す対応
表として見出し記憶部81により記憶される。 【0080】図9は、見出しと文書部品の対応を表す対
応表の実現方法を示している。ここで、91は見出しと
文書部品の対応を表す対応表であり、表の左側の列に見
出し複写部722により複写された見出しを表す文字列
93が格納され、右側の列に対応する文書部品を示す情
報92が格納される。94〜99は文書部品記憶部71
により記憶された文書部品である。対応表91と文書部
品94〜99は同一のファイルに記憶してもよいが、別
々のファイルに記憶しさらに文書部品94〜99を個別
のファイルに記憶することもできる。対応表91と文書
部品94〜99が同一のファイルに記憶される場合、対
応表91の右側の列には対応する文書部品のファイル内
での場所をポインタとして記憶することができる。 【0081】また、対応表91と文書部品94〜99が
別々のファイルに記憶されている場合には、対応表91
の右側の列には対応する文書部品が記憶されているファ
イルの名前とそのファイルのなかの場所を記憶する。さ
らに文書部品94〜99が個別のファイルに記憶される
場合には、対応表91の右側の列には対応する文書部品
が記憶されているファイルの名前を記録する。 【0082】なお、図9では同じ見出しに対して、対応
表91に個別の行を作成しているが、同じ見出しを一行
にまとめ、複数の文書部品を対応付けることも可能であ
る。また、上記の実施例では見出し表を作成し、その後
その見出し表を用いて対応表を作成する場合を説明した
が、見出し表を作成せずに第1の実施例の図2で示した
ように見出しを検出する毎に対応表に直接に登録するよ
うにしてもよい。 【0083】このようにして作成・記憶された検索用見
出し情報即ち対応表により、文書部品記憶部74に記憶
された文書部品群から所望の文書部品を取り出す検索処
理は、図5のフローチャートにより説明した第1の実施
例における検索処理とほぼ同じである。対応表の探索に
より、第1の実施例では文書の一覧を得るのに対し、第
2の実施例では文書部品の一覧を得る点が相違するのみ
である。 【0084】得られた文書部品の一覧は文書部品検索ユ
ーザインタフェース75により表示し、ユーザが目的と
する文書部品を文書部品指定部76により指定できるよ
うにする。ここで文書検索ユーザインターフェース75
は単一の文書部品を指定させるのでもよいが、複数の文
書部品を指定できるようにすることも可能である。ユー
ザが文書部品検索ユーザインタフェース75と文書部品
指定部76により一つまたは複数の文書部品が指定され
ると、指定された文書部品は文書部品取り出し部77に
より文書部品記憶部71から取り出され、文書作成装置
78に取り込まれる。 【0085】以上説明したように、本実施例は文書部品
の見出しとなる文字列を文書部品と対応させて検索用情
報として検索用見出し記憶部73に自動的に登録するよ
うにしたので、文書部品を保存する際に、別途キーワー
ドなどを人手により指示する必要がなく、大量の文書部
品であっても容易に保存し、かつ検索時には目的とする
文書部品を迅速かつ容易に取り出すことができる。 【0086】(第3の実施例)図10は本発明の第3の
実施例の文書処理装置の構成を示すブロック図である。
この文書処理装置は、図10に示すように、文書データ
記憶部101、検索用情報作成部102、検索用見出し
記憶部103、見出し検索部104、文書検索ユーザイ
ンタフェース105、文書指定部106、文書取り出し
部107、文書データ編集部108および見出し編集記
録部109からなっている。 【0087】この文書処理装置は文書データ編集部10
8により文書データ記憶部101に格納されている文書
データの編集を行うようにしたものであり、編集により
文書データが更新された時に、その更新された文書デー
タに検索用見出し記憶部103の内容を整合させるよう
にしたものである。第1の実施例とは、文書データ記憶
部101から検索された文書データを編集する文書デー
タ編集部108と、文書データ編集部108により追
加、変更、削除された見出しを抽出する見出し編集記録
部109と、見出し編集記録部109により記録された
見出しの追加、変更、削除を検索用見出し記憶部103
に反映させる見出し更新部1023とを設けた点におい
て相違し、その他の構成要素は第1の実施例と同じであ
る。従って、文書データおよび検索用見出し情報の新規
な登録処理、および文書データの検索処理については説
明を省略し、前記相違点に関する部分即ち検索用見出し
情報の更新処理に重点を置いてその動作を説明する。 【0088】文書データ編集部108による編集では見
出しの追加、変更、削除が可能である。文書データ編集
部108による見出しの追加、変更、削除は、見出し編
集記録部109により検出され、追加、変更、削除の別
に記録される。文書データ編集部108による編集が終
了し、再び、文書データ記憶部101により記憶される
際に、見出し更新部1023は、見出し編集記録部10
9により記録された見出しの追加、変更、削除の情報に
より検索用見出し記憶部103に格納されている対応表
の更新を行なう。この更新処理において、対応表に、追
加された見出しに対する行が追加され、変更された見出
しに対する行の内容が変更され、削除された見出しに該
当する行が削除される。以下に、その詳細な処理を説明
する。 【0089】図11は見出し検出部1021により検出
された見出しの記憶方法を示している。図中114は編
集対象として指定された文書データを文書データ記憶部
101から文書取り出し部107により取り出して編集
用作業領域に置かれた編集対象文書データである。11
1は追加見出し表であり、文書データ編集部108によ
る編集で追加された見出しを指し示すポインタが記憶さ
れる。112は変更見出し表であり、文書データ114
に対し文書データ編集部108による編集で変更された
見出しを指し示すポインタが記憶される。113は削除
見出し表であり、編集対象文書データ114から文書編
集部108による編集で削除された見出しを指し示すポ
インタが記憶される。この図では、第1章の見出しの内
容が「xxx」から「xxxyyy」に変更され、第2
章の「yyy」が削除され、最後に「ppp」と「mm
m」が追加された状態を示している。 【0090】見出し編集記録部109は、追加見出し表
111、変更見出し表112、削除見出し表113を図
12のフローチャートに示された、以下の手順で作成す
る。 【0091】見出し編集記録部109は、まず、文書デ
ータ編集部108による編集操作の種類を調べる(ステ
ップS121、S123、S126)。 【0092】文書データ編集部108による編集操作が
見出しの追加であれば、その見出しへのポインタを追加
見出し表111に記憶する(ステップS122)。 【0093】文書データ編集部108による編集操作が
見出しの変更であれば、その見出しへのポインタが追加
見出し表111に記憶されているか調べ(ステップS1
24)、追加見出し表111に記載されていない場合の
み変更見出し表112に記憶する(ステップS12
5)。 【0094】文書データ編集部108による編集操作が
見出しの削除であれば、まず、その見出しへのポインタ
が追加見出し表111に記憶されているか調べ(ステッ
プS127)、追加見出し表111に記憶されている場
合は追加見出し表111から削除し(ステップS12
8)、そうでない場合のみ削除見出し表113に記憶し
(ステップS129)、さらにその見出しへのポインタ
が変更見出し表112に記憶されているか調べ、(ステ
ップS12A)、記憶されている場合は変更見出し表1
12からそのポインタを削除する(ステップS12
B)。 【0095】文書編集部108により編集が終了する
と、編集対象文書データ114が文書記憶部101に格
納されている編集前のもとの文書データを更新する形で
記憶される。その際、以上の手順により作成された追加
見出し表111、変更見出し表112、削除見出し表1
13を用いて、見出し更新部1023は、見出し記憶部
103に記憶されている対応表131を更新する。 【0096】図13は対応表の更新を説明するための図
であり、対応表131と、文書データ記憶部101の更
新後の文書データ132と、文書データ編集部108に
おいて編集操作された編集対象の文書データ133と、
変更見出し表112および削除見出し表113に登録さ
れた文書データ133上の変更または削除の施された見
出しの位置のポインタ(右側)と更新後の文書データ1
32の対応する位置のポインタ(左側)とを対応させた
編集見出し対応表134と、追加見出し表111に登録
された文書データ133上の追加された見出しの位置の
ポインタ(右側)と更新後の文書データ132の対応す
る位置のポインタ(左側)とを対応させた追加見出し対
応表135との相互の関係が示されている。 【0097】この図13に示すように、編集見出し対応
表134および追加見出し対応表135には、文書デー
タ記憶部101の文書データ132が更新された時に、
編集によって変更、削除または追加された見出しの文書
データ133における位置と更新により文書データ13
2中に変更、削除または追加された見出しの位置との対
応が登録される。 【0098】図13の状態から、図11の追加見出し表
111、変更見出し表112、削除見出し表113を用
いて、対応表131の内容を更新する。この更新は、削
除、追加、変更の順に、それぞれ図14、図15、図1
6に示される手順で行われる。 【0099】図14においてiは削除見出し表の行を示
す変数であり、ステップS141において1に初期化さ
れる。 【0100】続いてステップS142でiが削除見出し
表113の大きさを越えていないか確認する。越えてい
る場合には、削除見出し表113の全ての行を処理した
ことになるので、終了する。 【0101】越えていない場合には、ステップS143
により削除見出し表113のi行目の内容を変数tに代
入する。 【0102】続いてステップS144によりtにより指
し示された削除された見出しの編集前の位置を示すポイ
ンタをpに代入する。削除された見出しの編集前の位置
は図13の編集見出し対応表134から、右側がtと同
じである行を探し、その行の左側の値を参照することに
より得ることができる。 【0103】次にステップS145において、対応表1
31からpと同じ位置を示すポインタを記憶している行
を削除する。最後に、ステップS146でiの値を1だ
け増加させてステップS142に戻る。 【0104】図15においてiは追加見出し表111の
行を指し示す変数であり、ステップS151により1に
初期化される。 【0105】続いてステップS152でiが追加見出し
表111の大きさを越えていないか確認する。越えてい
る場合には、追加見出し表の全ての行を処理したことに
なるので、終了する。 【0106】越えていない場合には、ステップS153
により追加見出し表111のi行目の内容を変数tに代
入する。 【0107】続いてステップS154において、tによ
り指し示された追加された見出しの更新後の位置を示す
ポインタpに代入する。追加された見出しの更新後の位
置は図13の追加見出し対応表135から、右側がtと
同じである行を探し、その行の左側の値を参照すること
で得ることができる。 【0108】次にステップS155で、対応表131
に、見出しの内容とpと同じ位置を示すポインタを記憶
する行を追加する。最後にステップS156でiの値を
1だけ増加させてステップS152に戻る。 【0109】図16において、iは変更見出し表112
の行を指し示す変数であり、ステップS161により1
に初期化される。 【0110】続いてステップS162でiが変更見出し
表112の大きさを越えていない確認する。越えている
場合には、変更見出し表112の全ての行を処理したこ
とになるので、終了する。 【0111】越えていない場合には、ステップS163
により変更見出し表112のi行目の内容を変数tに代
入する。 【0112】続いてステップS164において、tによ
り指し示された変更された見出しの編集前の位置を示す
ポインタをpに代入する。変更された見出しの更新後の
位置は図13の編集見出し対応表134から、右側がt
と同じである行を探し、その行の左側の値を参照するこ
とで得ることができる。 【0113】次にステップS165で、対応表131
に、見出しの内容とpと同じ位置を示すポインタを記憶
する行の左側の内容を、変更された見出しの内容で更新
する。 【0114】最後にステップS166でiの値を1だけ
増加させてステップS162に戻る。 【0115】本実施例によれば、文書データ編集部10
8により作成され、文書データ記憶部101により記憶
しようとする文書の内容を表すデータから、見出し検出
部1021により見出しを検出し、その見出しと文書デ
ータ記憶部101に記憶された文書の内容を表すデータ
との対応を見出し複写部1022により作成し、検索用
見出し記憶部103に記憶させるようにしたので、文書
を登録する際に、従来のように検索用のキーワードを付
加する作業を必要とせずに、検索用の情報を自動的に生
成することができる。また、検索用見出し記憶部103
が特定の記憶領域に設けられた場合、参照すべき検索用
の情報の領域を局所化することが可能となるので、検索
速度を高速化することができる。 【0116】また、本実施例において検索時には、与え
られた文字列と同じかまたはその文字列を含む文字列を
検索用見出し記憶部103に格納した検索用情報の対応
表131により検索し、その文字列に対応付けられてい
る文書の一覧を提示し、その一覧から目的とする文書を
選択することにより所望の文書をとりだすことができ
る。 【0117】さらに本実施例によれば、文書データ記憶
部101により記憶された文書の内容を表すデータを文
書データ編集部108により編集する際に、見出し編集
記録部109により追加、更新、削除された見出しを記
録しておき、再度、文書データ記憶部101により文書
データを記憶する際に、見出し更新部1023により、
見出しの編集記録部109の記録にしたがって検索用見
出し記憶部103の内容を更新することができる。 【0118】また、検索用見出し記憶部103の内容の
更新の際に、削除された見出しの更新を最初に行うこと
で、削除された見出しのための領域が新たに追加された
別の見出しのための領域として再利用された場合にも正
確に更新を行うことができる。 【00119】(第4の実施例)前述の第2の実施例
は、文書部品を格納し、その文書部品を高速に検索する
ための検索用情報を文書部品の見出しから抽出するよう
にしたものである。その第2の実施例は文書部品を単位
として登録し、文書部品単位で再利用するのに対し、第
4の実施例は、文書全体を登録し、その文書を構成する
文書部品を文書部品単位で検索し再利用の対象とするも
のである。 【0120】図17は本発明の第4の実施例の文書処理
装置の構成を示すブロック図である。この装置は、図1
7に示すように、構造化文書記憶部171、検索用情報
作成部172、部品検索用情報記憶部173、文書部品
検索部174、文書部品検索ユーザインタフェース17
5、文書部品指定部176、文書部品取り出し部17
7、および文書作成装置178からなっている。 【0121】構造化文書記憶部171は文書作成装置1
78により作成された構造化文書を記憶するものであ
る。 【0122】検索用情報作成部172は、文書作成装置
178からの構造化文書を構造化文書記憶部171に記
憶する際に、文書部品を単位として検索するための検索
用情報を作成するものであり、文書作成装置178によ
り作成された構造化文書の文書構造を解析し、章、節、
図表の見出しとなる部分を検出する見出し検出部172
1と、検出した見出しの文字列と文書部品との対応を示
す部品検索用オブジェクトを生成する部品検索用情報作
成部1722とを有している。 【0123】部品検索用情報記憶部173は、検索用情
報作成部172により作成された部品検索用情報を記憶
するものである。 【0124】文書部品検索部174は文書部品を検索す
る際に用いられ、文書部品検索ユーザインタフェース1
75により与えられた文字列と同じまたはそれを含む見
出しを部品検索用情報記憶部173から検索し、該当す
る見出しを含む文書部品の一覧を作成するものである。 【0125】文書部品検索ユーザインタフェース175
は、文書部品検索部174に渡す文字列をユーザが入力
したり、与えられた文書部品の一覧を表示しユーザから
目的とする文書部品を文書部品指定部176により指定
させるための入出力を司るものである。 【0126】文書部品指定部176は文書部品検索部1
74より作成された文書部品の一覧を文書部品検索ユー
ザインタフェース175により表示し、取り出すべき文
書部品をユーザに選択させるものである。 【0127】文書部品取り出し部174は、文書部品指
定部176により指定された文書部品を構造化文書記憶
部171から取り出すものである。 【0128】文書作成装置178は文書部品取り出し部
177により取り出された文書部品を利用して文書デー
タを作成するものである。 【0129】本実施例の装置で取り扱う構造化文書の具
体例を図18に示し、その文書の論理構造を図19に示
す。この構造化文書は3つの章を含み、「1章」はその
タイトルの内容と2つの節、すなわち「1.1節」およ
び「1.2節」からなっている。「1.1節」は、その
タイトルの内容と本文の内容と「図1」からからなって
いる。「図1」はその図形のキャプションと内容である
図形情報からなっている。 【0130】構造化文書記憶部171では、文書の論理
構造を上述した図19に示すような構造で保持する。部
品検索用情報記憶部173は図20に示すような文書部
品の単位ごとに検索対象となる見出し(タイトルあるい
はキャプション)と文書部品が組みとなった検索用のオ
ブジェクトを要素とする集合を部品検索用情報として保
持する。 【0131】図21は、図18に示された文書が構造化
文書記憶部171へ格納される際に、検索用情報作成部
172により生成される検索用オブジェクトの具体例を
示すものである。検索用オブジェクトの値として各文書
部品に対応する見出しと文書部品のポインタの対が生成
される。 【0132】第1の実施例の説明に用いた図2は、本実
施例の検索用情報の作成、記憶を行う処理の流れの説明
にも用いることができる。図2においてpは文書内容を
指し示すポインタである。ポインタの指し示す対象は、
構造化文書の木構造のノードである。 【0133】まずステップS21によりpが文書の開始
点を指し示すように初期化される。開始点は図3(a)
の木構造のルートに当たるとなる。 【0134】続いて、ステップS22により現在pが指
し示している部分が見出しであるか否かを調べる。ここ
で、関数typeはpの指し示している対象の種類を調
べ、それが見出しであれば見出しであることを表す値を
返す。構造化文書では木構造の各ノードに、そのノード
の種類、例えば表題、見出し、図形、本文などを区別す
る値が設定されているので、関数typeはこの値を調
べることによってpが見出しであるか否かを知ることが
できる。図3(a)では、種類が見出しであるノード
を二重丸で示している。 【0135】ステップS22によりpが見出しであると
判定された場合、ステップS23において部品検索用情
報作成部1722によりそのpの内容とその位置を指し
示す情報との対応表の形式にした部品検索用情報が作成
され、部品検索用情報記憶部173に記憶される。図3
(a)に示すような構造化文書ではpが見出しである場
合にはその子は内容部であり、見出しの内容となる文字
列がこの内容部に格納されている。 【0136】ステップS22によりpが見出しでないと
判定された場合、または、ステップS23により部品検
索用情報の作成、記憶が終了した後に、ステップS24
によりp:=next(p)によりpが次のノードを指
し示すようにする。 【0137】続いて、pの値を調べ、nilであれば終
了し、nilでなければステップS22に戻って繰り返
し処理を続ける。 【0138】このようにして記憶された作成・記憶され
た部品検索用情報を用いて、構造化文書記憶部171か
ら所望の文書部品を取り出す検索処理について説明す
る。第1の実施例の説明に用いた検索処理の流れを示す
図5は本第4の実施例にも適用できる。 【0139】図5においてcは問い合わせの条件を表す
データ、iは対応表41の行を示す整数型の変数、uは
対応表41から指されている文書部品で条件を満たすも
のを記憶する集合型の変数である。 【0140】ステップS51でまず問い合わせの条件を
表すデータをcに代入する。 【0141】ステップS52でi、uを初期化する。次
にステップS53で対応表のi行目である「対応表
[i]」に記憶されている文字列が条件cを満たすか否
かを調べる。iが1のときには対応表41の1行目を調
べる。 【0142】ステップS53により調べた結果、条件を
満たす場合にはステップS54により「対応表[i]」
から指されている文書部品をuに追加する。 【0143】ステップS53の判定の結果、条件を満た
さないとされた場合、またはステップS54が終了した
後に、ステップS55によりiの値が1だけ増える。 【0144】続いてステップS56によりその値が対応
表41の大きさを越えていないか調べられ、越えていな
い場合にはステップS53にもどり、iが対応表41の
大きさを越えるまで繰り返される。 【0145】この処理が終了した後に、uには条件を満
たす文書部品を指し示す情報が記憶されている。これら
の文書部品の一覧が文書部品検索ユーザインタフェース
175により表示され、ユーザが文書部品指定部176
によりその一覧の中から目的の文書部品を一つまたは複
数指定すると、その指定された文書部品が文書部品取り
出し部177により構造化文書記憶部11から取り出さ
れ、文書作成装置178により利用される。 【0146】次に、文書部品検索の具体例として図1
8、図19に示した文書が格納されている構造化文書記
憶部171に対する検索の例を挙げる。 検索例1:「データベース」を含んでいる見出しを持つ
部品を検索 検索結果:1章全部のサブツリーを含んでいる要素が
検索結果の集合に入れられる。 検索例2:「OODB」を含んでいる見出しを持つ部品
を検索 検索結果:1.2節のサブツリーを含んでいる要素が
検索結果の集合に入れられる。 検索例3:「図1」を含んでいる見出しを持つ部品を検
索 検索結果:図1のサブツリーを含んでいる要素が検索
結果の集合に入れられる。 【0147】本実施例によれば、文書部品を選択的に格
納するのではなく、文書そのものを格納することによ
り、既存文書を構成する全ての文書部品を再利用の対象
とすることができる。さらに文書として格納しているの
で、格納時に、いちいち文書部品の指定をする手間がは
ぶける。また、文書全体を格納していることにより、従
来技術(例えば、前記特許特開平2−148250号公
報、特開平3−8087号公報)より領域を必要とする
ように見えるがそもそも保存する必要がある文書を格納
しているので無駄な領域を使用している訳ではない。従
来技術では、再利用のために登録した文書部品を含んで
いる文書を保存している場合、文書とは別に再利用ため
の部品を2重に記憶しているので、本実施例の方がトー
タルでの必要とする領域も少なくてすむ。さらに、文書
を単位として登録格納するので、文書部品を単位として
登録格納する場合のように文書部品を別途作成する必要
がない。また、本実施例によれば文書部品をそれが所属
している文書を気にせずに文書部品として検索すること
が可能となる。なお、本実施例の変形例として、構造化
文書記憶部171に記憶された文書に編集処理を施して
元の文書を書き換えることができるように構成した場合
には、図10に示す第3の実施例と同様に検索用見出し
記憶部の内容を更新するための手段が必要となる。即
ち、この変形例を実現するためには図10の文書データ
編集部108、見出し編集記録部109および見出し更
新部1023にそれぞれ対応する構成を図17の構成に
付加すればよい。 【00148】(第5の実施例)この実施例は特定の文
書部品を各構造化文書から取り出して、一つの文書に組
み合せて提示することのできる文書処理装置に関する。
図22はこの実施例の機能ブロック図である。 【0149】この処理装置は、図22に示すように、構
造化文書記憶部221と、検索条件入力部222と、文
書構造検索部223と、仮想文書作成部224と、文書
表示部225を備えている。 【0150】構造化文書記憶部221は文書を格納する
記憶部であり、その文書としてはODA形式の構造化文
書を取り扱うものとする。構造化文書はいくつかの文書
部品から構成されている。本実施例で扱う文書部品の単
位は、章、節、図形、表、イメージ等を扱うものとす
る。図23は構造化文書の例を示し、図24はその構造
木を示すものである。 【0151】検索条件入力部222は、取り出すべき特
定の文書部品の条件を入力するものである。 【0152】文書構造検索部223は、構造化文書の形
で格納された各文書から検索条件入力部222により入
力された条件を満たすの特定の文書部品を構造化文書記
憶部221から検索するものであり、文書ルート取得部
2231、文書部品選択部2232を有している。文書
ルート取得部2231は構造化文書記憶部221に格納
されている文書の構造木のルートを順次取り出す処理を
行うものである。文書部品選択部2232は文書ルート
取得部2231で取り出した文書ルートから構造木を辿
って、検索条件入力部222で取得した文書部品検索条
件を満たす文書部品を選択する処理を行うものである。 【0153】仮想文書作成部224は、文書構造検索部
223で特定された文書部品を利用して文書を作成する
ものである。 【0154】図25は文書部品を検索する処理のフロー
を示すものである。 (1) 最初に検索条件入力部11により特定する部品
の検索条件を入力する(ステップS251)。ここで文
書部品検索条件は、各文書中の特定の文書部品を抽出す
るための条件である。例えば、文書部品検索条件には、
文書部品の見出しを指定することによって特定するため
の例として見出し文字列が「Abstract」である
という条件がある。また、定型フォームを持つ文書にお
いて決まった位置に出現する文書部品を指定するために
その位置を条件としてもよい。このように文書の構造に
依存する条件を用いることができる。 【0155】(2) 照合すべき対象の文書があるか否
かを調べ(ステップS252)、照合すべき対象の文書
があれば、文書ルート取得部2231によって構造化文
書記憶部221から文書を構成するツリーのルートを一
つ取り出す(ステップS253)。すべて照合が済んで
処理すべき対象の文書がない場合は(5)の処理へ進
む。 【0156】(3) そのツリーに照合が済んでいない
文書部品があるか否かを調べ(ステップS254)、あ
れば文書部品選択部122は(2)で得られたルートか
ら文書部品のツリーを辿り、文書部品を一つ取り出す
(ステップS255)。取り出すべき文書部品がそのツ
リーにない場合は(2)の処理に戻る。ここで定型フォ
ームを持つ文書などを検索対象とする場合、ツリーにお
けるある位置の文書部品のみを候補として取り出すとい
った手法もある。 【0157】(4) 各々の文書部品が文書部品検索条
件を満たすかどうかを判定する(ステップS256)。
例えば、文書部品検索条件として文書部品の見出しに含
まれるべき文字列が指定されているときは、(3)で取
り出した文書部品に対応する見出しの文字列と文書部品
検索条件の文字列とを比較し、一致した場合にはその文
書部品が条件を満たす文書部品として仮想文書作成部2
24へ渡して(ステップS257)、(2)の処理へ戻
る。。文書部品検索条件を満たさない場合、(3)の処
理へ戻る。 【0158】(5) 仮想文書作成部224は検索の結
果得られた文書部品群を内部メモリ領域中において組み
合せて一つの仮想的に一つの文書を生成する(ステップ
S258)。即ち、仮想文書作製部224は、図26に
示すように、仮想文書作成部224の作業用の内部メモ
リに文書論理構造に関する文書オブジェクト261を生
成し、文書構造検索部223により特定された個々の文
書部品を構造化文書記憶部221から読み込み、生成し
た文書オブジェクトに繋ぎ合わせていき、文書部品の関
係(親子関係)を構築する。 【0159】文書表示部225は、仮想文書作成部22
4が作成した文書情報を可視化する。図27に論文のA
bstractを表示した仮想文書の一例を示す。この
例の場合、論文の集まりからそのアブストラクトのみを
抽出し、そのアブストラクトと文書名を組みにした段落
で構成される仮想文書が作成され、表示されたものであ
る。ユーザはこの仮想文書を読むことにより、所望の論
文を探すことができる。 【0160】本実施例によれば、2次記憶装置である構
造化文書記憶部221に格納された既存文書をベースに
して、内部メモリ中に仮想文書を作成しているので2次
記憶装置の領域を必要としない。さらに、もし仮想文書
を保管したい場合には、内部メモリ中に記憶されている
仮想文書情報を構造化文書記憶部221に格納すること
により保管できる。さらに、文書の共有機能を利用すれ
ば、各論文のアブストラクトとこの文書の各々の項目を
共有することにより、記憶領域の節約、論文が編集され
たときの内容の更新の追随を行い、つねに新しい情報を
維持できる。また、本実施例は、文書の検索に用いるば
かりではなく、既存文書のある部分を抽出して一つの別
の文書として見ることを可能とするので、文書の構成要
素を格納時の目的とはべつの多目的に再利用することが
できるようになる。 【0161】なお、上記の例では文書部品の特定は、文
書部品が持っている見出しがAbstractである文
書部品を特定したが、文書部品の構造木における位置で
特定してもよい。また、各文書ごとに、特定する文書部
品を変えるようにしてもよい。 【0162】また、仮想文書を文書表示部225に表示
するほかに、印刷部により印刷するようにすることもで
きる。なお、仮想文書をファイルとして構造化文書記憶
部221に保存することもできる。 【0163】 【発明の効果】本発明(請求項1)によれば、文書に含
まれる見出しを見出し検出手段により抽出して、検索用
情報を作成し、従来のキーワードの代わりに登録するよ
うにしたので、キーワードを選定する煩雑な作業を要す
ることなく容易に検索対象文書の登録が可能になる。か
つ検索時には目的とする文書を迅速かつ容易に取り出す
ことができる。 【0164】本発明(請求項2)によれば、見出し編集
記録手段に見出しの編集操作を記録し、その記録に基づ
いて検索用情報更新手段が検索用情報を更新するように
したので、編集の結果が検索用情報に反映され、文書の
検索を常に正確になるように維持できる。 【0165】本発明(請求項3)によれば、文書要素を
選択的に格納するのではなく、文書そのものを格納し、
検索は文書要素単位で取り出すようにしたことにより、
既存文書を構成する全ての文書要素を再利用の対象とす
ることができる。さらに文書として格納しているので、
格納時に、いちいち文書要素の指定をする手間が省くこ
とができ、また、文書の編集のみを行えば文書要素を検
索用に別途編集する必要がない。 【0166】本発明(請求項4)によれば、既存文書の
所望の部分を抽出して一つの別の文書としてユーザに提
示することができるので、ユーザは提示された文書を見
て必要な文書の選択をすることができ、また、文書の要
素を格納時の目的とは別の複数の目的に再利用すること
もできる。 【0167】本発明(請求項5)によれば、前記発明
(請求項1)と同様に文書要素の登録が容易になると共
に、文書全体を登録した文書情報からの文書要素の検索
において、より高速の検索が可能となる。 【0168】本発明(請求項5)によれば、文書要素に
含まれる見出しを見出し検出手段により抽出して、検索
用情報を作成し、従来のキーワードの代わりに登録する
ようにしたので、キーワードを選定する煩雑な作業を要
することなく容易に検索対象文書要素の登録が可能にな
る。
【図面の簡単な説明】
【図1】 第1の実施例の構成を示す図
【図2】 文書登録の処理フローを示す図
【図3】 (a)は構造化文書の例、(b)は非構造化
文書の例
【図4】 対応表の例を示す図
【図5】 文書検索の処理フローを示す図
【図6】 見出し表の例を示す図
【図7】 第2の実施例の構成を示す図
【図8】 見出し表の例を示す図
【図9】 対応表の例を示す図
【図10】 第3の実施例の構成を示す図
【図11】 見出しの削除、変更、追加等の編集操作の
記録を示す図
【図12】 編集操作の記録の処理フローを示す図
【図13】 更新箇所の対応表の例を示す図
【図14】 対応表(検索用情報)の見出しの削除の処
理フローを示す図
【図15】 対応表の見出しの追加の処理フローを示す
【図16】 対応表の見出しの変更の処理フローを示す
【図17】 第4の実施例の構成を示す図
【図18】 構造化文書の例を示す図
【図19】 構造化文書の構造の例を示す図
【図20】 検索用オブジェクトの構造の例を示す図
【図21】 検索用オブジェクトの具体例を示す図
【図22】 第5の実施例の構成を示す図
【図23】 構造化文書の例を示す図
【図24】 構造化文書の構造の例を示す図
【図25】 第5の実施例の処理フローを示す図
【図26】 仮想文書と文書情報との関係を示す図
【図27】 仮想文書の表示例を示す図
【符号の説明】
11,101…文書データ記憶部、12,72,10
2,172…検索用情報作成部、121,721,10
21,1721…見出し検出部、122,722,10
22…見出し複写部、1722…部品検索用情報作成
部、13,73,103…検索用見出し記憶部、14,
74,104…見出し検索部、15,105…文書検索
ユーザインタフェース、16,106…文書指定部、1
7,107…文書取り出し部、18…文書表示装置、1
9…文書作成装置、71…文書部品記憶部、75,17
5…文書部品検索ユーザインタフェース、76…文書部
品指定部、77…文書部品取り出し部、78…文書作成
装置、79…文書部品作成装置、108…文書データ編
集部、109…見出し編集記録部、1023…見出し更
新部、171…構造化文書記憶部、173…部品検索用
情報記憶部、174…文書部品検索部、221…構造化
文書記憶部、222…検索条件入力部、223…文書構
造検索部、2231…文書ルート取得部、2232…文
書部品選択部、224…仮想文書作成部、225…文書
表示部。

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 文書を記憶する文書記憶手段と、 前記文書記憶手段に記憶される文書から見出しを表す文
    字列を検出する見出し検出手段と、 前記見出し検出手段により検出された文字列と前記文書
    記憶手段により記憶された文書との対応関係を表す検索
    用情報を生成する検索用情報生成手段と、 前記検索用情報生成手段により生成された検索用情報を
    記憶する検索用情報記憶手段とを設けたことを特徴とす
    る文書処理装置。
  2. 【請求項2】 文書要素から構成される文書を記憶する
    文書記憶手段と、 文書要素の属性を検索条件として指定して、文書記憶手
    段の文書から、検索条件を満たす文書要素を検索する文
    書要素検索手段とを設けたことを特徴とする文書処理装
    置。
  3. 【請求項3】 前記文書要素検索手段により取り出され
    た文書要素を所定の形式で組み合わせて一つの文書を作
    成する作成手段を有することを特徴とする請求項2記載
    の文書処理装置。
  4. 【請求項4】 前記文書記憶手段に記憶される文書から
    見出しを表す文字列を検出する見出し検出手段と、 前記見出し検出手段により検出された文字列と前記文書
    記憶手段により記憶された各文書の文書要素との対応関
    係を表す検索用情報を生成する検索用情報生成手段と、 前記検索用情報生成手段により生成された検索用情報を
    記憶する検索用情報記憶手段とを設け、 前記文書要素検索手段は、前記検索用情報記憶手段に記
    憶された検索用情報を用いて、指定の検索条件を満たす
    文書要素を取り出すことを特徴とする請求項3または請
    求項3記載の文書処理装置。
  5. 【請求項5】 文書記憶手段に記憶された文書を編集す
    る文書編集手段と、 前記文書編集手段により追加、変更、削除された見出し
    を抽出、記録する見出し編集記録手段と、 前記見出し編集記録手段により記録された見出しの追
    加、変更、削除を検索用情報記憶手段に反映させる検索
    用情報更新手段とを設けたことを特徴とする請求項1ま
    たは請求項4記載の文書処理装置。
  6. 【請求項6】 文書要素を記憶する文書要素記憶手段
    と、 前記文書要素記憶手段に記憶される文書要素から見出し
    を表す文字列を検出する見出し検出手段と、 前記見出し検出手段により検出された文字列と前記文書
    記憶手段により記憶された文書要素との対応関係を表す
    検索用情報を生成する検索用情報生成手段と、 前記検索用情報生成手段により生成された検索用情報を
    記憶する検索用情報記憶手段とを設けたことを特徴とす
    る文書処理装置。
JP5115400A 1993-04-20 1993-04-20 文書処理装置 Pending JPH06309365A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5115400A JPH06309365A (ja) 1993-04-20 1993-04-20 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5115400A JPH06309365A (ja) 1993-04-20 1993-04-20 文書処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2003035025A Division JP2003248690A (ja) 2003-02-13 2003-02-13 文書処理装置および方法

Publications (1)

Publication Number Publication Date
JPH06309365A true JPH06309365A (ja) 1994-11-04

Family

ID=14661631

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5115400A Pending JPH06309365A (ja) 1993-04-20 1993-04-20 文書処理装置

Country Status (1)

Country Link
JP (1) JPH06309365A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187725A (ja) * 1996-12-26 1998-07-21 Nec Corp 文書編集方式
JP2000099543A (ja) * 1998-09-28 2000-04-07 Fuji Xerox Co Ltd 情報検索装置
JP2000155756A (ja) * 1998-06-30 2000-06-06 Toshiba Corp 構造化文書保存方法並びにデータ中継装置及びデータ送受信装置
JP2003223438A (ja) * 2002-01-29 2003-08-08 Unk:Kk 原稿データ利用システム、原稿データ管理サーバ、そのクライアント、原稿データ利用方法、これらのためのプログラム並びにプログラム記録媒体
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents
JP2009543235A (ja) * 2006-07-09 2009-12-03 90 ディグリー ソフトウェア インコーポレイテッド データアクセス及びプレゼンテーション要素を再利用する方法及び装置
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011917A (ja) * 1983-07-01 1985-01-22 Canon Inc 文字処理装置
JPS6017522A (ja) * 1983-07-11 1985-01-29 Toshiba Corp 文書作成装置
JPS6242229A (ja) * 1985-08-20 1987-02-24 Casio Comput Co Ltd 検索装置
JPH01199263A (ja) * 1988-02-03 1989-08-10 Ricoh Co Ltd キーワード抽出装置
JPH03154962A (ja) * 1989-11-13 1991-07-02 Matsushita Electric Ind Co Ltd 文書編集装置
JPH04102171A (ja) * 1990-08-22 1992-04-03 Hitachi Ltd 文書処理システム及び文書処理方法
JPH04147368A (ja) * 1990-10-09 1992-05-20 Nec Corp 索引編集方式
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6011917A (ja) * 1983-07-01 1985-01-22 Canon Inc 文字処理装置
JPS6017522A (ja) * 1983-07-11 1985-01-29 Toshiba Corp 文書作成装置
JPS6242229A (ja) * 1985-08-20 1987-02-24 Casio Comput Co Ltd 検索装置
JPH01199263A (ja) * 1988-02-03 1989-08-10 Ricoh Co Ltd キーワード抽出装置
JPH03154962A (ja) * 1989-11-13 1991-07-02 Matsushita Electric Ind Co Ltd 文書編集装置
JPH04102171A (ja) * 1990-08-22 1992-04-03 Hitachi Ltd 文書処理システム及び文書処理方法
JPH04147368A (ja) * 1990-10-09 1992-05-20 Nec Corp 索引編集方式
JPH04281559A (ja) * 1991-03-08 1992-10-07 Toshiba Corp 文書検索装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187725A (ja) * 1996-12-26 1998-07-21 Nec Corp 文書編集方式
JP2000155756A (ja) * 1998-06-30 2000-06-06 Toshiba Corp 構造化文書保存方法並びにデータ中継装置及びデータ送受信装置
JP2000099543A (ja) * 1998-09-28 2000-04-07 Fuji Xerox Co Ltd 情報検索装置
US7139971B1 (en) 1999-07-21 2006-11-21 Nec Corporation Method of searching for and retrieving information from structure documents
JP2003223438A (ja) * 2002-01-29 2003-08-08 Unk:Kk 原稿データ利用システム、原稿データ管理サーバ、そのクライアント、原稿データ利用方法、これらのためのプログラム並びにプログラム記録媒体
JP2011146059A (ja) * 2005-03-04 2011-07-28 Chutnoon Inc 複数の情報ブロックに区分されたウェブページを用いた情報検索サービス提供方法
JP2009543235A (ja) * 2006-07-09 2009-12-03 90 ディグリー ソフトウェア インコーポレイテッド データアクセス及びプレゼンテーション要素を再利用する方法及び装置
KR101401171B1 (ko) * 2006-07-09 2014-05-29 마이크로소프트 아말가매티드 컴퍼니 Iii 정보 재사용 방법, 정보 제공 방법, 편집 가능한 문서, 및 문서 편집 시스템

Similar Documents

Publication Publication Date Title
JP2896634B2 (ja) 全文登録語検索装置および全文登録語検索方法
JP4907715B2 (ja) テキストドキュメント及びイメージドキュメントを同期化、ディスプレイ、及び操作するための方法及び装置
JP4286345B2 (ja) 検索支援システム及びコンピュータ読み取り可能な記録媒体
JP2770715B2 (ja) 構造化文書検索装置
JP2000067065A (ja) 文書画像識別方法および記録媒体
JP2001337994A (ja) サムネイル表示システムと方法およびその処理プログラムを記録した記録媒体
JPH06309365A (ja) 文書処理装置
JP2693914B2 (ja) 検索システム
JPH11272654A (ja) 文書編集装置及び方法
JP2003248690A (ja) 文書処理装置および方法
JP4196824B2 (ja) 情報区分装置、情報区分方法及び情報区分プログラム
JPH117452A (ja) ネットワークを介した情報収集方法および装置と該方法を実施するプログラムを記録した記録媒体
JPH0561910A (ja) 全文インデツクス検索方法
JP4286752B2 (ja) 検索支援サーバ及びコンピュータで読み取り可能な記録媒体
JP3825829B2 (ja) 登録情報検索装置及びその方法
JP4255538B2 (ja) 構造化文書蓄積検索装置
JP7171100B1 (ja) 特許文書作成支援装置、特許文書作成支援方法、特許文書作成支援プログラム。
JP3239845B2 (ja) 全文検索装置および方法
US20230385540A1 (en) Information processing method, information processing apparatus, and storage medium
JPH11272666A (ja) 文書編集システム、方法、及び記録媒体
JP2888458B2 (ja) ファイル格納装置
JPH11161666A (ja) ドキュメントデータ検索方法および装置、並びにドキュメント編集装置
JPH06309368A (ja) 文書検索装置
Alam et al. Improving accessibility of archived raster dictionaries of complex script languages
JP3313482B2 (ja) キーワード作成装置