JPH11143899A - 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体 - Google Patents

登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体

Info

Publication number
JPH11143899A
JPH11143899A JP9307726A JP30772697A JPH11143899A JP H11143899 A JPH11143899 A JP H11143899A JP 9307726 A JP9307726 A JP 9307726A JP 30772697 A JP30772697 A JP 30772697A JP H11143899 A JPH11143899 A JP H11143899A
Authority
JP
Japan
Prior art keywords
content boundary
content
document
processing
boundary information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9307726A
Other languages
English (en)
Inventor
Toshio Tanaka
敏雄 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP9307726A priority Critical patent/JPH11143899A/ja
Publication of JPH11143899A publication Critical patent/JPH11143899A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 文書間の差分を取ったり、検索を行ったりと
いうような処理を行う段階でコンテンツを取り出そうと
すると、処理量が多く処理に時間を要する問題がある。 【解決手段】 文書内容のまとまりの境界を示すコンテ
ンツバウンダリ情報を有して登録されている文書を処理
するためのものであって、処理に応じたコンテンツを取
り出すためのコンテンツバウンダリ条件を入力可能なコ
ンテンツバウンダリ入力手段11と、このコンテンツバ
ウンダリ条件入力手段11から入力されたコンテンツバ
ウンダリ条件により、前記登録文書に対して設定されて
いるコンテンツバウンダリ情報に基づくコンテンツバウ
ンダリ位置を設定するコンテンツバウンダリ設定手段2
0とを少なくとも有し、コンテンツバウンダリ設定手段
20により出力されたコンテンツバウンダリ位置情報に
基づいて登録文書のコンテンツを取り出す。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンテンツバウン
ダリ情報が設定されて登録されている文書(登録文書)
を用いて、検索処理や複数の文書間の差分を取ったりす
る処理を行うための登録文書処理装置及び方法並びに登
録文書を処理するための処理プログラムを記憶した記憶
媒体に関する。
【0002】
【従来の技術】2つの文書の差分を取ったり、ある文書
の一部を抽出したり、文書内に書かれていることを検索
したりするというように、文書に対しては様々な処理が
なされる。
【0003】このような処理を行う場合、文書を段落な
ど、文書の内容のまとまり(コンテンツと呼ぶ)ごとに
そのまとまりの境界を示すコンテンツバウンダリを検出
して、そのコンテンツバウンダリにより得られるコンテ
ンツごとに処理を行う方法が従来より用いられている。
【0004】従来では、前述したような2つの文書の差
分を取ったりする様々な処理を行う際に、コンテンツバ
ウンダリを検出して、コンテンツを抽出するのが一般的
である。
【0005】なお、検索処理を行う場合は、文書中のキ
ーワードや文字列とその位置をインデクス情報として、
文書を登録する時に作成しておき、その情報を用いて検
索を行うことで検索処理を高速化することが従来より行
われている。このような検索処理にあっても、文書をコ
ンテンツに分割する処理は、検索するときに行われるの
が普通である。
【0006】このように、従来では、差分を取ったり、
検索したりする処理を行う際、これらの処理を行うに必
要なコンテンツの抽出は、それらの処理を行うときにな
されるのが普通である。
【0007】しかし、差分を取ったり、検索したりする
処理を行う際に、コンテンツを抽出するための処理(コ
ンテンツバウンダリ検出も含めた処理)を行うと、差分
を取ったり、検索したりする処理を行う前に、まず、コ
ンテンツを抽出するための処理を行う必要があるため、
処理量が多くなり、処理速度の低下を招くことにもな
る。つまり、既に登録されている文書に対し、文書間の
差分を取ったり、検索したりする処理を行う場合、これ
らの処理を行うたびに、その都度、文書の構造解析を行
って、コンテンツを抽出する処理を行う必要がある。
【0008】一方、特開平8−272822の「文書登
録装置および文書検索装置」には、文書を登録する際
に、文書を所定のブロック(コンテンツと同意のものと
考えられるので以下ではコンテンツと表現する)単位に
分割し、コンテンツを識別する識別子を付与し、コンテ
ンツ単位からキーワードを抽出し、識別子をキーワード
と対応付けしてキーワードのインデクス情報を作成する
というような内容が示されている。
【0009】
【発明が解決しようとする課題】前述の特開平8−27
2822(従来技術という)は、文書を登録する際に、
文書を所定のコンテンツ単位に分割して登録することが
示されている。しかしながら、この従来技術は、登録時
に文書を所定のコンテンツに分割してしまうので、検索
などの処理時には、そのコンテンツ単位での処理を行う
しかなく、ユーザの必要とする大きさのコンテンツを取
り出したり、処理内容に応じて、コンテンツを適切な大
きさに変更することができないという問題がある。
【0010】また、この従来技術におけるコンテンツ
は、検索を行うためのキーワードが文書中のどこに存在
するかを表すために用いられるものであり、文書間の差
分を取ったり、特定のコンテンツを抽出したりといった
様々なコンテンツ処理を行うためのものではないため、
これらの処理には不向きである。
【0011】そこで本発明は、文書を登録する際に、コ
ンテンツの境界を示すコンテンツバウンダリ情報を求
め、そのコンテンツバウンダリ情報を有して登録された
文書を用いて、検索や文書間の差分を取るといった様々
な処理を行い、しかも、既に設定されているコンテンツ
バウンダリ情報を様々な処理に応じて柔軟に選択可能と
することで、処理に応じた適切な大きさのコンテンツを
抽出することを可能とすることを目的としている。
【0012】
【課題を解決するための手段】前述の目的を達成するた
めに、本発明の請求項1に記載された登録文書処理装置
の発明は、文書内容のまとまりの境界を示すコンテンツ
バウンダリ情報が設定されて登録されている文書(登録
文書)を処理するための登録文書処理装置において、処
理に応じたコンテンツを取り出すためのコンテンツバウ
ンダリ条件を入力可能なコンテンツバウンダリ条件入力
手段と、このコンテンツバウンダリ条件入力手段から入
力されたコンテンツバウンダリ条件に基づいて、前記登
録文書に対して設定されたコンテンツバウンダリ情報を
出力し、そのコンテンツバウンダリ情報に対応するコン
テンツバウンダリ位置を設定するコンテンツバウンダリ
設定手段とを少なくとも有した構成としている。
【0013】そして、前記コンテンツバウンダリ設定手
段は、コンテンツバウンダリ条件を受けると、このコン
テンツバウンダリ条件と、前記登録文書に対して設定さ
れたそれぞれのコンテンツバウンダリ情報とを比較し、
前記コンテンツバウンダリ条件に適合するコンテンツバ
ウンダリ情報を得て、このコンテンツバウンダリ情報に
基づくコンテンツバウンダリ位置を設定するようにして
いる。
【0014】また、請求項3に記載された登録文書処理
装置の発明は、文書内容のまとまりの境界を示すコンテ
ンツバウンダリ情報が設定されて登録されている文書
(登録文書)を処理するための登録文書処理装置におい
て、処理に応じたコンテンツを取り出すために必要なコ
ンテンツバウンダリ条件知識を予め蓄えたコンテンツバ
ウンダリ条件知識ファイルと、このコンテンツバウンダ
リ条件知識ファイルの内容に基づいて、前記登録文書に
対して設定されたコンテンツバウンダリ情報を処理に応
じて出力し、そのコンテンツバウンダリ情報に対応する
コンテンツバウンダリ位置を設定するコンテンツバウン
ダリ設定手段とを少なくとも有した構成としている。
【0015】また、本発明の請求項4に記載された登録
文書処理方法の発明は、文書内容のまとまりの境界を示
すコンテンツバウンダリ情報が設定されて登録されてい
る文書(登録文書)を処理するための登録文書処理方法
において、処理に応じたコンテンツを取り出すためのコ
ンテンツバウンダリ条件が入力されると、そのコンテン
ツバウンダリ条件を受け付け、そのコンテンツバウンダ
リ条件に基づいて、前記登録文書に対して設定されてい
るコンテンツバウンダリ情報を出力し、このコンテンツ
バウンダリ情報に対応するコンテンツバウンダリ位置を
設定する処理を登録文書処理に含むものである。
【0016】そして、前記コンテンツバウンダリ条件に
基づいて、前記登録文書に対して設定されたコンテンツ
バウンダリ情報を出力する処理は、入力されたコンテン
ツバウンダリ条件と、前記登録文書に対して設定された
それぞれのコンテンツバウンダリ情報とを比較し、前記
コンテンツバウンダリ条件に適合するコンテンツバウン
ダリ情報を得て、このコンテンツバウンダリ情報に基づ
くコンテンツバウンダリ位置を設定するようにしてい
る。
【0017】また、本発明の請求項6に記載された登録
文書処理方法の発明は、文書内容のまとまりの境界を示
すコンテンツバウンダリ情報が設定されて登録された文
書(登録文書)を処理するための登録文書処理方法にお
いて、処理に応じたコンテンツを取り出すために必要な
コンテンツバウンダリ条件知識を格納したコンテンツバ
ウンダリ条件知識ファイルを有し、このコンテンツバウ
ンダリ条件知識ファイル内容に基づいて、前記登録文書
に対して設定されたコンテンツバウンダリ情報を処理に
応じて出力し、そのコンテンツバウンダリ情報に対応す
るコンテンツバウンダリ位置を設定する処理を登録文書
処理に含むことを特徴としている。
【0018】また、請求項7に記載の登録文書を処理す
るための処理プログラムを記憶した記憶媒体は、文書内
容のまとまりの境界を示すコンテンツバウンダリ情報が
設定されて登録されている文書(登録文書)を処理する
ための処理プログラムを記憶した記憶媒体であって、そ
の処理プログラムは、処理に応じたコンテンツを取り出
すためのコンテンツバウンダリ条件が入力されると、そ
のコンテンツバウンダリ条件を受け付け、そのコンテン
ツバウンダリ条件に基づいて、前記登録文書に対して設
定されたコンテンツバウンダリ情報を出力し、このコン
テンツバウンダリ情報に対応するコンテンツバウンダリ
位置を設定する処理を含むものである。
【0019】そして、前記コンテンツバウンダリ条件に
基づいて、前記登録文書に対して設定されたコンテンツ
バウンダリ情報を出力する処理は、入力されたコンテン
ツバウンダリ条件と、前記登録文書に設定されたコンテ
ンツバウンダリ情報とを比較し、前記コンテンツバウン
ダリ条件に適合するコンテンツバウンダリ情報を得て、
このコンテンツバウンダリ情報に基づくコンテンツバウ
ンダリ位置を設定するようにしている。
【0020】また、本発明の請求項9記載の登録文書を
処理するための処理プログラムを記憶した記憶媒体は、
文書内容のまとまりの境界を示すコンテンツバウンダリ
情報が設定されて登録されている文書(登録文書)を処
理するための処理プログラムを記憶した記憶媒体であっ
て、その処理プログラムは、登録文書に対する処理に応
じて、処理に応じたコンテンツを取り出すために必要な
コンテンツバウンダリ条件をコンテンツバウンダリ知識
ファイルから取り出し、そのコンテンツバウンダリ条件
に基づいて、前記登録文書に対して設定されたコンテン
ツバウンダリ情報を出力し、そのコンテンツバウンダリ
情報に対応するコンテンツバウンダリ位置を設定する処
理を登録文書処理に含むことを特徴としている。
【0021】本発明は、コンテンツバウンダリ情報が設
定されて登録された文書を用いて、検索や文書間の差分
を取るといった様々な処理を行うものであり、これらの
様々な処理を行う際、既に設定されているコンテンツバ
ウンダリ情報を様々な処理に応じて選択することで、コ
ンテンツバウンダリ位置を任意に設定することができ
る。これにより、処理に応じた適切な大きさのコンテン
ツを抽出することが可能となる。
【0022】これを実現するための1つの手段として、
ユーザがコンテンツバウンダリ条件を入力することによ
り、そのコンテンツバウンダリ条件に基づいて、前記登
録文書に対して設定されているコンテンツバウンダリ情
報の中から必要なコンテンツバウンダリ情報を選択し、
このコンテンツバウンダリ情報に対応するコンテンツバ
ウンダリ位置を設定する処理を行う。これは、ユーザが
コンテンツバウンダリ条件を明示的に入力することによ
って、処理に必要なコンテンツを取り出すものであり、
ユーザの意図を的確に反映したコンテンツを取り出すこ
とができる。
【0023】また、他の手段として、処理に応じたコン
テンツを取り出すために必要なコンテンツバウンダリ条
件知識を持ち、このコンテンツバウンダリ条件知識に基
づいて、前記登録文書に対して設定されたコンテンツバ
ウンダリ情報の中から、処理に応じて選択して出力し、
そのコンテンツバウンダリ情報に対応するコンテンツバ
ウンダリ位置を設定することも可能である。これによれ
ば、処理内容に応じて自動的に、処理に応じたコンテン
ツ条件が設定され、そのコンテンツ条件に基づいてコン
テンツバウンダリ位置が設定されるので、ユーザが殆ど
手を加えることなく、自動的に、処理に最適なコンテン
ツの抽出を行うことができる。
【0024】このように、本発明は、登録文書に細かく
設定されたコンテンツバウンダリ情報の中から、コンテ
ンツバウンダリ情報を取捨選択することができるので、
登録文書を用いて、文書間の差分を取ったり、検索した
りする処理を行う際に、処理に必要なコンテンツを取り
出す処理がきわめて簡単に行える。つまり、登録された
文書を処理する段階において、予め設定されているコン
テンツバウンダリ情報の中から、コンテンツを取り出す
ためのコンテンツバウンダリ情報を処理の種類に応じて
任意に決めることができる。
【0025】
【発明の実施の形態】以下、本発明に実施の形態につい
て説明する。本発明は、登録された文書(登録文書)に
対し、検索処理や文書間の差分を取るなど何らかの処理
を施す際に文書を文章のまとまりを1つの単位として、
そのまとまり(コンテンツ)に分割して取り出すための
装置および方法に係わる発明であるが、まず、文書を登
録する段階で、登録しようとする文書(以下、登録対象
文書という)からコンテンツバウンダリ情報を取得し
て、そのコンテンツバウンダリ情報を保存する処理につ
いてを説明し、その後で、その登録文書に対して文書を
所定のコンテンツにて抽出する処理について説明する。
【0026】図1は文書を登録する際に行われるコンテ
ンツバウンダリ情報取得についての文書登録装置(以
下、第1の文書登録装置という)の構成図である。この
発明でいう、文書登録装置というのは、文書の作成、編
集、保存などが可能な装置であり、たとえば、パーソナ
ルコンピュータなどもその一例である。
【0027】この第1の文書登録装置は、コンテンツバ
ウンダリ入力手段1、コンテンツバウンダリ情報記憶手
段2を少なくとも備えた構成となっている。
【0028】このような構成において、登録対象文書3
に対して、ユーザが、コンテンツバウンダリ入力手段1
からコンテンツバウンダリの位置を指定すると、その位
置に対応するコンテンツバウンダリ情報がコンテンツバ
ウンダリ情報記憶手段2に記憶される。このコンテンツ
バウンダリ情報記憶手段2の記憶内容は、コンテンツバ
ウンダリ情報ファイル4として保存することもできる。
そして、そのコンテンツバウンダリ情報は、文書の中に
通常は表示されないデータの形式で埋め込まれて保存さ
れてもよいし、また、コンテンツ情報のみを文書データ
とは別のデータ(たとえば、コンテンツバウンダリ情報
テーブル)として保存されるようにしてもよい。
【0029】このように、第1の文書登録装置では、ユ
ーザが登録対象文書3に対して、明示的にコンテンツバ
ウンダリの位置を決めるものであり、具体的には次のよ
うにして行う。
【0030】たとえば、ディスプレイ画面10上に映し
出されている登録対象文書3が図2のような内容であっ
たとする。このような文書内容に対して、ユーザは、そ
の文書内容を見て、マウスなどにより、明示的にコンテ
ンツバウンダリの位置を指定して行く。図2において、
矢印はマウスカーソルcを示しており、このマウスカー
ソルcをユーザの意図する部分に位置させ、その位置で
マウスをクリックすることによりコンテンツバウンダリ
位置が設定される。図2では設定されたコンテンツバウ
ンダリ位置をb1,b2,b3で示している。なお、こ
のようなコンテンツバウンダリ位置を設定する場合は、
システムのアプリケーションをコンテンツバウンダリ設
定モードに設定して行う。
【0031】また、この図2の例では、コンテンツバウ
ンダリとする部分にマウスカーソルを位置させてクリッ
クすることでコンテンツバウンダリ位置を指定するよう
にしたが、これに限らず、たとえば、コンテンツバウン
ダリで仕切られる文書内容(コンテンツという)の先頭
にマウスカーソルを位置させて、そのコンテンツの終わ
りまでマウスカーソルをドラッグさせることによって、
コンテンツバウンダリ位置を指定することも可能であ
る。
【0032】このようにして、コンテンツバウンダリ位
置の指定がなされるが、そのコンテンツバウンダリ位置
に対応するコンテンツバウンダリ情報は、前述したよう
に、文書とは別のデータとして保存してもよく、文書の
中に通常は表示されないデータの形式で埋め込んで保存
してもよい。
【0033】図3は図2で指定されたコンテンツバウン
ダリ情報を、文書の中に通常は表示されないデータの形
式で埋め込んだ例を示すものである。図3の例では、H
TML(Hyper Text Markup Language)のコメント
タグを用いて、文書の中に埋め込んだ例である。
【0034】図3において、<!−CB1・・・−>が
示される内容がコンテンツバウンダリ情報である。この
<!−CB1・・・−>は、「<!−」がコメントの開
始を表し、「−>」がコメントの終了を表している。
【0035】一例として、<!−CB1 ファイル端
140 1−>というように記述されたコメントタグが
有るとすると、その中のコンテンツバウンダリ情報とし
て、「CB1」はコンテンツバウンダリの識別番号、
「ファイル端」はコンテンツバウンダリの種類、「14
0」は、そのコンテンツバウンダリの種類(この場合
「ファイル端」)の反対側のコンテンツバウンダリの識
別番号であり、そのコンテンツバウンダリ種類により仕
切られるコンテンツの大きさをも表している。また、
「1」はネストレベルを表している。なお、このような
コンテンツバウンダリ情報の詳細については後に説明す
る。
【0036】また、前述の<!−CB1 ファイル端
140 1−>で示されるコメントタグには、コンテン
ツバウンダリの位置を表す内容は存在しないが、そのコ
ンテンツバウンダリの位置は、このようなコメントタグ
の存在する位置であり、これによってコンテンツバウン
ダリの位置がわかるのでその位置情報は、特に、記述す
る必要はない。
【0037】以上が第1の文書登録装置についての説明
である。この第1の文書登録装置におけるコンテンツバ
ウンダリ情報の抽出処理は、処理対象文書に対し、ユー
ザが明示的にコンテンツバウンダリ位置を指示すること
により行われるものであり、ユーザが行うべき操作がや
や面倒であるが、ユーザの意図する場所に確実にコンテ
ンツバウンダリを設定することができるのが大きな特徴
である。
【0038】図4は登録対象文書を登録する際に行われ
るコンテンツバウンダリ情報取得を行うための第2の文
書登録装置の構成図である。
【0039】この第2の文書登録装置は、図1で示した
第1の文書登録装置で示されたコンテンツバウンダリ情
報記憶手段2、コンテンツバウンダリ情報ファイル4を
備え、加えて、コンテンツバウンダリ条件入力手段5と
コンテンツバウンダリ解析手段6を備え、さらに、必要
に応じて、コンテンツバウンダリ情報表示手段7を備え
た構成となっている。
【0040】この第2の文書登録装置では、第1の文書
登録装置のように、登録対象文書3に対して、ユーザ
が、コンテンツバウンダリの位置を明示的に指定するの
ではなく、コンテンツバウンダリ条件を入力すること
で、そのコンテンツバウンダリ条件に基づいて、自動的
にコンテンツバウンダリを設定する。
【0041】すなわち、コンテンツバウンダリ条件入力
手段5により、ユーザがコンテンツバウンダリ条件の入
力を行うと、コンテンツバウンダリ解析手段6により、
ユーザによって設定されたコンテンツバウンダリ条件を
解析する。ここでのコンテンツバウンダリ条件というの
は、たとえば、段落、空行、改行、リスト、リスト項
目、表など文書を1つのまとまりとして抽出できる部分
である。このようなコンテンツ条件をユーザが入力する
と、コンテンツバウンダリ解析手段6が処理対象文書を
たとえばスキャンして、入力されたコンテンツバウンダ
リ条件に基づいて、コンテンツバウンダリ候補の位置や
種類を抽出して、コンテンツバウンダリ情報として出力
する。
【0042】このコンテンツバウンダリ解析手段6によ
って得られたコンテンツバウンダリ情報は、コンテンツ
バウンダリ情報記憶手段2に記憶される。このとき、前
述の第1の文書登録装置と同様に、このコンテンツバウ
ンダリ情報記憶手段2の記憶内容は、コンテンツバウン
ダリ情報ファイル4として保存することもできる。そし
て、そのコンテンツバウンダリ情報は、文書の中に通常
は表示されないデータの形式で埋め込まれて保存されて
もよいし、また、コンテンツ情報のみを文書データとは
別のデータ(たとえば、コンテンツバウンダリ情報テー
ブル)として保存されるようにしてもよい。
【0043】また、コンテンツバウンダリ解析手段6に
よって得られたコンテンツバウンダリ情報は、コンテン
ツバウンダリ情報表示手段7に表示させ、ユーザの設定
したコンテンツバウンダリ条件に対してどのようなコン
テンツ情報が作成されたかをユーザに知らせるようにす
ることもできる。
【0044】以下に具体例を参照しながらさらに説明す
る。
【0045】図5に示すように、たとえば、ディスプレ
イ画面10に登録対象文書3などの表示を行うための表
示エリア10aと、コンテンツバウンダリ条件入力手段
としての表示エリア10bとを設定し、表示エリア10
aには登録対象文書3を表示し、表示エリア10bには
コンテンツバウンダリ条件を表示する。ここでは、コン
テンツバウンダリ条件として、ファイル端、リスト、リ
スト項目、空行、改行、表などが示されている。
【0046】そして、ユーザがたとえば、コンテンツバ
ウンダリ条件として「リスト」を選択したとする(図5
において、選択されたコンテンツバウンダリ条件は黒丸
で示されている)。これにより、コンテンツバウンダリ
解析手段6は、ユーザの設定したコンテンツバウンダリ
条件に基づいて、登録対象文書3内のコンテンツバウン
ダリとなりうるコンテンツバウンダリ候補の位置および
種類の解析を行い、その結果をコンテンツバウンダリ情
報として出力する。
【0047】そして、コンテンツバウンダリ解析手段6
により得られるコンテンツバウンダリ情報に基づいて、
コンテンツバウンダリ位置をディスプレイ画面10の表
示エリア10a上で表示するとともに、前述の第1の文
書登録装置で説明したように、コンテンツバウンダリ解
析手段6により得られるコンテンツバウンダリ情報をコ
ンテンツバウンダリ情報記憶手段2に記憶させる。
【0048】ユーザはディスプレイ画面10の表示エリ
ア10aに表示された内容を見て、自分の意図したコン
テンツバウンダリ位置が適正に反映されているか否かを
判断し、修正したい箇所があればそれを指示することも
できる。
【0049】なお、コンテンツバウンダリ条件は、図5
で示した例のように、予め表示されている幾つかの条件
から選択するというのではなく、ユーザがコンテンツバ
ウンダリ条件や、コンテンツバウンダリとなりうるパタ
ーンなどを入力するようにしてもよい。このコンテンツ
バウンダリとなりうるパターンというのは、たとえば、
文書中に、規則性のある字句や記号が繰り返し現れるよ
うな場合、その字句や記号をコンテンツバウンダリとし
て入力することもできる。たとえば、具体例として、
「1日」という項目があって、その「1日」という項目
のあとに、あるまとまった文章が存在し、行を変えて、
「2日」という項目があって、その「2日」という項目
についてのあるまとまった文章が存在するというよう
に、規則性のある字句や記号が繰り返し現れるような文
書内容があるとする。このような例では、「数字+日」
といったパターンをコンテンツバウンダリ条件として設
定することができる。
【0050】以上説明した第2の文書登録装置では、ユ
ーザがコンテンツバウンダリ条件を入力するだけで、あ
とは、入力されたコンテンツバウンダリ条件に基づい
て、自動的に処理対象文書に対するコンテンツバウンダ
リ情報を得ることができる。なお、この第2の文書登録
装置は、第1の文書登録装置と同様に、ユーザが処理対
象文書中に明示的にコンテンツバウンダリを指示するこ
とも可能である。
【0051】図6は登録対象文書を登録する際に行われ
るコンテンツバウンダリ情報取得を行うための第3の文
書登録装置の構成図である。
【0052】この第3の文書登録装置は、図4の第2の
文書登録装置で示されたコンテンツバウンダリ情報記憶
手段2とコンテンツバウンダリ解析手段6、コンテンツ
バウンダリ情報ファイル4を備え、加えて、コンテンツ
バウンダリ知識が格納されたコンテンツバウンダリ知識
ファイル8を備えた構成となっている。
【0053】この第3の文書登録装置では、登録対象文
書3に対し、コンテンツバウンダリ知識ファイル8を用
いて、コンテンツバウンダリとなりうる部分をすべて自
動的に検出し、それをコンテンツバウンダリ情報として
コンテンツバウンダリ情報記憶手段2に記憶させるもの
である。
【0054】前述のコンテンツバウンダリ知識ファイル
8には、コンテンツバウンダリとなりうる各種の条件が
予め記述されている。このコンテンツバウンダリとなり
うる各種の条件とういうのは、たとえば、句点、改行、
空行、大文字見出し、HTMLにおけるタグなどであ
る。
【0055】図7は第3の文書登録装置の処理手順を説
明するフローチャートであり、まず、登録対象文書を入
力して(ステップs1)、データの読み込みを行い、文
書末であるか否かを判定し(ステップs2)、文書末で
あれば終了し、文書末でなければステップs3に進む。
ステップs3では、登録対象文書にコンテンツバウンダ
リ候補が存在するか否かを判定し、存在しなければ、ス
テップs2に戻り、コンテンツバウンダリ候補が有れ
ば、そのコンテンツバウンダリ候補に対してコンテンツ
バウンダリ情報を設定し、そのコンテンツバウンダリ情
報をコンテンツバウンダリ情報記憶手段に記憶させる
(ステップs4)。
【0056】この図7のフローチャートで示される処理
は、主に、コンテンツバウンダリ解析手段6が行う処理
であり、読み込んだ登録対象文書と、コンテンツバウン
ダリ知識ファイルに記述されているコンテンツバウンダ
リ条件とを比較し、登録対象文書内にコンテンツバウン
ダリ知識ファイルに記述されているコンテンツバウンダ
リ条件に一致する部分が存在すると、コンテンツバウン
ダリ候補を検出したとして、その部分に対応するコンテ
ンツバウンダリ情報を得て、そのコンテンツバウンダリ
情報をコンテンツバウンダリ記憶手段2に記憶させる。
【0057】そして、コンテンツバウンダリ記憶手段2
では、受け取ったコンテンツバウンダリ情報を新たなコ
ンテンツバウンダリ情報として格納する。このとき、前
述の第1、第2の文書登録装置と同様に、コンテンツバ
ウンダリ情報記憶手段2の記憶内容は、コンテンツバウ
ンダリ情報ファイル4として保存することもできる。そ
して、そのコンテンツバウンダリ情報は、文書の中に通
常は表示されないデータの形式で埋め込まれて保存され
てもよいし、また、コンテンツバウンダリ情報のみを文
書データとは別のデータ(たとえば、コンテンツバウン
ダリ情報テーブル)として保存されるようにしてもよ
い。
【0058】以上説明した第3の文書登録装置では、登
録対象文書に対し、コンテンツバウンダリ知識ファイル
8の内容に基づいて、自動的にコンテンツバウンダリ情
報を得ることができ、ユーザがコンテンツバウンダリを
明示的に指示したり、コンテンツバウンダリ条件を入力
したりする操作が不要となる。
【0059】ところで、これまで説明した第1〜第3の
文書登録装置にて求められるコンテンツバウンダリ情報
は、たとえば、図8に示すようなコンテンツバウンダリ
情報テーブルとして表すことができる。以下、このコン
テンツバウンダリ情報について図8のコンテンツバウン
ダリ情報テーブルを参照しながら説明する。
【0060】図8で示されるコンテンツバウンダリ情報
テーブルは、そのテーブルの1つの行で示される内容が
1つのコンテンツバウンダリ情報であり、たとえば、第
1行目の内容、つまり、コンテンツバウンダリ識別番号
「1」、コンテンツバウンダリ位置「0」、コンテンツ
バウンダリの種類「ファイル端」、対応するコンテンツ
バウンダリ「140」、ネストレベル「1」は、図3に
おいて、HTMLのコメントタグの一例として示した<
!−CB1 ファイル端 140 1−>に対応するコ
ンテンツバウンダリ情報である。
【0061】このようなコンテンツバウンダリ情報にお
いて、コンテンツバウンダリ識別番号は、その文書のコ
ンテンツバウンダリとなりうる部分に付された番号であ
る。
【0062】また、コンテンツバウンダリ位置は、文書
データの先頭からの文字数を表し、コンテンツバウンダ
リ位置が「0」というのは、文書ファイルの先頭を表し
ている。また、コンテンツバウンダリの種類は、コンテ
ンツバウンダリが文書のどのような部分かを表すもの
で、コンテンツバウンダリの種類が「ファイル端」とい
うのは、コンテンツバウンダリがその文書の端であるこ
とを表している。
【0063】そして、対応するコンテンツバウンダリと
いうのは、コンテンツバウンダリの種類で指定されるコ
ンテンツバウンダリの反対側に位置するコンテンツバウ
ンダリの位置を、コンテンツバウンダリ識別番号で表す
ものである。
【0064】たとえば、コンテンツバウンダリの種類が
「ファイル端」で対応するコンテンツバウンダリが「1
40」であるとすると、ファイルの先頭の反対側のコン
テンツバウンダリ位置、つまり、ファイルの終わりの位
置が、コンテンツバウンダリ識別番号「140」である
ことを表している。
【0065】また、図3のような文書内容において、H
TMLのコメントタグが、<!−CB15 リスト項目
15 3−>となっている場合は、図8で示されるコ
ンテンツバウンダリ情報テーブルからわかるように、コ
ンテンツバウンダリ識別番号は「15」であり、コンテ
ンツバウンダリ位置の「50」は、文書のファイル先頭
からの文字数が51文字目(先頭が0から始まっている
ので、「50」は51文字目となる)を表している。
【0066】また、コンテンツバウンダリの種類が「リ
スト項目」というのは、リストとして記述された幾つか
の項目のうちの1つの項目であることを表している。そ
して、対応するコンテンツバウンダリ「15」は、この
場合、そのリスト項目自体を1つのコンテンツとするこ
とを意味している。
【0067】また、ネストレベルを示す数値は、このコ
ンテンツバウンダリ情報テーブルで表されるように、最
も大きなコンテンツをその文書ファイル全体としたと
き、その文書ファイル全体のネストレベルを「1」と
し、その中に、たとえば、リストという内容が1つのコ
ンテンツとして存在した場合、そのリストによるコンテ
ンツは、その文書ファイル全体で表されるコンテンツの
中に含まれるので、ネストレベルを「2」とし、そのリ
ストの中に存在するリスト項目は、ネストレベルを
「3」とするというように、あるコンテンツの中に含ま
れるコンテンツ、さらにそのコンテンツの中に含まれる
コンテンツというように、包含される度合いが高いほど
ネストレベルを表す数値が大きくなる。
【0068】また、図8のコンテンツバウンダリ情報テ
ーブルにおいて、たとえば、コンテンツバウンダリ識別
番号「3」のコンテンツバウンダリは、そのコンテンツ
バウンダリ位置が「30」であり、コンテンツバウンダ
リの種類が「句点」で、対応するコンテンツバウンダリ
が「2」、ネストレベルが「2」となっている。これ
は、対応するコンテンツバウンダリが「2」であること
から、この場合、「句点」でコンテンツを仕切ると、フ
ァイルの11文字目から31文字目(先頭が0から始ま
っているので、「10」は11文字目、「30」は31
文字目となる)までを1つのコンテンツとするというこ
とであり、そのネストレベルは、ファイル全体を1つの
コンテンツとして考えたとき、そのコンテンツ内に含ま
れるため、ネストレベルが「2」となっている。
【0069】以上のようにして、処理対象文書中のコン
テンツバウンダリ情報が作成され、そのコンテンツバウ
ンダリ情報がコンテンツバウンダリ情報記憶手段2に記
憶される。この図8に示すコンテンツバウンダリ情報テ
ーブルにおいては、そのコンテンツバウンダリ情報テー
ブルにおける1つの行がそれぞれのコンテンツバウンダ
リ情報を示している。
【0070】なお、このようなコンテンツバウンダリ情
報において、バウンダリの種類は、コード化してもよ
い。たとえば、「ファイル端」は「1」、「句点」は
「2」、「リスト」は「3」というようにコード化し
て、そのコードデータを記憶するようにしてもよい。ま
た、バウンダリ位置は文字数でなくても、バイト数でも
よく、また行数でもよい。
【0071】以上が文書を登録する際に、コンテンツバ
ウンダリ情報を得て文書の登録を行う処理である。とこ
ろで、これまでの説明では、登録対象文書そのものを登
録する処理についての説明はなされていないが、この登
録対象文書は所定の登録手段に登録されることはいうま
でもない。この登録は、前述したように、コンテンツバ
ウンダリ情報とは別のデータとして登録されてもよく、
あるいは、コンテンツバウンダリ情報が埋め込まれた状
態で登録されてもよい。
【0072】このようにして、コンテンツバウンダリ情
報を持って登録された文書に対し、検索処理や複数の文
書間の差分をとるなど何らかの処理を行おうとする際、
すでに設定されたコンテンツバウンダリ情報を用いるこ
とで、これらの様々な処理に対応した適切なコンテンツ
を取り出すことができ、それぞれの処理を円滑にかつ容
易に行うことができる。なお、処理の種類などによって
は、その処理の種類に応じた適切な大きさのコンテンツ
を抽出する必要がある。このように、登録時において
は、コンテンツそのものを決めるのではなく、コンテン
ツを取り出すためのコンテンツバウンダリ情報を細かく
求めているので、登録された文書を処理する段階で、コ
ンテンツバウンダリ情報を取捨選択することが可能であ
り、それによって、取り出すコンテンツの大きさを柔軟
に設定することができ、処理に対応したコンテンツを取
り出すことを可能としている。
【0073】なお、これまで説明した第1〜第3の文書
登録装置では、登録対象文書のコンテンツバウンダリ情
報を得て、そのコンテンツバウンダリ情報をコンテンツ
バウンダリ情報テーブルとして保存したり、コンテンツ
情報を文書中に埋め込んで保存したりすることを可能と
している。
【0074】したがって、このように登録された文書
(登録文書)は、コンテンツ解析が行われているので、
その登録文書に対して検索処理を行ったり、文書間の差
分を取ったりする処理を行おうとする際、すでに設定さ
れたコンテンツバウンダリ情報を用いることで、様々な
処理に対応できるが、処理の内容などによっては、処理
内容に応じた適切なコンテンツバウンダリ位置を設定す
る必要が出てくる場合もある。これに対処するために、
登録文書に対して、以下のようなコンテンツ抽出処理を
行う。
【0075】図9は前述したような登録文書に対し適切
な大きさのコンテンツを抽出する処理を行うための登録
文書処理装置(以下、第1の登録文書処理装置という)
の構成図である。
【0076】この第1の登録文書処理装置は、コンテン
ツバウンダリ条件入力手段11、コンテンツバウンダリ
解析手段12、コンテンツバウンダリ出力手段13、コ
ンテンツバウンダリ情報記憶手段14、コンテンツバウ
ンダリ情報ファイル15、コンテンツバウンダリ情報表
示手段16を備えている。
【0077】そして、コンテンツバウンダリ解析手段1
2と、コンテンツバウンダリ出力手段13とによって、
コンテンツバウンダリ設定手段20を構成している。こ
のコンテンツバウンダリ設定手段20は、コンテンツバ
ウンダリ条件が入力されると、そのコンテンツバウンダ
リ条件に基づいて、前記文書登録時に得られたコンテン
ツバウンダリ情報を得て、このコンテンツバウンダリ情
報によりコンテンツバウンダリ位置を示す情報を出力し
て、文書に対し、コンテンツバウンダリを設定するもの
である。
【0078】なお、文書登録と登録文書処理を1つの同
じシステムで行う場合は、コンテンツバウンダリ条件入
力手段11、コンテンツバウンダリ解析手段12、コン
テンツバウンダリ情報記憶手段14、コンテンツバウン
ダリ情報ファイル15、コンテンツバウンダリ情報表示
手段16などは、前述した文書登録装置(たとえば、第
2の文書登録装置)で示したコンテンツバウンダリ条件
入力手段5、コンテンツバウンダリ解析手段6、コンテ
ンツバウンダリ情報記憶手段2、コンテンツバウンダリ
情報ファイル4、コンテンツバウンダリ情報表示手段7
と共用することができるが、ここでは、説明の都合上、
これらを前述の文書登録装置とは別な符号を付して説明
する。
【0079】さらに、これらの構成要素の他に、コンテ
ンツバウンダリ設定手段20により設定されたコンテン
ツバウンダリ位置によって、文書をコンテンツに分割し
てそのコンテンツを抽出する手段なども実際には設けら
れるが、図9ではこれらを省略している。
【0080】ところで、コンテンツバウンダリ情報記憶
手段14には、前述の文書登録装置によって得られたコ
ンテンツバウンダリ情報が格納されている。また、この
コンテンツバウンダリ情報は、コンテンツバウンダリ情
報ファイル15にファイルとして格納されていてもよ
い。なお、そのコンテンツバウンダリ情報は、前述した
ように、文書データとは別のデータとして登録されてい
てもよく、あるいは、文書データの中に埋め込まれた状
態で登録されていてもよい。
【0081】このような構成において、前述のようにし
て登録された文書を用いて何らかの処理を行うとする場
合、その処理に必要なコンテンツを取り出すためのコン
テンツバウンダリ条件をコンテンツバウンダリ条件入力
手段11より、ユーザが入力する。
【0082】まず、ユーザが、コンテンツバウンダリ条
件を入力する。このコンテンツバウンダリ条件の入力
は、明示的な条件(たとえば、改行、リストなど)を入
力してもよいし、ユーザが文書中のコンテンツバウンダ
リ位置を指定し、その指定した位置に存在するコンテン
ツバウンダリ情報から、システムが最適なものを選択す
るようにしてもよい。さらに、「数字+日」といったパ
ターンをコンテンツバウンダリ条件とすることもでき
る。なお、入力されたコンテンツバウンダリ条件が文書
登録時にコンテンツバウンダリ情報に含まれていない場
合には、入力されたコンテンツバウンダリ条件を解析す
ることで、それを新たに追加することも可能である。
【0083】以下、この第1の文書処理装置の動作例に
ついて説明する。
【0084】たとえば、図8のようなコンテンツバウン
ダリ情報テーブルが得られている場合、ユーザがコンテ
ンツバウンダリ位置「43」を指定すれば、「リスト」
がコンテンツバンダリ条件となり、コンテンツバウンダ
リ位置の「43」〜「89」までの内容を1つのコンテ
ンツとする。
【0085】図10(a)は「改行」と「リスト項目」
をコンテンツバウンダリ条件とした場合、図10(b)
は「リスト項目」をコンテンツバウンダリ条件とした場
合ののコンテンツバウンダリ候補位置をそれぞれ示すも
ので、図においてマークMがコンテンツバウンダリ位置
を示している。このように、ディスプレイ画面10上の
表示エリア10bに表示されるコンテンツバウンダリ条
件の選択の仕方によって表示エリア10aのコンテンツ
バウンダリ位置が変化する。
【0086】コンテンツバウンダリ解析手段12は、ユ
ーザによって指定されたコンテンツバウンダリ条件に適
合するコンテンツバウンダリ情報を、コンテンツバウン
ダリ情報記憶手段14から抽出して出力する。
【0087】たとえば、コンテンツバウンダリ情報が、
図8で示されるようなコンテンツバウンダリ情報テーブ
ルの形式で保存されている場合、ユーザの指定したコン
テンツバウンダリ条件が「リスト項目」であるとする
と、バウンダリ識別番号「15」、「17」が抽出され
るが、このとき、文書の基本構造を作っている識別番号
「1」と「140」で表されるファイル端、リスト構造
を作っている識別番号「13」と「24」で表されるリ
ストも抽出する。
【0088】これにより、抽出されるコンテンツとして
は、そのコンテンツをコンテンツバウンダリ位置で表す
と、「0」〜「42」、つまり、ファイル端(ファイル
の先頭)からリスト(リスト開始)の前までが1つのコ
ンテンツとして抽出され、コンテンツバウンダリ位置
「50」〜「56」、つまり、リスト項目(最初のリス
ト項目)から2番目のリスト項目の前までが1つのコン
テンツとして抽出され、コンテンツバウンダリ位置「5
7」〜「・・・」、つまり、2番目のリスト項目からそ
のリスト項目の終わりまで(この表では位置が記載され
ていないので、「・・・」で表す)が1つのコンテンツ
として抽出され、コンテンツバウンダリ位置「・・・」
〜「88」、つまり、あるリスト項目の終わりからリス
ト(リストの終わり)の前までが1つのコンテンツとし
て抽出されるというように、文書の内容のまとまりがそ
れぞれコンテンツとして抽出されることになる。
【0089】図11はコンテンツバウンダリ情報がコン
テンツバウンダリ情報テーブル形式である場合の処理の
手順を示すフローチャートである。この図11に示す処
理手順は、主に、コンテンツバウンダリ設定手段20が
行う処理であり、以下、このフローチャートを参照しな
がら説明する。
【0090】まず、コンテンツバウンダリ情報テーブル
の内容を読み込む(ステップs11)。そして、ユーザ
によってコンテンツバウンダリ条件が入力されると、そ
のコンテンツバウンダリ条件を受け付ける(ステップs
12)。次に、読み込んだコンテンツバウンダリ情報の
うち1つのコンテンツバウンダリ情報(コンテンツバウ
ンダリ情報テーブルの1行分のコンテンツバウンダリ情
報)を読み込む。このとき、読み込むべきコンテンツバ
ウンダリ情報が存在するか否かを判定し(ステップs1
3)、コンテンツバウンダリ情報が存在すれば、その読
み込んだコンテンツバウンダリ情報が、ユーザからによ
って与えられたコンテンツバウンダリ条件に適合するか
否かを判定する(ステップs14)。そして、読み込ん
だコンテンツバウンダリ情報がコンテンツバウンダリ条
件に適合すれば、そのコンテンツバウンダリ情報を出力
する(ステップs15)。
【0091】次に、再びステップs13に戻って、読み
込んだコンテンツバウンダリ情報のうち次のコンテンツ
バウンダリ情報(コンテンツバウンダリ情報テーブルに
おける次の1行分のコンテンツバウンダリ情報)を読み
込み、読み込むべきコンテンツバウンダリ情報が存在す
るか否かを判定し(ステップs13)、コンテンツバウ
ンダリ情報が存在すれば、その読み込んだコンテンツバ
ウンダリ情報がユーザによって与えられたコンテンツバ
ウンダリ条件に適合するか否かを判定する(ステップs
14)。そして、読み込んだコンテンツバウンダリ情報
がコンテンツバウンダリ条件に適合すれば、そのコンテ
ンツバウンダリ情報を出力する(ステップs15)。
【0092】このような処理をコンテンツバウンダリ情
報テーブルのすべてのコンテンツバウンダリ情報につい
て行い、コンテンツバウンダリ情報テーブルのすべての
コンテンツバウンダリ情報について処理が終了すると、
これまでの処理により選択されたコンテンツバウンダリ
情報に対応するコンテンツバウンダリ位置を示すマーク
が付された文書をコンテンツバウンダリ情報表示手段1
6に表示する(ステップs16)。
【0093】ここで、ユーザがその表示内容(たとえ
ば、図10)を見て、ユーザの意図する位置にコンテン
ツバウンダリが適切に付されているか否かを判定し(ス
テップs17)、適切に付加されていれば、OKとして
処理を終了し、ユーザの意図しない位置にコンテンツバ
ウンダリが付加されているような場合、あるいは、ユー
ザの意図する位置にコンテンツバンダリが付されていな
い場合は、コンテンツバウンダリ条件を変更するなどし
て、再度、ステップs12以降の処理を行う。
【0094】このように、ユーザがコンテンツバウンダ
リ条件を与えることによって、そのコンテンツバウンダ
リ条件に適合するコンテンツバウンダリ情報を選んで、
そのコンテンツバウンダリ位置を文書中に設定すること
ができ、しかも、そのコンテンツバウンダリ位置をコン
テンツバウンダリ情報表示手段16によってディスプレ
イ画面上に表示させることにより、ユーザは、その表示
内容を見て、コンテンツバウンダリ位置が適切に設定さ
れているか否かを判断することができ、適切でなけれ
ば、コンテンツバウンダリ条件を設定し直すなどして、
再度、コンテンツバウンダリ位置の設定処理を行うこと
も可能となる。また、ディスプレイ画面上に表示された
文書に対してマウスなどで直接、コンテンツバウンダリ
位置を指示することもできる。
【0095】以上の処理は、コンテンツバウンダリ情報
が、コンテンツバウンダリ情報テーブル形式で保存され
ている場合の処理手順を示すフローチャートである。こ
れに対して、コンテンツバウンダリ情報が、文書中にた
とえばHTMLなどのコメントタグとして埋め込まれて
いる場合の処理は、図12のような処理手順にて行われ
る。以下、図12のフローチャートを参照しながらその
処理手順について説明する。
【0096】まず、ユーザによってコンテンツバウンダ
リ条件の入力が行われると、そのコンテンツバウンダリ
条件を受け付ける(ステップs21)。そして、文書デ
ータ(たとえば、HTMLなどのコメントタグによるコ
ンテンツバウンダリ情報が埋め込まれている文書デー
タ)を読み込む。このとき、読み込むべき文書データが
存在するか否かを判定し(ステップs22)、文書デー
タが存在すれば、その文書データ中に存在する最初のコ
メントタグで示されるコンテンツバウンダリ情報が、ユ
ーザによって与えられたコンテンツバウンダリ条件に適
合するか否かを判定する(ステップs23)。そして、
埋め込まれているコンテンツバウンダリ情報がコンテン
ツバウンダリ条件に適合すれば、そのコンテンツバウン
ダリ情報を出力する(ステップs24)。
【0097】次に、再びステップs22に戻って、読み
込むべき文書データが存在するか否かを判定し、文書デ
ータがあれば、その文書データ中に存在するコメントタ
グで示されるコンテンツバウンダリ情報のうち、2番目
のコンテンツバウンダリ情報が、ユーザによって与えら
れたコンテンツバウンダリ条件に適合するか否かを判定
する(ステップs23)。そして、読み込んだコンテン
ツバウンダリ情報が入力されたコンテンツバウンダリ条
件に適合すれば、そのコンテンツバウンダリ情報を出力
する(ステップs24)。
【0098】このような処理を文書データの終わりまで
行い、処理が終了すると、これまでの処理により選択さ
れたコンテンツバウンダリ情報に対応するコンテンツバ
ウンダリ位置を示すマークの付された文書をコンテンツ
バウンダリ情報表示手段16によってディスプレイ画面
上に表示する(ステップs25)。
【0099】ここで、ユーザがその表示内容(たとえ
ば、図10)を見て、ユーザの意図する位置にコンテン
ツバウンダリが適切に付されているか否かを判定し(ス
テップs26)、ユーザの意図する位置にコンテンツバ
ウンダリが適切に付加されていれば、OKとして処理を
終了し、ユーザの意図しない位置にコンテンツバウンダ
リが付加されているような場合、あるいは、ユーザの意
図する位置にコンテンツバンダリが付されていない場合
は、コンテンツバウンダリ条件を変更するなどして、再
度、ステップs21以降の処理を行う。
【0100】この場合も前述したと同様に、ユーザがコ
ンテンツバウンダリ条件を与えることによって、そのコ
ンテンツバウンダリ条件に適合するコンテンツバウンダ
リ情報を選んで、そのコンテンツバウンダリ位置を文書
中に設定することができる。また、そのコンテンツバウ
ンダリ位置が設定された文書をコンテンツバウンダリ情
報表示手段16によってディスプレイ画面上に表示させ
ることにより、ユーザは、その表示内容を見て、コンテ
ンツバウンダリ位置が適切に設定されているか否かを判
断することができ、適切でなければ、コンテンツバウン
ダリ条件を設定し直すなどして、再度、コンテンツバウ
ンダリ位置の設定処理を行うことも可能となる。また、
ディスプレイ画面上に表示された文書に対してマウスな
どで直接、コンテンツバウンダリ位置を指示することも
できる。
【0101】以上のような処理を行うことによって、処
理対象文書に対し、コンテンツバウンダリ位置の設定が
任意に行え、設定されたコンテンツバウンダリ位置によ
って、コンテンツを抽出することができる。これによ
り、検索処理や文書間の差分を取るなどといった様々な
処理に応じた適切なコンテンツを取り出すことができ
る。
【0102】これら図11および図12で説明した2つ
の処理において、図11の処理は、コンテンツバウンダ
リ情報テーブルにおけるコンテンツバウンダリ識別番号
の数だけ処理を繰り返せばよく、一方、図12の方は、
文書データの文字数分の処理を繰り返す必要がある。た
とえば、前述の図8のコンテンツバウンダリ情報テーブ
ルの例で考えると、図11の処理は、コンテンツバウン
ダリ情報の数は140個であるため、140回処理を繰
り返せばよいが、図12の方は、文字数が0〜6408
の6409個存在するため、6409回処理を繰り返す
必要があるので、図11の方が処理量が少なくて済む。
【0103】図13は前述したような登録文書に対し適
切な大きさのコンテンツを抽出する処理を行うための第
2の登録文書処理装置の構成図である。
【0104】この第2の登録文書処理装置は、コンテン
ツバウンダリ出力手段13とコンテンツバウンダリ情報
検索手段17で構成されるコンテンツバウンダリ設定手
段20と、コンテンツバウンダリ条件知識ファイル21
を備えた構成となっている。
【0105】そして、この第2の登録文書処理装置は、
ユーザがコンテンツバウンダリ条件を設定するのではな
く、処理の内容に応じて自動的にコンテンツバウンダリ
条件の設定を可能としたものであり、それを実現するた
めに、コンテンツバウンダリ条件知識ファイル21を備
えている。このように、この第2の登録文書処理装置で
は、コンテンツバウンダリ条件知識ファイル21によっ
て、自動的に、処理に最適なコンテンツ条件を得て、そ
のコンテンツ条件に基づいて、処理対象の文書(登録文
書22)に対してコンテンツバウンダリ位置を設定する
ことが可能となるので、ユーザがコンテンツ条件を入力
するためのコンテンツバウンダリ条件入力手段や、ユー
ザの入力したコンテンツバウンダリ条件に基づいたコン
テンツバウンダリ情報を表示するためのコンテンツバウ
ンダリ情報表示手段などは特に必要ではない。
【0106】コンテンツバウンダリ条件知識ファイル2
1は、処理内容に応じて最適なコンテンツバウンダリ条
件が蓄えられているもので、たとえば、この第2の文書
処理装置を情報検索システムに用いるものとすれば、情
報検索に最適なコンテンツバウンダリ条件についての知
識が蓄えられている。
【0107】なお、コンテンツバウンダリ条件知識ファ
イル21は、そのシステムが行う処理に合わせたコンテ
ンツバウンダリ条件をのみを持たせることも可能である
が、様々な処理内容に適応できるように、様々な処理内
容に応じた最適なコンテンツバウンダリ条件知識を蓄え
ておくことも勿論可能である。この場合、たとえば、ユ
ーザが処理の種類などについての指令を、コンテンツバ
ウンダリ情報検索手段17に与えることで、コンテンツ
バウンダリ情報検索手段17は、その指令に基づいて、
処理に最適なコンテンツバウンダリ条件を、コンテンツ
バウンダリ条件知識ファイル21から得て、その条件に
基づいて、登録文書22(コンテンツバウンダリ情報が
埋め込まれている文書)を読み出して、与えられたコン
テンツバウンダリ条件に対応するコンテンツバウンダリ
情報を自動的に検索する。
【0108】このように、第2の登録文書処理装置は、
システム側の持っているコンテンツバウンダリ条件知識
によって、文書の中に埋め込まれているコンテンツバウ
ンダリ情報の中から自動的に、コンテンツバウンダリ条
件知識ファイル21が持っているコンテンツバウンダリ
条件に適合するコンテンツバウンダリ情報を検索するの
で、処理対象文書に対し、より一層、自動化されたコン
テンツバウンダリ位置設定が可能となる。
【0109】以上説明したように、本発明では、登録さ
れた文書を、たとえば、検索処理や文書間の差分を取る
など様々な処理に用いる場合、登録時に設定されたコン
テンツバウンダリ情報を用いてコンテンツバウンダリ位
置を決め、これにより、処理に必要なコンテンツの抽出
を行うようにしているので、コンテンツの取り出しがき
わめて簡単に行うことができる。たとえば、処理の内容
に応じて、文書登録の際に設定された多数のコンテンツ
バウンダリ情報のうち、必要なコンテンツバウンダリ情
報のみ選択することが可能であり、これにより、コンテ
ンツバウンダリ位置を任意に決めることができ、処理の
内容に応じて、ユーザの意図する大きさのコンテンツの
抽出が可能となる。また、文書登録のときに設定されな
かったコンテンツバウンダリ情報を、文書処理の時に新
たに追加するということも比較的容易に行うことが可能
となる。
【0110】なお、本発明は以上説明した各実施の形態
に限定されるものではなく、本発明の要旨を逸脱しない
範囲で種々変形実施可能となるものである。また、以上
説明した本発明の登録文書の処理を行うための処理プロ
グラムは、フロッピィディスク、光ディスク、ハードデ
ィスクなどの記録媒体に記録させておくことができ、本
発明はその記録媒体をも含むものである。また、ネット
ワークから処理プログラムを得るようにしてもよい。
【0111】
【発明の効果】本発明では、コンテンツバウンダリ情報
が設定された登録文書を、たとえば、検索に用いたり、
文書間の差分を取るなど様々な処理に用いる場合、ユー
ザがコンテンツバウンダリ条件を入力することにより、
そのコンテンツバウンダリ条件に基づいて、前記登録文
書に対して設定されているコンテンツバウンダリ情報の
中から必要なコンテンツバウンダリ情報を選択し、この
コンテンツバウンダリ情報に対応するコンテンツバウン
ダリ位置を設定することができる。これは、ユーザがコ
ンテンツバウンダリ条件を明示的に入力することによっ
て、処理に必要なコンテンツを取り出すものであり、ユ
ーザの意図を的確に反映したコンテンツを取り出すこと
ができる。
【0112】また、コンテンツバウンダリ条件を入力す
ることなく、自動的に、処理に最適なコンテンツの抽出
を行うことができる。これは、処理に応じたコンテンツ
を取り出すために必要なコンテンツバウンダリ条件知識
を持ち、このコンテンツバウンダリ条件知識に基づい
て、前記登録文書に対して設定されたコンテンツバウン
ダリ情報の中から、処理に応じて選択して出力し、その
コンテンツバウンダリ情報に対応するコンテンツバウン
ダリ位置を設定するものであり、これによれば、処理内
容に応じて自動的に、処理に応じたコンテンツ条件が設
定され、そのコンテンツ条件に基づいてコンテンツバウ
ンダリ位置が設定されるので、ユーザが殆ど手を加える
ことなく、自動的に、処理に最適なコンテンツの抽出を
行うことができる。
【0113】このように、本発明では、登録時に得られ
たコンテンツバウンダリ情報をそのまますべて用いるの
ではなく、文書を処理する段階で、コンテンツバウンダ
リ情報を取捨選択することが可能であって、これによっ
て、任意の位置にコンテンツバウンダリの設定が可能と
なり、取り出すコンテンツの大きさを柔軟に設定するこ
とができ、処理に対応したコンテンツを取り出すことが
できる。このように、コンテンツの大きさを柔軟に決め
ることができることから、検索処理や文書間の差分を取
るなどの処理以外にも、文書を所定のコンテンツに分割
して処理を行う必要のある様々な処理に対応することが
できる。
【図面の簡単な説明】
【図1】本発明の登録文書処理装置を実現するために必
要な文書登録装置の第1の構成例(第1の文書登録装
置)を説明するブロック図。
【図2】第1の文書登録装置におけるコンテンツバウン
ダリ位置指定についての一例を説明する図。
【図3】第1の文書登録装置におけるコンテンツバウン
ダリ情報を文書中に埋め込んだ例を示す図。
【図4】本発明の登録文書処理装置を実現するために必
要な文書登録装置の第2の構成例(第2の文書登録装
置)を説明するブロック図。
【図5】第2の文書登録装置におけるコンテンツバウン
ダリ条件入力を行う例を説明する図。
【図6】本発明の登録文書処理装置を実現するために必
要な文書登録装置の第3の構成例(第3の文書登録装
置)を説明するブロック図。
【図7】第3の文書登録装置におけるコンテンツバウン
ダリ情報を抽出する処理を説明するフローチャート。
【図8】第1〜第3の文書登録装置において得られるコ
ンテンツバウンダリ情報をコンテンツバウンダリ情報テ
ーブルとして表した図。
【図9】本発明の実施の形態である第1の登録文書処理
装置を説明するブロック図。
【図10】本発明の実施の形態においてコンテンツバウ
ンダリ条件の設定の仕方の違いよるコンテンツバウンダ
リ位置の変化を説明する図。
【図11】第1の登録文書処理装置においてコンテンツ
バウンダリ情報がコンテンツバウンダリ情報テーブルで
ある場合の処理手順を説明するフローチャート。
【図12】第1の登録文書処理装置においてコンテンツ
バウンダリ情報が文書中に埋め込まれた場合の処理手順
を説明するフローチャート。
【図13】本発明の実施の形態である第2の登録文書処
理装置を説明するブロック図。
【符号の説明】
1 コンテンツバウンダリ入力手段 2,14 コンテンツバウンダリ情報記憶手段 3 登録対象文書 4,15 コンテンツバウンダリ情報ファイル 5,11 コンテンツバウンダリ条件入力手段 6,12 コンテンツバウンダリ解析手段 7,16 コンテンツバウンダリ情報表示手段 8 コンテンツバウンダリ知識ファイル 13 コンテンツバウンダリ出力手段 17 コンテンツバウンダリ情報検索手段 20 コンテンツバウンダリ設定手段 21 コンテンツバウンダリ条件知識ファイル 22 登録文書
フロントページの続き (51)Int.Cl.6 識別記号 FI G06F 15/401 310A 15/403 340A

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 文書内容のまとまりの境界を示すコンテ
    ンツバウンダリ情報が設定されて登録されている文書
    (登録文書という)を処理するための登録文書処理装置
    において、 処理に応じたコンテンツを取り出すためのコンテンツバ
    ウンダリ条件を入力可能なコンテンツバウンダリ条件入
    力手段と、 このコンテンツバウンダリ条件入力手段から入力された
    コンテンツバウンダリ条件に基づいて、前記登録文書に
    対して設定されたコンテンツバウンダリ情報を出力し、
    そのコンテンツバウンダリ情報に対応するコンテンツバ
    ウンダリ位置を設定するコンテンツバウンダリ設定手段
    と、 を少なくとも有することを特徴とする登録文書処理装
    置。
  2. 【請求項2】 前記コンテンツバウンダリ設定手段は、
    コンテンツバウンダリ条件を受けると、このコンテンツ
    バウンダリ条件と、前記登録文書に対して設定されたそ
    れぞれのコンテンツバウンダリ情報とを比較し、前記コ
    ンテンツバウンダリ条件に適合するコンテンツバウンダ
    リ情報を得て、このコンテンツバウンダリ情報に基づく
    コンテンツバウンダリ位置を設定することを特徴とする
    請求項1記載の登録文書処理装置。
  3. 【請求項3】 文書内容のまとまりの境界を示すコンテ
    ンツバウンダリ情報が設定されて登録されている文書
    (登録文書という)を処理するための登録文書処理装置
    において、 処理に応じたコンテンツを取り出すために必要なコンテ
    ンツバウンダリ条件知識を予め蓄えたコンテンツバウン
    ダリ条件知識ファイルと、 このコンテンツバウンダリ条件知識ファイルの内容に基
    づいて、前記登録文書に対して設定されたコンテンツバ
    ウンダリ情報を処理に応じて出力し、そのコンテンツバ
    ウンダリ情報に対応するコンテンツバウンダリ位置を設
    定するコンテンツバウンダリ設定手段と、 を少なくとも有することを特徴とする登録文書処理装
    置。
  4. 【請求項4】 文書内容のまとまりの境界を示すコンテ
    ンツバウンダリ情報が設定されて登録されている文書
    (登録文書という)を処理するための登録文書処理方法
    において、 処理に応じたコンテンツを取り出すためのコンテンツバ
    ウンダリ条件が入力されると、そのコンテンツバウンダ
    リ条件を受け付け、そのコンテンツバウンダリ条件に基
    づいて、前記登録文書に対して設定されているコンテン
    ツバウンダリ情報を出力し、このコンテンツバウンダリ
    情報に対応するコンテンツバウンダリ位置を設定する処
    理を登録文書処理に含むことを特徴とする登録文書処理
    方法。
  5. 【請求項5】 前記コンテンツバウンダリ条件に基づい
    て、前記登録文書に対して設定されたコンテンツバウン
    ダリ情報を出力する処理は、入力されたコンテンツバウ
    ンダリ条件と、前記登録文書に対して設定されたそれぞ
    れのコンテンツバウンダリ情報とを比較し、前記コンテ
    ンツバウンダリ条件に適合するコンテンツバウンダリ情
    報を得て、このコンテンツバウンダリ情報に基づくコン
    テンツバウンダリ位置を設定することを特徴とする請求
    項4記載の登録文書処理方法。
  6. 【請求項6】 文書内容のまとまりの境界を示すコンテ
    ンツバウンダリ情報が設定されて登録されている文書
    (登録文書という)を処理するための登録文書処理方法
    において、 処理に応じたコンテンツを取り出すために必要なコンテ
    ンツバウンダリ条件知識を格納したコンテンツバウンダ
    リ条件知識ファイルを有し、このコンテンツバウンダリ
    条件知識ファイル内容に基づいて、前記登録文書に対し
    て設定されたコンテンツバウンダリ情報を処理に応じて
    出力し、そのコンテンツバウンダリ情報に対応するコン
    テンツバウンダリ位置を設定する処理を登録文書処理に
    含むことを特徴とする登録文書処理方法。
  7. 【請求項7】 文書内容のまとまりの境界を示すコンテ
    ンツバウンダリ情報が設定されて登録されている文書
    (登録文書という)を処理するための処理プログラムを
    記憶した記憶媒体であって、その処理プログラムは、処
    理に応じたコンテンツを取り出すためのコンテンツバウ
    ンダリ条件が入力されると、そのコンテンツバウンダリ
    条件を受け付け、そのコンテンツバウンダリ条件に基づ
    いて、前記登録文書に対して設定されたコンテンツバウ
    ンダリ情報を出力し、このコンテンツバウンダリ情報に
    対応するコンテンツバウンダリ位置を設定する処理を含
    むことを特徴とする登録文書を処理するための処理プロ
    グラムを記憶した記憶媒体。
  8. 【請求項8】 前記コンテンツバウンダリ条件に基づい
    て、前記登録文書に対して設定されたコンテンツバウン
    ダリ情報を出力する処理は、入力されたコンテンツバウ
    ンダリ条件と、前記登録文書に設定されたコンテンツバ
    ウンダリ情報とを比較し、前記コンテンツバウンダリ条
    件に適合するコンテンツバウンダリ情報を得て、このコ
    ンテンツバウンダリ情報に基づくコンテンツバウンダリ
    位置を設定することを特徴とする請求項7記載の登録文
    書を処理するための処理プログラムを記憶した記憶媒
    体。
  9. 【請求項9】 文書内容のまとまりの境界を示すコンテ
    ンツバウンダリ情報が設定されて登録されている文書
    (登録文書という)を処理するための処理プログラムを
    記憶した記憶媒体であって、その処理プログラムは、登
    録文書に対する処理に応じて、処理に応じたコンテンツ
    を取り出すために必要なコンテンツバウンダリ条件をコ
    ンテンツバウンダリ条件知識ファイルから取り出し、そ
    のコンテンツバウンダリ条件に基づいて、前記登録文書
    に対して設定されたコンテンツバウンダリ情報を出力
    し、そのコンテンツバウンダリ情報に対応するコンテン
    ツバウンダリ位置を設定する処理を登録文書処理に含む
    ことを特徴とする登録文書を処理するための処理プログ
    ラムを記憶した記憶媒体。
JP9307726A 1997-11-10 1997-11-10 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体 Withdrawn JPH11143899A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9307726A JPH11143899A (ja) 1997-11-10 1997-11-10 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9307726A JPH11143899A (ja) 1997-11-10 1997-11-10 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JPH11143899A true JPH11143899A (ja) 1999-05-28

Family

ID=17972524

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9307726A Withdrawn JPH11143899A (ja) 1997-11-10 1997-11-10 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JPH11143899A (ja)

Similar Documents

Publication Publication Date Title
US8983962B2 (en) Question and answer data editing device, question and answer data editing method and question answer data editing program
US20070050709A1 (en) Character input aiding method and information processing apparatus
JP2000067065A (ja) 文書画像識別方法および記録媒体
US20140019852A1 (en) Document association device, document association method, and non-transitory computer readable medium
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
JP4832952B2 (ja) データベース解析システム及びデータベース解析方法及びプログラム
KR20010082661A (ko) 공학도면의 관리를 위한 컴퓨터 자동화된 시스템
JP5687312B2 (ja) デジタル情報分析システム、デジタル情報分析方法、及びデジタル情報分析プログラム
JP2005151127A5 (ja)
JP2006323517A (ja) テキスト分類装置およびプログラム
JP2005107931A (ja) 画像検索装置
JP2008181218A (ja) 入力支援方法及び装置
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
JP2021140831A (ja) 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム
JP2005115457A (ja) 文書ファイル検索方法
JPH11143899A (ja) 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP5379416B2 (ja) 言語処理装置および言語処理方法
JPH11143898A (ja) 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体
JP7377565B2 (ja) 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム
JP2010134766A (ja) 文書データ処理装置およびそのプログラム
US9990420B2 (en) Method of searching and generating a relevant search string
JP5585145B2 (ja) 修正箇所判別装置、修正箇所判別プログラム、および修正箇所判別方法
JP2008046850A (ja) 文書種類判別装置及び文書種類判別プログラム
JP2007179505A (ja) 検索装置、検索システム、検索方法、検索プログラムおよび記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050201