JPH11143898A - 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体 - Google Patents

文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体

Info

Publication number
JPH11143898A
JPH11143898A JP9307724A JP30772497A JPH11143898A JP H11143898 A JPH11143898 A JP H11143898A JP 9307724 A JP9307724 A JP 9307724A JP 30772497 A JP30772497 A JP 30772497A JP H11143898 A JPH11143898 A JP H11143898A
Authority
JP
Japan
Prior art keywords
content boundary
content
document
boundary
registered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9307724A
Other languages
English (en)
Inventor
Toshio Tanaka
敏雄 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP9307724A priority Critical patent/JPH11143898A/ja
Publication of JPH11143898A publication Critical patent/JPH11143898A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 文書間の差分を取ったり、検索を行ったりと
いうような処理を行う段階でコンテンツを取り出そうと
すると、処理量が多く処理に時間を要する問題がある。 【解決手段】 登録すべき文書3に対し、文書内容のま
とまりの境界を示すコンテンツバウンダリの位置の指定
が可能なコンテンツバウンダリ入力手段1と、このコン
テンツバウンダリ入力手段1により指定されたコンテン
ツバウンダリの位置に対応するコンテンツバウンダリ情
報を記憶するコンテンツバウンダリ情報記憶手段2とを
少なくとも有する構成とし、文書を登録する際に、コン
テンツバウンダリ情報を抽出して、そのコンテンツバウ
ンダリ情報を保存しておく。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書を登録あるい
は文書の編集、作成、保存などを行う際に、文書の内容
のまとまりごとにそのまとまりの境界を示すコンテンツ
バウンダリ情報を得て、そのコンテンツバウンダリ情報
を保存する文書登録装置及び方法並びに文書登録を行う
ための処理プログラムを記憶した記憶媒体に関する。
【0002】
【従来の技術】2つの文書の差分を取ったり、ある文書
の一部を抽出したり、文書内に書かれていることを検索
したりするというように、文書に対しては様々な処理が
なされる。
【0003】このような処理を行う場合、文書を段落な
ど、文書の内容のまとまり(コンテンツと呼ぶ)ごとに
そのまとまりの境界を示すコンテンツバウンダリを検出
して、そのコンテンツバウンダリにより得られるコンテ
ンツごとに処理を行う方法が従来より用いられている。
【0004】従来では、前述したような2つの文書の差
分を取ったりする様々な処理を行う際に、コンテンツバ
ウンダリを検出して、コンテンツを抽出するのが一般的
である。
【0005】なお、検索処理を行う場合は、文書中のキ
ーワードや文字列とその位置をインデクス情報として、
文書を登録する時に作成しておき、その情報を用いて検
索を行うことで検索処理を高速化することが従来より行
われている。このような検索処理にあっても、文書をコ
ンテンツに分割する処理は、検索するときに行われるの
が普通である。
【0006】このように、従来では、差分を取ったり、
検索したりする処理を行う際、これらの処理を行うに必
要なコンテンツの抽出は、それらの処理を行うときにな
されるのが普通である。
【0007】しかし、差分を取ったり、検索したりする
処理を行う際に、コンテンツを抽出するための処理(コ
ンテンツバウンダリ検出も含めた処理)を行うと、差分
を取ったり、検索したりする処理を行う前に、まず、コ
ンテンツを抽出するための処理を行う必要があるため、
処理量が多くなり、処理速度の低下を招くことにもな
る。つまり、既に登録されている文書に対し、文書間の
差分を取ったり、検索したりする処理を行う場合、これ
らの処理を行うたびに、その都度、文書の構造解析を行
って、コンテンツを抽出する処理を行う必要がある。
【0008】一方、特開平8−272822の「文書登
録装置および文書検索装置」には、文書を登録する際
に、文書を所定のブロック(コンテンツと同意のものと
考えられるので以下ではコンテンツと表現する)単位に
分割し、コンテンツを識別する識別子を付与し、コンテ
ンツ単位からキーワードを抽出し、識別子をキーワード
と対応付けしてキーワードのインデクス情報を作成する
というような内容が示されている。
【0009】
【発明が解決しようとする課題】前述の特開平8−27
2822(従来技術という)は、文書を登録する際に、
文書を所定のコンテンツ単位に分割して登録することが
示されている。しかしながら、この従来技術は、登録時
に文書を所定のコンテンツに分割してしまうので、検索
などの処理時には、そのコンテンツ単位での処理を行う
しかなく、ユーザの必要とする大きさのコンテンツを取
り出したり、処理内容に応じて、コンテンツを適切な大
きさに変更することができないという問題がある。
【0010】また、この従来技術におけるコンテンツ
は、検索を行うためのキーワードが文書中のどこに存在
するかを表すために用いられるものであり、文書間の差
分を取ったり、特定のコンテンツを抽出したりといった
様々なコンテンツ処理を行うためのものではないため、
これらの処理には不向きである。
【0011】そこで本発明は、文書を登録する際に、そ
の文書のコンテンツ解析を行って、コンテンツの境界を
示すコンテンツバウンダリ情報を得ておくことで、検索
や文書間の差分を取るといった様々な処理を行うとき
に、コンテンツバウンダリ条件を指定することによっ
て、処理内容に応じたコンテンツを抽出することを可能
とすることを目的としている。
【0012】
【課題を解決するための手段】前述の目的を達成するた
めに、本発明の請求項1に記載された文書登録装置の発
明は、登録すべき文書に対し、文書内容のまとまりの境
界を示すコンテンツバウンダリの位置の指定が可能なコ
ンテンツバウンダリ入力手段と、このコンテンツバウン
ダリ入力手段により指定されたコンテンツバウンダリの
位置に対応するコンテンツバウンダリ情報を記憶するコ
ンテンツバウンダリ情報記憶手段とを少なくとも有した
構成としている。
【0013】また、請求項2の発明は、登録すべき文書
に対し、文書内容のまとまりの境界を示すコンテンツバ
ウンダリを設定するためのコンテンツバウンダリ条件を
与えるコンテンツバウンダリ条件入力手段と、このコン
テンツバウンダリ条件を受けると、前記登録すべき文書
に対し、そのコンテンツバウンダリ条件に基づくコンテ
ンツバウンダリ解析を行って、コンテンツバウンダリ情
報を出力するコンテンツバウンダリ解析手段と、このコ
ンテンツバウンダリ解析手段により出力されたコンテン
ツバウンダリ情報を記憶するコンテンツバウンダリ情報
記憶手段とを少なくとも有した構成としている。
【0014】また、請求項3の発明は、登録すべき文書
の文書内容のまとまりの境界を示すコンテンツバウンダ
リについての知識を予め蓄えたコンテンツバウンダリ知
識ファイルと、このコンテンツバウンダリ知識ファイル
内のコンテンツバウンダリ知識に基づいて、前記登録す
べき文書に対し、コンテンツバウンダリ解析を行い、コ
ンテンツバウンダリ情報を出力するコンテンツバウンダ
リ解析手段と、このコンテンツバウンダリ解析手段によ
り出力されたコンテンツバウンダリ情報を記憶するコン
テンツバウンダリ情報記憶手段とを少なくとも有した構
成としている。
【0015】そして、請求項1〜4のいずれかの発明に
おいて、前記コンテンツバウンダリ情報は、登録すべき
文書中にコンテンツバウンダリであることを示すデータ
として埋め込んで前記コンテンツバウンダリ情報記憶手
段に保存するようにしてもよく、コンテンツバウンダリ
情報テーブルとして前記コンテンツバウンダリ情報記憶
手段に保存するようにしてもよい。
【0016】また、本発明の請求項6に記載された文書
登録方法の発明は、登録すべき文書に対し、文書内容の
まとまりの境界を示すコンテンツバウンダリの位置の指
定がなされると、その指定されたコンテンツバウンダリ
位置に対応するコンテンツバウンダリ情報を記憶する処
理を文書登録処理に含むようにしている。
【0017】また、請求項7の発明は、登録すべき文書
に対し、文書内容のまとまりの境界を示すコンテンツバ
ウンダリを設定するためのコンテンツバウンダリ条件が
与えられると、このコンテンツバウンダリ条件を受け
て、前記登録すべき文書に対し、そのコンテンツバウン
ダリ条件に基づくコンテンツバウンダリ解析を行い、コ
ンテンツバウンダリ条件に対応したコンテンツバウンダ
リ情報を出力し、このコンテンツバウンダリ情報を記憶
する処理を文書登録処理に含むようにしている。
【0018】また、請求項8の発明は、登録すべき文書
に対する文書内容のまとまりを示すコンテンツバウンダ
リについての知識を予め蓄えたコンテンツバウンダリ知
識ファイルを備え、このコンテンツバウンダリ知識ファ
イル内のコンテンツバウンダリ知識に基づいて、登録す
べき文書に対し、コンテンツバウンダリ解析を行い、コ
ンテンツバウンダリ情報を出力し、このコンテンツバウ
ンダリ情報を記憶する処理を文書登録処理に含むように
している。
【0019】そして、請求項6から8のいずれかの発明
において、前記コンテンツバウンダリ情報は、登録すべ
き文書中にコンテンツバウンダリであることを示すデー
タとして埋め込んで保存するようにしてもよく、また、
コンテンツバウンダリ情報テーブルとして保存するよう
にしてもよい。
【0020】また、請求項11に記載された本発明の文
書登録を行うための処理プログラムを記憶した記憶媒体
は、文書登録を行うための処理プログラムが記憶された
記憶媒体であって、その処理プログラムは、登録すべき
文書に対して文書内容のまとまりの境界を示すコンテン
ツバウンダリの位置の指定がなされると、その指定され
たコンテンツバウンダリ位置に対応するコンテンツバウ
ンダリ情報を記憶する処理を含むものである。
【0021】また、請求項12に記載された本発明の文
書登録を行うための処理プログラムを記憶した記憶媒体
は、文書登録を行うための処理プログラムが記憶された
記憶媒体であって、その処理プログラムは、登録すべき
文書に対する文書内容のまとまりの境界を示すコンテン
ツバウンダリを設定するためのコンテンツバウンダリ条
件が与えられると、このコンテンツバウンダリ条件を受
けて、前記登録すべき文書に対し、そのコンテンツバウ
ンダリ条件に基づくコンテンツバウンダリ解析を行い、
コンテンツバウンダリ条件に対応したコンテンツバウン
ダリ情報を出力し、このコンテンツバウンダリ情報を記
憶する処理を含むものである。
【0022】また、請求項13に記載された本発明の文
書登録を行うための処理プログラムを記憶した記憶媒体
は、文書登録を行うための処理プログラムが記憶された
記憶媒体であって、その処理プログラムは、登録すべき
文書に対する文書内容のまとまりの境界を示すコンテン
ツバウンダリについての知識を蓄えたコンテンツバウン
ダリ知識ファイル内のコンテンツバウンダリ知識に基づ
いて、前記登録すべき文書に対し、コンテンツバウンダ
リ解析を行い、コンテンツバウンダリ情報を出力し、こ
のコンテンツバウンダリ情報を記憶する処理を含むもの
である。
【0023】このように、本発明は、文書を登録する際
に、その登録対象文書からコンテンツバウンダリ情報を
得て、そのコンテンツバウンダリ情報を保存しておくも
のである。そのコンテンツ情報を得る手段としては、ユ
ーザが明示的にコンテンツ位置を指示することも可能で
あり、また、ユーザがコンテンツバウンダリ条件を与え
ることで、そのコンテンツバウンダリ条件に適合したコ
ンテンツバウンダリ情報を自動的に得ることも可能であ
り、さらには、システム側がコンテンツバウンダリにつ
いての知識を持つことで、文書を入力するだけで、自動
的に、コンテンツバウンダリ知識に基づくコンテンツバ
ウンダリ情報の取得も可能となる。
【0024】このようにして文書の登録時にそれぞれの
登録対象文書ごとにコンテンツバウンダリ情報を抽出し
ておけば、登録された文書を用いて、文書間の差分を取
ったり、検索したりする処理を行う際に、コンテンツを
取り出す処理がきわめて簡単に行える。
【0025】つまり、従来では、登録された文書に対
し、何らかの処理を行う際、その都度、文書構造解析し
て処理に応じたコンテンツバウンダリを設定して、処理
に必要な大きさのコンテンツを取り出すという処理が必
要となるが、本発明では、文書の登録時に、コンテンツ
バウンダリ情報を抽出しておくことで、登録された文書
を処理する際のコンテンツ抽出がきわめて簡単に行え
る。
【0026】また、本発明は、登録対象文書に対して、
コンテンツそのものを決めるのではなく、コンテンツを
取り出すためのコンテンツバウンダリ情報を細かく決め
るので、登録された文書を処理する段階で、コンテンツ
バウンダリを取捨選択することが可能であって、登録さ
れた文書を処理する際に、取り出すコンテンツの大きさ
を柔軟に設定することができ、処理に対応したコンテン
ツを取り出すことができる。
【0027】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。本発明は、文書を登録する装置および文書
を登録する方法に係わる発明であるが、以下に示す実施
の形態では、文書を登録する段階で、登録しようとする
文書(以下、登録対象文書という)からコンテンツバウ
ンダリ情報を取得して、そのコンテンツバウンダリ情報
を保存する処理についてを主に説明する。以下、第1〜
第3の実施の形態について順次説明する。
【0028】(第1の実施の形態)図1は文書を登録す
る際に行われるコンテンツバウンダリ情報取得について
の第1の実施の形態を実現するための文書登録装置(以
下、第1の文書登録装置という)の構成図である。この
発明でいう、文書登録装置というのは、文書の作成、編
集、保存などが可能な装置であり、たとえば、パーソナ
ルコンピュータなどもその一例である。
【0029】この第1の文書登録装置は、コンテンツバ
ウンダリ入力手段1、コンテンツバウンダリ情報記憶手
段2を少なくとも備えた構成となっている。
【0030】このような構成において、登録対象文書3
に対して、ユーザが、コンテンツバウンダリ入力手段1
からコンテンツバウンダリの位置を指定すると、その位
置に対応するコンテンツバウンダリ情報がコンテンツバ
ウンダリ情報記憶手段2に記憶される。このコンテンツ
バウンダリ情報記憶手段2の記憶内容は、コンテンツバ
ウンダリ情報ファイル4として保存することもできる。
そして、そのコンテンツバウンダリ情報は、文書の中に
通常は表示されないデータの形式で埋め込まれて保存さ
れてもよいし、また、コンテンツ情報のみを文書データ
とは別のデータ(たとえば、コンテンツバウンダリ情報
テーブル)として保存されるようにしてもよい。
【0031】このように、第1の実施の形態では、ユー
ザが登録対象文書3に対して、明示的にコンテンツバウ
ンダリの位置を決めるものであり、具体的には次のよう
にして行う。
【0032】たとえば、ディスプレイ画面10上に映し
出されている登録対象文書3が図2のような内容であっ
たとする。このような文書内容に対して、ユーザは、そ
の文書内容を見て、マウスなどにより、明示的にコンテ
ンツバウンダリの位置を指定して行く。図2において、
矢印はマウスカーソルcを示しており、このマウスカー
ソルcをユーザの意図する部分に位置させ、その位置で
マウスをクリックすることによりコンテンツバウンダリ
位置が設定される。図2では設定されたコンテンツバウ
ンダリ位置をb1,b2,b3で示している。なお、こ
のようなコンテンツバウンダリ位置を設定する場合は、
システムのアプリケーションをコンテンツバウンダリ設
定モードに設定して行う。
【0033】また、この図2の例では、コンテンツバウ
ンダリとする部分にマウスカーソルを位置させてクリッ
クすることでコンテンツバウンダリ位置を指定するよう
にしたが、これに限らず、たとえば、コンテンツバウン
ダリで仕切られる文書内容(コンテンツという)の先頭
にマウスカーソルを位置させて、そのコンテンツの終わ
りまでマウスカーソルをドラッグさせることによって、
コンテンツバウンダリ位置を指定することも可能であ
る。
【0034】このようにして、コンテンツバウンダリ位
置の指定がなされるが、そのコンテンツバウンダリ位置
に対応するコンテンツバウンダリ情報は、前述したよう
に、文書とは別のデータとして保存してもよく、文書の
中に通常は表示されないデータの形式で埋め込んで保存
してもよい。
【0035】図3は図2で指定されたコンテンツバウン
ダリ情報を、文書の中に通常は表示されないデータの形
式で埋め込んだ例を示すものである。図3の例では、H
TML(Hyper Text Markup Language)のコメント
タグを用いて、文書の中に埋め込んだ例である。
【0036】図3において、<!−CB1・・・−>が
示される内容がコンテンツバウンダリ情報である。この
<!−CB1・・・−>は、「<!−」がコメントの開
始を表し、「−>」がコメントの終了を表している。
【0037】一例として、<!−CB1 ファイル端
140 1−>というように記述されたコメントタグが
有るとすると、その中のコンテンツバウンダリ情報とし
て、「CB1」はコンテンツバウンダリの識別番号、
「ファイル端」はコンテンツバウンダリの種類、「14
0」は、そのコンテンツバウンダリの種類(この場合
「ファイル端」)の反対側のコンテンツバウンダリの識
別番号であり、そのコンテンツバウンダリ種類により仕
切られるコンテンツの大きさをも表している。また、
「1」はネストレベルを表している。なお、このような
コンテンツバウンダリ情報の詳細については後に説明す
る。
【0038】また、前述の<!−CB1 ファイル端
140 1−>で示されるコメントタグには、コンテン
ツバウンダリの位置を表す内容は存在しないが、そのコ
ンテンツバウンダリの位置は、このようなコメントタグ
の存在する位置であり、これによってコンテンツバウン
ダリの位置がわかるのでその位置情報は、特に、記述す
る必要はない。
【0039】以上が第1の実施の形態についての説明で
ある。この第1の実施の形態におけるコンテンツバウン
ダリ情報の抽出処理は、処理対象文書に対し、ユーザが
明示的にコンテンツバウンダリ位置を指示することによ
り行われるものであり、ユーザが行うべき操作がやや面
倒であるが、ユーザの意図する場所に確実にコンテンツ
バウンダリを設定することができるのが大きな特徴であ
る。
【0040】(第2の実施の形態)図4は登録対象文書
を登録する際に行われるコンテンツバウンダリ情報取得
についての第2の実施の形態を実現するための文書登録
装置(以下、第2の文書登録装置という)の構成図であ
る。
【0041】この第2の文書登録装置は、図1で示した
第1の文書登録装置で示されたコンテンツバウンダリ情
報記憶手段2、コンテンツバウンダリ情報ファイル4を
備え、加えて、コンテンツバウンダリ条件入力手段5と
コンテンツバウンダリ解析手段6を備え、さらに、必要
に応じて、コンテンツバウンダリ情報表示手段7を備え
た構成となっている。
【0042】この第2の文書登録装置では、第1の文書
登録装置のように、登録対象文書3に対して、ユーザ
が、コンテンツバウンダリの位置を明示的に指定するの
ではなく、コンテンツバウンダリ条件を入力すること
で、そのコンテンツバウンダリ条件に基づいて、自動的
にコンテンツバウンダリを設定する。
【0043】すなわち、コンテンツバウンダリ条件入力
手段5により、ユーザがコンテンツバウンダリ条件の入
力を行うと、コンテンツバウンダリ解析手段6により、
ユーザによって設定されたコンテンツバウンダリ条件を
解析する。ここでのコンテンツバウンダリ条件というの
は、たとえば、段落、空行、改行、リスト、リスト項
目、表など文書を1つのまとまりとして抽出できる部分
である。このようなコンテンツ条件をユーザが入力する
と、コンテンツバウンダリ解析手段6が処理対象文書を
たとえばスキャンして、入力されたコンテンツバウンダ
リ条件に基づいて、コンテンツバウンダリ候補の位置や
種類を抽出して、コンテンツバウンダリ情報として出力
する。
【0044】このコンテンツバウンダリ解析手段6によ
って得られたコンテンツバウンダリ情報は、コンテンツ
バウンダリ情報記憶手段2に記憶される。このとき、前
述の第1の文書登録装置と同様に、このコンテンツバウ
ンダリ情報記憶手段2の記憶内容は、コンテンツバウン
ダリ情報ファイル4として保存することもできる。そし
て、そのコンテンツバウンダリ情報は、文書の中に通常
は表示されないデータの形式で埋め込まれて保存されて
もよいし、また、コンテンツ情報のみを文書データとは
別のデータ(たとえば、コンテンツバウンダリ情報テー
ブル)として保存されるようにしてもよい。
【0045】また、コンテンツバウンダリ解析手段6に
よって得られたコンテンツバウンダリ情報は、コンテン
ツバウンダリ情報表示手段7に表示させ、ユーザの設定
したコンテンツバウンダリ条件に対してどのようなコン
テンツ情報が作成されたかをユーザに知らせるようにす
ることもできる。
【0046】以下に具体例を参照しながらさらに説明す
る。
【0047】図5に示すように、たとえば、ディスプレ
イ画面10に登録対象文書3などの表示を行うための表
示エリア10aと、コンテンツバウンダリ条件入力手段
としての表示エリア10bとを設定し、表示エリア10
aには登録対象文書3を表示し、表示エリア10bには
コンテンツバウンダリ条件を表示する。ここでは、コン
テンツバウンダリ条件として、ファイル端、リスト、リ
スト項目、空行、改行、表などが示されている。
【0048】そして、ユーザがたとえば、コンテンツバ
ウンダリ条件として「リスト」を選択したとする(図5
において、選択されたコンテンツバウンダリ条件は黒丸
で示されている)。これにより、コンテンツバウンダリ
解析手段6は、ユーザの設定したコンテンツバウンダリ
条件に基づいて、登録対象文書3内のコンテンツバウン
ダリとなりうるコンテンツバウンダリ候補の位置および
種類の解析を行い、その結果をコンテンツバウンダリ情
報として出力する。
【0049】そして、コンテンツバウンダリ解析手段6
により得られるコンテンツバウンダリ情報に基づいて、
コンテンツバウンダリ位置をディスプレイ画面10の表
示エリア10a上で表示するとともに、前述の第1の文
書登録装置で説明したように、コンテンツバウンダリ解
析手段6により得られるコンテンツバウンダリ情報をコ
ンテンツバウンダリ情報記憶手段2に記憶させる。
【0050】ユーザはディスプレイ画面10の表示エリ
ア10aに表示された内容を見て、自分の意図したコン
テンツバウンダリ位置が適正に反映されているか否かを
判断し、修正したい箇所があればそれを指示することも
できる。
【0051】なお、コンテンツバウンダリ条件は、図5
で示した例のように、予め表示されている幾つかの条件
から選択するというのではなく、ユーザがコンテンツバ
ウンダリ条件や、コンテンツバウンダリとなりうるパタ
ーンなどを入力するようにしてもよい。このコンテンツ
バウンダリとなりうるパターンというのは、たとえば、
文書中に、規則性のある字句や記号が繰り返し現れるよ
うな場合、その字句や記号をコンテンツバウンダリとし
て入力することもできる。たとえば、具体例として、
「1日」という項目があって、その「1日」という項目
のあとに、あるまとまった文章が存在し、行を変えて、
「2日」という項目があって、その「2日」という項目
についてのあるまとまった文章が存在するというよう
に、規則性のある字句や記号が繰り返し現れるような文
書内容があるとする。このような例では、「数字+日」
といったパターンをコンテンツバウンダリ条件として設
定することができる。
【0052】以上説明した第2の実施の形態では、ユー
ザがコンテンツバウンダリ条件を入力するだけで、あと
は、入力されたコンテンツバウンダリ条件に基づいて、
自動的に処理対象文書に対するコンテンツバウンダリ情
報を得ることができる。なお、この第2の文書登録装置
は、第1の文書登録装置と同様に、ユーザが処理対象文
書中に明示的にコンテンツバウンダリを指示することも
可能である。
【0053】(第3の実施の形態)図6は登録対象文書
を登録する際に行われるコンテンツバウンダリ情報取得
についての第3の実施の形態を実現するための文書登録
装置(以下、第3の文書登録装置という)の構成図であ
る。
【0054】この第3の文書登録装置は、図4の第2の
文書登録装置で示されたコンテンツバウンダリ情報記憶
手段2とコンテンツバウンダリ解析手段6、コンテンツ
バウンダリ情報ファイル4を備え、加えて、コンテンツ
バウンダリ知識が格納されたコンテンツバウンダリ知識
ファイル8を備えた構成となっている。
【0055】この第3の文書登録装置では、登録対象文
書3に対し、コンテンツバウンダリ知識ファイル8を用
いて、コンテンツバウンダリとなりうる部分をすべて自
動的に検出し、それをコンテンツバウンダリ情報として
コンテンツバウンダリ情報記憶手段2に記憶させるもの
である。
【0056】前述のコンテンツバウンダリ知識ファイル
8には、コンテンツバウンダリとなりうる各種の条件が
予め記述されている。このコンテンツバウンダリとなり
うる各種の条件とういうのは、たとえば、句点、改行、
空行、大文字見出し、HTMLにおけるタグなどであ
る。
【0057】図7は第3の実施の形態の処理手順を説明
するフローチャートであり、まず、登録対象文書を入力
して(ステップs1)、データの読み込みを行い、文書
末であるか否かを判定し(ステップs2)、文書末であ
れば終了し、文書末でなければステップs3に進む。ス
テップs3では、登録対象文書にコンテンツバウンダリ
候補が存在するか否かを判定し、存在しなければ、ステ
ップs2に戻り、コンテンツバウンダリ候補が有れば、
そのコンテンツバウンダリ候補に対してコンテンツバウ
ンダリ情報を設定し、そのコンテンツバウンダリ情報を
コンテンツバウンダリ情報記憶手段に記憶させる(ステ
ップs4)。
【0058】この図7のフローチャートで示される処理
は、主に、コンテンツバウンダリ解析手段6が行う処理
であり、読み込んだ登録対象文書と、コンテンツバウン
ダリ知識ファイルに記述されているコンテンツバウンダ
リ条件とを比較し、登録対象文書内にコンテンツバウン
ダリ知識ファイルに記述されているコンテンツバウンダ
リ条件に一致する部分が存在すると、コンテンツバウン
ダリ候補を検出したとして、その部分に対応するコンテ
ンツバウンダリ情報を得て、そのコンテンツバウンダリ
情報をコンテンツバウンダリ記憶手段2に記憶させる。
【0059】そして、コンテンツバウンダリ記憶手段2
では、受け取ったコンテンツバウンダリ情報を新たなコ
ンテンツバウンダリ情報として格納する。このとき、前
述の第1、第2の文書登録装置と同様に、コンテンツバ
ウンダリ情報記憶手段2の記憶内容は、コンテンツバウ
ンダリ情報ファイル4として保存することもできる。そ
して、そのコンテンツバウンダリ情報は、文書の中に通
常は表示されないデータの形式で埋め込まれて保存され
てもよいし、また、コンテンツバウンダリ情報のみを文
書データとは別のデータ(たとえば、コンテンツバウン
ダリ情報テーブル)として保存されるようにしてもよ
い。
【0060】以上説明した第3の実施の形態では、登録
対象文書に対し、コンテンツバウンダリ知識ファイル8
の内容に基づいて、自動的にコンテンツバウンダリ情報
を得ることができ、ユーザがコンテンツバウンダリを明
示的に指示したり、コンテンツバウンダリ条件を入力し
たりする操作が不要となる。
【0061】ところで、これまで説明した第1〜第3の
実施の形態にて求められるコンテンツバウンダリ情報
は、たとえば、図8に示すようなコンテンツバウンダリ
情報テーブルとして表すことができる。以下、このコン
テンツバウンダリ情報について図8のコンテンツバウン
ダリ情報テーブルを参照しながら説明する。
【0062】図8で示されるコンテンツバウンダリ情報
テーブルは、そのテーブルの1つの行で示される内容が
1つのコンテンツバウンダリ情報であり、たとえば、第
1行目の内容、つまり、コンテンツバウンダリ識別番号
「1」、コンテンツバウンダリ位置「0」、コンテンツ
バウンダリの種類「ファイル端」、対応するコンテンツ
バウンダリ「140」、ネストレベル「1」は、図3に
おいて、HTMLのコメントタグの一例として示した<
!−CB1 ファイル端 140 1−>に対応するコ
ンテンツバウンダリ情報である。
【0063】このようなコンテンツバウンダリ情報にお
いて、コンテンツバウンダリ識別番号は、その文書のコ
ンテンツバウンダリとなりうる部分に付された番号であ
る。
【0064】また、コンテンツバウンダリ位置は、文書
データの先頭からの文字数を表し、コンテンツバウンダ
リ位置が「0」というのは、文書ファイルの先頭を表し
ている。また、コンテンツバウンダリの種類は、コンテ
ンツバウンダリが文書のどのような部分かを表すもの
で、コンテンツバウンダリの種類が「ファイル端」とい
うのは、コンテンツバウンダリがその文書の端であるこ
とを表している。
【0065】そして、対応するコンテンツバウンダリと
いうのは、コンテンツバウンダリの種類で指定されるコ
ンテンツバウンダリの反対側に位置するコンテンツバウ
ンダリの位置を、コンテンツバウンダリ識別番号で表す
ものである。
【0066】たとえば、コンテンツバウンダリの種類が
「ファイル端」で対応するコンテンツバウンダリが「1
40」であるとすると、ファイルの先頭の反対側のコン
テンツバウンダリ位置、つまり、ファイルの終わりの位
置が、コンテンツバウンダリ識別番号「140」である
ことを表している。
【0067】また、図3のような文書内容において、H
TMLのコメントタグが、<!−CB15 リスト項目
15 3−>となっている場合は、図8で示されるコ
ンテンツバウンダリ情報テーブルからわかるように、コ
ンテンツバウンダリ識別番号は「15」であり、コンテ
ンツバウンダリ位置の「50」は、文書のファイル先頭
からの文字数が51文字目(先頭が0から始まっている
ので、「50」は51文字目となる)を表している。
【0068】また、コンテンツバウンダリの種類が「リ
スト項目」というのは、リストとして記述された幾つか
の項目のうちの1つの項目であることを表している。そ
して、対応するコンテンツバウンダリ「15」は、この
場合、そのリスト項目自体を1つのコンテンツとするこ
とを意味している。
【0069】また、ネストレベルを示す数値は、このコ
ンテンツバウンダリ情報テーブルで表されるように、最
も大きなコンテンツをその文書ファイル全体としたと
き、その文書ファイル全体のネストレベルを「1」と
し、その中に、たとえば、リストという内容が1つのコ
ンテンツとして存在した場合、そのリストによるコンテ
ンツは、その文書ファイル全体で表されるコンテンツの
中に含まれるので、ネストレベルを「2」とし、そのリ
ストの中に存在するリスト項目は、ネストレベルを
「3」とするというように、あるコンテンツの中に含ま
れるコンテンツ、さらにそのコンテンツの中に含まれる
コンテンツというように、包含される度合いが高いほど
ネストレベルを表す数値が大きくなる。
【0070】また、図8のコンテンツバウンダリ情報テ
ーブルにおいて、たとえば、コンテンツバウンダリ識別
番号「3」のコンテンツバウンダリは、そのコンテンツ
バウンダリ位置が「30」であり、コンテンツバウンダ
リの種類が「句点」で、対応するコンテンツバウンダリ
が「2」、ネストレベルが「2」となっている。これ
は、対応するコンテンツバウンダリが「2」であること
から、この場合、「句点」でコンテンツを仕切ると、フ
ァイルの11文字目から31文字目(先頭が0から始ま
っているので、「10」は11文字目、「30」は31
文字目となる)までを1つのコンテンツとするというこ
とであり、そのネストレベルは、ファイル全体を1つの
コンテンツとして考えたとき、そのコンテンツ内に含ま
れるため、ネストレベルが「2」となっている。
【0071】以上のようにして、処理対象文書中のコン
テンツバウンダリ情報が作成され、そのコンテンツバウ
ンダリ情報がコンテンツバウンダリ情報記憶手段2に記
憶される。この図8に示すコンテンツバウンダリ情報テ
ーブルにおいては、そのコンテンツバウンダリ情報テー
ブルにおける1つの行がそれぞれのコンテンツバウンダ
リ情報を示している。
【0072】なお、このようなコンテンツバウンダリ情
報において、バウンダリの種類は、コード化してもよ
い。たとえば、「ファイル端」は「1」、「句点」は
「2」、「リスト」は「3」というようにコード化し
て、そのコードデータを記憶するようにしてもよい。ま
た、バウンダリ位置は文字数でなくても、バイト数でも
よく、また行数でもよい。
【0073】以上が文書を登録する際に、コンテンツバ
ウンダリ情報を得て文書の登録を行う処理である。とこ
ろで、これまでの説明では、登録対象文書そのものを登
録する処理についての説明はなされていないが、この登
録対象文書は所定の登録手段に登録されることはいうま
でもない。この登録は、前述したように、コンテンツバ
ウンダリ情報とは別のデータとして登録されてもよく、
あるいは、コンテンツバウンダリ情報が埋め込まれた状
態で登録されてもよい。
【0074】なお、これまで説明した第1〜第3の文書
登録装置では、登録対象文書からコンテンツバウンダリ
情報を得て、そのコンテンツバウンダリ情報をコンテン
ツバウンダリ情報テーブルとして保存したり、コンテン
ツバウンダリ情報を文書中に埋め込んで保存したりする
ことを可能としている。
【0075】したがって、このようにして登録された文
書は、コンテンツバウンダリ情報を持っているので、こ
の登録された文書に対し、検索処理や複数の文書間の差
分をとるなど何らかの処理を行おうとする際、すでに設
定されたコンテンツバウンダリ情報を用いることで、こ
れらの様々な処理に対応した適切なコンテンツを取り出
すことができ、それぞれの処理を円滑にかつ容易に行う
ことができる。また、処理の種類などによっては、その
処理の種類に応じた適切な大きさのコンテンツを抽出す
る必要がある。本発明は、登録時においては、コンテン
ツそのものを決めるのではなく、コンテンツを取り出す
ためのコンテンツバウンダリ情報を細かく決めているの
で、登録された文書を処理する段階で、コンテンツバウ
ンダリを取捨選択することが可能であり、それによっ
て、取り出すコンテンツの大きさを柔軟に設定すること
ができ、処理に対応したコンテンツを取り出すことがで
きるのも特徴の一つである。
【0076】なお、本発明は以上説明した各実施の形態
に限定されるものではなく、本発明の要旨を逸脱しない
範囲で種々変形実施可能となるものである。また、以上
説明した本発明の文書の登録を行うための処理プログラ
ムは、フロッピィディスク、光ディスク、ハードディス
クなどの記録媒体に記録させておくことができ、本発明
はその記録媒体をも含むものである。また、ネットワー
クから処理プログラムを得るようにしてもよい。
【0077】
【発明の効果】以上説明したように、本発明では、文書
登録する際に、登録対象文書のコンテンツバウンダリ情
報を得て、それを保存しておくことで、登録された文書
を、たとえば、検索に用いたり、文書間の差分を取るな
ど様々な処理に用いる場合の、コンテンツの抽出がきわ
めて簡単に行うことができる。つまり、従来では、登録
された文書に対し、何らかの処理を行う際、その都度、
文書構造解析して、処理に応じたコンテンツバウンダリ
を設定して処理に必要なコンテンツを取り出すという処
理が必要となるが、本発明では、文書の登録時に、コン
テンツバウンダリ情報を抽出しておくので、登録された
文書を処理する際のコンテンツ抽出がきわめて簡単に行
える。
【0078】また、本発明は、登録対象文書に対して、
コンテンツそのものを決めているのではなく、コンテン
ツを取り出すためのコンテンツバウンダリ情報を細かく
決めているので、登録された文書を処理する段階で、コ
ンテンツバウンダリを取捨選択することが可能であっ
て、登録された文書を処理する際に、取り出すコンテン
ツの大きさを柔軟に設定することができ、処理に対応し
たコンテンツを取り出すことができる。したがって、処
理の内容に応じて、文書登録の際に設定された多数のコ
ンテンツバウンダリのうち、必要なコンテンツバウンダ
リのみ選択して、それにより得られるコンテンツを取り
出すことは勿論、文書登録の時に設定されなかったコン
テンツバウンダリを、文書登録の時に新たに追加すると
いうことも比較的容易に行うことが可能となる。
【0079】このように、本発明では、文書の登録時に
コンテンツバウンダリの設定を行っておくことで、その
文書を何らかの処理に用いる場合のコンテンツ抽出を容
易に、しかもコンテンツの大きさを柔軟に設定すること
ができる。これにより、登録された文書を用いて様々な
処理を行う場合にきわめて有効なものとすることができ
る。
【図面の簡単な説明】
【図1】本発明の文書登録装置の第1の実施の形態を説
明するブロック図。
【図2】第1の実施の形態におけるコンテンツバウンダ
リ位置指定についての一例を説明する図。
【図3】第1の実施の形態におけるコンテンツバウンダ
リ情報を文書中に埋め込んだ例を示す図。
【図4】本発明の文書登録装置の第2の実施の形態を説
明するブロック図。
【図5】第2の実施の形態におけるコンテンツバウンダ
リ条件入力を行う例を説明する図。
【図6】本発明の文書登録装置の第3の実施の形態を説
明するブロック図。
【図7】第3の実施の形態におけるコンテンツバウンダ
リ情報を抽出する処理を説明するフローチャート。
【図8】本発明の各実施の形態において得られるコンテ
ンツバウンダリ情報をコンテンツバウンダリ情報テーブ
ルとして表した図。
【符号の説明】
1 コンテンツバウンダリ入力手段 2 コンテンツバウンダリ情報記憶手段 3 登録対象文書 4 コンテンツバウンダリ情報ファイル 5 コンテンツバウンダリ条件入力手段 6 コンテンツバウンダリ解析手段 7 コンテンツバウンダリ情報表示手段 8 コンテンツバウンダリ知識ファイル

Claims (13)

    【特許請求の範囲】
  1. 【請求項1】 登録すべき文書に対し、文書内容のまと
    まりの境界を示すコンテンツバウンダリの位置の指定が
    可能なコンテンツバウンダリ入力手段と、 このコンテンツバウンダリ入力手段により指定されたコ
    ンテンツバウンダリの位置に対応するコンテンツバウン
    ダリ情報を記憶するコンテンツバウンダリ情報記憶手段
    と、 を少なくとも有したことを特徴とする文書登録装置。
  2. 【請求項2】 登録すべき文書に対し、文書内容のまと
    まりの境界を示すコンテンツバウンダリを設定するため
    のコンテンツバウンダリ条件を与えるコンテンツバウン
    ダリ条件入力手段と、 このコンテンツバウンダリ条件を受けると、前記登録す
    べき文書に対し、そのコンテンツバウンダリ条件に基づ
    くコンテンツバウンダリ解析を行い、コンテンツバウン
    ダリ情報を出力するコンテンツバウンダリ解析手段と、 このコンテンツバウンダリ解析手段により出力されたコ
    ンテンツバウンダリ情報を記憶するコンテンツバウンダ
    リ情報記憶手段と、 を少なくとも有したことを特徴とする文書登録装置。
  3. 【請求項3】 登録すべき文書の文書内容のまとまりの
    境界を示すコンテンツバウンダリについての知識を予め
    蓄えたコンテンツバウンダリ知識ファイルと、 このコンテンツバウンダリ知識ファイル内のコンテンツ
    バウンダリ知識に基づいて、前記登録すべき文書に対
    し、コンテンツバウンダリ解析を行い、コンテンツバウ
    ンダリ情報を出力するコンテンツバウンダリ解析手段
    と、 このコンテンツバウンダリ解析手段により出力されたコ
    ンテンツバウンダリ情報を記憶するコンテンツバウンダ
    リ情報記憶手段と、 を少なくとも有したことを特徴とする文書登録装置。
  4. 【請求項4】 前記コンテンツバウンダリ情報は、登録
    すべき文書中にコンテンツバウンダリであることを示す
    データとして埋め込んで前記コンテンツバウンダリ情報
    記憶手段に保存されることを特徴とする請求項1〜3の
    いずれかに記載の文書登録装置。
  5. 【請求項5】 前記コンテンツバウンダリ情報は、コン
    テンツバウンダリ情報テーブルとして前記コンテンツバ
    ウンダリ情報記憶手段に保存されることを特徴とする請
    求項1〜3のいずれかに記載の文書登録装置。
  6. 【請求項6】 登録すべき文書に対し、文書内容のまと
    まりの境界を示すコンテンツバウンダリの位置の指定が
    なされると、その指定されたコンテンツバウンダリ位置
    に対応するコンテンツバウンダリ情報を記憶する処理を
    文書登録処理に含むことを特徴とする文書登録方法。
  7. 【請求項7】 登録すべき文書に対し、文書内容のまと
    まりの境界を示すコンテンツバウンダリを設定するため
    のコンテンツバウンダリ条件が与えられると、このコン
    テンツバウンダリ条件を受けて、前記登録すべき文書に
    対し、そのコンテンツバウンダリ条件に基づくコンテン
    ツバウンダリ解析を行い、コンテンツバウンダリ条件に
    対応したコンテンツバウンダリ情報を出力し、このコン
    テンツバウンダリ情報を記憶する処理を文書登録処理に
    含むことを特徴とする文書登録方法。
  8. 【請求項8】 登録すべき文書に対する文書内容のまと
    まりを示すコンテンツバウンダリについての知識を予め
    蓄えたコンテンツバウンダリ知識ファイルを備え、この
    コンテンツバウンダリ知識ファイル内のコンテンツバウ
    ンダリ知識に基づいて、登録すべき文書に対し、コンテ
    ンツバウンダリ解析を行い、コンテンツバウンダリ情報
    を出力し、このコンテンツバウンダリ情報を記憶する処
    理を文書登録処理に含むことを特徴とする文書登録方
    法。
  9. 【請求項9】 前記コンテンツバウンダリ情報は、登録
    すべき文書中にコンテンツバウンダリであることを示す
    データとして埋め込んで保存されることを特徴とする請
    求項6〜8のいずれかに記載の文書登録方法。
  10. 【請求項10】 前記コンテンツバウンダリ情報は、コ
    ンテンツバウンダリ情報テーブルとして保存されること
    を特徴とする請求項6〜8のいずれかに記載の文書登録
    方法。
  11. 【請求項11】 文書登録を行うための処理プログラム
    を記憶した記憶媒体であって、その処理プログラムは、
    登録すべき文書に対して文書内容のまとまりの境界を示
    すコンテンツバウンダリの位置の指定がなされると、そ
    の指定されたコンテンツバウンダリ位置に対応するコン
    テンツバウンダリ情報を記憶する処理を含むことを特徴
    とする文書登録を行うための処理プログラムを記憶した
    記憶媒体。
  12. 【請求項12】 文書登録を行うための処理プログラム
    を記憶した記憶媒体であって、その処理プログラムは、
    登録すべき文書に対する文書内容のまとまりの境界を示
    すコンテンツバウンダリを設定するためのコンテンツバ
    ウンダリ条件が与えられると、このコンテンツバウンダ
    リ条件を受けて、前記登録すべき文書に対し、そのコン
    テンツバウンダリ条件に基づくコンテンツバウンダリ解
    析を行い、コンテンツバウンダリ条件に対応したコンテ
    ンツバウンダリ情報を出力し、このコンテンツバウンダ
    リ情報を記憶する処理を含むことを特徴とする文書登録
    を行うための処理プログラムを記憶した記憶媒体。
  13. 【請求項13】 文書登録を行うための処理プログラム
    を記憶した記憶媒体であって、その処理プログラムは、
    登録すべき文書に対する文書内容のまとまりの境界を示
    すコンテンツバウンダリについての知識を蓄えたコンテ
    ンツバウンダリ知識ファイル内のコンテンツバウンダリ
    知識に基づいて、前記登録すべき文書に対し、コンテン
    ツバウンダリ解析を行い、コンテンツバウンダリ情報を
    出力し、このコンテンツバウンダリ情報を記憶する処理
    を含むことを特徴とする文書登録を行うための処理プロ
    グラムを記憶した記憶媒体。
JP9307724A 1997-11-10 1997-11-10 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体 Withdrawn JPH11143898A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9307724A JPH11143898A (ja) 1997-11-10 1997-11-10 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9307724A JPH11143898A (ja) 1997-11-10 1997-11-10 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体

Publications (1)

Publication Number Publication Date
JPH11143898A true JPH11143898A (ja) 1999-05-28

Family

ID=17972496

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9307724A Withdrawn JPH11143898A (ja) 1997-11-10 1997-11-10 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JPH11143898A (ja)

Similar Documents

Publication Publication Date Title
US8983962B2 (en) Question and answer data editing device, question and answer data editing method and question answer data editing program
US20070050709A1 (en) Character input aiding method and information processing apparatus
KR20070009338A (ko) 이미지 상호간의 유사도를 고려한 이미지 검색 방법 및장치
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
JP2005151127A5 (ja)
TWI794547B (zh) 文書檢索裝置、文書檢索程式、文書檢索方法
JP2005107931A (ja) 画像検索装置
JP2003178075A5 (ja)
JP2008181218A (ja) 入力支援方法及び装置
JP2007279978A (ja) 文書検索装置及び文書検索方法
JP3711636B2 (ja) 情報検索装置および方法
CN111079777A (zh) 一种基于书页定位的点读方法及电子设备
JP2005115457A (ja) 文書ファイル検索方法
JPH11143898A (ja) 文書登録装置及び方法並びに文書登録を行うための処理プログラムを記憶した記憶媒体
JP4677750B2 (ja) 文書属性取得方法および装置並びにプログラムを記録した記録媒体
JP5826148B2 (ja) 図面管理サーバ及びこれを用いた図面管理システム
JP2004342016A (ja) 情報探索プログラム及び情報探索プログラムを記録した媒体
JPH11143899A (ja) 登録文書処理装置及び方法並びに登録文書を処理するための処理プログラムを記憶した記憶媒体
JP5379416B2 (ja) 言語処理装置および言語処理方法
JP2001297080A (ja) 読取支援装置
JP3933407B2 (ja) 文書処理装置、文書処理方法および文書処理プログラムが格納された記憶媒体
JP2007317131A (ja) 文書管理方法及び文書検索方法及び装置及びプログラム
JP2008046850A (ja) 文書種類判別装置及び文書種類判別プログラム
JP5585145B2 (ja) 修正箇所判別装置、修正箇所判別プログラム、および修正箇所判別方法
JP2008234297A (ja) 回路ブロック検出装置、その方法及びプログラム

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050201