JP3448922B2 - 電子文書記憶装置 - Google Patents
電子文書記憶装置Info
- Publication number
- JP3448922B2 JP3448922B2 JP27733793A JP27733793A JP3448922B2 JP 3448922 B2 JP3448922 B2 JP 3448922B2 JP 27733793 A JP27733793 A JP 27733793A JP 27733793 A JP27733793 A JP 27733793A JP 3448922 B2 JP3448922 B2 JP 3448922B2
- Authority
- JP
- Japan
- Prior art keywords
- electronic document
- document
- template information
- electronic
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
【0001】
【産業上の利用分野】本発明は、パーソナルコンピュー
タ、ワークステーション、あるいはワードプロセッサ等
によって作成された電子文書を効率良くファイリングす
ることができる電子文書記憶装置に関するものである。
タ、ワークステーション、あるいはワードプロセッサ等
によって作成された電子文書を効率良くファイリングす
ることができる電子文書記憶装置に関するものである。
【0002】
【従来の技術】従来、パーソナルコンピュータ、ワーク
ステーション、あるいはワードプロセッサ等によって作
成された電子文書を電子文書記憶装置にファイリングす
る際に先立って、ユーザは、手作業で電子文書に分類付
けを行う。そして、この分類に基づいて、電子文書は、
電子文書記憶装置等にファイリングされていた。上記従
来の電子文書記憶装置は、上記電子文書をファイリング
する際に、通常のファイルをキャビネットや書棚に格納
する際の手法を模倣していた。たとえば、電子文書記憶
装置にキャビネットやバインダーに相当するフォルダ
(格納場所)を備え、ユーザは、このフォルダ毎に格納
可能な電子文書の種類を定め、この分類規則にしたがっ
て、電子文書のファイリングあるいは検索を行なってい
た。
ステーション、あるいはワードプロセッサ等によって作
成された電子文書を電子文書記憶装置にファイリングす
る際に先立って、ユーザは、手作業で電子文書に分類付
けを行う。そして、この分類に基づいて、電子文書は、
電子文書記憶装置等にファイリングされていた。上記従
来の電子文書記憶装置は、上記電子文書をファイリング
する際に、通常のファイルをキャビネットや書棚に格納
する際の手法を模倣していた。たとえば、電子文書記憶
装置にキャビネットやバインダーに相当するフォルダ
(格納場所)を備え、ユーザは、このフォルダ毎に格納
可能な電子文書の種類を定め、この分類規則にしたがっ
て、電子文書のファイリングあるいは検索を行なってい
た。
【0003】上記のように、ユーザは、定められた分類
規則を遵守して、電子文書を手作業によって電子文書記
憶装置にファイリングするため、作業能率が悪い。そこ
で、上記欠点を除去するために、ユーザが手作業で分類
付けを行なうことなく、分類を自動化する文書管理装置
が考案されている。たとえば、特開平2−96268号
公報における「文書管理装置」では、電子文書に予め付
与されたキーワードを利用して、システムの定められた
格納場所に電子文書を分類する方式が記載されている。
この文書管理装置では、ディレクトリ毎に格納可能な電
子文書の条件が指定される。たとえば、「あるディレク
トリには、『データベース』というキーワードが与えら
れている電子文書だけが格納できる」という情報をシス
テムが保持する。この条件を利用して、電子文書が自動
的に分類される。このような手法を利用すると、分類条
件を変更することによって、再分類することが可能にな
っている。
規則を遵守して、電子文書を手作業によって電子文書記
憶装置にファイリングするため、作業能率が悪い。そこ
で、上記欠点を除去するために、ユーザが手作業で分類
付けを行なうことなく、分類を自動化する文書管理装置
が考案されている。たとえば、特開平2−96268号
公報における「文書管理装置」では、電子文書に予め付
与されたキーワードを利用して、システムの定められた
格納場所に電子文書を分類する方式が記載されている。
この文書管理装置では、ディレクトリ毎に格納可能な電
子文書の条件が指定される。たとえば、「あるディレク
トリには、『データベース』というキーワードが与えら
れている電子文書だけが格納できる」という情報をシス
テムが保持する。この条件を利用して、電子文書が自動
的に分類される。このような手法を利用すると、分類条
件を変更することによって、再分類することが可能にな
っている。
【0004】
【発明が解決しようとする課題】特開平2−96268
号公報における「文書管理装置」に示された分類の情報
としては、キーワードとキーセンテンスをあげている。
しかし、これらのキーワードおよびキーセンテンスは、
電子文書がもともと備えていた情報ではなく、格納時に
ユーザが付与するものである。また、従来の電子文書フ
ァイリング装置が取り扱う電子文書は、印刷された文書
をスキャナーで読み取ったイメージである。したがっ
て、電子文書ファイリング装置は、文書が構造をもたな
いので、文書構造に基づく処理の対象にはなり得なかっ
た。上記手法は、構造をもった電子文書として、管理す
ることが可能である。しかし、電子文書をキーワードや
キーセンテンスで分類した場合には、同一のフォルダに
あるにもかかわらず、電子文書間の文書構造が異なるこ
とがある。その電子文書間の文書構造が異なるため、電
子文書の一部を取り出すような操作を行なう場合には、
フォルダに格納されているすべての電子文書に同じ操作
を適用できる保証がなかった。この問題は、電子文書の
分類に文書構造が考慮されていないことに起因する。
号公報における「文書管理装置」に示された分類の情報
としては、キーワードとキーセンテンスをあげている。
しかし、これらのキーワードおよびキーセンテンスは、
電子文書がもともと備えていた情報ではなく、格納時に
ユーザが付与するものである。また、従来の電子文書フ
ァイリング装置が取り扱う電子文書は、印刷された文書
をスキャナーで読み取ったイメージである。したがっ
て、電子文書ファイリング装置は、文書が構造をもたな
いので、文書構造に基づく処理の対象にはなり得なかっ
た。上記手法は、構造をもった電子文書として、管理す
ることが可能である。しかし、電子文書をキーワードや
キーセンテンスで分類した場合には、同一のフォルダに
あるにもかかわらず、電子文書間の文書構造が異なるこ
とがある。その電子文書間の文書構造が異なるため、電
子文書の一部を取り出すような操作を行なう場合には、
フォルダに格納されているすべての電子文書に同じ操作
を適用できる保証がなかった。この問題は、電子文書の
分類に文書構造が考慮されていないことに起因する。
【0005】本発明は、以上のような課題を解決するた
めのもので、文書構造に基づいて電子文書を分類するこ
とによって、同一のフォルダに格納されている電子文書
を一括して自動処理することができる電子文書記憶装置
を提供することを目的とする。
めのもので、文書構造に基づいて電子文書を分類するこ
とによって、同一のフォルダに格納されている電子文書
を一括して自動処理することができる電子文書記憶装置
を提供することを目的とする。
【0006】
【課題を解決するための手段】前記目的を達成するため
に、本発明の電子文書記憶装置は、基本構成として、電
子文書の構造が定められた複数のテンプレート情報を保
持するテンプレート保持手段と、電子文書を読み込む電
子文書読み込み手段と、前記電子文書読み込み手段によ
り読み込まれた電子文書の構造を解析し、前記複数のテ
ンプレート情報とのマッチングを行う電子文書構造解析
手段と、前記電子文書とマッチングした前記テンプレー
ト情報に基づいて前記電子文書を分類する電子文書記憶
手段とを備える。
に、本発明の電子文書記憶装置は、基本構成として、電
子文書の構造が定められた複数のテンプレート情報を保
持するテンプレート保持手段と、電子文書を読み込む電
子文書読み込み手段と、前記電子文書読み込み手段によ
り読み込まれた電子文書の構造を解析し、前記複数のテ
ンプレート情報とのマッチングを行う電子文書構造解析
手段と、前記電子文書とマッチングした前記テンプレー
ト情報に基づいて前記電子文書を分類する電子文書記憶
手段とを備える。
【0007】
【作用】電子文書読み込み手段によって読み込まれた電
子文書は、予めテンプレート情報保持手段に保持された
テンプレート情報に基づき、電子文書構造解析手段によ
り構造が解析され、前記複数のテンプレート情報とのマ
ッチングが行われる。次に、電子文書構造解析手段によ
る電子文書の構造を解析した結果は、たとえば電子文書
管理手段に渡される。電子文書管理手段は、電子文書の
構造が解析された結果に基づき、前記電子文書とマッチ
ングした前記テンプレート情報に基づいて前記電子文書
が分類されて、文書構造に応じた電子文書記憶手段の適
切な場所に保存される。したがって、電子文書は、その
構造に基づいて自動的に電子文書記憶手段に保存され、
構造的に分類された電子文書の一部を上記電子文書記憶
手段から読み出すことができる。
子文書は、予めテンプレート情報保持手段に保持された
テンプレート情報に基づき、電子文書構造解析手段によ
り構造が解析され、前記複数のテンプレート情報とのマ
ッチングが行われる。次に、電子文書構造解析手段によ
る電子文書の構造を解析した結果は、たとえば電子文書
管理手段に渡される。電子文書管理手段は、電子文書の
構造が解析された結果に基づき、前記電子文書とマッチ
ングした前記テンプレート情報に基づいて前記電子文書
が分類されて、文書構造に応じた電子文書記憶手段の適
切な場所に保存される。したがって、電子文書は、その
構造に基づいて自動的に電子文書記憶手段に保存され、
構造的に分類された電子文書の一部を上記電子文書記憶
手段から読み出すことができる。
【0008】
【実 施 例】図1は本発明の一実施例を説明するため
のブロック構成図である。図1において、電子文書記憶
装置は、電子文書を読み込む電子文書読み込み手段11
と、電子文書読み込み手段11によって読み込まれた電
子文書の構造/構文を解析する電子文書構造/構文解析
手段12と、電子文書の構造に基づいた検索操作を入力
する電子文書操作入力手段13と、当該電子文書操作入
力手段13の入力操作を解釈して電子文書を検索する電
子文書管理手段14と、構造/構文解析の結果に基づく
文書構造で保持する電子文書保持手段15と、電子文書
の構造/構文を解析するために、予め保持するテンプレ
ート情報保持手段16と、異なるフォーマットからなる
電子文書をテンプレート処理ができるように変換するた
めの情報を備えたフォーマット情報保持手段17とから
構成される。
のブロック構成図である。図1において、電子文書記憶
装置は、電子文書を読み込む電子文書読み込み手段11
と、電子文書読み込み手段11によって読み込まれた電
子文書の構造/構文を解析する電子文書構造/構文解析
手段12と、電子文書の構造に基づいた検索操作を入力
する電子文書操作入力手段13と、当該電子文書操作入
力手段13の入力操作を解釈して電子文書を検索する電
子文書管理手段14と、構造/構文解析の結果に基づく
文書構造で保持する電子文書保持手段15と、電子文書
の構造/構文を解析するために、予め保持するテンプレ
ート情報保持手段16と、異なるフォーマットからなる
電子文書をテンプレート処理ができるように変換するた
めの情報を備えたフォーマット情報保持手段17とから
構成される。
【0009】本実施例では、電子文書構造/構文解析手
段12によって解析された結果に基づき、電子文書を電
子文書保持手段15における複数のフォルダに分類し格
納する。予め決められた構造/構文の電子文書は、各フ
ォルダに格納されるようになっており、該当するフォル
ダがない場合、特別に用意された「その他」のフォルダ
に格納される。「その他」のフォルダを備えることで、
予想されていない電子文書は、「その他」のフォルダに
分類された後、そのフォルダに格納される。「その他」
のフォルダに分類された電子文書については、後処理と
して、既存のフォルダに合うように電子文書の構造を変
更するか、または、その電子文書の構造に合うフォルダ
を新規に作成して、そのフォルダに格納するなどの処理
を行うことができる。
段12によって解析された結果に基づき、電子文書を電
子文書保持手段15における複数のフォルダに分類し格
納する。予め決められた構造/構文の電子文書は、各フ
ォルダに格納されるようになっており、該当するフォル
ダがない場合、特別に用意された「その他」のフォルダ
に格納される。「その他」のフォルダを備えることで、
予想されていない電子文書は、「その他」のフォルダに
分類された後、そのフォルダに格納される。「その他」
のフォルダに分類された電子文書については、後処理と
して、既存のフォルダに合うように電子文書の構造を変
更するか、または、その電子文書の構造に合うフォルダ
を新規に作成して、そのフォルダに格納するなどの処理
を行うことができる。
【0010】本実施例では、電子文書を分類するため
に、テンプレート情報を用いる。SGML(Stand
ard Generalized Markup La
nguage,ISO8879)の文書のように、文書
構造があらかじめ定められている電子文書は、タイト
ル、内容などの文書の構成要素が決まっている。これら
の情報をテンプレートとし、入力文書データとマッチン
グを行う。この場合、テンプレートは、SGMLのDT
D(Document Type Definitio
n 以下、本明細書において、単にDTDと記載する)
に準じたものとなる。以下は、記事のDTDの例であ
る。 <!DOCTYPE 記事 [ <!ELEMENT 記事 −O(タイトル,本文)
> <!ELEMENT タイトル−O(#PCDATA)
> <!ELEMENT 本文 −O(#PCDATA)
> ]>
に、テンプレート情報を用いる。SGML(Stand
ard Generalized Markup La
nguage,ISO8879)の文書のように、文書
構造があらかじめ定められている電子文書は、タイト
ル、内容などの文書の構成要素が決まっている。これら
の情報をテンプレートとし、入力文書データとマッチン
グを行う。この場合、テンプレートは、SGMLのDT
D(Document Type Definitio
n 以下、本明細書において、単にDTDと記載する)
に準じたものとなる。以下は、記事のDTDの例であ
る。 <!DOCTYPE 記事 [ <!ELEMENT 記事 −O(タイトル,本文)
> <!ELEMENT タイトル−O(#PCDATA)
> <!ELEMENT 本文 −O(#PCDATA)
> ]>
【0011】このDTDで定められる電子文書は、上記
記載から、電子文書のタイプが「記事」であることが判
る。そして、「記事」は、タイトルと本文という要素か
ら構成されていることが判る。また、タイトルと本文の
内容は、文字列である。このDTDから作られた例を以
下に示す。 <記事> <タイトル>サンプル</タイトル> <本文>ここには本文が書かれています。</本文> </記事> <記事>は、ここから文書構造が記述されることを示
し、</記事>で終了していることを示す。 <タイトル>と</タイトル>にはさまれた文字列「サ
ンプル」は、要素「タイトル」の内容である。<本文>
と</本文>にはさまれた文字列「ここには本文が書か
れています。」は、要素「本文」の内容である。
記載から、電子文書のタイプが「記事」であることが判
る。そして、「記事」は、タイトルと本文という要素か
ら構成されていることが判る。また、タイトルと本文の
内容は、文字列である。このDTDから作られた例を以
下に示す。 <記事> <タイトル>サンプル</タイトル> <本文>ここには本文が書かれています。</本文> </記事> <記事>は、ここから文書構造が記述されることを示
し、</記事>で終了していることを示す。 <タイトル>と</タイトル>にはさまれた文字列「サ
ンプル」は、要素「タイトル」の内容である。<本文>
と</本文>にはさまれた文字列「ここには本文が書か
れています。」は、要素「本文」の内容である。
【0012】以下は、論文のDTDの例である。
<!DOCTYPE 論文 [
<!ELEMENT 論文 −O(タイトル,著者,
サマリ,本文,参考文献)> <!ELEMENT タイトル−O(#PCDATA)
> <!ELEMENT 著者 −O(#PCDATA)
> <!ELEMENT サマリ −O(#PCDATA)
> <!ELEMENT 本文 −O(#PCDATA)
> <!ELEMENT 参考文献−O(#PCDATA)
> ]>
サマリ,本文,参考文献)> <!ELEMENT タイトル−O(#PCDATA)
> <!ELEMENT 著者 −O(#PCDATA)
> <!ELEMENT サマリ −O(#PCDATA)
> <!ELEMENT 本文 −O(#PCDATA)
> <!ELEMENT 参考文献−O(#PCDATA)
> ]>
【0013】このDTDで定められる電子文書は、上記
記載から、電子文書のタイプが「論文」であることが判
る。そして、「論文」は、タイトル、著者、サマリ、本
文、参考文献という要素から構成されていることが判
る。また、タイトル、著者、サマリ、本文、参考文献の
内容は、文字列である。このDTDから作られた例を以
下に示す。 <論文> <タイトル>電子文書構造化について</タイトル> <著者>倉橋政之</著者> <サマリ>サマリが書かれています。</サマリ> <本文>ここには本文が書かれています。</本文> <参考文献>特開平2−96268号公報</参考文献
> </論文>
記載から、電子文書のタイプが「論文」であることが判
る。そして、「論文」は、タイトル、著者、サマリ、本
文、参考文献という要素から構成されていることが判
る。また、タイトル、著者、サマリ、本文、参考文献の
内容は、文字列である。このDTDから作られた例を以
下に示す。 <論文> <タイトル>電子文書構造化について</タイトル> <著者>倉橋政之</著者> <サマリ>サマリが書かれています。</サマリ> <本文>ここには本文が書かれています。</本文> <参考文献>特開平2−96268号公報</参考文献
> </論文>
【0014】図2は本発明の一実施例で、テンプレート
情報を模式的に表したものである。ワードプロセッサを
用いて作成された電子文書のように、文書構造があらか
じめ定められていない電子文書については、各電子文書
の種類に応じて、その構成要素(たとえば、タイトル、
著者など)を列挙し、その位置、活字サイズ、文字修
飾、キーワードについてのヒント情報を持つことによ
り、構造解析の精度を上げるようになっている。図1に
おいて、電子文書構造/構文解析手段12は、電子文書
の構造/構文を解析し、テンプレート情報とのマッチン
グを行う。たとえば、LATEX(文書処理システムL
ATEX,L.Lamport,アスキー出版局 参
照)などの文書フォーマットの場合は、テンプレート情
報とその文書フォーマットが使用するスタイル情報との
対応表としてフォーマット情報保持手段17に持つこと
により行う。その他の本質的に構造を持たない文書フォ
ーマットの場合は、フォーマット情報保持手段17に保
持された情報をもとに段落の判定を行い、テンプレート
情報保持手段16に格納された、位置、活字サイズ、文
字修飾、キーワードについてのヒント情報と、図1に示
す電子文書構造/構文解析手段12における解析の結果
を元に文書構造を判断する。
情報を模式的に表したものである。ワードプロセッサを
用いて作成された電子文書のように、文書構造があらか
じめ定められていない電子文書については、各電子文書
の種類に応じて、その構成要素(たとえば、タイトル、
著者など)を列挙し、その位置、活字サイズ、文字修
飾、キーワードについてのヒント情報を持つことによ
り、構造解析の精度を上げるようになっている。図1に
おいて、電子文書構造/構文解析手段12は、電子文書
の構造/構文を解析し、テンプレート情報とのマッチン
グを行う。たとえば、LATEX(文書処理システムL
ATEX,L.Lamport,アスキー出版局 参
照)などの文書フォーマットの場合は、テンプレート情
報とその文書フォーマットが使用するスタイル情報との
対応表としてフォーマット情報保持手段17に持つこと
により行う。その他の本質的に構造を持たない文書フォ
ーマットの場合は、フォーマット情報保持手段17に保
持された情報をもとに段落の判定を行い、テンプレート
情報保持手段16に格納された、位置、活字サイズ、文
字修飾、キーワードについてのヒント情報と、図1に示
す電子文書構造/構文解析手段12における解析の結果
を元に文書構造を判断する。
【0015】以上により、論文20の場合は、一般的に
タイトル21、著者22、サマリ23、本文24、参考
文献25等から構成される。そして、たとえば、タイト
ル21には、その位置、活字サイズ、タイトル文字の修
飾、キーワード等が記述されている。以下、著者22な
いし参考文献25についても同様である。図3は本発明
の一実施例で、記事を表すテンプレート情報の一例を示
す図である。図3において、記事30は、タイトル31
と本文32とから構成される。図4は本発明の一実施例
で、カタログを表すテンプレート情報の一例を示す図で
ある。図4において、カタログ40は、タイトル41、
画像42、テキスト(内容の説明)43、商品番号4
4、価格45から構成される。図5は本発明の一実施例
で、マニュアルを表すテンプレート情報の一例を示す図
である。図5において、マニュアル50は、タイトル5
1、使い方のサマリ52、目次53、詳細な内容54、
索引55から構成される。
タイトル21、著者22、サマリ23、本文24、参考
文献25等から構成される。そして、たとえば、タイト
ル21には、その位置、活字サイズ、タイトル文字の修
飾、キーワード等が記述されている。以下、著者22な
いし参考文献25についても同様である。図3は本発明
の一実施例で、記事を表すテンプレート情報の一例を示
す図である。図3において、記事30は、タイトル31
と本文32とから構成される。図4は本発明の一実施例
で、カタログを表すテンプレート情報の一例を示す図で
ある。図4において、カタログ40は、タイトル41、
画像42、テキスト(内容の説明)43、商品番号4
4、価格45から構成される。図5は本発明の一実施例
で、マニュアルを表すテンプレート情報の一例を示す図
である。図5において、マニュアル50は、タイトル5
1、使い方のサマリ52、目次53、詳細な内容54、
索引55から構成される。
【0016】そして、電子文書構造/構文解析手段12
は、たとえば図2ないし図5に示すテンプレート情報に
よって電子文書を解析し、その結果に基づいて電子文書
を電子文書保持手段15における「論文」、「記事」、
「カタログ」、「マニュアル」というフォルダにそれぞ
れ格納する。電子文書構造/構文解析手段12は、も
し、上記分類にあてはまらない場合、その電子文書を
「その他」というフォルダに格納する。図6は本発明の
一実施例で、フォルダによる分類を模式的に表したもの
である。図6において、「電子文書」61というフォル
ダの中に、「論文」62、「記事」63、「その他」6
4というフォルダが入り、それぞれのフォルダの中に
は、そのフォルダに分類された電子文書が入っている。
は、たとえば図2ないし図5に示すテンプレート情報に
よって電子文書を解析し、その結果に基づいて電子文書
を電子文書保持手段15における「論文」、「記事」、
「カタログ」、「マニュアル」というフォルダにそれぞ
れ格納する。電子文書構造/構文解析手段12は、も
し、上記分類にあてはまらない場合、その電子文書を
「その他」というフォルダに格納する。図6は本発明の
一実施例で、フォルダによる分類を模式的に表したもの
である。図6において、「電子文書」61というフォル
ダの中に、「論文」62、「記事」63、「その他」6
4というフォルダが入り、それぞれのフォルダの中に
は、そのフォルダに分類された電子文書が入っている。
【0017】上記実施例において、テンプレート情報の
定義方法により、分類に階層を設定することができる。
たとえば、図2に示すテンプレート情報の場合、「論
文」は、“著者”、“サマリ”、“本文”、“参考文
献”をまとめて、“本文”と設定することにより、「記
事」としても分類が可能である。この場合、「記事」と
いう大きい分類に対応するフォルダの中に、より詳細な
分類、すなわち、「論文」に対応するフォルダを設ける
ことにより、フォルダに階層を設ける。
定義方法により、分類に階層を設定することができる。
たとえば、図2に示すテンプレート情報の場合、「論
文」は、“著者”、“サマリ”、“本文”、“参考文
献”をまとめて、“本文”と設定することにより、「記
事」としても分類が可能である。この場合、「記事」と
いう大きい分類に対応するフォルダの中に、より詳細な
分類、すなわち、「論文」に対応するフォルダを設ける
ことにより、フォルダに階層を設ける。
【0018】図7は、本発明の一実施例で、階層化され
たフォルダによる分類を模式的に表したものである。図
7に示す「記事」は、その中に、「論文」というフォル
ダが入っている例である。図7に示す例では、ユーザが
論文である電子文書71を「論文」76というフォルダ
で取り出すこともできるし、より大きな分類である「記
事」72というフォルダでも取り出すことができる。本
実施例は、テンプレート情報が階層化されており、下位
の階層のテンプレート情報ほど、より詳細な構造を表現
することになる。
たフォルダによる分類を模式的に表したものである。図
7に示す「記事」は、その中に、「論文」というフォル
ダが入っている例である。図7に示す例では、ユーザが
論文である電子文書71を「論文」76というフォルダ
で取り出すこともできるし、より大きな分類である「記
事」72というフォルダでも取り出すことができる。本
実施例は、テンプレート情報が階層化されており、下位
の階層のテンプレート情報ほど、より詳細な構造を表現
することになる。
【0019】図8は本発明の実施例におけるテンプレー
トの階層情報を模式的に表した図である。このテンプレ
ートの階層情報は、たとえば電子文書81、記事82、
論文83、およびその他84から構成され、図1に示す
テンプレート情報保持手段16にテンプレート情報と共
に格納されている。そして、図1に示す電子文書構造/
構文解析手段12は、このテンプレートの階層情報を基
に上位のテンプレート情報から順次マッチングを行う。
トの階層情報を模式的に表した図である。このテンプレ
ートの階層情報は、たとえば電子文書81、記事82、
論文83、およびその他84から構成され、図1に示す
テンプレート情報保持手段16にテンプレート情報と共
に格納されている。そして、図1に示す電子文書構造/
構文解析手段12は、このテンプレートの階層情報を基
に上位のテンプレート情報から順次マッチングを行う。
【0020】図9は本発明の実施例におけるテンプレー
トのクラス階層情報を模式的に表した図である。クラス
階層情報は、たとえば電子文書クラス91と、記事文書
クラス92と、論文文書クラス93とから構成される。
そして、電子文書クラス91には、可能なオペレーショ
ンとして、「全文の取り出し」がある。論文文書クラス
93には、可能なオペレーションとして、たとえば、
「タイトルの取り出し」、「著者の取り出し」、「サマ
リの取り出し」、「論文本文の取り出し」、「参考文献
の取り出し」がある。図1に示す電子文書構造/構文解
析手段12は、電子文書の構造/構文を解析した結果に
基づき、電子文書を予め設定しておいた電子文書クラス
に分ける。
トのクラス階層情報を模式的に表した図である。クラス
階層情報は、たとえば電子文書クラス91と、記事文書
クラス92と、論文文書クラス93とから構成される。
そして、電子文書クラス91には、可能なオペレーショ
ンとして、「全文の取り出し」がある。論文文書クラス
93には、可能なオペレーションとして、たとえば、
「タイトルの取り出し」、「著者の取り出し」、「サマ
リの取り出し」、「論文本文の取り出し」、「参考文献
の取り出し」がある。図1に示す電子文書構造/構文解
析手段12は、電子文書の構造/構文を解析した結果に
基づき、電子文書を予め設定しておいた電子文書クラス
に分ける。
【0021】電子文書保持手段15には、これらの電子
文書クラスが定める構造に応じた形で文書が保存され
る。本実施例では、文書全体を一つの単位として保存す
るのではなく、テンプレートでマッチングした電子文書
の構造単位で保存する。たとえば、図2に示す「論文」
のテンプレート情報を用いて、マッチングした場合は、
「タイトル」、「著者」、「サマリ」、「本文」、「参
考文献」という単位で電子文書保持手段15に格納され
る。図9に示すクラス階層情報は、テンプレート情報保
持手段16にテンプレート情報と共に格納される。図1
に示す電子文書構造/構文解析手段12は、文書の分類
にあたって、上位のクラスから順次マッチングを行う。
電子文書は、マッチしたクラスのうち、もっとも下位の
クラスに分類される。これは、下位のクラスほど構造が
詳細化されており、細かい処理に適しているからであ
る。以上のような形で電子文書が電子文書保持手段15
に格納されているため、電子文書操作入力手段13は、
クラス階層情報を基にして、全文を取り出したり、タイ
トルを取り出したり、あるいは参考文献を取り出すこと
ができる。そして、電子文書の取り出し方は、一つの論
文の参考文献を取り出したり、あるいは全ての論文に付
けられている全参考文献を取り出すようなことも可能で
ある。
文書クラスが定める構造に応じた形で文書が保存され
る。本実施例では、文書全体を一つの単位として保存す
るのではなく、テンプレートでマッチングした電子文書
の構造単位で保存する。たとえば、図2に示す「論文」
のテンプレート情報を用いて、マッチングした場合は、
「タイトル」、「著者」、「サマリ」、「本文」、「参
考文献」という単位で電子文書保持手段15に格納され
る。図9に示すクラス階層情報は、テンプレート情報保
持手段16にテンプレート情報と共に格納される。図1
に示す電子文書構造/構文解析手段12は、文書の分類
にあたって、上位のクラスから順次マッチングを行う。
電子文書は、マッチしたクラスのうち、もっとも下位の
クラスに分類される。これは、下位のクラスほど構造が
詳細化されており、細かい処理に適しているからであ
る。以上のような形で電子文書が電子文書保持手段15
に格納されているため、電子文書操作入力手段13は、
クラス階層情報を基にして、全文を取り出したり、タイ
トルを取り出したり、あるいは参考文献を取り出すこと
ができる。そして、電子文書の取り出し方は、一つの論
文の参考文献を取り出したり、あるいは全ての論文に付
けられている全参考文献を取り出すようなことも可能で
ある。
【0022】図10は本発明の一実施例で、電子文書を
分類して電子文書保持手段に格納する際のフローチャー
トを示す。図10において、電子文書構造/構文解析手
段12は、テンプレート情報保持手段16から、ユーザ
の所望するように分類されているテンプレート情報を入
力する(ステップ101)。電子文書構造/構文解析手
段12は、フォーマット情報保持手段17から、電子文
書の構造を解析するためのフォーマット情報を入力する
(ステップ102)。電子文書構造/構文解析手段12
は、電子文書読み込み手段11から、電子文書保持手段
15に分類付けをして格納する電子文書データを入力す
る(ステップ103)。
分類して電子文書保持手段に格納する際のフローチャー
トを示す。図10において、電子文書構造/構文解析手
段12は、テンプレート情報保持手段16から、ユーザ
の所望するように分類されているテンプレート情報を入
力する(ステップ101)。電子文書構造/構文解析手
段12は、フォーマット情報保持手段17から、電子文
書の構造を解析するためのフォーマット情報を入力する
(ステップ102)。電子文書構造/構文解析手段12
は、電子文書読み込み手段11から、電子文書保持手段
15に分類付けをして格納する電子文書データを入力す
る(ステップ103)。
【0023】電子文書構造/構文解析手段12は、入力
された電子文書データが終わりか否かを調べる(ステッ
プ104)。電子文書構造/構文解析手段12は、入力
された電子文書データが終わりであると判断した場合、
処理を終了させる。電子文書構造/構文解析手段12
は、テンプレートによってマッチング処理を行なう(ス
テップ105)。電子文書構造/構文解析手段12は、
ステップ105のマッチング処理による分類結果に応じ
て、前記電子文書を電子文書保持手段15に格納処理す
る。また、電子文書構造/構文解析手段12は、次の電
子文書データを入力するために処理をステップ103に
戻す(ステップ106)。
された電子文書データが終わりか否かを調べる(ステッ
プ104)。電子文書構造/構文解析手段12は、入力
された電子文書データが終わりであると判断した場合、
処理を終了させる。電子文書構造/構文解析手段12
は、テンプレートによってマッチング処理を行なう(ス
テップ105)。電子文書構造/構文解析手段12は、
ステップ105のマッチング処理による分類結果に応じ
て、前記電子文書を電子文書保持手段15に格納処理す
る。また、電子文書構造/構文解析手段12は、次の電
子文書データを入力するために処理をステップ103に
戻す(ステップ106)。
【0024】次に、フォーマットの異なる電子文書が図
1に示す電子文書読み込み手段11によって読み込まれ
た場合を説明する。フォーマットの異なる電子文書が読
み込まれた場合、そのままでは、テンプレート情報によ
るマッチング処理を行なうことができない。たとえば、
JIS文書とシフトJIS文書とでは、制御文字が異な
るため、前述のような処理を行なうことができない。そ
こで、電子文書構造/構文解析手段12は、フォーマッ
ト情報保持手段17に格納されているフォーマット対応
表に基づき、前記テンプレート情報が利用できる状態に
変換する。たとえば、フォーマット情報保持手段17に
は、JIS文書とシフトJIS文書とにおけるフォーマ
ットの対応表を持ち、この表に基づいて一方の文書に変
換する。その後、前記電子文書は、前述のような処理を
行なうことで、自動的に分類して電子文書保持手段15
に格納する。
1に示す電子文書読み込み手段11によって読み込まれ
た場合を説明する。フォーマットの異なる電子文書が読
み込まれた場合、そのままでは、テンプレート情報によ
るマッチング処理を行なうことができない。たとえば、
JIS文書とシフトJIS文書とでは、制御文字が異な
るため、前述のような処理を行なうことができない。そ
こで、電子文書構造/構文解析手段12は、フォーマッ
ト情報保持手段17に格納されているフォーマット対応
表に基づき、前記テンプレート情報が利用できる状態に
変換する。たとえば、フォーマット情報保持手段17に
は、JIS文書とシフトJIS文書とにおけるフォーマ
ットの対応表を持ち、この表に基づいて一方の文書に変
換する。その後、前記電子文書は、前述のような処理を
行なうことで、自動的に分類して電子文書保持手段15
に格納する。
【0025】
【発明の効果】本発明によれば、電子文書構造/構文解
析手段によって、電子文書の構造を解析し、その結果に
基づいて自動的に分類した後、電子文書保持手段に格納
するため、電子文書にキーワードあるいはキーセンテン
スのような分類を付与する必要がなくなる。また、本発
明によれば、電子文書を階層化した状態で、電子文書保
持手段に格納しているため、電子文書保持手段における
同一箇所に分類されたすべての文書に対し、同一の操作
が適用できる。上記のように分類して電子文書保持手段
に格納されている電子文書は、電子文書構造/構文解析
手段によって、電子文書の構造の一部を取り出すことが
できる。
析手段によって、電子文書の構造を解析し、その結果に
基づいて自動的に分類した後、電子文書保持手段に格納
するため、電子文書にキーワードあるいはキーセンテン
スのような分類を付与する必要がなくなる。また、本発
明によれば、電子文書を階層化した状態で、電子文書保
持手段に格納しているため、電子文書保持手段における
同一箇所に分類されたすべての文書に対し、同一の操作
が適用できる。上記のように分類して電子文書保持手段
に格納されている電子文書は、電子文書構造/構文解析
手段によって、電子文書の構造の一部を取り出すことが
できる。
【図1】 本発明の一実施例を説明するためのブロック
構成図である。
構成図である。
【図2】 本発明の一実施例で、テンプレート情報を模
式的に表したものである。
式的に表したものである。
【図3】 本発明の一実施例で、記事を表すテンプレー
ト情報の一例を示す図である。
ト情報の一例を示す図である。
【図4】 本発明の一実施例で、カタログを表すテンプ
レート情報の一例を示す図である。
レート情報の一例を示す図である。
【図5】 本発明の一実施例で、マニュアルを表すテン
プレート情報の一例を示す図である。
プレート情報の一例を示す図である。
【図6】 本発明の一実施例で、フォルダによる分類を
模式的に表したものである。
模式的に表したものである。
【図7】 本発明の一実施例で、階層化されたフォルダ
による分類を模式的に表したものである。
による分類を模式的に表したものである。
【図8】 本発明の実施例におけるテンプレートの階層
情報を模式的に表した図である。
情報を模式的に表した図である。
【図9】 本発明の実施例におけるテンプレートのクラ
ス階層情報を模式的に表した図である。
ス階層情報を模式的に表した図である。
【図10】 本発明の一実施例で、電子文書を分類して
電子文書保持手段に格納する際のフローチャートを示
す。
電子文書保持手段に格納する際のフローチャートを示
す。
11・・・電子文書読み込み手段
12・・・電子文書構造/構文解析手段
13・・・電子文書操作入力手段
14・・・電子文書管理手段
15・・・電子文書保持手段
16・・・テンプレート情報保持手段
17・・・フォーマット情報保持手段
─────────────────────────────────────────────────────
フロントページの続き
(58)調査した分野(Int.Cl.7,DB名)
G06F 17/21 - 17/26
Claims (8)
- 【請求項1】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段と、 電子文書を読み込む電子文書読み込み手段と、 前記電子文書読み込み手段により読み込まれた電子文書
の構造を解析し、前記複数のテンプレート情報とのマッ
チングを行う電子文書構造解析手段と、 前記電子文書とマッチングした前記テンプレート情報に
基づいて前記電子文書を分類する電子文書記憶手段と、
を具備することを特徴とする電子文書記憶装置。 - 【請求項2】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段と、 電子文書を読み込む電子文書読み込み手段と、 前記電子文書読み込み手段により読み込まれた電子文書
の構造を解析し、前記複数のテンプレート情報とのマッ
チングを行う電子文書構造解析手段と、 前記電子文書とマッチングした前記テンプレート情報に
該当するフォルダに記憶することで前記電子文書を分類
する電子文書記憶手段と、を具備することを特徴とする
電子文書記憶装置。 - 【請求項3】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段と、 電子文書を読み込む電子文書読み込み手段と、 前記電子文書読み込み手段により読み込まれた電子文書
の構造を解析し、前記複数のテンプレート情報と構造に
基づいたマッチングを行う電子文書構造解析手段と、 前記電子文書とマッチングした前記テンプレート情報に
基づいて前記電子文書を分類する電子文書記憶手段と、
を具備することを特徴とする電子文書記憶装置。 - 【請求項4】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段と、 電子文書を読み込む電子文書読み込み手段と、 前記電子文書読み込み手段により読み込まれた電子文書
の構造を解析し、前記複数のテンプレート情報とのマッ
チングを上位の階層のテンプレート情報から順次行う電
子文書構造解析手段と、 前記電子文書とマッチングした最も下位の前記テンプレ
ート情報に基づいて前記電子文書を分類する電子文書記
憶手段と、を具備することを特徴とする電子文書記憶装
置。 - 【請求項5】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段、電子文書
読み込み手段、文書構造解析手段、および文書記憶手段
を備えて、電子文書を記憶する電子文書記憶方法であっ
て、 複数のテンプレート情報を入力する第1ステップと、 電子文書読み込み手段により、電子文書を読み込む第2
ステップと、 文書構造解析手段により、読み込んだ電子文書の構造を
解析し、前記複数のテンプレート情報とのマッチングを
行う第3ステップと、 文書記憶手段により、前記電子文書とマッチングした前
記テンプレート情報に基づいて前記電子文書を分類する
第4ステップと、を具備することを特徴とする電子文書
記憶方法。 - 【請求項6】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段、電子文書
読み込み手段、文書構造解析手段、および文書記憶手段
を備えて、電子文書を記憶する電子文書記憶方法であっ
て、 複数のテンプレート情報を入力する第1ステップと、 電子文書読み込み手段により、電子文書を読み込む第2
ステップと、 文書構造解析手段により、読み込んだ電子文書の構造を
解析し、前記複数のテンプレート情報とのマッチングを
行う第3ステップと、 文書記憶手段により、前記電子文書とマッチングした前
記テンプレート情報に該当するフォルダに記憶すること
で前記電子文書を分類する第4ステップと、を具備する
ことを特徴とする電子文書記憶方法。 - 【請求項7】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段、電子文書
読み込み手段、文書構造解析手段、および文書記憶手段
を備えて、電子文書を記憶する電子文書記憶方法であっ
て、 複数のテンプレート情報を入力する第1ステップと、 電子文書読み込み手段により、電子文書を読み込む第2
ステップと、 文書構造解析手段により、読み込んだ電子文書の構造を
解析し、前記複数のテンプレート情報と構造に基づいた
マッチングを行う第3ステップと、 文書記憶手段により、前記電子文書とマッチングした前
記テンプレート情報に基づいて前記電子文書を分類する
第4ステップと、を具備することを特徴とする電子文書
記憶方法。 - 【請求項8】電子文書の構造が定められた複数のテンプ
レート情報を保持するテンプレート保持手段、電子文書
読み込み手段、文書構造解析手段、および文書記憶手段
を備えて、電子文書を記憶する電子文書記憶方法であっ
て、 複数のテンプレート情報を入力する第1ステップと、 電子文書読み込み手段により、電子文書を読み込む第2
ステップと、 文書構造解析手段により、読み込んだ電子文書の構造を
解析し、前記複数のテンプレート情報とのマッチングを
上位の階層のテンプレート情報から順次行う第3ステッ
プと、 文書記憶手段により、前記電子文書とマッチングした最
も下位の前記テンプレート情報に基づいて前記電子文書
を分類する第4ステップと、を具備することを特徴とす
る電子文書記憶方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27733793A JP3448922B2 (ja) | 1993-10-12 | 1993-10-12 | 電子文書記憶装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP27733793A JP3448922B2 (ja) | 1993-10-12 | 1993-10-12 | 電子文書記憶装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH07110814A JPH07110814A (ja) | 1995-04-25 |
JP3448922B2 true JP3448922B2 (ja) | 2003-09-22 |
Family
ID=17582124
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP27733793A Expired - Fee Related JP3448922B2 (ja) | 1993-10-12 | 1993-10-12 | 電子文書記憶装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3448922B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7133873B1 (en) | 1999-12-14 | 2006-11-07 | United Parcel Service Of America, Inc. | System and method for modifying output of computer program without source code modifications |
US8537384B2 (en) | 2004-04-01 | 2013-09-17 | United Parcel Service Of America, Inc. | Integrated task management systems and methods for executing rule-based operations |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH077410B2 (ja) * | 1986-03-29 | 1995-01-30 | 株式会社東芝 | 文書レイアウト方法 |
JPH0782497B2 (ja) * | 1988-06-01 | 1995-09-06 | シャープ株式会社 | 文書処理装置 |
JP3303926B2 (ja) * | 1991-09-27 | 2002-07-22 | 富士ゼロックス株式会社 | 構造化文書分類装置及び方法 |
-
1993
- 1993-10-12 JP JP27733793A patent/JP3448922B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH07110814A (ja) | 1995-04-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2896634B2 (ja) | 全文登録語検索装置および全文登録語検索方法 | |
EP1679625B1 (en) | Method and apparatus for structuring documents based on layout, content and collection | |
US5832476A (en) | Document searching method using forward and backward citation tables | |
Travis et al. | The SGML implementation guide: a blueprint for SGML migration | |
US6353840B2 (en) | User-defined search template for extracting information from documents | |
US5893087A (en) | Method and apparatus for improved information storage and retrieval system | |
US11314807B2 (en) | Methods and systems for comparison of structured documents | |
Alexa et al. | A review of software for text analysis | |
US20020007373A1 (en) | System, method, and computer program product for knowledge management | |
Gephart et al. | Qualitative Data Analysis: Three Microcomputer-Supported Approaches. | |
JP3448922B2 (ja) | 電子文書記憶装置 | |
CA2422490C (en) | Method and apparatus for extracting structured data from html pages | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
Chang | An electronic finding aid using extensible markup language (XML) and encoded archival description (EAD) | |
JP3239845B2 (ja) | 全文検索装置および方法 | |
US20040164989A1 (en) | Method and apparatus for disclosing information, and medium for recording information disclosure program | |
King | The use of computers for storing records in historical research | |
JPH0251766A (ja) | 索引項目自動抽出方式 | |
JP5102474B2 (ja) | Xmlデータ生成方法及びそのプログラム | |
JP3302260B2 (ja) | 文書処理システム | |
JP2000099543A (ja) | 情報検索装置 | |
JP2001331512A (ja) | 文書管理方法 | |
JP3278940B2 (ja) | 電子辞書装置及び文書処理装置 | |
Walker | Taking Snapshots of the Web with a TEI Camera | |
Francis et al. | Electronic Archiving–a 100 Year Experiment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080711 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090711 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100711 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110711 Year of fee payment: 8 |
|
LAPS | Cancellation because of no payment of annual fees |