JP3896702B2 - 文書管理システム - Google Patents

文書管理システム Download PDF

Info

Publication number
JP3896702B2
JP3896702B2 JP28207998A JP28207998A JP3896702B2 JP 3896702 B2 JP3896702 B2 JP 3896702B2 JP 28207998 A JP28207998 A JP 28207998A JP 28207998 A JP28207998 A JP 28207998A JP 3896702 B2 JP3896702 B2 JP 3896702B2
Authority
JP
Japan
Prior art keywords
document
partial structure
conversion rule
conversion
application
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28207998A
Other languages
English (en)
Other versions
JP2000099512A5 (ja
JP2000099512A (ja
Inventor
賢一 沼田
正治 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP28207998A priority Critical patent/JP3896702B2/ja
Publication of JP2000099512A publication Critical patent/JP2000099512A/ja
Publication of JP2000099512A5 publication Critical patent/JP2000099512A5/ja
Application granted granted Critical
Publication of JP3896702B2 publication Critical patent/JP3896702B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、多種のフォーマットや文書型の文書を蓄積し、利用者の要求に応じて必要となる部分構造を文書中から取り出す文書管理システム及び文書管理方法に関する。
【0002】
【従来の技術】
文書管理システムの基本機能は、多量の電子文書を蓄え、利用者あるいはアプリケーションからの要求に応じて文書データを返すことである。SGML(Standard Generalized Markup Language; ISO8879/1986; JIS X 4151/1992)に代表される構造化文書を管理する文書管理システムでは、さらに小さい粒度、すなわち文書要素単位でのアクセスが可能となっている。
構造化文書は通常、文書型と呼ばれる構造の定義に従って作成されており、この文書型が利用目的に応じて適切に定義されていれば、その文書型に従って作成された文書は有効に再利用することができるが、この文書型に従わない文書は再利用できない。また、異なる利用目的に対してはこの文書型を利用することができない。
【0003】
また、構造化文書ではない、ワードプロセッサ等で作成された文書(以下、書式指向文書と呼ぶ)では、例えそのフォーマットが公開されていたとしても、構造化文書の文書型にあたる構造定義はなく、フォントのサイズやタイプなどが個々の要素ごとに付与されているものがほとんどである。そして、例え構造定義があったとしても章・節・段落・箇条書きなど用途にかかわらず、ごく一般的に用いられる要素として定義されているにすぎない。
このため、書式指向文書については、構造を積極的に利用はできず、そのテキスト部分のみを対象に全文検索を可能としているものが多かった。
【0004】
書式指向文書を論理構造を持つ文書として扱いたいという要求に対して、従来では、書式指向の文書データをある規則に基づいて構造化文書に変換して利用できるようにしてきた。例えば、特開平8−190542号公報に開示された「文書データベース管理装置及び方法」においては、データベースに格納する対象となる様々なフォーマットの文書の論理構造からデータベース中での論理構造を生成するための規則を保持し、この規則に基づいて文書格納時に論理構造を変換している。これにより、単純な論理構造しか持たない書式指向文書を、利用目的に沿った論理構造を持つ文書へ変換した結果でデータベースに格納し、再利用することが可能となっている。また、構造化文書をデータベースに格納する際にも、利用目的に沿った別の論理構造へ変換して格納することができるため、様々な異なる文書型を持つ文書を統一的な論理構造を持つものとして扱うことが可能である。
【0005】
【発明が解決しようとする課題】
しかしながら、上記のような従来の方法では、利用目的に依存した変換規則あるいは変換プログラムを、書式指向文書の場合はそのフォーマット、構造化文書の場合は文書型を熟知した上で、フォーマットもしくは文書型ごとに作成しなければならない。このため、フォーマットもしくは文書型の種類が増えれば増えるほど多大な人的コストが必要となっていた。
また、新たなアプリケーションを構築する際には、別の利用目的が発生するため、そのアプリケーションが利用する構造を持つように、全ての文書フォーマットもしくは文書型から新たに利用する構造への変換プログラムを作成しなければならかった。
【0006】
本発明は、上記のような従来の事情に鑑みてなされたもので、アプリケーション依存変換ルールおよび必要なシステム組み込み型変換ルールを用いて、アプリケーションに必要となる部分構造のみを選択的に抽出して保持管理することができる文書管理システム及び文書管理方法を提供することを目的とする。
また、本発明は、文書の異なるフォーマットや文書型による構造の違いを意識することなく、アプリケーションに必要となる部分構造を抽出するためのアプリケーション依存変換ルールを利用者が容易に記述することができる文書管理システム及び文書管理方法を提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明に係る文書管理システムでは、変換ルール保持手段に、文書の統一的な内部フォーマットから部分構造を抽出するためのシステム組み込み型変換ルール、および、システム組み込み型変換ルールの組合せによりアプリケーションごとに必要な部分構造を抽出するためのアプリケーション依存変換ルールを保持しており、文書登録手段から文書管理システムへ登録する文書を受け付けると、文書フォーマット均質化手段が当該文書を統一的な内部フォーマットへ変換する。そして、文書中から目次や見出しなどといった部分構造を利用するアプリケーションが起動されていると、部分構造抽出手段が、当該アプリケーションに応じて、内部フォーマットに変換された文書に変換ルール保持手段に保持されたシステム組み込み型変換ルールを適用し更に対応するアプリケーション依存変換ルールを適用して部分構造を抽出し、文書データ保持部が、当該部分構造を文書登録手段にて受け付けた文書および内部フォーマットの文書に関連付けて保持する。
したがって、種々なアプリケーションでの利用に対応して、アプリケーション依存変換ルールおよび必要なシステム組み込み型変換ルールを用いて各アプリケーションに必要となる部分構造が保持管理され、アプリケーションごとに必要となる部分構造の利用に迅速に対処することができる。
【0008】
ここで、本発明における好ましい態様として、文書登録手段は文書と共にそのフォーマット名称もしくは文書型を受け付け、部分構造抽出手段は、文書登録手段が受け付けたフォーマット名称もしくは文書型から適用するシステム組み込み型変換ルールを特定し、特定したシステム組み込み型変換ルールを内部フォーマットに変換された文書に適用し更に対応するアプリケーション依存変換ルールを適用して部分構造を抽出する。
なお、部分構造の抽出処理は、アプリケーション依存変換ルールが参照しているシステム組み込み型変換ルールの条件記述に基づいて、アプリケーション依存変換ルールの条件記述を展開することにより行われる。
【0009】
また、本発明における好ましい態様として、変換ルール保持手段はシステム組み込み型変換ルールにより抽出可能な部分構造の定義を保持しており、変換ルール保持手段に保持されている部分構造の定義を利用者に提示する部分構造定義参照手段と、部分構造定義参照手段により提示された部分構造定義を参照して利用者が作成したアプリケーション依存変換ルールを変換ルール保持手段に登録する変換ルール登録手段と、を更に備える。
これにより、利用者は文書の異なるフォーマットや文書型による構造の違いを意識することなく、提示された部分構造定義を参照することにより、アプリケーションに必要となる部分構造を抽出するためのアプリケーション依存変換ルールを容易に記述し、これを以後の利用のためにシステムに登録させることができる。
【0010】
【発明の実施の形態】
本発明に係る文書管理システムを実施例に基づいて具体的に説明する。
図1には文書管理システム1の一利用形態を示してあり、文書管理システム1はローカルエリアネットワークNに接続されており、多くのクライアントシステム2からアクセスされる。なお、ローカルエリアネットワークNは広域ネットワークあるいは、専用回線による企業内イントラネットに接続され、リモートからのアクセスも可能である。
図2には文書管理システム1の内部構成の一例を示してあり、文書管理システム1は、文書登録部11、変換ルール保持部12、文書フォーマット均質化部13、部分構造抽出部14、文書検索部15、文書データ保持部16、変換ルール登録部17、部分構造定義参照部18を有している。なお、本例では、これら機能手段はコンピュータハードウエア資源を利用して所定の文書管理プログラムを実行することにより構成されている。
【0011】
文書登録部11はネットワークNを介した通信機能を有しており、クライアント2から登録の要求があったときに、クライアント2から渡される文書データを受け取り、この元文書データを文書データ保持部16に登録するとともに、文書フォーマット均質化部13にこの元文書データとそれに付随しているフォーマット名称もしくは文書型を渡す。
文書フォーマット均質化部13は、異なるフォーマットや文書型の文書データを統一的な内部フォーマットに変換し、これを後の利用のために文書データ保持部16に登録するとともに、部分構造の抽出のために部分構造抽出部14に渡す。
【0012】
変換ルール保持部12は読み書き自在なメモリから構成されており、統一的内部フォーマットから所望の部分構造を取り出すためのシステム組み込み型変換ルールおよびアプリケーションごとに定義される変換ルール(以後、アプリケーション依存変換ルールと呼ぶ)を保持し、更には、本例では、後述するように利用者に提示するシステム組み込み型変換ルールで抽出可能な部分構造の定義を保持する。なお、変換ルール保持部12は、文書登録時に部分構造抽出部14から随時呼び出されて必要となる変換ルールを出力し、また、アプリケーション依存型変換ルール作成時には変換ルール登録部17から呼び出されて部分構造定義を部分構造定義参照部18へ出力する。
【0013】
部分構造抽出部14は、現在実行されているアプリケーションに応じて、アプリケーション依存変換ルールおよび当該アプリケーション依存型変換ルールが利用しているシステム組み込み型変換ルールを変換ルール保持部12から取り出し、このシステム組み込み型変換ルールを適用し、更に、その適用結果に当該アプリケーション依存型変換ルールを適用して、抽出された所望の部分構造を文書データ保持部16に元文書データに対応付けて登録する。すなわち、アプリケーション毎に応じた部分構造が元文書データに対応付けて文書データ保持部16に登録される。
【0014】
文書検索部15は、利用者やクライアントから検索要求があった場合に、文書データ保持部16に対してその要求を与えて検索要求に合致する元文書データもしくは部分構造を結果として返す。
文書データ保持部16は読み書き自在なメモリから構成されており、元文書データ、統一的内部フォーマットで表現された文書データ、および抽出された部分構造を対応付けて保持する。
【0015】
変換ルール登録部17は、利用者が部分構造を利用するための新たなアプリケーションを構築する時に、利用者が作成したアプリケーション依存変換ルールを受け付けて変換ルール保持部12に登録する。
部分構造定義参照部18はディスプレイ画面を有したインタフェースを構成しており、新たなアプリケーション依存変換ルールを利用者が作成するのを支援するために、上記の登録時に、変換ルール保持部12に既に登録されているシステム組み込み型変換ルールによって抽出可能な部分構造の定義を利用者に提示する。
【0016】
上記のように変換ルールは、そのレベルによって、システム組み込み型変換ルールとアプリケーション依存型変換ルールとの2つに分類されている。
システム組み込み型変換ルールは部分構造を抽出するためにあらかじめシステムに登録されている変換ルールであり、アプリケーション依存変換ルールはアプリケーションに適合する部分構造を抽出するための変換ルールである。したがって、システム組み込み型変換ルールはシステム管理者以外は変更できず、アプリケーション依存変換ルールはアプリケーションプログラマやその人から許可された人が目的に応じて変更することができる。
【0017】
つまり、本発明は、アプリケーションプログラマがシステム組み込み型変換ルールから得られる部分構造の定義のみを参照して、それらのうち1つ以上の部分構造定義を組み合わせてアプリケーション依存変換ルールを記述することができるようにしており、アプリケーションプログラマがアプリケーション依存変換ルールを作成するために元文書データのフォーマットや文書型を熟知する必要をなくして、変換ルールの記述にかかる人的コストを削減している。
【0018】
図3には、文書データと変換ルールの関係を示してある。
図中の21は、ワープロAの文書データに対して、文書フォーマット均質化部13でフォーマット均質化処理を行った結果得られる統一的内部フォーマットによるワープロAの文書である。ここで、本例では、ワープロAの文書フォーマットは基本的に階層構造を持たずに、単に1次元的に配置された要素に対して、スタイル指定があるというだけのものであるとする。
同様に、図中の22は、ワープロBの文書データに対して、文書フォーマット均質化部13でフォーマット均質化処理を行った結果得られる統一的内部フォーマットによるワープロBの文書である。ここで、本例では、ワープロBの文書フォーマットは章、節、段落という一般的な階層構造をあらかじめ保持することが可能なフォーマットであるとする。
【0019】
図4にはワープロAの文書の統一的内部フォーマットによる表現21を示し、図5にはワープロBの文書の統一的内部フォーマットによる表現22の例を示してある。なお、本例では、統一的内部フォーマットをXML(Extensible Markup Language 1.0; W3C Recommendation 10-Feb-98)で表現している。XMLは構造化文書のフォーマットの1つであるが、文書型がなくてもよい、属性を自由に定義できるなど、元文書の情報を保持しつつ統一フォーマットとして表現するための柔軟な記述体系を提供している。
【0020】
図4に示すワープロAの統一的内部フォーマット文書21は、先頭行の「XML」宣言に続いて、「DOC」要素を持つ。「DOC」要素には、その文書の元の文書フォーマットを示す「original」属性が設定されている。「DOC」要素はその内容として「PARA」要素の並びのみを持つ。各「PARA」要素は、その属性として、フォントサイズを表す「size」属性、フォントのタイプ(太字やイタリック体など)を表す「type」属性、左寄せ、センタリング、右寄せなどのアライメントを表す「align」属性が設定されている。
このようにワープロAの文書に対応する統一的内部フォーマットは、体裁情報によってのみ区別される同一の要素「PARA」を並べたフラットな(階層構造を持たない)フォーマットである。
【0021】
図5に示すワープロBの文書は、先頭行の「XML」宣言に続いて、「DOC」要素を持つ。「DOC」要素には、その文書の元の文書フォーマットを示す「original」属性が設定されている。「DOC」要素はその内容として表題もしくは見出しを表す「HEAD」要素、段落を表す「PARA」要素、章を表す「SECT」要素を直下の内容に持つ。「SECT」要素は、先頭に見出しを表す「HEAD」要素を持ち、それに続いて「PARA」要素の並びを持つ。
このようにワープロBの文書に対応する統一的内部フォーマットは、章、見出し、段落といった一般的な階層構造を持つフォーマットである。なお、図5には現われていないが、「SECT」要素はさらに「SECT」要素を内容に含んでいても良い。この場合、第1の「SECT」要素は章を表し、第2の「SECT」要素は節を表すことになる。
【0022】
図3において、23〜26はシステム組み込み型変換ルールである。本例では、23はワープロAの文書に対応する統一的内部フォーマット21から「見出し」を取り出すための変換ルールであるとする。24は、ワープロBの文書に対応する統一的内部フォーマット22から「見出し」を取り出すための変換ルールであるとする。25はワープロAおよびワープロBの文書に対応する統一的内部フォーマットから共通に「箇条書き項目」の部分構造を取り出すための変換ルールであるとする。26はワープロAおよびワープロBの文書に対応する統一的内部フォーマットから共通に「表題」を取り出すための変換ルールであるとする。
【0023】
図6には、ワープロAの文書に対応する統一的内部フォーマット21から「見出し」を取り出すためのシステム組み込み型変換ルール23の一例を示してある。
ここで、図6を参照して、変換ルールの文法について説明する。変換ルールは素ルールと構造生成子を接続したものである。素ルールは条件と変換先要素名の組から成る。
統一的内部フォーマットで表現された文書の各要素が、素ルールの条件を満たしたとき、その要素が変換先要素名の要素に変換される。以後、ある要素Xが素ルールYの条件を満たすとき、「要素Xは素ルールYにマッチする」と表現する。変換先の要素がないときは、変換先要素名を「null」で表す。
【0024】
条件は、変換元となる要素名の条件を表す「SOURCE」、変換元となる要素の属性に関する条件を表す「ATT」、変換元となる要素のテキスト内容に関する条件を表す「TEXT」を任意の数だけ論理演算子(かつ、または、でない)で接続したものである。
構造生成子は、素ルールと素ルールを接続するものであり、一方の素ルールにマッチする要素と、他方の素ルールにマッチする要素との接続関係を規定する。
【0025】
構造生成子には、「SEQ」、「REP」、「CHO」、「OPT」、「OPTREP」がある。「SEQ」はその上位(図6では左側)の素ルールにマッチする要素に対して、その下位にある要素の並びが、「SEQ」の下位の素ルールの並びの各素ルールに対して、その順序でマッチする必要があることを示す。「REP」はその上位の素ルールにマッチする要素に対して、その下位にある要素が1回以上繰り返し出現し、その全ての要素が「REP」の下位の素ルールにマッチする必要があることを示す。「CHO」はその上位の素ルールにマッチする要素に対して、その下位にある要素が、「CHO」の下位の素ルールの並びのうちのいずれか1つの素ルールにマッチする必要があることを示す。「OPT」はその上位の素ルールにマッチする要素に対して、その下位に要素がないか、もしくは要素がある場合には「OPT」の下位の素ルールにマッチする必要があることを示す。「OPTREP」はその上位の素ルールにマッチする要素に対して、その下位にある要素が0回以上繰り返し出現し、その全ての要素が「OPTREP」の下位の素ルールにマッチする必要があることを示す。
【0026】
したがって、図6に示したシステム組み込み型変換ルール(ワープロAの文書に対応する統一的内部フォーマット21から「見出し」を取り出すための変換ルール)は、次ぎのような内容である。
まず、最上位にある素ルールは、変換元の要素名が「DOC」であることが条件となり、変換先の要素は「null」すなわち変換先の要素がないことを示す。次に、構造生成子「REP」の下位には構造生成子「CHO」があり、その下位に2つの素ルールが存在する。最初の素ルールは、属性「type」の値が「"bold"」である要素がマッチすることを示し、この要素が「見出し」に変換されることを示す。2つ目の素ルールは、否定演算子によって、属性「type」の値が「"bold"」であるという条件を満たさない要素がマッチすることを示し、変換先の要素がないことを示す。構造生成子「REP」とその下位の「CHO」によって、要素の1回以上の繰り返しの並びがあり、その中の各要素が常に上記2つの素ルールのうちのいずれかにマッチし、前者の素ルールにマッチする要素のみが「見出し」に変換されることが示されている。
すなわち、図6に示すシステム組み込み型変換ルールによって、図4に示したワープロAの統一的内部フォーマット文書から、「PARA」要素のうちの属性「type」の値が「"bold"」である要素が「見出し」として取り出される。
【0027】
図7にはワープロBの文書に対応する統一的内部フォーマット22から「見出し」を取り出すための変換ルール24の一例を示してある。なお、この変換ルールの意味については、上記の変換ルールの説明より明らかなのでここでは説明を省略する。
すなわち、図7に示すシステム組み込み型変換ルールによって、図5に示したワープロBの統一的内部フォーマット文書から、「SECT」要素の下位にある「HEAD」要素が「見出し」として取り出される。
【0028】
図8には、ワープロAの文書に対応する統一的内部フォーマットおよびワープロBの文書に対応する統一的内部フォーマットから共通に「箇条書き項目」を取り出すための変換ルール25の一例を示してある。
ここでは、図6および図7に示した変換ルールにはない、素ルールのテキスト内容に関する条件「TEXT」について説明する。テキスト内容に関する条件は、一般的な正規表現の文法に沿って記述される。図8に示した変換ルールでは、テキスト内容に関する条件を持つ素ルールが2つあるが、一方の素ルールのテキスト内容に関する条件は他方の素ルールのテキスト内容に関する条件の否定条件になっており、正規表現のパターン自体は同じである。
図8に示した変換ルールでは、行の先頭に「・」が来る要素、または行の先頭に"("と")"で囲まれる任意の文字列が来る要素、または行の先頭に"["と"]"で囲まれる任意の文字列が来る要素、または行の先頭に数字が来てその後ろに「.」が来る要素が箇条書きの「項目」要素に変換され、それ以外の要素は変換されない。
【0029】
図9には、ワープロAの文書に対応する統一的内部フォーマットおよびワープロBの文書に対応する統一的内部フォーマットから共通に「表題」を取り出すための変換ルール26一例を示してある。なお、この変換ルールの意味については上記の変換ルールの説明より明らかなので、ここでは説明を省略する。ただし、図中において、条件が"[]"となっているのは、どんな要素も無条件にこの素ルールにマッチすることを表している。
【0030】
本例では、上記のシステム組み込み型変換ルール23〜26が、適用可能な文書フォーマットの名称や文書型と関連付けられて変換ルール保持部12に保持される。すなわち、文書フォーマットの名称が与えられると、その文書フォーマットに対して適用可能なシステム組み込み型変換ルールが特定され、変換ルール保持部12から部分構造抽出部14へ渡される。
【0031】
次に、図3において、27〜29はシステム組み込み型変換ルール23〜26の適用結果として得られる部分構造の定義を示している。27は、ワープロAの文書に対応する統一的内部フォーマット21から「見出し」を取り出すルール23あるいはワープロBの文書に対応する統一的内部フォーマットから「見出し」を取り出すルール24を適用した結果として得られる「見出し」要素である。28は、ワープロAの文書に対応する統一的内部フォーマット21あるいはワープロBの文書に対応する統一的内部フォーマット22から共通に「箇条書き項目」を取り出すためのルール25を適用した結果として得られる「項目」要素である。29は、ワープロAの文書に対応する統一的内部フォーマット21あるいはワープロBの文書に対応する統一的内部フォーマット22から共通に「表題」を取り出すためのルール26を適用した結果として得られる「表題」要素である。
【0032】
更に、図3において、30はアプリケーション31が要求する部分構造を取り出すためのアプリケーション依存変換ルールであり、システム組み込み型変換ルール23〜26の組み合わせにより必要な部分構造を文書から抽出する。アプリケーション依存変換ルール30は、本例では、部分構造の定義27(すなわち「見出し」要素)、および部分構造の定義28(すなわち「項目」要素)を参照して利用者により作成されており、このアプリケーション依存型変換ルール30は変換ルール登録部17を介して変換ルール保持部12に保持されている。
なお、アプリケーション依存型変換ルール30の詳細については後述する。
【0033】
以下、アプリケーション依存変換ルールの作成時、文書登録時、アプリケーション実行時、新規アプリケーション登録時の処理を順に説明する。
ここで、本例のアプリケーションは、ある技術文書を文書データ保持部16から検索し、利用者の要求に応じてその文書が参考文献として挙げている文書を順次文書データ保持部16から取り出して表示するものとする。
【0034】
<変換ルール作成>
アプリケーション依存変換ルールの作成処理は、アプリケーションプログラマが文書管理システム1に対して変換ルール登録部17からシステムに登録されている部分構造定義を参照したいという要求を出すことにより開始される。
この要求に従って、文書管理システム1は、部分構造定義参照部18を介して変換ルール保持部12から部分構造定義を取り出し、その結果を部分構造定義参照部18からプログラマ(利用者)に提示する。
そして、アプリケーションプログラマが、提示された部分構造定義を参照して所望の部分構造(ここでは参考文献リスト)を定義し、この部分構造定義を提示された部分構造定義の組合せから生成するための変換ルール(すなわち参考文献を取り出すためのアプリケーション依存変換ルール)を記述して変換ルール登録部17を介して変換ルール保持部12に登録する。
【0035】
本例におけるアプリケーションを実現するためには、多様なフォーマットの文書から参考文献リストを抽出する必要がある。そこで、アプリケーションプログラマは、参考文献リストの構造を定義する。参考文献リストの定義は、「参考文献リスト」要素の下位要素として、「文献」要素が1つ以上並んでいるものであると定義される。このような構造定義を、提示された部分構造定義の組合せから生成するための変換ルール、すなわちアプリケーション依存変換ルールを書くことになる。この変換ルールは、まず内容に"参考文献"または"References"だけを含む「見出し」要素を取り出し、その上位の要素を「参考文献リスト」要素に変換し、「見出し」要素に続いて"[ ]"、"( )"で挟まれた任意の文字列から始まる箇条書きの「項目」要素があれば、その並びがなくなるまで取り出し、「文献」要素に変換するということになる。図10には、参考文献を取り出すためのアプリケーション依存変換ルールの一例を示してある。
【0036】
<文書登録>
文書登録時には、クライアント2から登録要求が文書データとそれに対応する文書フォーマットの名称もしくは文書型とともにネットワークNを介して送られてくる。文書管理システム1がその要求を受け取ると、文書登録部11に文書データと文書フォーマットの名称もしくは文書型が渡される。文書登録部11は、文書データを文書データ保持部16に登録するとともに、文書データおよび文書フォーマットの名称もしくは文書型を文書フォーマット均質化部13に送る。
【0037】
文書フォーマット均質化部13は、文書データをシステム内部で統一された文書フォーマット、すなわち統一的内部フォーマットに変換する。このとき、入力文書のフォーマットごとに変換プログラムが実行される。変換プログラムは、元の文書が持っている情報をできる限り損なうことなく変換するものである。その理由は、入力文書が、この後どのように利用されるかわからないため、あまりにアプリケーションに特化した変換を行うと他の利用目的には利用できなくなることを防ぐためである。本実施例では、前述のとおり統一的内部フォーマットにXMLを用いている。
本例では、ワープロAの文書が登録されるものとする。したがって、文書フォーマット均質化部13で統一的内部フォーマットに変換された結果は図4に示したようになる。
【0038】
次に、統一的内部フォーマットで表現された文書データが文書データ保持部16に登録されるとともに部分構造抽出部14に送られ、変換ルール保持部12に保持されている変換ルールが適用される。すなわち、前述した変換ルール保持部12に保持されている変換ルールのうちで、まず、アプリケーションが要求する部分構造を取り出す変換ルール(アプリケーション依存変換ルール)が取り出され、その変換ルールがシステム組み込み型変換ルールを参照していればそのシステム組み込み型変換ルールを取り出して順に適用し、最後にアプリケーション依存変換ルールを適用して、所望の部分構造が存在するかどうかを判定する。
これら一連の変換ルールの適用の結果、所望の部分構造が抽出されれば、その部分構造が元文書データおよび統一的内部フォーマットによる表現と関連付けられて文書データ保持部16に保持される。
【0039】
この変換ルールの適用処理を図11および図12に示すフローチャートを参照して詳しく説明する。
まず、部分構造抽出部14は、変換ルール保持部12から現在実行されているアプリケーションに対応するアプリケーション依存変換ルールを1つ取り出す(ステップS1)。なお、本例では、図10に示した参考文献リストを抽出する変換ルールを取り出す。
次いで、部分構造抽出部14は、取り出したアプリケーション依存変換ルールを適用する(ステップS2)。そして、全てのアプリケーション依存変換ルールを適用したかどうかを判定し(ステップS3)、未だアプリケーション依存変換ルールが残っていればステップS1に戻って処理を続行し、全てのアプリケーション依存変換ルールを適用したところで処理を終了する。
【0040】
上記のアプリケーション依存変換ルールの適用処理(ステップS2)は、図12に示す手順で行われる。
まず、部分構造抽出部14は、ステップS1で取り出したアプリケーション依存変換ルールについて、その変換ルールが参照するシステム組み込み型変換ルールを特定する(ステップS11)。これは、アプリケーション依存変換ルールの各素ルール中で変換元要素名が条件に指定されているものを探し、その変換元要素名を構造定義として持つシステム組み込み型変換ルールを検索することによって実現できる。
【0041】
例えば、図10に示すアプリケーション依存変換ルールが取り出された場合、その素ルール中では変換元要素名として「見出し」、「項目」の2つの要素が利用されている。したがって、図3に示したように、構造定義として「見出し」要素を提供するシステム組み込み型変換ルール23および24、すなわち、ワープロAの文書の統一的内部フォーマットから「見出し」を取り出す変換ルール、およびワープロBの文書の統一的内部フォーマットから「見出し」を取り出す変換ルールの2つがまず特定され、次に、構造定義として「項目」を提供するシステム組み込み型変換ルール25、すなわち、ワープロAおよびワープロBの文書の統一的内部フォーマットから共通に「箇条書き項目」を取り出すための変換ルールが特定される。
【0042】
次いで、部分構造抽出部14は、登録されようとしている文書の元のフォーマットを特定する(ステップS12)。本例では、ワープロAの文書が登録され、図4に示す文書から「DOC」要素の属性を読み取って元の文書フォーマットがワープロAのものであることを特定する。
次いで、部分構造抽出部14は、元文書のフォーマットに対して適用可能なシステム組み込み型変換ルールを特定する(ステップS13)。ここでは、ワープロAの文書が登録されるので、図3に示すように、システム組み込み型変換ルール23、25および26の3つが特定される。
【0043】
次いで、部分構造抽出部14は、実際に適用するシステム組み込み型変換ルールを特定する(ステップS14)。これは、ステップS11で特定されたシステム組み込み型変換ルールの集合(23、24および25)と、ステップS13で特定されたシステム組み込み型変換ルールの集合(23、25および26)の積集合を計算することによって実現される。その結果、実際に適用されるシステム組み込み型変換ルールは23と25の2つになる。
次いで、部分構造抽出部14は、これらシステム組み込み型変換ルールを適用する(ステップS15)。ここでは、ステップS14で特定された2つのシステム組み込み型変換ルール23および25を順に適用するが、まず、システム組み込み型変換ルール23すなわちワープロAの文書の統一的内部フォーマットから「見出し」を取り出す変換ルールを適用する。図4に示したワープロAの文書の統一的内部フォーマットによる表現に対して、図6に示す「見出し」を取り出すシステム組み込み型変換ルールを適用した結果を図13に示す。
【0044】
そして、部分構造抽出部14は、適用するシステム組み込み型変換ルールが残っているかどうかを判定し(ステップS16)、まだ残っていれば、ステップS15へ戻って適用する。ここでは、システム組み込み型変換ルール25すなわちワープロAおよびワープロBの文書の統一的内部フォーマットから共通に「箇条書き項目」を取り出すための変換ルールが残っているので、ステップS15へ戻ってこれを適用する。図4に示したワープロAの文書の統一的内部フォーマットによる表現に対して、図8に示す「箇条書き項目」を取り出すシステム組み込み型変換ルールを適用した結果を図14に示す。
【0045】
次いで、全てのシステム組み込み型変換ルールの適用が終了したところで、部分構造抽出部14はアプリケーション依存変換ルールの素ルールを順に適用する(ステップS17)。ここでは、まず、図10に示した素ルール101を適用する。素ルール101は任意の要素がマッチする。
次いで、部分構造抽出部14は、全ての素ルールを適用したかどうかを判定する(ステップS18)。ここでは、素ルール102が残っているので、ステップS17へ戻ってこれを適用する。素ルール102には、変換元要素名が「見出し」であってテキスト内容に"参考文献"または"References"が含まれる要素がマッチする。
【0046】
再びステップS18で全ての素ルールを適用したかどうかを判定し、素ルール103が残っているので、ステップS17へ戻ってこれを適用する。素ルール103には、変換元要素名が「項目」であって、任意の文字列が"["と"]"もしくは"("と")"で囲まれたもので始まるテキスト内容を持つ要素がマッチする。
再びステップS18で全ての素ルールを適用したかどうかを判定し、全ての素ルールの適用が終了したので、部分構造を抽出する(ステップS19)。図15には、このようにしてワープロAの文書の統一的内部フォーマットから抽出された部分構造を示してある。
このように、アプリケーション依存変換ルールを適用して部分構造を抽出する際には、対象となる文書の元のフォーマットに応じて、必要最小限のシステム組み込み型変換ルールを特定して適用するので、効率的に部分構造を抽出することができる。
【0047】
<アプリケーション実行>
アプリケーション実行時には、利用者はクライアント2からネットワークNを介して、文書管理システム1に対して参照したい文書の検索要求を送る。文書管理システム1は、この要求を文書検索部15に送り、文書検索部15は、文書データ保持部16から要求を満たす元文書データを検索して利用者に提示する。
そして、利用者がその文書の参考文献を参照したい場合に、参考文献の検索要求を文書検索部15に対して送ると、文書検索部15は、元文書データから前述の部分構造抽出処理にて抽出された「参考文献リスト」要素の各「文献」要素の内容を検索キーとして、文書データ保持部16に保持されている他の元文書データを検索し、要求を満たす文書が見つかった場合にはそれを利用者に対して提示する。
【0048】
<新規アプリケーション登録>
次に、上記のアプリケーションとは異なる新たなアプリケーションを構築する場合の処理について説明する。
ここで、本例では、アプリケーションプログラマが新たに文書の目次を作成するアプリケーションを構築することを考えたとする。アプリケーションプログラマは、まず、文書管理システム1にシステムに登録されている部分構造定義を参照したいという要求を出す。これを受け取った文書管理システム1は、部分構造定義参照部18を介して変換ルール保持部12から部分構造定義を取り出してアプリケーションプログラマに提示する。
【0049】
次いで、アプリケーションプログラマは、提示された部分構造の定義を参照して、所望の部分構造(ここでは目次)を定義する。このアプリケーションを実現するためには、多様なフォーマットの文書から目次を抽出する必要がある。そこで、アプリケーションプログラマは、目次の構造を定義する。例えば、目次の定義は、「目次」要素の下位要素として、「表題」要素が1つと「見出し」要素が1つ以上並んでいるものであると定義される。このような構造定義を、提示された部分構造定義の組合せから生成するための変換ルール、すなわちアプリケーション依存変換ルールを書くことになる。この変換ルールは、まず「表題」要素を取り出し、次に「見出し」要素を取り出すことになる。図16にアプリケーション依存変換ルールの例を示す。
アプリケーションプログラマは、このようにして作成した目次を取り出すための変換ルールを変換ルール登録部17を介して変換ルール保持部12に登録する。
【0050】
目次を取り出すための新たなアプリケーション依存変換ルールが登録されると、部分構造抽出部14は文書データ保持部16から統一的内部フォーマットで表現された文書群を取り出し、図11および図12に示した手順に従って、アプリケーション依存変換ルールおよびシステム組み込み型変換ルールを順次適用し、所望の部分構造を抽出して文書データ保持部16に保持する。
図17は、図3に示した文書データと変換ルールの関係に対して、新たなアプリケーション33と新たなアプリケーション依存変換ルール32が登録されたときの様子を示している。アプリケーション依存変換ルール32は、部分構造定義として「見出し」要素の部分構造定義27と「表題」要素の部分構造定義29を参照している。図12に示した手順に従って、ワープロAの文書に対しては、システム組み込み型変換ルール23および26、ワープロBの文書に対してはシステム組み込み型変換ルール24および26が適用された後、アプリケーション依存変換ルール32(図16に示したもの)が適用され、所望の部分構造すなわち目次が抽出される。
【0051】
図4に示したワープロAの文書に対して図6に示したシステム組み込み型変換ルール23を適用した結果(図13)に対して、図9に示したシステム組み込み型変換ルール26を適用した結果を図18に、図18に示す文書にアプリケーション依存変換ルール32(図16)を適用した結果を図19にそれぞれ示す。
また、図5に示したワープロBの文書に対して図7に示したシステム組み込み型変換ルール24を適用した結果を図20に、図20に示す文書に図9に示したシステム組み込み型変換ルール26を適用した結果を図21に、図21に示す文書にアプリケーション依存変換ルール32(図16)を適用した結果を図22にそれぞれ示す。
【0052】
このように複数のアプリケーションで利用されるであろう文書要素を抽出する変換ルールをフォーマットごとに記述して提供することによって、アプリケーション依存変換ルールを適用して部分構造を抽出する際には、必要最小限のシステム組み込み型変換ルールが適用され、効率的にアプリケーションが必要とする部分構造を抽出することができる。また、アプリケーション依存変換ルールを作成する際には、文書フォーマットの違いを意識することなく記述することが可能となる。
なお、上記の例では対象文書としてワープロA、ワープロBなどいわゆる書式指向文書の例を示したが、これは構造化文書であってもよい。対象が構造化文書である場合には、文書フォーマット均質化部13による統一的内部フォーマットへの変換は必要なく、構造化文書のフォーマットをそのまま統一的内部フォーマットとして扱えばよい。
【0053】
次に、更に効率的に変換ルールの適用を可能とする他の実施例について説明する。
上記の実施例で示した参考文献リスト抽出の例では、アプリケーション依存変換ルールを適用するに際し、利用するシステム組み込み型変換ルール(上記の実施例では「見出し」を抽出する変換ルールと「箇条書き項目」を抽出する変換ルール)を個別に適用していた。しかしながら、参考文献リストを抽出する際に実際に必要な見出しは"参考文献"もしくは"References"をテキスト内容に含む見出しだけであり、また、必要な箇条書き項目は、参考文献リストに相当する箇条書き項目だけある。すなわち、不要な「見出し」要素や「項目」要素を抽出しているので、本例では、アプリケーション依存変換ルールの制約を満たす「見出し」要素および「項目」要素のみを抽出するように、アプリケーション依存変換ルールを展開するようにしている。
【0054】
まず、図10に示した参考文献リストを抽出するアプリケーション依存変換ルールの各素ルールについて、「見出し」要素および「項目」要素を変換元要素名として要求するものを探す。図10では、素ルール102が「見出し」要素を変換元要素名として、素ルール103が「項目」要素を変換元要素名としてそれぞれ要求している。そこで、元文書のフォーマットごとに、それぞれに対応するシステム組み込み型変換ルールを取り出し、各素ルールを展開する。
具体的には、ワープロAの文書が部分構造抽出の対象になったとする。このとき、図10に示した参考文献リストを抽出するアプリケーション依存変換ルールに対して、図6に示した「見出し」要素を抽出するシステム組み込み型変換ルールと、図8に示した「項目」要素を抽出するシステム組み込み型変換ルールが適用される。
【0055】
図6に示した変換ルールでは「見出し」要素に変換する条件として[ATT: type="bold"]が設定されている。そこで、素ルール102の変換元要素名に対する条件[SOURCE: 見出し]を[ATT: type="bold"]に展開する。また、図8に示した変換ルールでは「項目」要素に変換する条件として[(TEXT: "^・")v(TEXT: "^\[.+\]")v(TEXT: "^\(.+\)")v(TEXT: "^[0-9]+\.")]が設定されている。そこで、素ルール103の変換元要素名に対する条件[SOURCE: 項目]を[(TEXT: "^・")v(TEXT: "^\[.+\]")v(TEXT: "^\(.+\)")v(TEXT: "^[0-9]+\.")]に展開する。図23に、このようにして展開された変換ルールを示す。ただし、図23では、「項目」要素に変換する条件は論理演算の結果、冗長な部分を省いてある。このように展開された変換ルールを、ワープロAの文書に対応する統一的内部フォーマットに対して直接適用することにより、アプリケーションにとっては不要な「見出し」要素および「箇条書き項目」要素を抽出することなく必要な部分構造のみを抽出することが可能になる。
【0056】
次に、ワープロBの文書が部分構造抽出の対象になったとする。このとき、図10に示した参考文献リストを抽出するアプリケーション依存変換ルールに対して、図7に示した「見出し」要素を抽出するシステム組み込み型変換ルールと、図8に示した「項目」要素を抽出するシステム組み込み型変換ルールが適用される。図7に示した変換ルールでは「見出し」要素に変換する条件として[SOURCE: HEAD]が設定されている。そこで、素ルール102の変換元要素名に対する条件[SOURCE: 見出し]を[SOURCE: HEAD]に展開する。また、図8に示した変換ルールでは「項目」要素に変換する条件として[(TEXT: "^・")v(TEXT: "^\[.+\]")v(TEXT: "^\(.+\)")v(TEXT: "^[0-9]+\.")]が設定されている。そこで、素ルール103の変換元要素名に対する条件[SOURCE: 項目]を[(TEXT: "^・")v(TEXT: "^\[.+\]")v(TEXT: "^\(.+\)")v(TEXT: "^[0-9]+\.")]に展開する。
図24に、このようにして展開された変換ルールを示す。ただし、図24では、「項目」要素に変換する条件は論理演算の結果、冗長な部分を省いてある。このように展開された変換ルールを、ワープロBの文書に対応する統一的内部フォーマットに対して直接適用することにより、アプリケーションにとっては不要な「見出し」要素および「箇条書き項目」要素を抽出することなく必要な部分構造のみを抽出することが可能になる。
【0057】
このように、アプリケーション依存変換ルールを、対応するシステム組み込み型変換ルールを参照して展開することで、参考文献に関わる「見出し」要素のみを抽出し、その「見出し」要素に連続する要素のみを箇条書き項目の要素として調べることになるので、不要な「見出し」要素や「項目」要素を抽出する必要がなくなり、更なる効率化が可能となる。
【0058】
【発明の効果】
以上述べたように、本発明によると、異なる文書フォーマットや文書型の文書に対してその構造の違いを意識することなく、アプリケーションに必要となる部分構造を抽出するための変換ルールを、あらかじめフォーマットの違い等を吸収したシステム組み込み型の部分構造抽出ルールを用いて容易に記述することができる。
また、本発明によると、アプリケーションに必要となる部分構造のみを選択的に抽出することができるため、効率的に文書構造を取り出すことができる。更には、アプリケーションで必要とされる部分構造の制約条件を利用することにより、より効率的な部分構造抽出処理が実現できる。
【図面の簡単な説明】
【図1】 本発明に係る文書管理システムを利用したシステムの全体構成を示す図である。
【図2】 文書管理システムの構成の一例を示す図である。
【図3】 文書データと変換ルールの関係を説明する図である。
【図4】 ワープロAの統一的内部フォーマット文書の一例を示す図である。
【図5】 ワープロBの統一的内部フォーマット文書の一例を示す図である
【図6】 ワープロAの統一的内部フォーマット文書から「見出し」を取り出す変換ルールの一例を示す図である。
【図7】 ワープロBの統一的内部フォーマット文書から「見出し」を取り出す変換ルールの一例を示す図である。
【図8】 統一的内部フォーマット文書から「箇条書き項目」を取り出す変換ルールの一例を示す図である。
【図9】 統一的内部フォーマット文書から「表題」を取り出す変換ルールの一例を示す図である。
【図10】 参考文献リストを取り出すためのアプリケーション依存変換ルールの一例を示す図である。
【図11】 変換ルールの適用処理の手順を示すフローチャートである。
【図12】 変換ルールの適用処理の手順を示すフローチャートである。
【図13】 ワープロAの統一的内部フォーマット文書から「見出し」を取り出した結果を示す図である。
【図14】 ワープロAの統一的内部フォーマット文書から「見出し」と「項目」を取り出した結果を示す図である。
【図15】 ワープロAの統一的内部フォーマット文書から抽出した参考文献リストを示す図である。
【図16】 目次を取り出すためのアプリケーション依存変換ルールの一例を示す図である。
【図17】 文書データと変換ルールの関係を説明する図である。
【図18】 ワープロAの統一的内部フォーマット文書から「見出し」と「表題」を取り出した結果を示す図である。
【図19】 ワープロAの統一的内部フォーマット文書から抽出した「目次」を示す図である。
【図20】 ワープロBの統一的内部フォーマット文書から「見出し」を取り出した結果を示す図である。
【図21】 ワープロBの統一的内部フォーマット文書から「見出し」と「表題」を取り出した結果を示す図である。
【図22】 ワープロBの統一的内部フォーマット文書から抽出した「目次」を示す図である。
【図23】 ワープロAの文書に対してアプリケーション依存変換ルールを展開した例を示す図である。
【図24】 ワープロBの文書に対してアプリケーション依存変換ルールを展開した例を示す図である。
【符号の説明】
1・・・ 文書管理システム、 11・・・ 文書登録部、
12・・・ 変換ルール保持部、 13・・・ 文書フォーマット均質化部、
14・・・ 部分構造抽出部、 16・・・ 文書データ保持部、
17・・・ 変換ルール登録部、 18・・・ 部分構造定義参照部、

Claims (6)

  1. 利用者の要求に応じて文書を受け付ける文書登録手段と、
    前記文書登録手段で受け付けた文書を構造化文書へ変換する文書フォーマット変換手段と、
    構造化文書から部分構造を抽出するためのシステム組み込み型変換ルール、および、システム組み込み型変換ルールの組合せによりアプリケーションごとに必要な部分構造を抽出するためのアプリケーション依存変換ルールを保持する変換ルール保持手段と、
    アプリケーションに応じて、前記文書登録手段で受け付けて前記文書フォーマット変換手段で変換された構造化文書前記変換ルール保持手段に保持されたシステム組み込み型変換ルールを適用して第1の部分構造を抽出し、対応するアプリケーション依存変換ルールを第1の部分構造に適用して第2の部分構造を抽出する部分構造抽出手段と、
    前記文書登録手段にて受け付けた文書と、前記文書フォーマット変換手段で変換された構造化文書と、前記部分構造抽出手段にてアプリケーションごとに抽出された第2の部分構造とを関連付けて保持する保持部と、
    を備えたことを特徴とする文書管理システム。
  2. 利用者の要求に応じて文書を受け付ける文書登録手段と、
    前記文書登録手段で受け付けた文書を構造化文書へ変換する文書フォーマット変換手段と、
    構造化文書から部分構造を抽出するためのシステム組み込み型変換ルール、および、システム組み込み型変換ルールの組合せによりアプリケーションごとに必要な部分構造を抽出するためのアプリケーション依存変換ルールを保持する変換ルール保持手段と、
    アプリケーションに応じて、前記文書登録手段で受け付けて前記文書フォーマット変換手段で変換された構造化文書に前記変換ルール保持手段に保持されたシステム組み込み型変換ルールを適用して第1の部分構造を抽出し、対応するアプリケーション依存変換ルールを第1の部分構造に適用して第2の部分構造を抽出する部分構造抽出手段と、
    前記文書登録手段にて受け付けた文書と前記部分構造抽出手段にてアプリケーションごとに抽出された第2の部分構造を関連付けて保持する保持部と、
    を備えたことを特徴とする文書管理システム。
  3. 前記システム組み込み型変換ルールは、構造化文書から第1の部分構造を抽出する規則であり、変換元の部分構造を含む条件記述と変換先の部分構造の組として定義され、第1の部分構造を識別する識別情報を条件記述に対応付けており、
    前記アプリケーション依存変換ルールは、第1の部分構造から第2の部分構造を抽出する規則であり、変換元の部分構造を含む条件記述と変換先の部分構造の組として定義され、条件記述中に第1の部分構造を識別する識別情報を含んでおり、
    前記文書登録手段は文書と共にそのフォーマット名称もしくは文書型を受け付け、
    前記部分構造抽出手段は、前記文書登録手段が受け付けたフォーマット名称もしくは文書型から適用するシステム組み込み型変換ルールを特定し、アプリケーション依存変換ルールの条件記述中の識別情報を前記特定したシステム組み込み型変換ルール中の当該識別情報に対応付けられた条件記述に置き換えて新たなルールを構成し、当該ルールを構造化文書に適用して第2の部分構造を抽出することを特徴とする請求項1または請求項2に記載の文書管理システム。
  4. 前記変換ルール保持手段はシステム組み込み型変換ルールにより抽出可能な部分構造の定義を保持しており、
    前記変換ルール保持手段に保持されている部分構造の定義を利用者に提示する部分構造定義参照手段と、
    前記部分構造定義参照手段により提示された部分構造定義を参照して利用者が作成したアプリケーション依存変換ルールを前記変換ルール保持手段に登録する変換ルール登録手段と、
    を備えたことを特徴とする請求項1から請求項3のいずれか1項に記載の文書管理システム。
  5. 変換ルール保持手段が、構造化文書から第1の部分構造を抽出するためのシステム組み込み型変換ルール、および、システム組み込み型変換ルールの組合せによりアプリケーションごとに必要な第2の部分構造を抽出するためのアプリケーション依存変換ルールを保持し、
    文書登録手段が、登録する文書を受け付けると、
    文書フォーマット変換手段が、前記文書登録手段で受け付けた文書を構造化文書へ変換し、
    部分構造抽出手段が、アプリケーションに応じて、前記変換された構造化文書前記変換ルール保持手段に保持されたシステム組み込み型変換ルールを適用して第1の部分構造を抽出し、対応するアプリケーション依存変換ルールを第1の部分構造に適用して第2の部分構造を抽出し、
    文書データ保持部が、前記文書登録手段で受け付けた文書と、前記文書フォーマット変換手段で変換された構造化文書と、前記部分構造抽出手段でアプリケーションごとに抽出された第2の部分構造とを関連付けて保持することを特徴とする文書管理方法。
  6. 変換ルール保持手段が、構造化文書から第1の部分構造を抽出するためのシステム組み込み型変換ルール、および、システム組み込み型変換ルールの組合せによりアプリケーションごとに必要な第2の部分構造を抽出するためのアプリケーション依存変換ルールを保持し、
    文書登録手段が、登録する文書を受け付けると、
    文書フォーマット変換手段が、前記文書登録手段で受け付けた文書を構造化文書へ変換し、
    部分構造抽出手段が、アプリケーションに応じて、前記変換された構造化文書に前記変換ルール保持手段に保持されたシステム組み込み型変換ルールを適用して第1の部分構造を抽出し、対応するアプリケーション依存変換ルールを第1の部分構造に適用して第2の部分構造を抽出し、
    文書データ保持部が、前記文書登録手段で受け付けた文書と前記部分構造抽出手段でアプリケーションごとに抽出された第2の部分構造を関連付けて保持することを特徴とする文書管理方法。
JP28207998A 1998-09-18 1998-09-18 文書管理システム Expired - Fee Related JP3896702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28207998A JP3896702B2 (ja) 1998-09-18 1998-09-18 文書管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28207998A JP3896702B2 (ja) 1998-09-18 1998-09-18 文書管理システム

Publications (3)

Publication Number Publication Date
JP2000099512A JP2000099512A (ja) 2000-04-07
JP2000099512A5 JP2000099512A5 (ja) 2005-01-27
JP3896702B2 true JP3896702B2 (ja) 2007-03-22

Family

ID=17647862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28207998A Expired - Fee Related JP3896702B2 (ja) 1998-09-18 1998-09-18 文書管理システム

Country Status (1)

Country Link
JP (1) JP3896702B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3873647B2 (ja) 2001-04-04 2007-01-24 株式会社デンソー 車両開発システム
US7191186B1 (en) 2002-11-27 2007-03-13 Microsoft Corporation Method and computer-readable medium for importing and exporting hierarchically structured data
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system
JP2005044384A (ja) * 2004-11-15 2005-02-17 Digital Communications:Kk 情報処理プログラム及びレイアウト情報処理システム。

Also Published As

Publication number Publication date
JP2000099512A (ja) 2000-04-07

Similar Documents

Publication Publication Date Title
US8484552B2 (en) Extensible stylesheet designs using meta-tag information
US9619448B2 (en) Automated document revision markup and change control
EP1657649B1 (en) System and method for transforming legacy documents into XML documents
US6094649A (en) Keyword searches of structured databases
US6853992B2 (en) Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
US5778400A (en) Apparatus and method for storing, searching for and retrieving text of a structured document provided with tags
CN100565521C (zh) 用于从数据库生成xml文档的动态方法
US20020007373A1 (en) System, method, and computer program product for knowledge management
WO1997045800A1 (en) Querying heterogeneous data sources distributed over a network using context interchange and data extraction
US7457812B2 (en) System and method for managing structured document
JPH11242676A (ja) 構造化文書登録方法、検索方法、およびそれに用いられる可搬型媒体
US20060053169A1 (en) System and method for management of data repositories
JP2008090404A (ja) 文書検索装置、文書検索方法および文書検索プログラム
US20110252313A1 (en) Document information selection method and computer program product
JP2001167086A (ja) 文書のデジタル署名付き管理方法および文書管理装置
JP3896702B2 (ja) 文書管理システム
JP2002215519A (ja) ウェブページ生成方法およびシステム、ウェブページ生成プログラム、記録媒体
Rasmussen et al. The data documentation initiative: a preservation standard for research
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
US20080091695A1 (en) Apparatus, method and computer program product for assigning element of structured-text
EP1377917A2 (en) Extensible stylesheet designs using meta-tag information
JP2003288365A (ja) 付加情報管理方法及び付加情報管理システム
JP2002342342A (ja) 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2000250930A (ja) 構造化文書検索システム

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061211

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140105

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees