JP2000099512A - Document managing system - Google Patents

Document managing system

Info

Publication number
JP2000099512A
JP2000099512A JP10282079A JP28207998A JP2000099512A JP 2000099512 A JP2000099512 A JP 2000099512A JP 10282079 A JP10282079 A JP 10282079A JP 28207998 A JP28207998 A JP 28207998A JP 2000099512 A JP2000099512 A JP 2000099512A
Authority
JP
Japan
Prior art keywords
document
conversion rule
application
partial structure
conversion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP10282079A
Other languages
Japanese (ja)
Other versions
JP2000099512A5 (en
JP3896702B2 (en
Inventor
Kenichi Numata
賢一 沼田
Masaharu Ozaki
正治 尾崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP28207998A priority Critical patent/JP3896702B2/en
Publication of JP2000099512A publication Critical patent/JP2000099512A/en
Publication of JP2000099512A5 publication Critical patent/JP2000099512A5/ja
Application granted granted Critical
Publication of JP3896702B2 publication Critical patent/JP3896702B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To permit a user to easily describe an application depending conversion rule for extracting partial structure required for an application, to selectively extract only partial structure required for the application and to hold/manage it through the use of the application depending conversion rule and a required system incorporated conversion rule. SOLUTION: An application depending conversion rule for extracting partial structure required at every application by a system incorporated conversion rule and the combination of the system incorporated conversion rules for extracting partial structure from a unified inner format document held in a conversion rule holding part 12 is held. When the registered document is received from a document registration part 11, a document format averaging part 13 converts the document into an inner format. A partial structure extraction part 14 applies the system incorporated conversion rule held by the conversion rule holding part 12 to the document converted into the inner format and the corresponding application depending conversion rule is applied so as to extract partial structure. Then, a document data bolding part 16 relates partial structure with the document and the inner format document so as to hold them.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、多種のフォーマッ
トや文書型の文書を蓄積し、利用者の要求に応じて必要
となる部分構造を文書中から取り出す文書管理システム
に関する。
[0001] 1. Field of the Invention [0002] The present invention relates to a document management system for storing documents of various formats and document types and extracting a necessary partial structure from the document in response to a user request.

【0002】[0002]

【従来の技術】文書管理システムの基本機能は、多量の
電子文書を蓄え、利用者あるいはアプリケーションから
の要求に応じて文書データを返すことである。SGML
(Standard Generalized Markup Language; ISO8879/19
86; JIS X 4151/1992)に代表される構造化文書を管理
する文書管理システムでは、さらに小さい粒度、すなわ
ち文書要素単位でのアクセスが可能となっている。構造
化文書は通常、文書型と呼ばれる構造の定義に従って作
成されており、この文書型が利用目的に応じて適切に定
義されていれば、その文書型に従って作成された文書は
有効に再利用することができるが、この文書型に従わな
い文書は再利用できない。また、異なる利用目的に対し
てはこの文書型を利用することができない。
2. Description of the Related Art A basic function of a document management system is to store a large amount of electronic documents and return document data in response to a request from a user or an application. SGML
(Standard Generalized Markup Language; ISO8879 / 19
86; JIS X 4151/1992), a document management system that manages structured documents can access even smaller granularities, that is, in units of document elements. Structured documents are usually created according to the definition of a structure called a document type, and if this document type is appropriately defined according to the purpose of use, documents created according to the document type are effectively reused. Documents that do not follow this document type cannot be reused. Also, this document type cannot be used for different purposes.

【0003】また、構造化文書ではない、ワードプロセ
ッサ等で作成された文書(以下、書式指向文書と呼ぶ)
では、例えそのフォーマットが公開されていたとして
も、構造化文書の文書型にあたる構造定義はなく、フォ
ントのサイズやタイプなどが個々の要素ごとに付与され
ているものがほとんどである。そして、例え構造定義が
あったとしても章・節・段落・箇条書きなど用途にかか
わらず、ごく一般的に用いられる要素として定義されて
いるにすぎない。このため、書式指向文書については、
構造を積極的に利用はできず、そのテキスト部分のみを
対象に全文検索を可能としているものが多かった。
Also, a document created by a word processor or the like, which is not a structured document (hereinafter, referred to as a format-oriented document)
Even if the format is made public, there is no structure definition corresponding to the document type of the structured document, and in most cases, font size and type are assigned to each element. And even if there is a structural definition, it is defined only as a very commonly used element regardless of the application, such as a chapter, section, paragraph, or bullet point. Therefore, for format-oriented documents,
The structure could not be used positively, and many of them enabled full-text search only for the text part.

【0004】書式指向文書を論理構造を持つ文書として
扱いたいという要求に対して、従来では、書式指向の文
書データをある規則に基づいて構造化文書に変換して利
用できるようにしてきた。例えば、特開平8−1905
42号公報に開示された「文書データベース管理装置及
び方法」においては、データベースに格納する対象とな
る様々なフォーマットの文書の論理構造からデータベー
ス中での論理構造を生成するための規則を保持し、この
規則に基づいて文書格納時に論理構造を変換している。
これにより、単純な論理構造しか持たない書式指向文書
を、利用目的に沿った論理構造を持つ文書へ変換した結
果でデータベースに格納し、再利用することが可能とな
っている。また、構造化文書をデータベースに格納する
際にも、利用目的に沿った別の論理構造へ変換して格納
することができるため、様々な異なる文書型を持つ文書
を統一的な論理構造を持つものとして扱うことが可能で
ある。
In response to a request to treat a format-oriented document as a document having a logical structure, conventionally, format-oriented document data has been converted into a structured document based on a certain rule and can be used. For example, JP-A-8-1905
No. 42, "Document Database Management Apparatus and Method" holds a rule for generating a logical structure in a database from a logical structure of documents of various formats to be stored in the database, Based on this rule, the logical structure is converted when storing a document.
As a result, a format-oriented document having only a simple logical structure can be stored in a database as a result of conversion into a document having a logical structure according to the purpose of use, and can be reused. Also, when storing a structured document in a database, since it can be converted to another logical structure according to the purpose of use and stored, a document having various different document types has a unified logical structure. It is possible to treat as.

【0005】[0005]

【発明が解決しようとする課題】しかしながら、上記の
ような従来の方法では、利用目的に依存した変換規則あ
るいは変換プログラムを、書式指向文書の場合はそのフ
ォーマット、構造化文書の場合は文書型を熟知した上
で、フォーマットもしくは文書型ごとに作成しなければ
ならない。このため、フォーマットもしくは文書型の種
類が増えれば増えるほど多大な人的コストが必要となっ
ていた。また、新たなアプリケーションを構築する際に
は、別の利用目的が発生するため、そのアプリケーショ
ンが利用する構造を持つように、全ての文書フォーマッ
トもしくは文書型から新たに利用する構造への変換プロ
グラムを作成しなければならかった。
However, in the above-described conventional method, a conversion rule or a conversion program depending on the purpose of use is converted into a format for a format-oriented document, and a document type for a structured document. You must be familiar with it and create it for each format or document type. For this reason, the greater the number of types of formats or document types, the greater the human cost. Also, when building a new application, a different purpose of use arises. Therefore, a conversion program from all document formats or document types to a structure to be newly used must have a structure to be used by the application. I had to create it.

【0006】本発明は、上記のような従来の事情に鑑み
てなされたもので、アプリケーション依存変換ルールお
よび必要なシステム組み込み型変換ルールを用いて、ア
プリケーションに必要となる部分構造のみを選択的に抽
出して保持管理することができる文書管理システムを提
供することを目的とする。また、本発明は、文書の異な
るフォーマットや文書型による構造の違いを意識するこ
となく、アプリケーションに必要となる部分構造を抽出
するためのアプリケーション依存変換ルールを利用者が
容易に記述することができる文書管理システムを提供す
ることを目的とする。
The present invention has been made in view of the above-described conventional circumstances, and selectively uses application-dependent conversion rules and necessary system-incorporated conversion rules to selectively select only a partial structure required for an application. It is an object of the present invention to provide a document management system that can extract, hold, and manage. Further, according to the present invention, a user can easily describe an application-dependent conversion rule for extracting a partial structure required for an application without being aware of a difference in structure between different formats and document types of a document. The purpose is to provide a document management system.

【0007】[0007]

【課題を解決するための手段】本発明に係る文書管理シ
ステムでは、変換ルール保持手段に、文書の統一的な内
部フォーマットから部分構造を抽出するためのシステム
組み込み型変換ルール、および、システム組み込み型変
換ルールの組合せによりアプリケーションごとに必要な
部分構造を抽出するためのアプリケーション依存変換ル
ールを保持しており、文書登録手段から文書管理システ
ムへ登録する文書を受け付けると、文書フォーマット均
質化手段が当該文書を統一的な内部フォーマットへ変換
する。そして、文書中から目次や見出しなどといった部
分構造を利用するアプリケーションが起動されている
と、部分構造抽出手段が、当該アプリケーションに応じ
て、内部フォーマットに変換された文書に変換ルール保
持手段に保持されたシステム組み込み型変換ルールを適
用し更に対応するアプリケーション依存変換ルールを適
用して部分構造を抽出し、文書データ保持部が、当該部
分構造を文書登録手段にて受け付けた文書および内部フ
ォーマットの文書に関連付けて保持する。したがって、
種々なアプリケーションでの利用に対応して、アプリケ
ーション依存変換ルールおよび必要なシステム組み込み
型変換ルールを用いて各アプリケーションに必要となる
部分構造が保持管理され、アプリケーションごとに必要
となる部分構造の利用に迅速に対処することができる。
In a document management system according to the present invention, a conversion rule holding means includes a system built-in conversion rule for extracting a partial structure from a uniform internal format of a document, and a system built-in conversion rule. An application-dependent conversion rule for extracting a partial structure required for each application by a combination of conversion rules is held. When a document to be registered in the document management system is received from the document registration unit, the document format homogenization unit receives the document. To a unified internal format. When an application that uses a partial structure such as a table of contents or a heading is activated from the document, the partial structure extracting unit stores the document in the internal format according to the application in the conversion rule holding unit. The document data holding unit applies the built-in system-based conversion rule and further applies the corresponding application-dependent conversion rule to extract the partial structure, and the document data holding unit converts the partial structure into a document received by the document registration unit and a document in the internal format. Relate and retain. Therefore,
In accordance with the use in various applications, the partial structure required for each application is retained and managed using application-dependent conversion rules and the necessary system-incorporated conversion rules, and the use of the partial structure required for each application is maintained. Can respond quickly.

【0008】ここで、本発明における好ましい態様とし
て、文書登録手段は文書と共にそのフォーマット名称も
しくは文書型を受け付け、部分構造抽出手段は、文書登
録手段が受け付けたフォーマット名称もしくは文書型か
ら適用するシステム組み込み型変換ルールを特定し、特
定したシステム組み込み型変換ルールを内部フォーマッ
トに変換された文書に適用し更に対応するアプリケーシ
ョン依存変換ルールを適用して部分構造を抽出する。な
お、部分構造の抽出処理は、アプリケーション依存変換
ルールが参照しているシステム組み込み型変換ルールの
条件記述に基づいて、アプリケーション依存変換ルール
の条件記述を展開することにより行われる。
Here, as a preferred embodiment of the present invention, the document registration means receives the format name or document type together with the document, and the partial structure extraction means incorporates a system incorporated from the format name or document type received by the document registration means. A type conversion rule is specified, the specified system built-in type conversion rule is applied to the document converted into the internal format, and a corresponding application-dependent conversion rule is applied to extract a partial structure. The extraction processing of the partial structure is performed by expanding the condition description of the application-dependent conversion rule based on the condition description of the system-incorporated conversion rule referred to by the application-dependent conversion rule.

【0009】また、本発明における好ましい態様とし
て、変換ルール保持手段はシステム組み込み型変換ルー
ルにより抽出可能な部分構造の定義を保持しており、変
換ルール保持手段に保持されている部分構造の定義を利
用者に提示する部分構造定義参照手段と、部分構造定義
参照手段により提示された部分構造定義を参照して利用
者が作成したアプリケーション依存変換ルールを変換ル
ール保持手段に登録する変換ルール登録手段と、を更に
備える。これにより、利用者は文書の異なるフォーマッ
トや文書型による構造の違いを意識することなく、提示
された部分構造定義を参照することにより、アプリケー
ションに必要となる部分構造を抽出するためのアプリケ
ーション依存変換ルールを容易に記述し、これを以後の
利用のためにシステムに登録させることができる。
In a preferred embodiment of the present invention, the conversion rule holding means holds a definition of a partial structure that can be extracted by a system built-in type conversion rule, and converts the definition of the partial structure held by the conversion rule holding means. A substructure definition reference means for presenting to the user; a conversion rule registration means for registering, in the conversion rule holding means, an application-dependent conversion rule created by the user with reference to the substructure definition presented by the substructure definition reference means; Is further provided. This allows the user to refer to the presented partial structure definition without having to be aware of the difference in structure between different formats and document types of the document, and to perform application-dependent conversion to extract the partial structure required for the application. Rules can be easily described and registered with the system for future use.

【0010】[0010]

【発明の実施の形態】本発明に係る文書管理システムを
実施例に基づいて具体的に説明する。図1には文書管理
システム1の一利用形態を示してあり、文書管理システ
ム1はローカルエリアネットワークNに接続されてお
り、多くのクライアントシステム2からアクセスされ
る。なお、ローカルエリアネットワークNは広域ネット
ワークあるいは、専用回線による企業内イントラネット
に接続され、リモートからのアクセスも可能である。図
2には文書管理システム1の内部構成の一例を示してあ
り、文書管理システム1は、文書登録部11、変換ルー
ル保持部12、文書フォーマット均質化部13、部分構
造抽出部14、文書検索部15、文書データ保持部1
6、変換ルール登録部17、部分構造定義参照部18を
有している。なお、本例では、これら機能手段はコンピ
ュータハードウエア資源を利用して所定の文書管理プロ
グラムを実行することにより構成されている。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS A document management system according to the present invention will be specifically described based on embodiments. FIG. 1 shows one use form of the document management system 1. The document management system 1 is connected to a local area network N and is accessed from many client systems 2. The local area network N is connected to a wide area network or a corporate intranet via a dedicated line, and can be accessed remotely. FIG. 2 shows an example of the internal configuration of the document management system 1. The document management system 1 includes a document registration unit 11, a conversion rule holding unit 12, a document format homogenization unit 13, a partial structure extraction unit 14, a document search. Unit 15, document data holding unit 1
6, a conversion rule registration unit 17, and a partial structure definition reference unit 18. In the present example, these functional units are configured by executing a predetermined document management program using computer hardware resources.

【0011】文書登録部11はネットワークNを介した
通信機能を有しており、クライアント2から登録の要求
があったときに、クライアント2から渡される文書デー
タを受け取り、この元文書データを文書データ保持部1
6に登録するとともに、文書フォーマット均質化部13
にこの元文書データとそれに付随しているフォーマット
名称もしくは文書型を渡す。文書フォーマット均質化部
13は、異なるフォーマットや文書型の文書データを統
一的な内部フォーマットに変換し、これを後の利用のた
めに文書データ保持部16に登録するとともに、部分構
造の抽出のために部分構造抽出部14に渡す。
The document registration unit 11 has a communication function via the network N. When a registration request is received from the client 2, the document registration unit 11 receives the document data passed from the client 2, and converts the original document data into the document data. Holder 1
6 and the document format homogenization unit 13
To the original document data and the format name or document type attached to the original document data. The document format homogenization unit 13 converts document data of different formats and document types into a unified internal format, registers this in the document data holding unit 16 for later use, and extracts the partial structure. To the partial structure extraction unit 14.

【0012】変換ルール保持部12は読み書き自在なメ
モリから構成されており、統一的内部フォーマットから
所望の部分構造を取り出すためのシステム組み込み型変
換ルールおよびアプリケーションごとに定義される変換
ルール(以後、アプリケーション依存変換ルールと呼
ぶ)を保持し、更には、本例では、後述するように利用
者に提示するシステム組み込み型変換ルールで抽出可能
な部分構造の定義を保持する。なお、変換ルール保持部
12は、文書登録時に部分構造抽出部14から随時呼び
出されて必要となる変換ルールを出力し、また、アプリ
ケーション依存型変換ルール作成時には変換ルール登録
部17から呼び出されて部分構造定義を部分構造定義参
照部18へ出力する。
The conversion rule holding unit 12 is composed of a readable and writable memory, and includes a system built-in conversion rule for extracting a desired partial structure from a unified internal format and a conversion rule defined for each application (hereinafter referred to as an application). In this example, the definition of a partial structure that can be extracted by a system-incorporated conversion rule presented to the user as described later is stored. The conversion rule holding unit 12 is called from the partial structure extraction unit 14 as needed at the time of document registration, and outputs necessary conversion rules. When creating an application-dependent conversion rule, the conversion rule holding unit 12 is called from the conversion rule registration unit 17 and outputs the necessary conversion rules. The structure definition is output to the partial structure definition reference unit 18.

【0013】部分構造抽出部14は、現在実行されてい
るアプリケーションに応じて、アプリケーション依存変
換ルールおよび当該アプリケーション依存型変換ルール
が利用しているシステム組み込み型変換ルールを変換ル
ール保持部12から取り出し、このシステム組み込み型
変換ルールを適用し、更に、その適用結果に当該アプリ
ケーション依存型変換ルールを適用して、抽出された所
望の部分構造を文書データ保持部16に元文書データに
対応付けて登録する。すなわち、アプリケーション毎に
応じた部分構造が元文書データに対応付けて文書データ
保持部16に登録される。
The partial structure extracting unit 14 extracts, from the conversion rule holding unit 12, an application-dependent conversion rule and a system-incorporated conversion rule used by the application-dependent conversion rule, according to the currently executed application. The system-incorporated conversion rule is applied, the application-dependent conversion rule is applied to the application result, and the extracted desired partial structure is registered in the document data holding unit 16 in association with the original document data. . That is, a partial structure corresponding to each application is registered in the document data holding unit 16 in association with the original document data.

【0014】文書検索部15は、利用者やクライアント
から検索要求があった場合に、文書データ保持部16に
対してその要求を与えて検索要求に合致する元文書デー
タもしくは部分構造を結果として返す。文書データ保持
部16は読み書き自在なメモリから構成されており、元
文書データ、統一的内部フォーマットで表現された文書
データ、および抽出された部分構造を対応付けて保持す
る。
When a search request is received from a user or a client, the document search unit 15 gives the request to the document data holding unit 16 and returns original document data or a partial structure that matches the search request as a result. . The document data holding unit 16 is composed of a readable and writable memory, and holds original document data, document data expressed in a unified internal format, and extracted partial structures in association with each other.

【0015】変換ルール登録部17は、利用者が部分構
造を利用するための新たなアプリケーションを構築する
時に、利用者が作成したアプリケーション依存変換ルー
ルを受け付けて変換ルール保持部12に登録する。部分
構造定義参照部18はディスプレイ画面を有したインタ
フェースを構成しており、新たなアプリケーション依存
変換ルールを利用者が作成するのを支援するために、上
記の登録時に、変換ルール保持部12に既に登録されて
いるシステム組み込み型変換ルールによって抽出可能な
部分構造の定義を利用者に提示する。
The conversion rule registration unit 17 receives an application-dependent conversion rule created by the user and registers it in the conversion rule holding unit 12 when the user constructs a new application for using the partial structure. The partial structure definition reference unit 18 constitutes an interface having a display screen. In order to assist a user in creating a new application-dependent conversion rule, the partial structure definition reference unit 18 has already registered in the conversion rule holding unit 12 during the above registration. The definition of the substructure that can be extracted by the registered system built-in conversion rule is presented to the user.

【0016】上記のように変換ルールは、そのレベルに
よって、システム組み込み型変換ルールとアプリケーシ
ョン依存型変換ルールとの2つに分類されている。シス
テム組み込み型変換ルールは部分構造を抽出するために
あらかじめシステムに登録されている変換ルールであ
り、アプリケーション依存変換ルールはアプリケーショ
ンに適合する部分構造を抽出するための変換ルールであ
る。したがって、システム組み込み型変換ルールはシス
テム管理者以外は変更できず、アプリケーション依存変
換ルールはアプリケーションプログラマやその人から許
可された人が目的に応じて変更することができる。
As described above, the conversion rules are classified into two types, system-based conversion rules and application-dependent conversion rules, according to their levels. The system-incorporated conversion rule is a conversion rule registered in the system in advance to extract a partial structure, and the application-dependent conversion rule is a conversion rule for extracting a partial structure suitable for an application. Therefore, the system-incorporated conversion rules cannot be changed by anyone except the system administrator, and the application-dependent conversion rules can be changed by the application programmer or a person authorized by the person according to the purpose.

【0017】つまり、本発明は、アプリケーションプロ
グラマがシステム組み込み型変換ルールから得られる部
分構造の定義のみを参照して、それらのうち1つ以上の
部分構造定義を組み合わせてアプリケーション依存変換
ルールを記述することができるようにしており、アプリ
ケーションプログラマがアプリケーション依存変換ルー
ルを作成するために元文書データのフォーマットや文書
型を熟知する必要をなくして、変換ルールの記述にかか
る人的コストを削減している。
That is, according to the present invention, the application programmer refers to only the definition of the substructure obtained from the system built-in type conversion rule, and describes the application-dependent conversion rule by combining one or more of these substructure definitions. This eliminates the need for application programmers to know the format and document type of the original document data in order to create application-dependent conversion rules, thereby reducing the human cost of writing conversion rules. .

【0018】図3には、文書データと変換ルールの関係
を示してある。図中の21は、ワープロAの文書データ
に対して、文書フォーマット均質化部13でフォーマッ
ト均質化処理を行った結果得られる統一的内部フォーマ
ットによるワープロAの文書である。ここで、本例で
は、ワープロAの文書フォーマットは基本的に階層構造
を持たずに、単に1次元的に配置された要素に対して、
スタイル指定があるというだけのものであるとする。同
様に、図中の22は、ワープロBの文書データに対し
て、文書フォーマット均質化部13でフォーマット均質
化処理を行った結果得られる統一的内部フォーマットに
よるワープロBの文書である。ここで、本例では、ワー
プロBの文書フォーマットは章、節、段落という一般的
な階層構造をあらかじめ保持することが可能なフォーマ
ットであるとする。
FIG. 3 shows the relationship between document data and conversion rules. Reference numeral 21 in the figure denotes a word processor A document in a unified internal format obtained as a result of performing the format homogenization process on the document data of the word processor A by the document format homogenization unit 13. Here, in this example, the document format of the word processor A basically does not have a hierarchical structure.
It is assumed that there is only a style specification. Similarly, reference numeral 22 in the figure denotes a word processor B document in a unified internal format obtained as a result of performing the format homogenization process on the document data of the word processor B by the document format homogenization unit 13. Here, in this example, it is assumed that the document format of the word processor B is a format that can hold a general hierarchical structure of chapters, sections, and paragraphs in advance.

【0019】図4にはワープロAの文書の統一的内部フ
ォーマットによる表現21を示し、図5にはワープロB
の文書の統一的内部フォーマットによる表現22の例を
示してある。なお、本例では、統一的内部フォーマット
をXML(Extensible Markup Language 1.0; W3C Reco
mmendation 10-Feb-98)で表現している。XMLは構造
化文書のフォーマットの1つであるが、文書型がなくて
もよい、属性を自由に定義できるなど、元文書の情報を
保持しつつ統一フォーマットとして表現するための柔軟
な記述体系を提供している。
FIG. 4 shows a representation 21 of the document of the word processor A in a uniform internal format, and FIG.
Of the document 22 in a unified internal format. In this example, the unified internal format is XML (Extensible Markup Language 1.0; W3C Reco
mmendation 10-Feb-98). XML is one of the formats of structured documents. However, a flexible description system for expressing as a unified format while retaining the information of the original document, such as having no document type and freely defining attributes, is available. providing.

【0020】図4に示すワープロAの統一的内部フォー
マット文書21は、先頭行の「XML」宣言に続いて、「D
OC」要素を持つ。「DOC」要素には、その文書の元の文
書フォーマットを示す「original」属性が設定されてい
る。「DOC」要素はその内容として「PARA」要素の並び
のみを持つ。各「PARA」要素は、その属性として、フォ
ントサイズを表す「size」属性、フォントのタイプ(太
字やイタリック体など)を表す「type」属性、左寄せ、
センタリング、右寄せなどのアライメントを表す「alig
n」属性が設定されている。このようにワープロAの文
書に対応する統一的内部フォーマットは、体裁情報によ
ってのみ区別される同一の要素「PARA」を並べたフラッ
トな(階層構造を持たない)フォーマットである。
The unified internal format document 21 of the word processor A shown in FIG.
OC "element. An “original” attribute indicating the original document format of the document is set in the “DOC” element. The “DOC” element has only a sequence of “PARA” elements as its contents. Each "PARA" element has a "size" attribute that indicates the font size, a "type" attribute that indicates the font type (such as bold or italic),
"Alig" for alignment such as centering and right alignment
n ”attribute is set. Thus, the unified internal format corresponding to the document of the word processor A is a flat (having no hierarchical structure) format in which the same elements “PARA” distinguished only by the format information are arranged.

【0021】図5に示すワープロBの文書は、先頭行の
「XML」宣言に続いて、「DOC」要素を持つ。「DOC」要
素には、その文書の元の文書フォーマットを示す「orig
inal」属性が設定されている。「DOC」要素はその内容
として表題もしくは見出しを表す「HEAD」要素、段落を
表す「PARA」要素、章を表す「SECT」要素を直下の内容
に持つ。「SECT」要素は、先頭に見出しを表す「HEAD」
要素を持ち、それに続いて「PARA」要素の並びを持つ。
このようにワープロBの文書に対応する統一的内部フォ
ーマットは、章、見出し、段落といった一般的な階層構
造を持つフォーマットである。なお、図5には現われて
いないが、「SECT」要素はさらに「SECT」要素を内容に
含んでいても良い。この場合、第1の「SECT」要素は章
を表し、第2の「SECT」要素は節を表すことになる。
The document of the word processor B shown in FIG. 5 has a "DOC" element following the "XML" declaration in the first line. The "DOC" element contains "orig" indicating the original document format of the document.
inal "attribute is set. The "DOC" element has a "HEAD" element representing a title or a headline, a "PARA" element representing a paragraph, and a "SECT" element representing a chapter as its contents. The "SECT" element starts with "HEAD", which indicates a heading
Element, followed by a sequence of "PARA" elements.
Thus, the unified internal format corresponding to the word processor B document is a format having a general hierarchical structure such as chapters, headings, and paragraphs. Although not shown in FIG. 5, the “SECT” element may further include a “SECT” element in the content. In this case, the first "SECT" element represents a chapter and the second "SECT" element represents a clause.

【0022】図3において、23〜26はシステム組み
込み型変換ルールである。本例では、23はワープロA
の文書に対応する統一的内部フォーマット21から「見
出し」を取り出すための変換ルールであるとする。24
は、ワープロBの文書に対応する統一的内部フォーマッ
ト22から「見出し」を取り出すための変換ルールであ
るとする。25はワープロAおよびワープロBの文書に
対応する統一的内部フォーマットから共通に「箇条書き
項目」の部分構造を取り出すための変換ルールであると
する。26はワープロAおよびワープロBの文書に対応
する統一的内部フォーマットから共通に「表題」を取り
出すための変換ルールであるとする。
In FIG. 3, reference numerals 23 to 26 denote conversion rules incorporated in the system. In this example, 23 is a word processor A
It is assumed that the conversion rule is a conversion rule for extracting a “headline” from the unified internal format 21 corresponding to the document. 24
Is a conversion rule for extracting “headings” from the unified internal format 22 corresponding to the word processor B document. It is assumed that reference numeral 25 denotes a conversion rule for extracting a partial structure of "itemized item" from a unified internal format corresponding to the documents of the word processors A and B in common. Reference numeral 26 denotes a conversion rule for extracting a “title” from a unified internal format corresponding to the documents of the word processors A and B in common.

【0023】図6には、ワープロAの文書に対応する統
一的内部フォーマット21から「見出し」を取り出すた
めのシステム組み込み型変換ルール23の一例を示して
ある。ここで、図6を参照して、変換ルールの文法につ
いて説明する。変換ルールは素ルールと構造生成子を接
続したものである。素ルールは条件と変換先要素名の組
から成る。統一的内部フォーマットで表現された文書の
各要素が、素ルールの条件を満たしたとき、その要素が
変換先要素名の要素に変換される。以後、ある要素Xが
素ルールYの条件を満たすとき、「要素Xは素ルールY
にマッチする」と表現する。変換先の要素がないとき
は、変換先要素名を「null」で表す。
FIG. 6 shows an example of a system built-in type conversion rule 23 for extracting "headings" from the unified internal format 21 corresponding to the word processor A document. Here, the grammar of the conversion rule will be described with reference to FIG. A conversion rule is a connection between a prime rule and a structure generator. An elementary rule consists of a pair of a condition and a destination element name. When each element of the document expressed in the unified internal format satisfies the condition of the elementary rule, the element is converted to the element of the conversion destination element name. Thereafter, when an element X satisfies the condition of the elementary rule Y, “element X is elementary rule Y
Matches. " If there is no destination element, the destination element name is represented by "null".

【0024】条件は、変換元となる要素名の条件を表す
「SOURCE」、変換元となる要素の属性に関する条件を表
す「ATT」、変換元となる要素のテキスト内容に関する
条件を表す「TEXT」を任意の数だけ論理演算子(かつ、
または、でない)で接続したものである。構造生成子
は、素ルールと素ルールを接続するものであり、一方の
素ルールにマッチする要素と、他方の素ルールにマッチ
する要素との接続関係を規定する。
The conditions include "SOURCE" indicating the condition of the element name as the conversion source, "ATT" indicating the condition regarding the attribute of the element as the conversion source, and "TEXT" indicating the text content of the element as the conversion source. By any number of logical operators (and
Or not). The structure generator connects elementary rules to each other, and defines a connection relationship between an element that matches one elementary rule and an element that matches the other elementary rule.

【0025】構造生成子には、「SEQ」、「REP」、「CH
O」、「OPT」、「OPTREP」がある。「SEQ」はその上位
(図6では左側)の素ルールにマッチする要素に対し
て、その下位にある要素の並びが、「SEQ」の下位の素
ルールの並びの各素ルールに対して、その順序でマッチ
する必要があることを示す。「REP」はその上位の素ル
ールにマッチする要素に対して、その下位にある要素が
1回以上繰り返し出現し、その全ての要素が「REP」の下
位の素ルールにマッチする必要があることを示す。「CH
O」はその上位の素ルールにマッチする要素に対して、
その下位にある要素が、「CHO」の下位の素ルールの並
びのうちのいずれか1つの素ルールにマッチする必要が
あることを示す。「OPT」はその上位の素ルールにマッ
チする要素に対して、その下位に要素がないか、もしく
は要素がある場合には「OPT」の下位の素ルールにマッ
チする必要があることを示す。「OPTREP」はその上位の
素ルールにマッチする要素に対して、その下位にある要
素が0回以上繰り返し出現し、その全ての要素が「OPTRE
P」の下位の素ルールにマッチする必要があることを示
す。
The structure generator includes "SEQ", "REP", "CH
There are "O", "OPT" and "OPTREP". “SEQ” is an element that matches the elementary rule at the higher level (the left side in FIG. 6), and the sequence of elements at the lower level is different from the elementary rule of the sequence at the lower level of “SEQ”. Indicates that matches must be made in that order. “REP” means that the element below the elementary rule that matches
Occurs one or more times, indicating that all elements must match the elementary rules under "REP". "CH
O "for the element that matches the higher prime rule,
Indicates that the element below it must match any one of the elementary rules in the sequence of elementary rules below “CHO”. “OPT” indicates that, for an element that matches the higher-order elementary rule, there is no element below that element, or if there is an element, it is necessary to match the elementary rule that is lower than “OPT”. “OPTREP” means that the element below the element that matches the elementary rule above it appears 0 or more times, and all the elements
Indicates that the elementary rule below "P" must be matched.

【0026】したがって、図6に示したシステム組み込
み型変換ルール(ワープロAの文書に対応する統一的内部
フォーマット21から「見出し」を取り出すための変換
ルール)は、次ぎのような内容である。まず、最上位に
ある素ルールは、変換元の要素名が「DOC」であること
が条件となり、変換先の要素は「null」すなわち変換先
の要素がないことを示す。次に、構造生成子「REP」の
下位には構造生成子「CHO」があり、その下位に2つの素
ルールが存在する。最初の素ルールは、属性「type」の
値が「"bold"」である要素がマッチすることを示し、こ
の要素が「見出し」に変換されることを示す。2つ目の
素ルールは、否定演算子によって、属性「type」の値が
「"bold"」であるという条件を満たさない要素がマッチ
することを示し、変換先の要素がないことを示す。構造
生成子「REP」とその下位の「CHO」によって、要素の1
回以上の繰り返しの並びがあり、その中の各要素が常に
上記2つの素ルールのうちのいずれかにマッチし、前者
の素ルールにマッチする要素のみが「見出し」に変換さ
れることが示されている。すなわち、図6に示すシステ
ム組み込み型変換ルールによって、図4に示したワープ
ロAの統一的内部フォーマット文書から、「PARA」要素
のうちの属性「type」の値が「"bold"」である要素が
「見出し」として取り出される。
Therefore, the system-incorporated conversion rule (conversion rule for extracting “headings” from the unified internal format 21 corresponding to the word processor A document) shown in FIG. 6 has the following contents. First, the elementary rule at the top has a condition that the element name of the conversion source is “DOC”, and the element of the conversion destination is “null”, that is, there is no element of the conversion destination. Next, there is a structure generator "CHO" under the structure generator "REP", and there are two elementary rules under the structure generator "CHO". The first elementary rule indicates that an element whose attribute “type” has a value of “bold” matches, and that this element is converted to “heading”. The second elementary rule indicates that an element that does not satisfy the condition that the value of the attribute “type” is “bold” matches by the negation operator, and indicates that there is no element to be converted. The structure generator "REP" and its subordinate "CHO" allow one of the elements
It is shown that there is a sequence of repetitions more than twice, and each element in it always matches one of the above two elementary rules, and only the element that matches the former elementary rule is converted to "heading" Have been. That is, according to the system built-in type conversion rule shown in FIG. 6, from the unified internal format document of the word processor A shown in FIG. Is taken out as a “heading”.

【0027】図7にはワープロBの文書に対応する統一
的内部フォーマット22から「見出し」を取り出すため
の変換ルール24の一例を示してある。なお、この変換
ルールの意味については、上記の変換ルールの説明より
明らかなのでここでは説明を省略する。すなわち、図7
に示すシステム組み込み型変換ルールによって、図5に
示したワープロBの統一的内部フォーマット文書から、
「SECT」要素の下位にある「HEAD」要素が「見出し」とし
て取り出される。
FIG. 7 shows an example of a conversion rule 24 for extracting "headings" from the unified internal format 22 corresponding to the word processor B document. Note that the meaning of this conversion rule is clear from the description of the conversion rule described above, and the description is omitted here. That is, FIG.
According to the system built-in conversion rule shown in FIG. 5, the unified internal format document of word processor B shown in FIG.
The “HEAD” element below the “SECT” element is extracted as a “heading”.

【0028】図8には、ワープロAの文書に対応する統
一的内部フォーマットおよびワープロBの文書に対応す
る統一的内部フォーマットから共通に「箇条書き項目」
を取り出すための変換ルール25の一例を示してある。
ここでは、図6および図7に示した変換ルールにはな
い、素ルールのテキスト内容に関する条件「TEXT」につ
いて説明する。テキスト内容に関する条件は、一般的な
正規表現の文法に沿って記述される。図8に示した変換
ルールでは、テキスト内容に関する条件を持つ素ルール
が2つあるが、一方の素ルールのテキスト内容に関する
条件は他方の素ルールのテキスト内容に関する条件の否
定条件になっており、正規表現のパターン自体は同じで
ある。図8に示した変換ルールでは、行の先頭に「・」
が来る要素、または行の先頭に"("と")"で囲まれる任意
の文字列が来る要素、または行の先頭に"["と"]"で囲ま
れる任意の文字列が来る要素、または行の先頭に数字が
来てその後ろに「.」が来る要素が箇条書きの「項目」
要素に変換され、それ以外の要素は変換されない。
FIG. 8 shows common items from the unified internal format corresponding to the word processor A document and the unified internal format corresponding to the word processor B document.
An example of a conversion rule 25 for taking out an expression is shown.
Here, the condition “TEXT” regarding the text content of the elementary rule, which is not included in the conversion rules shown in FIGS. 6 and 7, will be described. The condition regarding the text content is described in accordance with a general regular expression grammar. In the conversion rule shown in FIG. 8, there are two elementary rules having a condition on the text content, but the condition on the text content of one elementary rule is a negative condition of the condition on the text content of the other elementary rule. The regular expression pattern itself is the same. In the conversion rule shown in FIG. 8, "."
, Or any string that begins with "(" and ")" at the beginning of a line, or any string that begins with "[" and "]" at the beginning of a line, Or the element which comes with a number at the beginning of the line and followed by "."
Converted to elements, other elements are not converted.

【0029】図9には、ワープロAの文書に対応する統
一的内部フォーマットおよびワープロBの文書に対応す
る統一的内部フォーマットから共通に「表題」を取り出
すための変換ルール26一例を示してある。なお、この
変換ルールの意味については上記の変換ルールの説明よ
り明らかなので、ここでは説明を省略する。ただし、図
中において、条件が"[]"となっているのは、どんな要素
も無条件にこの素ルールにマッチすることを表してい
る。
FIG. 9 shows an example of a conversion rule 26 for extracting "title" from the unified internal format corresponding to the word processor A document and the unified internal format corresponding to the word processor B document. Note that the meaning of this conversion rule is clear from the description of the conversion rule described above, and the description is omitted here. However, in the figure, the condition "[]" indicates that any element unconditionally matches this elementary rule.

【0030】本例では、上記のシステム組み込み型変換
ルール23〜26が、適用可能な文書フォーマットの名
称や文書型と関連付けられて変換ルール保持部12に保
持される。すなわち、文書フォーマットの名称が与えら
れると、その文書フォーマットに対して適用可能なシス
テム組み込み型変換ルールが特定され、変換ルール保持
部12から部分構造抽出部14へ渡される。
In the present embodiment, the above-described system-incorporated conversion rules 23 to 26 are stored in the conversion rule storage unit 12 in association with the names and document types of applicable document formats. That is, when a document format name is given, a system-incorporated conversion rule applicable to the document format is specified, and is passed from the conversion rule holding unit 12 to the partial structure extraction unit 14.

【0031】次に、図3において、27〜29はシステ
ム組み込み型変換ルール23〜26の適用結果として得
られる部分構造の定義を示している。27は、ワープロ
Aの文書に対応する統一的内部フォーマット21から
「見出し」を取り出すルール23あるいはワープロBの
文書に対応する統一的内部フォーマットから「見出し」
を取り出すルール24を適用した結果として得られる
「見出し」要素である。28は、ワープロAの文書に対
応する統一的内部フォーマット21あるいはワープロB
の文書に対応する統一的内部フォーマット22から共通
に「箇条書き項目」を取り出すためのルール25を適用
した結果として得られる「項目」要素である。29は、
ワープロAの文書に対応する統一的内部フォーマット2
1あるいはワープロBの文書に対応する統一的内部フォ
ーマット22から共通に「表題」を取り出すためのルー
ル26を適用した結果として得られる「表題」要素であ
る。
Next, in FIG. 3, reference numerals 27 to 29 denote definitions of partial structures obtained as a result of applying the system built-in type conversion rules 23 to 26. Reference numeral 27 denotes a rule 23 for extracting “headings” from the unified internal format 21 corresponding to the word processor A document or “headings” from the unified internal format corresponding to the word processor B document.
Is a “heading” element obtained as a result of applying the rule 24 for extracting the “heading”. 28 is a unified internal format 21 corresponding to the document of word processor A or word processor B.
Is an “item” element obtained as a result of applying a rule 25 for extracting “itemized items” in common from the unified internal format 22 corresponding to the document. 29 is
Unified internal format 2 for Word Processor A documents
This is a “title” element obtained as a result of applying a rule 26 for extracting a “title” from the unified internal format 22 corresponding to the document 1 or word processor B in common.

【0032】更に、図3において、30はアプリケーシ
ョン31が要求する部分構造を取り出すためのアプリケ
ーション依存変換ルールであり、システム組み込み型変
換ルール23〜26の組み合わせにより必要な部分構造
を文書から抽出する。アプリケーション依存変換ルール
30は、本例では、部分構造の定義27(すなわち「見
出し」要素)、および部分構造の定義28(すなわち
「項目」要素)を参照して利用者により作成されてお
り、このアプリケーション依存型変換ルール30は変換
ルール登録部17を介して変換ルール保持部12に保持
されている。なお、アプリケーション依存型変換ルール
30の詳細については後述する。
Further, in FIG. 3, reference numeral 30 denotes an application-dependent conversion rule for extracting a partial structure requested by the application 31, and a required partial structure is extracted from the document by a combination of the system built-in conversion rules 23 to 26. In this example, the application-dependent conversion rule 30 is created by the user with reference to the definition 27 of the partial structure (that is, the “heading” element) and the definition 28 of the partial structure (that is, the “item” element). The application-dependent conversion rule 30 is held in the conversion rule holding unit 12 via the conversion rule registration unit 17. The details of the application-dependent conversion rule 30 will be described later.

【0033】以下、アプリケーション依存変換ルールの
作成時、文書登録時、アプリケーション実行時、新規ア
プリケーション登録時の処理を順に説明する。ここで、
本例のアプリケーションは、ある技術文書を文書データ
保持部16から検索し、利用者の要求に応じてその文書
が参考文献として挙げている文書を順次文書データ保持
部16から取り出して表示するものとする。
In the following, processing for creating an application-dependent conversion rule, registering a document, executing an application, and registering a new application will be described in order. here,
The application of this example searches for a certain technical document from the document data holding unit 16, and sequentially retrieves and displays documents referred to by the document as reference documents from the document data holding unit 16 in response to a user request. I do.

【0034】<変換ルール作成>アプリケーション依存
変換ルールの作成処理は、アプリケーションプログラマ
が文書管理システム1に対して変換ルール登録部17か
らシステムに登録されている部分構造定義を参照したい
という要求を出すことにより開始される。この要求に従
って、文書管理システム1は、部分構造定義参照部18
を介して変換ルール保持部12から部分構造定義を取り
出し、その結果を部分構造定義参照部18からプログラ
マ(利用者)に提示する。そして、アプリケーションプロ
グラマが、提示された部分構造定義を参照して所望の部
分構造(ここでは参考文献リスト)を定義し、この部分構
造定義を提示された部分構造定義の組合せから生成する
ための変換ルール(すなわち参考文献を取り出すための
アプリケーション依存変換ルール)を記述して変換ルー
ル登録部17を介して変換ルール保持部12に登録す
る。
<Conversion Rule Creation> In the process of creating an application-dependent conversion rule, the application programmer issues a request from the conversion rule registration unit 17 to the document management system 1 to refer to the partial structure definition registered in the system. Is started by In accordance with this request, the document management system 1 sets the
Then, the partial structure definition is extracted from the conversion rule holding unit 12 via the subroutine, and the result is presented to the programmer (user) from the partial structure definition reference unit 18. Then, the application programmer defines a desired partial structure (here, a reference list) by referring to the presented partial structure definition, and performs a conversion for generating this partial structure definition from the combination of the presented partial structure definitions. A rule (that is, an application-dependent conversion rule for extracting a reference) is described and registered in the conversion rule holding unit 12 via the conversion rule registration unit 17.

【0035】本例におけるアプリケーションを実現する
ためには、多様なフォーマットの文書から参考文献リス
トを抽出する必要がある。そこで、アプリケーションプ
ログラマは、参考文献リストの構造を定義する。参考文
献リストの定義は、「参考文献リスト」要素の下位要素
として、「文献」要素が1つ以上並んでいるものである
と定義される。このような構造定義を、提示された部分
構造定義の組合せから生成するための変換ルール、すな
わちアプリケーション依存変換ルールを書くことにな
る。この変換ルールは、まず内容に"参考文献"または"R
eferences"だけを含む「見出し」要素を取り出し、その
上位の要素を「参考文献リスト」要素に変換し、「見出
し」要素に続いて"[ ]"、"( )"で挟まれた任意の文字列
から始まる箇条書きの「項目」要素があれば、その並び
がなくなるまで取り出し、「文献」要素に変換するとい
うことになる。図10には、参考文献を取り出すための
アプリケーション依存変換ルールの一例を示してある。
In order to realize the application in this example, it is necessary to extract a reference list from documents in various formats. Therefore, the application programmer defines the structure of the reference list. The definition of the reference list is defined as one or more "reference" elements arranged as subordinate elements of the "reference list" element. A conversion rule for generating such a structure definition from the proposed combination of partial structure definitions, that is, an application-dependent conversion rule will be written. This conversion rule must first include "References" or "R
"heading" element that contains only "eferences", convert the element above it into a "bibliography list" element, and add any characters between "[]" and "()" following the "heading" element If there is a bulleted "item" element that starts with a column, it will be extracted until there is no more arrangement, and converted to a "literature" element. FIG. 10 shows an example of an application-dependent conversion rule for extracting a reference.

【0036】<文書登録>文書登録時には、クライアン
ト2から登録要求が文書データとそれに対応する文書フ
ォーマットの名称もしくは文書型とともにネットワーク
Nを介して送られてくる。文書管理システム1がその要
求を受け取ると、文書登録部11に文書データと文書フ
ォーマットの名称もしくは文書型が渡される。文書登録
部11は、文書データを文書データ保持部16に登録す
るとともに、文書データおよび文書フォーマットの名称
もしくは文書型を文書フォーマット均質化部13に送
る。
<Document Registration> At the time of document registration, a registration request is sent from the client 2 via the network N together with the document data and the corresponding document format name or document type. When the document management system 1 receives the request, the document data and the name or document type of the document format are passed to the document registration unit 11. The document registration unit 11 registers the document data in the document data holding unit 16 and sends the document data and the name or document type of the document format to the document format homogenization unit 13.

【0037】文書フォーマット均質化部13は、文書デ
ータをシステム内部で統一された文書フォーマット、す
なわち統一的内部フォーマットに変換する。このとき、
入力文書のフォーマットごとに変換プログラムが実行さ
れる。変換プログラムは、元の文書が持っている情報を
できる限り損なうことなく変換するものである。その理
由は、入力文書が、この後どのように利用されるかわか
らないため、あまりにアプリケーションに特化した変換
を行うと他の利用目的には利用できなくなることを防ぐ
ためである。本実施例では、前述のとおり統一的内部フ
ォーマットにXMLを用いている。本例では、ワープロ
Aの文書が登録されるものとする。したがって、文書フ
ォーマット均質化部13で統一的内部フォーマットに変
換された結果は図4に示したようになる。
The document format homogenizing unit 13 converts the document data into a uniform document format in the system, that is, a uniform internal format. At this time,
A conversion program is executed for each format of the input document. The conversion program converts the information of the original document as much as possible without losing it. The reason for this is to prevent the input document from being used for other purposes if it is not converted how to use the input document. In this embodiment, XML is used for the unified internal format as described above. In this example, it is assumed that the document of the word processor A is registered. Therefore, the result of the conversion into the unified internal format by the document format homogenization unit 13 is as shown in FIG.

【0038】次に、統一的内部フォーマットで表現され
た文書データが文書データ保持部16に登録されるとと
もに部分構造抽出部14に送られ、変換ルール保持部1
2に保持されている変換ルールが適用される。すなわ
ち、前述した変換ルール保持部12に保持されている変
換ルールのうちで、まず、アプリケーションが要求する
部分構造を取り出す変換ルール(アプリケーション依存
変換ルール)が取り出され、その変換ルールがシステム
組み込み型変換ルールを参照していればそのシステム組
み込み型変換ルールを取り出して順に適用し、最後にア
プリケーション依存変換ルールを適用して、所望の部分
構造が存在するかどうかを判定する。これら一連の変換
ルールの適用の結果、所望の部分構造が抽出されれば、
その部分構造が元文書データおよび統一的内部フォーマ
ットによる表現と関連付けられて文書データ保持部16
に保持される。
Next, the document data expressed in the unified internal format is registered in the document data holding unit 16 and sent to the partial structure extracting unit 14, where the conversion rule holding unit 1
2 is applied. That is, among the conversion rules stored in the conversion rule storage unit 12 described above, first, a conversion rule (application-dependent conversion rule) for extracting a partial structure requested by an application is extracted, and the conversion rule is converted into a system-incorporated conversion rule. If the rules are referred to, the system-incorporated conversion rules are taken out and applied in order, and finally the application-dependent conversion rules are applied to determine whether a desired partial structure exists. As a result of applying these series of conversion rules, if a desired partial structure is extracted,
The partial structure is associated with the original document data and the expression in the unified internal format, and the document data holding unit 16
Is held.

【0039】この変換ルールの適用処理を図11および
図12に示すフローチャートを参照して詳しく説明す
る。まず、部分構造抽出部14は、変換ルール保持部1
2から現在実行されているアプリケーションに対応する
アプリケーション依存変換ルールを1つ取り出す(ステ
ップS1)。なお、本例では、図10に示した参考文献
リストを抽出する変換ルールを取り出す。次いで、部分
構造抽出部14は、取り出したアプリケーション依存変
換ルールを適用する(ステップS2)。そして、全てのア
プリケーション依存変換ルールを適用したかどうかを判
定し(ステップS3)、未だアプリケーション依存変換ル
ールが残っていればステップS1に戻って処理を続行
し、全てのアプリケーション依存変換ルールを適用した
ところで処理を終了する。
The conversion rule application processing will be described in detail with reference to the flowcharts shown in FIGS. First, the partial structure extraction unit 14 converts the conversion rule holding unit 1
2, one application-dependent conversion rule corresponding to the application currently being executed is extracted (step S1). In this example, a conversion rule for extracting the reference list shown in FIG. 10 is extracted. Next, the partial structure extraction unit 14 applies the extracted application-dependent conversion rule (Step S2). Then, it is determined whether all application-dependent conversion rules have been applied (step S3). If application-dependent conversion rules still remain, the process returns to step S1 to continue, and all application-dependent conversion rules have been applied. By the way, the process ends.

【0040】上記のアプリケーション依存変換ルールの
適用処理(ステップS2)は、図12に示す手順で行われ
る。まず、部分構造抽出部14は、ステップS1で取り
出したアプリケーション依存変換ルールについて、その
変換ルールが参照するシステム組み込み型変換ルールを
特定する(ステップS11)。これは、アプリケーション
依存変換ルールの各素ルール中で変換元要素名が条件に
指定されているものを探し、その変換元要素名を構造定
義として持つシステム組み込み型変換ルールを検索する
ことによって実現できる。
The application-dependent conversion rule application process (step S2) is performed according to the procedure shown in FIG. First, for the application-dependent conversion rule extracted in step S1, the partial structure extraction unit 14 specifies a system-incorporated conversion rule referred to by the conversion rule (step S11). This can be realized by searching for a source element name specified as a condition in each elementary rule of an application-dependent conversion rule, and searching for a system built-in type conversion rule having the source element name as a structure definition. .

【0041】例えば、図10に示すアプリケーション依
存変換ルールが取り出された場合、その素ルール中では
変換元要素名として「見出し」、「項目」の2つの要素
が利用されている。したがって、図3に示したように、
構造定義として「見出し」要素を提供するシステム組み
込み型変換ルール23および24、すなわち、ワープロ
Aの文書の統一的内部フォーマットから「見出し」を取
り出す変換ルール、およびワープロBの文書の統一的内
部フォーマットから「見出し」を取り出す変換ルールの
2つがまず特定され、次に、構造定義として「項目」を
提供するシステム組み込み型変換ルール25、すなわ
ち、ワープロAおよびワープロBの文書の統一的内部フ
ォーマットから共通に「箇条書き項目」を取り出すため
の変換ルールが特定される。
For example, when the application-dependent conversion rule shown in FIG. 10 is extracted, two elements of “heading” and “item” are used as the conversion source element names in the elementary rule. Therefore, as shown in FIG.
From the system built-in conversion rules 23 and 24 that provide a “heading” element as a structure definition, ie, conversion rules for extracting “headings” from the unified internal format of the word processor A document, and from the unified internal format of the word processing B document Conversion rule for extracting "heading"
Two are first identified, and then a system-incorporated conversion rule 25 that provides "items" as a structure definition, i.e., to extract "bulleted items" from the unified internal format of the word processing A and word processing B documents. Is specified.

【0042】次いで、部分構造抽出部14は、登録され
ようとしている文書の元のフォーマットを特定する(ス
テップS12)。本例では、ワープロAの文書が登録さ
れ、図4に示す文書から「DOC」要素の属性を読み取っ
て元の文書フォーマットがワープロAのものであること
を特定する。次いで、部分構造抽出部14は、元文書の
フォーマットに対して適用可能なシステム組み込み型変
換ルールを特定する(ステップS13)。ここでは、ワー
プロAの文書が登録されるので、図3に示すように、シ
ステム組み込み型変換ルール23、25および26の3
つが特定される。
Next, the partial structure extraction unit 14 specifies the original format of the document to be registered (step S12). In this example, the document of word processor A is registered, and the attribute of the “DOC” element is read from the document shown in FIG. 4 to specify that the original document format is that of word processor A. Next, the partial structure extraction unit 14 specifies a system built-in type conversion rule applicable to the format of the original document (step S13). Here, since the document of word processor A is registered, as shown in FIG.
One is specified.

【0043】次いで、部分構造抽出部14は、実際に適
用するシステム組み込み型変換ルールを特定する(ステ
ップS14)。これは、ステップS11で特定されたシ
ステム組み込み型変換ルールの集合(23、24および
25)と、ステップS13で特定されたシステム組み込
み型変換ルールの集合(23、25および26)の積集
合を計算することによって実現される。その結果、実際
に適用されるシステム組み込み型変換ルールは23と2
5の2つになる。次いで、部分構造抽出部14は、これ
らシステム組み込み型変換ルールを適用する(ステップ
S15)。ここでは、ステップS14で特定された2つ
のシステム組み込み型変換ルール23および25を順に
適用するが、まず、システム組み込み型変換ルール23
すなわちワープロAの文書の統一的内部フォーマットか
ら「見出し」を取り出す変換ルールを適用する。図4に
示したワープロAの文書の統一的内部フォーマットによ
る表現に対して、図6に示す「見出し」を取り出すシス
テム組み込み型変換ルールを適用した結果を図13に示
す。
Next, the partial structure extraction unit 14 specifies a system built-in type conversion rule to be actually applied (step S14). This calculates the intersection of the set of system built-in conversion rules (23, 24, and 25) specified in step S11 and the set of system built-in conversion rules (23, 25, and 26) specified in step S13. It is realized by doing. As a result, the conversion rules actually applied to the system are 23 and 2
It becomes two of five. Next, the partial structure extraction unit 14 applies these system built-in type conversion rules (step S15). Here, the two system-incorporated conversion rules 23 and 25 specified in step S14 are sequentially applied.
That is, a conversion rule for extracting “headings” from the unified internal format of the word processor A document is applied. FIG. 13 shows the result of applying the system-incorporated conversion rule for extracting the “headline” shown in FIG. 6 to the expression of the word processor A document shown in FIG. 4 in the unified internal format.

【0044】そして、部分構造抽出部14は、適用する
システム組み込み型変換ルールが残っているかどうかを
判定し(ステップS16)、まだ残っていれば、ステップ
S15へ戻って適用する。ここでは、システム組み込み
型変換ルール25すなわちワープロAおよびワープロB
の文書の統一的内部フォーマットから共通に「箇条書き
項目」を取り出すための変換ルールが残っているので、
ステップS15へ戻ってこれを適用する。図4に示した
ワープロAの文書の統一的内部フォーマットによる表現
に対して、図8に示す「箇条書き項目」を取り出すシス
テム組み込み型変換ルールを適用した結果を図14に示
す。
Then, the partial structure extraction unit 14 determines whether or not the system-incorporated conversion rule to be applied remains (step S16), and if it still remains, returns to step S15 and applies it. Here, the system built-in conversion rules 25, ie, word processor A and word processor B
Since there is a conversion rule for extracting the "itemized item" from the unified internal format of the document,
Return to step S15 to apply this. FIG. 14 shows the result of applying the system-incorporated conversion rule for extracting the “itemized item” shown in FIG. 8 to the expression in the unified internal format of the document of the word processor A shown in FIG.

【0045】次いで、全てのシステム組み込み型変換ル
ールの適用が終了したところで、部分構造抽出部14は
アプリケーション依存変換ルールの素ルールを順に適用
する(ステップS17)。ここでは、まず、図10に示し
た素ルール101を適用する。素ルール101は任意の
要素がマッチする。次いで、部分構造抽出部14は、全
ての素ルールを適用したかどうかを判定する(ステップ
S18)。ここでは、素ルール102が残っているの
で、ステップS17へ戻ってこれを適用する。素ルール
102には、変換元要素名が「見出し」であってテキス
ト内容に"参考文献"または"References"が含まれる要素
がマッチする。
Next, when the application of all the system-incorporated conversion rules is completed, the partial structure extraction unit 14 sequentially applies the elementary rules of the application-dependent conversion rules (step S17). Here, first, the elementary rule 101 shown in FIG. 10 is applied. The elementary rule 101 matches any element. Next, the partial structure extraction unit 14 determines whether all elementary rules have been applied (step S18). Here, since the elementary rule 102 remains, the process returns to step S17 and is applied. In the elementary rule 102, an element whose conversion source element name is "heading" and whose text content includes "Reference" or "References" matches.

【0046】再びステップS18で全ての素ルールを適
用したかどうかを判定し、素ルール103が残っている
ので、ステップS17へ戻ってこれを適用する。素ルー
ル103には、変換元要素名が「項目」であって、任意
の文字列が"["と"]"もしくは"("と")"で囲まれたもので
始まるテキスト内容を持つ要素がマッチする。再びステ
ップS18で全ての素ルールを適用したかどうかを判定
し、全ての素ルールの適用が終了したので、部分構造を
抽出する(ステップS19)。図15には、このようにし
てワープロAの文書の統一的内部フォーマットから抽出
された部分構造を示してある。このように、アプリケー
ション依存変換ルールを適用して部分構造を抽出する際
には、対象となる文書の元のフォーマットに応じて、必
要最小限のシステム組み込み型変換ルールを特定して適
用するので、効率的に部分構造を抽出することができ
る。
In step S18, it is determined again whether or not all elementary rules have been applied. Since elementary rules 103 remain, the flow returns to step S17 to apply these. In the elementary rule 103, an element having a text content whose conversion source element name is "item" and whose arbitrary character string starts with "[" and "]" or "(" and ")" is enclosed. Matches. It is again determined in step S18 whether all elementary rules have been applied, and since application of all elementary rules has been completed, a partial structure is extracted (step S19). FIG. 15 shows a partial structure extracted from the unified internal format of the document of the word processor A in this manner. As described above, when extracting the partial structure by applying the application-dependent conversion rule, the minimum necessary system built-in conversion rule is specified and applied according to the original format of the target document. Partial structures can be efficiently extracted.

【0047】<アプリケーション実行>アプリケーショ
ン実行時には、利用者はクライアント2からネットワー
クNを介して、文書管理システム1に対して参照したい
文書の検索要求を送る。文書管理システム1は、この要
求を文書検索部15に送り、文書検索部15は、文書デ
ータ保持部16から要求を満たす元文書データを検索し
て利用者に提示する。そして、利用者がその文書の参考
文献を参照したい場合に、参考文献の検索要求を文書検
索部15に対して送ると、文書検索部15は、元文書デ
ータから前述の部分構造抽出処理にて抽出された「参考
文献リスト」要素の各「文献」要素の内容を検索キーと
して、文書データ保持部16に保持されている他の元文
書データを検索し、要求を満たす文書が見つかった場合
にはそれを利用者に対して提示する。
<Application Execution> At the time of application execution, the user sends a document search request to the document management system 1 from the client 2 to the document management system 1 via the network N. The document management system 1 sends this request to the document search unit 15, and the document search unit 15 searches the document data holding unit 16 for original document data that satisfies the request, and presents it to the user. Then, when the user wants to refer to the reference of the document, a search request for the reference is sent to the document search unit 15, and the document search unit 15 performs the above-described partial structure extraction processing from the original document data. Using the contents of each "document" element of the extracted "reference document list" element as a search key, another original document data held in the document data holding unit 16 is searched. Presents it to the user.

【0048】<新規アプリケーション登録>次に、上記
のアプリケーションとは異なる新たなアプリケーション
を構築する場合の処理について説明する。ここで、本例
では、アプリケーションプログラマが新たに文書の目次
を作成するアプリケーションを構築することを考えたと
する。アプリケーションプログラマは、まず、文書管理
システム1にシステムに登録されている部分構造定義を
参照したいという要求を出す。これを受け取った文書管
理システム1は、部分構造定義参照部18を介して変換
ルール保持部12から部分構造定義を取り出してアプリ
ケーションプログラマに提示する。
<Registration of New Application> Next, a process for constructing a new application different from the above application will be described. Here, in this example, it is assumed that an application programmer considers constructing an application for newly creating a table of contents of a document. First, the application programmer issues a request to the document management system 1 to refer to the partial structure definition registered in the system. The document management system 1 that has received this extracts the partial structure definition from the conversion rule holding unit 12 via the partial structure definition reference unit 18 and presents it to the application programmer.

【0049】次いで、アプリケーションプログラマは、
提示された部分構造の定義を参照して、所望の部分構造
(ここでは目次)を定義する。このアプリケーションを実
現するためには、多様なフォーマットの文書から目次を
抽出する必要がある。そこで、アプリケーションプログ
ラマは、目次の構造を定義する。例えば、目次の定義
は、「目次」要素の下位要素として、「表題」要素が1
つと「見出し」要素が1つ以上並んでいるものであると
定義される。このような構造定義を、提示された部分構
造定義の組合せから生成するための変換ルール、すなわ
ちアプリケーション依存変換ルールを書くことになる。
この変換ルールは、まず「表題」要素を取り出し、次に
「見出し」要素を取り出すことになる。図16にアプリ
ケーション依存変換ルールの例を示す。アプリケーショ
ンプログラマは、このようにして作成した目次を取り出
すための変換ルールを変換ルール登録部17を介して変
換ルール保持部12に登録する。
Next, the application programmer:
Refer to the provided definition of the substructure, and
(Here the table of contents) is defined. To realize this application, it is necessary to extract a table of contents from documents in various formats. Therefore, the application programmer defines the structure of the table of contents. For example, the definition of the table of contents is such that the "title" element is 1
And one or more “heading” elements are defined. A conversion rule for generating such a structure definition from the proposed combination of partial structure definitions, that is, an application-dependent conversion rule will be written.
This conversion rule will take out the "title" element first, and then take out the "heading" element. FIG. 16 shows an example of the application-dependent conversion rule. The application programmer registers the conversion rule for extracting the table of contents created in this manner in the conversion rule holding unit 12 via the conversion rule registration unit 17.

【0050】目次を取り出すための新たなアプリケーシ
ョン依存変換ルールが登録されると、部分構造抽出部1
4は文書データ保持部16から統一的内部フォーマット
で表現された文書群を取り出し、図11および図12に
示した手順に従って、アプリケーション依存変換ルール
およびシステム組み込み型変換ルールを順次適用し、所
望の部分構造を抽出して文書データ保持部16に保持す
る。図17は、図3に示した文書データと変換ルールの
関係に対して、新たなアプリケーション33と新たなア
プリケーション依存変換ルール32が登録されたときの
様子を示している。アプリケーション依存変換ルール3
2は、部分構造定義として「見出し」要素の部分構造定
義27と「表題」要素の部分構造定義29を参照してい
る。図12に示した手順に従って、ワープロAの文書に
対しては、システム組み込み型変換ルール23および2
6、ワープロBの文書に対してはシステム組み込み型変
換ルール24および26が適用された後、アプリケーシ
ョン依存変換ルール32(図16に示したもの)が適用さ
れ、所望の部分構造すなわち目次が抽出される。
When a new application-dependent conversion rule for extracting a table of contents is registered, the partial structure extraction unit 1
4 retrieves a document group expressed in a unified internal format from the document data holding unit 16, sequentially applies application-dependent conversion rules and system-incorporated conversion rules according to the procedures shown in FIGS. The structure is extracted and held in the document data holding unit 16. FIG. 17 shows a state where a new application 33 and a new application-dependent conversion rule 32 are registered with respect to the relationship between the document data and the conversion rule shown in FIG. Application-dependent conversion rule 3
2 refers to the partial structure definition 27 of the “heading” element and the partial structure definition 29 of the “title” element as the partial structure definition. According to the procedure shown in FIG. 12, the system built-in conversion rules 23 and 2
6. After the system built-in conversion rules 24 and 26 are applied to the document of the word processor B, the application-dependent conversion rule 32 (shown in FIG. 16) is applied to extract a desired partial structure, that is, a table of contents. You.

【0051】図4に示したワープロAの文書に対して図
6に示したシステム組み込み型変換ルール23を適用し
た結果(図13)に対して、図9に示したシステム組み込
み型変換ルール26を適用した結果を図18に、図18
に示す文書にアプリケーション依存変換ルール32(図
16)を適用した結果を図19にそれぞれ示す。また、
図5に示したワープロBの文書に対して図7に示したシ
ステム組み込み型変換ルール24を適用した結果を図2
0に、図20に示す文書に図9に示したシステム組み込
み型変換ルール26を適用した結果を図21に、図21
に示す文書にアプリケーション依存変換ルール32(図
16)を適用した結果を図22にそれぞれ示す。
The result of applying the system built-in type conversion rule 23 shown in FIG. 6 to the word processor A document shown in FIG. 4 (FIG. 13) is compared with the system built-in type conversion rule 26 shown in FIG. FIG. 18 shows the result of application.
19 shows the result of applying the application-dependent conversion rule 32 (FIG. 16) to the document shown in FIG. Also,
FIG. 2 shows the result of applying the system built-in type conversion rule 24 shown in FIG. 7 to the word processor B document shown in FIG.
FIG. 21 shows the result of applying the system built-in type conversion rule 26 shown in FIG. 9 to the document shown in FIG.
FIG. 22 shows the result of applying the application-dependent conversion rule 32 (FIG. 16) to the document shown in FIG.

【0052】このように複数のアプリケーションで利用
されるであろう文書要素を抽出する変換ルールをフォー
マットごとに記述して提供することによって、アプリケ
ーション依存変換ルールを適用して部分構造を抽出する
際には、必要最小限のシステム組み込み型変換ルールが
適用され、効率的にアプリケーションが必要とする部分
構造を抽出することができる。また、アプリケーション
依存変換ルールを作成する際には、文書フォーマットの
違いを意識することなく記述することが可能となる。な
お、上記の例では対象文書としてワープロA、ワープロ
Bなどいわゆる書式指向文書の例を示したが、これは構
造化文書であってもよい。対象が構造化文書である場合
には、文書フォーマット均質化部13による統一的内部
フォーマットへの変換は必要なく、構造化文書のフォー
マットをそのまま統一的内部フォーマットとして扱えば
よい。
As described above, a conversion rule for extracting a document element which will be used by a plurality of applications is described and provided for each format, so that a partial structure can be extracted by applying an application-dependent conversion rule. , The minimum necessary system built-in conversion rules are applied, and the partial structure required by the application can be efficiently extracted. Further, when creating an application-dependent conversion rule, it is possible to describe the conversion rule without being aware of the difference in the document format. In the above example, an example of a so-called format-oriented document such as a word processor A or a word processor B has been described as a target document, but this may be a structured document. When the target is a structured document, the conversion to the unified internal format by the document format homogenization unit 13 is not necessary, and the format of the structured document may be handled as it is as the unified internal format.

【0053】次に、更に効率的に変換ルールの適用を可
能とする他の実施例について説明する。上記の実施例で
示した参考文献リスト抽出の例では、アプリケーション
依存変換ルールを適用するに際し、利用するシステム組
み込み型変換ルール(上記の実施例では「見出し」を抽
出する変換ルールと「箇条書き項目」を抽出する変換ル
ール)を個別に適用していた。しかしながら、参考文献
リストを抽出する際に実際に必要な見出しは"参考文献"
もしくは"References"をテキスト内容に含む見出しだけ
であり、また、必要な箇条書き項目は、参考文献リスト
に相当する箇条書き項目だけある。すなわち、不要な
「見出し」要素や「項目」要素を抽出しているので、本
例では、アプリケーション依存変換ルールの制約を満た
す「見出し」要素および「項目」要素のみを抽出するよ
うに、アプリケーション依存変換ルールを展開するよう
にしている。
Next, another embodiment that enables the conversion rule to be applied more efficiently will be described. In the example of the reference list extraction described in the above-described embodiment, when the application-dependent conversion rule is applied, the conversion rule embedded in the system to be used (the conversion rule for extracting the “heading” and the “bulleted item” in the above embodiment) Conversion rule to extract "). However, the actual heading needed to extract the bibliography is "References"
Or, only the headings that contain "References" in the textual content, and the only required bulleted items are those corresponding to the reference list. That is, since unnecessary “heading” elements and “item” elements are extracted, in this example, application-dependent elements such as “heading” elements and “item” elements that satisfy the restrictions of the application-dependent conversion rule are extracted. Conversion rules are expanded.

【0054】まず、図10に示した参考文献リストを抽
出するアプリケーション依存変換ルールの各素ルールに
ついて、「見出し」要素および「項目」要素を変換元要
素名として要求するものを探す。図10では、素ルール
102が「見出し」要素を変換元要素名として、素ルー
ル103が「項目」要素を変換元要素名としてそれぞれ
要求している。そこで、元文書のフォーマットごとに、
それぞれに対応するシステム組み込み型変換ルールを取
り出し、各素ルールを展開する。具体的には、ワープロ
Aの文書が部分構造抽出の対象になったとする。このと
き、図10に示した参考文献リストを抽出するアプリケ
ーション依存変換ルールに対して、図6に示した「見出
し」要素を抽出するシステム組み込み型変換ルールと、
図8に示した「項目」要素を抽出するシステム組み込み
型変換ルールが適用される。
First, for each elementary rule of the application-dependent conversion rule for extracting the reference list shown in FIG. 10, a search is made for one that requires a “heading” element and an “item” element as the conversion source element name. In FIG. 10, the elementary rule 102 requests the “heading” element as the source element name, and the elementary rule 103 requests the “item” element as the source element name. Therefore, for each format of the original document,
The corresponding system built-in conversion rules are extracted, and each elementary rule is expanded. Specifically, it is assumed that the document of the word processor A has been subjected to partial structure extraction. At this time, for the application-dependent conversion rule for extracting the reference list shown in FIG. 10, a system-incorporated conversion rule for extracting the “heading” element shown in FIG.
The system built-in type conversion rule for extracting the “item” element shown in FIG. 8 is applied.

【0055】図6に示した変換ルールでは「見出し」要
素に変換する条件として[ATT: type="bold"]が設定さ
れている。そこで、素ルール102の変換元要素名に対
する条件[SOURCE: 見出し]を[ATT: type="bold"]に展
開する。また、図8に示した変換ルールでは「項目」要
素に変換する条件として[(TEXT: "^・")v(TEXT: "^\[.
+\]")v(TEXT: "^\(.+\)")v(TEXT: "^[0-9]+\.")]が設
定されている。そこで、素ルール103の変換元要素名
に対する条件[SOURCE: 項目]を[(TEXT: "^・")v(TEXT:
"^\[.+\]")v(TEXT: "^\(.+\)")v(TEXT: "^[0-9]+
\.")]に展開する。図23に、このようにして展開され
た変換ルールを示す。ただし、図23では、「項目」要
素に変換する条件は論理演算の結果、冗長な部分を省い
てある。このように展開された変換ルールを、ワープロ
Aの文書に対応する統一的内部フォーマットに対して直
接適用することにより、アプリケーションにとっては不
要な「見出し」要素および「箇条書き項目」要素を抽出
することなく必要な部分構造のみを抽出することが可能
になる。
In the conversion rule shown in FIG. 6, [ATT: type = "bold"] is set as a condition for conversion to the "heading" element. Therefore, the condition [SOURCE: heading] for the conversion source element name of the elementary rule 102 is expanded to [ATT: type = "bold"]. In addition, in the conversion rule shown in FIG. 8, as a condition for converting to an “item” element, [(TEXT: “^ ·”) v (TEXT: “^ \ [.
+ \] ") v (TEXT:" ^ \ (. + \) ") v (TEXT:" ^ [0-9] + \. ")]. Change the condition [SOURCE: item] for the element name to [(TEXT: "^ ・") v (TEXT:
"^ \ [. + \]") v (TEXT: "^ \ (. + \)") v (TEXT: "^ [0-9] +
23 shows the conversion rules expanded in this manner.However, in FIG. 23, the conditions for conversion to the “item” element are omitted as a result of the logical operation as a result of the logical operation. There is. By directly applying the developed conversion rules to the unified internal format corresponding to the document of the word processor A, it is possible to extract the “heading” element and “bulleted item” element unnecessary for the application. It is possible to extract only the necessary partial structure without the need.

【0056】次に、ワープロBの文書が部分構造抽出の
対象になったとする。このとき、図10に示した参考文
献リストを抽出するアプリケーション依存変換ルールに
対して、図7に示した「見出し」要素を抽出するシステ
ム組み込み型変換ルールと、図8に示した「項目」要素
を抽出するシステム組み込み型変換ルールが適用され
る。図7に示した変換ルールでは「見出し」要素に変換
する条件として[SOURCE:HEAD]が設定されている。そこ
で、素ルール102の変換元要素名に対する条件[SOURC
E: 見出し]を[SOURCE: HEAD]に展開する。また、図8に
示した変換ルールでは「項目」要素に変換する条件とし
て[(TEXT: "^・")v(TEXT: "^\[.+\]")v(TEXT: "^\(.+
\)")v(TEXT: "^[0-9]+\.")]が設定されている。そこ
で、素ルール103の変換元要素名に対する条件[SOURC
E: 項目]を[(TEXT: "^・")v(TEXT: "^\[.+\]")v(TEX
T: "^\(.+\)")v(TEXT: "^[0-9]+\.")]に展開する。図
24に、このようにして展開された変換ルールを示す。
ただし、図24では、「項目」要素に変換する条件は論
理演算の結果、冗長な部分を省いてある。このように展
開された変換ルールを、ワープロBの文書に対応する統
一的内部フォーマットに対して直接適用することによ
り、アプリケーションにとっては不要な「見出し」要素
および「箇条書き項目」要素を抽出することなく必要な
部分構造のみを抽出することが可能になる。
Next, it is assumed that the document of the word processor B has been subjected to partial structure extraction. At this time, for the application-dependent conversion rule for extracting the reference list shown in FIG. 10, the system-incorporated conversion rule for extracting the "heading" element shown in FIG. The system built-in type conversion rule for extracting is applied. In the conversion rule shown in FIG. 7, [SOURCE: HEAD] is set as a condition for conversion to a “heading” element. Therefore, the condition [SOURC
Expand [E: Heading] to [SOURCE: HEAD]. Also, in the conversion rule shown in FIG. 8, [(TEXT: "^.") V (TEXT: "^ \ [. + \]") V (TEXT: "^ \ ( . +
\) ") v (TEXT:" ^ [0-9] + \. ")] is set, so the condition [SOURC
E: Item] is changed to [(TEXT: "^ ・") v (TEXT: "^ \ [. + \]") V (TEX
T: expands to "^ \ (. + \)") V (TEXT: "^ [0-9] + \.")]. FIG. 24 shows the conversion rules developed in this way.
However, in FIG. 24, the condition to be converted to the “item” element is omitted as a result of the logical operation. By directly applying the developed conversion rules to the unified internal format corresponding to the document of the word processor B, it is possible to extract the "heading" element and the "bulleted item" element unnecessary for the application. It is possible to extract only the necessary partial structure without the need.

【0057】このように、アプリケーション依存変換ル
ールを、対応するシステム組み込み型変換ルールを参照
して展開することで、参考文献に関わる「見出し」要素
のみを抽出し、その「見出し」要素に連続する要素のみ
を箇条書き項目の要素として調べることになるので、不
要な「見出し」要素や「項目」要素を抽出する必要がな
くなり、更なる効率化が可能となる。
As described above, by expanding the application-dependent conversion rule with reference to the corresponding system-incorporated conversion rule, only the “heading” element relating to the reference is extracted, and is continued to the “heading” element. Since only the element is checked as the item of the bulleted item, unnecessary "heading" element and "item" element do not need to be extracted, and further efficiency can be achieved.

【0058】[0058]

【発明の効果】以上述べたように、本発明によると、異
なる文書フォーマットや文書型の文書に対してその構造
の違いを意識することなく、アプリケーションに必要と
なる部分構造を抽出するための変換ルールを、あらかじ
めフォーマットの違い等を吸収したシステム組み込み型
の部分構造抽出ルールを用いて容易に記述することがで
きる。また、本発明によると、アプリケーションに必要
となる部分構造のみを選択的に抽出することができるた
め、効率的に文書構造を取り出すことができる。更に
は、アプリケーションで必要とされる部分構造の制約条
件を利用することにより、より効率的な部分構造抽出処
理が実現できる。
As described above, according to the present invention, conversion for extracting a partial structure required for an application without regard to the difference in structure between documents of different document formats and document types. Rules can be easily described by using a system-incorporated partial structure extraction rule that previously absorbs differences in format and the like. Further, according to the present invention, since only a partial structure required for an application can be selectively extracted, a document structure can be efficiently extracted. Furthermore, by using the constraint condition of the partial structure required by the application, more efficient partial structure extraction processing can be realized.

【図面の簡単な説明】[Brief description of the drawings]

【図1】 本発明に係る文書管理システムを利用したシ
ステムの全体構成を示す図である。
FIG. 1 is a diagram showing an overall configuration of a system using a document management system according to the present invention.

【図2】 文書管理システムの構成の一例を示す図であ
る。
FIG. 2 is a diagram illustrating an example of a configuration of a document management system.

【図3】 文書データと変換ルールの関係を説明する図
である。
FIG. 3 is a diagram illustrating the relationship between document data and conversion rules.

【図4】 ワープロAの統一的内部フォーマット文書の
一例を示す図である。
FIG. 4 is a diagram showing an example of a unified internal format document of the word processor A.

【図5】 ワープロBの統一的内部フォーマット文書の
一例を示す図である
FIG. 5 is a diagram showing an example of a unified internal format document of a word processor B.

【図6】 ワープロAの統一的内部フォーマット文書か
ら「見出し」を取り出す変換ルールの一例を示す図であ
る。
FIG. 6 is a diagram showing an example of a conversion rule for extracting “headings” from a unified internal format document of word processor A.

【図7】 ワープロBの統一的内部フォーマット文書か
ら「見出し」を取り出す変換ルールの一例を示す図であ
る。
FIG. 7 is a diagram illustrating an example of a conversion rule for extracting “headings” from a unified internal format document of word processor B.

【図8】 統一的内部フォーマット文書から「箇条書き
項目」を取り出す変換ルールの一例を示す図である。
FIG. 8 is a diagram showing an example of a conversion rule for extracting “itemized item” from a unified internal format document.

【図9】 統一的内部フォーマット文書から「表題」を
取り出す変換ルールの一例を示す図である。
FIG. 9 is a diagram illustrating an example of a conversion rule for extracting a “title” from a unified internal format document.

【図10】 参考文献リストを取り出すためのアプリケ
ーション依存変換ルールの一例を示す図である。
FIG. 10 is a diagram showing an example of an application-dependent conversion rule for extracting a reference list.

【図11】 変換ルールの適用処理の手順を示すフロー
チャートである。
FIG. 11 is a flowchart illustrating a procedure of a conversion rule application process.

【図12】 変換ルールの適用処理の手順を示すフロー
チャートである。
FIG. 12 is a flowchart illustrating a procedure of a conversion rule application process.

【図13】 ワープロAの統一的内部フォーマット文書
から「見出し」を取り出した結果を示す図である。
FIG. 13 is a diagram showing a result of extracting “headings” from the unified internal format document of word processor A.

【図14】 ワープロAの統一的内部フォーマット文書
から「見出し」と「項目」を取り出した結果を示す図で
ある。
FIG. 14 is a diagram showing a result of extracting “headings” and “items” from the unified internal format document of word processor A.

【図15】 ワープロAの統一的内部フォーマット文書
から抽出した参考文献リストを示す図である。
FIG. 15 is a diagram showing a reference list extracted from the unified internal format document of the word processor A.

【図16】 目次を取り出すためのアプリケーション依
存変換ルールの一例を示す図である。
FIG. 16 is a diagram showing an example of an application-dependent conversion rule for extracting a table of contents.

【図17】 文書データと変換ルールの関係を説明する
図である。
FIG. 17 is a diagram illustrating the relationship between document data and conversion rules.

【図18】 ワープロAの統一的内部フォーマット文書
から「見出し」と「表題」を取り出した結果を示す図で
ある。
FIG. 18 is a diagram illustrating a result of extracting “headings” and “titles” from the unified internal format document of word processor A.

【図19】 ワープロAの統一的内部フォーマット文書
から抽出した「目次」を示す図である。
FIG. 19 is a diagram showing a “table of contents” extracted from the unified internal format document of the word processor A.

【図20】 ワープロBの統一的内部フォーマット文書
から「見出し」を取り出した結果を示す図である。
FIG. 20 is a diagram illustrating a result of extracting “headings” from the unified internal format document of the word processor B.

【図21】 ワープロBの統一的内部フォーマット文書
から「見出し」と「表題」を取り出した結果を示す図で
ある。
FIG. 21 is a diagram illustrating a result of extracting “headings” and “titles” from the unified internal format document of word processor B.

【図22】 ワープロBの統一的内部フォーマット文書
から抽出した「目次」を示す図である。
FIG. 22 is a diagram showing a “table of contents” extracted from the unified internal format document of the word processor B.

【図23】 ワープロAの文書に対してアプリケーショ
ン依存変換ルールを展開した例を示す図である。
FIG. 23 is a diagram illustrating an example in which an application-dependent conversion rule is developed for a document of a word processor A.

【図24】 ワープロBの文書に対してアプリケーショ
ン依存変換ルールを展開した例を示す図である。
FIG. 24 is a diagram illustrating an example in which an application-dependent conversion rule is developed for a document of a word processor B.

【符号の説明】[Explanation of symbols]

1・・・ 文書管理システム、 11・・・ 文書登録
部、12・・・ 変換ルール保持部、 13・・・ 文
書フォーマット均質化部、14・・・ 部分構造抽出
部、 16・・・ 文書データ保持部、17・・・ 変
換ルール登録部、 18・・・ 部分構造定義参照部、
DESCRIPTION OF SYMBOLS 1 ... Document management system 11 ... Document registration part 12 ... Conversion rule holding part 13 ... Document format homogenization part 14 ... Partial structure extraction part 16 ... Document data Holding unit, 17: Conversion rule registration unit, 18: Partial structure definition reference unit,

───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B009 QA05 QA06 QA09 QA11 SA03 SA12 SA13 SA14 TB03 VA02 5B075 ND03 ND23 ND35 NK02 NK43 NK46 NS01 UU05  ──────────────────────────────────────────────────続 き Continued on the front page F term (reference) 5B009 QA05 QA06 QA09 QA11 SA03 SA12 SA13 SA14 TB03 VA02 5B075 ND03 ND23 ND35 NK02 NK43 NK46 NS01 UU05

Claims (3)

【特許請求の範囲】[Claims] 【請求項1】 多種の文書を蓄積して管理する文書管理
システムにおいて、 利用者の要求に応じて文書管理システムへ登録する文書
を受け付ける文書登録手段と、 文書登録手段で受け付けた文書を統一的な内部フォーマ
ットへ変換する文書フォーマット均質化手段と、 文書の統一的な内部フォーマットから部分構造を抽出す
るためのシステム組み込み型変換ルール、および、シス
テム組み込み型変換ルールの組合せによりアプリケーシ
ョンごとに必要な部分構造を抽出するためのアプリケー
ション依存変換ルールを保持する変換ルール保持手段
と、 アプリケーションに応じて、文書登録手段で受け付けて
内部フォーマットに変換された文書に変換ルール保持手
段に保持されたシステム組み込み型変換ルールを適用し
更に対応するアプリケーション依存変換ルールを適用し
て部分構造を抽出する部分構造抽出手段と、 文書登録手段にて受け付けた文書と、文書フォーマット
均質化手段で変換された統一的な内部フォーマットの文
書と、部分構造抽出手段にてアプリケーションごとに抽
出された部分構造とを関連付けて保持する文書データ保
持部と、 を備えたことを特徴とする文書管理システム。
In a document management system that stores and manages various types of documents, a document registration unit that receives a document to be registered in the document management system in response to a user request, and a document that is received by the document registration unit are unified. Document format homogenization means for converting to internal formats, system-integrated conversion rules for extracting partial structures from unified internal formats of documents, and parts required for each application by combining system-integrated conversion rules A conversion rule holding unit for holding an application-dependent conversion rule for extracting a structure; and a system built-in type conversion held in the conversion rule holding unit for a document received by the document registration unit and converted into an internal format according to an application. Application that applies rules and further supports A partial structure extraction unit that extracts the partial structure by applying the application-dependent conversion rules, a document received by the document registration unit, a document in a uniform internal format converted by the document format homogenization unit, and a partial structure A document management system, comprising: a document data holding unit that holds a partial structure extracted for each application by an extraction unit in association with each other.
【請求項2】 請求項1に記載の文書管理システムにお
いて、 文書登録手段は文書と共にそのフォーマット名称もしく
は文書型を受け付け、 部分構造抽出手段は、文書登録手段が受け付けたフォー
マット名称もしくは文書型から適用するシステム組み込
み型変換ルールを特定し、当該システム組み込み型変換
ルールの条件記述に基づいてアプリケーション依存変換
ルールの条件記述を展開して、内部フォーマットに変換
された文書から部分構造を抽出することを特徴とする文
書管理システム。
2. The document management system according to claim 1, wherein the document registration unit receives the format name or the document type together with the document, and the partial structure extraction unit applies the document from the format name or the document type received by the document registration unit. System-independent conversion rules to be specified, the condition description of the application-dependent conversion rules is expanded based on the condition descriptions of the system-incorporated conversion rules, and a partial structure is extracted from the document converted into the internal format. And a document management system.
【請求項3】 請求項1または請求項2に記載の文書管
理システムにおいて、 変換ルール保持手段はシステム組み込み型変換ルールに
より抽出可能な部分構造の定義を保持しており、 変換ルール保持手段に保持されている部分構造の定義を
利用者に提示する部分構造定義参照手段と、 部分構造定義参照手段により提示された部分構造定義を
参照して利用者が作成したアプリケーション依存変換ル
ールを変換ルール保持手段に登録する変換ルール登録手
段と、 を備えたことを特徴とする文書管理システム。
3. The document management system according to claim 1, wherein the conversion rule holding unit holds a definition of a partial structure that can be extracted by a system built-in type conversion rule, and holds the definition in the conversion rule holding unit. Substructure definition reference means for presenting the definition of the substructure to the user, and a conversion rule holding means for referring to the substructure definition presented by the substructure definition reference means to create an application-dependent conversion rule created by the user. And a conversion rule registering means for registering the document in the document management system.
JP28207998A 1998-09-18 1998-09-18 Document management system Expired - Fee Related JP3896702B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28207998A JP3896702B2 (en) 1998-09-18 1998-09-18 Document management system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP28207998A JP3896702B2 (en) 1998-09-18 1998-09-18 Document management system

Publications (3)

Publication Number Publication Date
JP2000099512A true JP2000099512A (en) 2000-04-07
JP2000099512A5 JP2000099512A5 (en) 2005-01-27
JP3896702B2 JP3896702B2 (en) 2007-03-22

Family

ID=17647862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28207998A Expired - Fee Related JP3896702B2 (en) 1998-09-18 1998-09-18 Document management system

Country Status (1)

Country Link
JP (1) JP3896702B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697693B2 (en) 2001-04-04 2004-02-24 Denso Corporation Product development system using common format data
JP2005044384A (en) * 2004-11-15 2005-02-17 Digital Communications:Kk Information processing program and layout information processing system
KR101067398B1 (en) 2002-11-27 2011-09-27 마이크로소프트 코포레이션 Method and computer-readable medium for importing and exporting hierarchically structured data
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697693B2 (en) 2001-04-04 2004-02-24 Denso Corporation Product development system using common format data
KR101067398B1 (en) 2002-11-27 2011-09-27 마이크로소프트 코포레이션 Method and computer-readable medium for importing and exporting hierarchically structured data
US8051371B2 (en) 2004-10-25 2011-11-01 Nec Corporation Document analysis system and document adaptation system
JP2005044384A (en) * 2004-11-15 2005-02-17 Digital Communications:Kk Information processing program and layout information processing system

Also Published As

Publication number Publication date
JP3896702B2 (en) 2007-03-22

Similar Documents

Publication Publication Date Title
US10489454B1 (en) Indexing a dataset based on dataset tags and an ontology
US9619448B2 (en) Automated document revision markup and change control
US8484552B2 (en) Extensible stylesheet designs using meta-tag information
US7778816B2 (en) Method and system for applying input mode bias
US6785869B1 (en) Method and apparatus for providing a central dictionary and glossary server
US6781609B1 (en) Technique for flexible inclusion of information items and various media types in a user interface
US6853992B2 (en) Structured-document search apparatus and method, recording medium storing structured-document searching program, and method of creating indexes for searching structured documents
US6094649A (en) Keyword searches of structured databases
US20100269035A1 (en) Method for Dynamically Generating a &#34;Table of Contents&#34; View of the HTML-Based Information System
JP2009545077A (en) Reuse of available source data and localization
US8683310B2 (en) Information architecture for the interactive environment
JP2001034619A (en) Store and retrieval method of xml data, and xml data retrieval system
WO2020100553A1 (en) Question-and-answer data generation device and question-and-answer data generation method
US20070094289A1 (en) Dynamic, hierarchical data exchange system
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
JP2000099512A (en) Document managing system
JP2000003366A (en) Document registration method, document retrieval method, execution device therefor and medium having recorded its processing program thereon
EP1377917A2 (en) Extensible stylesheet designs using meta-tag information
JP4550876B2 (en) Structured document retrieval system and program
JP4034503B2 (en) Document search system and document search method
Brezovnik et al. TextProc–a natural language processing framework and its use as plagiarism detection system
JPH1145238A (en) Document management system and computer readable recording medium for recording program for having computer function as the same system
Burget Information Extraction from HTML Documents Based on Logical Document Structure
JP2006163723A (en) Document search method
Documentation Procasor Project

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20051118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060404

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060605

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061211

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110105

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120105

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130105

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140105

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees