JP5152877B2 - 文書ベースシステムにおける文書データ記憶方法およびその装置 - Google Patents

文書ベースシステムにおける文書データ記憶方法およびその装置 Download PDF

Info

Publication number
JP5152877B2
JP5152877B2 JP2010520410A JP2010520410A JP5152877B2 JP 5152877 B2 JP5152877 B2 JP 5152877B2 JP 2010520410 A JP2010520410 A JP 2010520410A JP 2010520410 A JP2010520410 A JP 2010520410A JP 5152877 B2 JP5152877 B2 JP 5152877B2
Authority
JP
Japan
Prior art keywords
data
document
tree structure
pieces
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010520410A
Other languages
English (en)
Other versions
JP2010536105A (ja
Inventor
▲東▼▲臨▼ 王
▲海▼峰 姜
▲寧▼▲勝▼ ▲劉▼
立▲偉▼ 王
Original Assignee
サーセン コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by サーセン コーポレイション filed Critical サーセン コーポレイション
Publication of JP2010536105A publication Critical patent/JP2010536105A/ja
Application granted granted Critical
Publication of JP5152877B2 publication Critical patent/JP5152877B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Description

本発明は文書記憶の技術に関し、特に、文書ベースシステムにおける文書データ記憶方法およびその装置に関する。
文書ベースシステムは複雑なソフトウェアシステムであり、膨大な電子文書の組織、管理、セキュリティ、記憶や表示などの機能を提供している。従来の文書ベースシステムにおいて、文書データの記憶方式は、全ての文書データを1つのファイルとして記憶するものである。ファイルにアクセスすることにより、データの更新や問合せを実現する。しかし、情報量が次第に増加するに伴って、文書ベースシステムに格納された文書データ量も急速に増加する。これら膨大なデータの全てが1つのファイルとして記憶されるため、データの更新や問合せは非常に複雑になり、ユーザの興味のある内容に迅速に位置決めすることができず、内容抽出の効率は低くなってしまう。上記からわかるように、従来の記憶方式は、次第に増加する膨大なデータに既に適応することができない。
本発明の実施例は、文書ベースシステムにおける文書データ記憶方法およびその装置を提供することにより、文書内容に対して柔軟かつ効率的な検索や内容抽出を行うことを実現できる。
本発明の実施例に係る文書ベースシステムにおける文書データ記憶方法は、
前記文書データがツリー構造で記述され、
前記文書データを記憶する際に、
前記文書データを前記ツリー構造で複数のデータ片に分割し、
前記ツリー構造で前記複数のデータ片を記憶する、
ことを含み、
前記データ片の各々が前記ツリー構造内の1つのノードに対応する。
本発明の実施例に係る文書ベースシステムにおける文書データ記憶装置は、
前記文書データを前記ツリー構造で複数のデータ片に分割する第1ユニットと、
前記ツリー構造で前記複数のデータ片を記憶する第2ユニットと、を含み、
前記第1ユニットで分割したデータ片の各々が前記ツリー構造内の1つのノードに対応する。
本発明の実施例に係る文書ベースシステムにおける文書データ記憶方法およびその装置によれば、文書データのツリー構造で文書データを複数のデータ片に分割し、そして、該分割したデータ片をツリー構造で記憶する。このように、文書データをより細かいデータ片に分割して記憶することにより、ユーザが文書データの検索またはアクセスを行う際に、データ片のレベルに迅速かつ正確に位置決めして、柔軟かつ効率的なデータ検索や内容抽出を行うことができる。ネットワークに基づく文書アプリケーションの場合、文書伝送過程中の負担を低減する。
本発明の実施例に係る文書ベースシステムにおける文書データ記憶方法のフローチャートである。 本発明の実施例に係る文書ベースシステムにおける文書データ記憶を実現する装置の構成を示す図である。
501 記憶粒度確認ユニット
502 データ片分割ユニット
503 記録ユニット
本発明の実施例の目的、解決手段およびメリットをさらに明確にするために、以下、図面を参照して本発明の実施例をさらに詳しく説明する。
本発明の実施例に係る文書ベースシステムにおける文書データ記憶方法は、文書データを複数のデータ片に分割して、これら複数のデータ片の間の関係を記録する。文書データがツリー構造で記述された場合、前記文書データを記憶する際に、前記ツリー構造を複数のサブツリーに分割し、各サブツリーごとに1つのデータ片を形成し、分割後のツリー構造を記録する。
具体的には、文書データのツリー構造内のいずれか1つのノードから、データ片の分割を開始するようにしてよい。分割したデータ片は、該ノードをルートノードとするサブツリーである。該ノードがリーフノードである場合、該サブツリーは1つのみのノードを有する。上記の過程を繰り返して、複数のデータ片に分割することになる。
分割点を任意に選択するようにしてもよく、分割過程を任意の時点で終了するようにしてもよく、分割したサブツリーを同様な方法で引き続き分割するようにしてもよい。好ましい手段として、ツリー構造全体に対し記憶粒度を規定し、該記憶粒度でツリー構造全体を分割する。例えば、ページを記憶粒度とする場合、全てのページノードから分割を開始し、即ち、ページノードをルートノードとする全てのサブツリーを分割する。別の好ましい手段として、ツリー構造の異なる部分に対し異なる記憶粒度を規定し、それぞれの記憶粒度でツリー構造内の異なる部分を分割する。例えば、ある文書セットの全てのデータに対してはページノードから分割を開始するが、それ以外のデータに対しては文書ノードから分割を開始する。
図1は本発明の実施例に係る文書ベースシステムにおける文書データ記憶方法のフローチャートである。図1に示すように、該方法は以下のステップを含む。
ステップ101で、ツリー構造を用いて文書データを記述する。ここで文書データを記述するツリー構造は、ルートノードからリーフノードまで順次に、文書、ページ、層、オブジェクトグループ、レイアウトオブジェクトを含むようにしてよい。ここで、文書データを記述するツリー構造は、文書データの組織構造とも呼ばれる。
ステップ102で、文書ベースシステムにおける文書データの記憶粒度を決定し、該記憶粒度で文書ベースシステムにおける文書データをデータ片に分割する。
ここで、文書データの記憶粒度は、文書ベースシステムがサポートするツリー構造、および文書データ自身の組織構造情報に関連する。
文書データのツリー構造が文書およびページである場合、文書データの記憶粒度は文書であってもよく、ページであってもよい。文書データ自身の組織構造が、文書である1階層のみを有し、ページに分割できない場合、文書データの記憶粒度は文書である。いずれにしても、文書ベースシステムにおける文書データ自身の組織構造は少なくとも文書レベルをサポートする。
文書データの記憶粒度を決定した後、該記憶粒度を最小分割単位として、文書データをデータ片に分割する。
ステップ103で、文書データの組織構造によって、分割したデータ片を格納する。
そのため、従来技術で文書ベースシステムにおける全ての文書データを1つのファイルとして記憶する方式に比べて、本発明の方式で文書記憶を行うことは、その記憶粒度が必ずより細かくなる。これにより、更新、検索の複雑性を低減することができ、文書データの検索や内容抽出を行うとき、記憶粒度に迅速に位置決めすることができるため、柔軟かつ効率的な検索や内容抽出を実現することができる。
具体的に、本発明の実施例に係る文書ベースシステムにおいて、文書ベースシステムにおける文書データのツリー構造は、拡張可能なマークアップ言語(XML)データベース方式、ファイルシステム方式、および関係データベース方式である3種類の方式で表されるようにしてよい。以下、3つの具体的な実施例により、上記3種類の方式の具体的な実施形態を説明する。
本発明の第1実施例では、XMLデータベース方式で文書ベースシステムにおける文書データのツリー構造を表す。このような方式で、本発明の実施例に係る文書ベースシステムにおける文書データ記憶方法のプロセスは、以下のステップを含む。
ステップ201で、文書データを記述するためのツリー構造を設定する。
本ステップで、設定された文書データのツリー構造は、ルートノードからリーフノードまで順次に下記の部分、即ち、文書セット、文書、ページ、層、オブジェクトグループ、レイアウトオブジェクトを含むようにしてよい。
上記の文書ベースシステムにおける文書データのツリー構造を表す方式について、
XMLデータベースのツリー構造を用いて文書ベースのツリー構造を表し、且つ文書ベース内の文書レベル以上の階層をXMLデータベース内の集合(Collection)レベルにマッピングするようにしてよい。
例えば、文書ベースに対して、文書セット、文書、ページ、層、およびレイアウトオブジェクトを設定する。XMLデータベースのツリー構造を用いて上記の階層を表すようにしてよい。即ち、文書セットに複数の文書が含まれ、文書に複数のページが含まれ、ページに複数の層が含まれ、層に複数のレイアウトオブジェクトが含まれる。
ステップ202で、文書ベースシステムにおける文書データの記憶粒度を決定し、該記憶粒度で文書ベースシステムにおける文書データをデータ片に分割する。
本実施例では、文書データの記憶粒度の決定について、文書ベースシステムで設定された記憶粒度を基に、文書データ自身の組織構造を組み合わせて、記憶粒度を決定するようにしてよい。ここで、文書ベースシステムで記憶粒度を設定する方式は、文書ベースシステムに対して固定の記憶粒度を設定すること、および/または文書ベースシステムのパラメータ設定時に前記記憶粒度を設定すること、および/または文書ベースシステムのインストール時に記憶粒度を設定することを含むようにしてよい。文書データ自身により提供された構造情報は、例えば、文書がページを含むかどうか、ページが層を含むかどうかなどの情報であってよい。また、文書データの記憶粒度の決定は、ユーザ指定の方式で行われるようにしてもよい。最終的に決定された記憶粒度は、該文書ベースシステムにおける文書データのツリー構造内のページ、層などのようないずれのレベルであってもよい。好ましくは、ページを記憶粒度として決定する。文書データの異なる部分に対して同じ記憶粒度で分割するようにしてもよく、文書データの異なる部分に対して異なる記憶粒度を設定するようにしてもよい。
文書データをデータ片に分割する具体的な方式について、文書データの内の、記憶粒度に関連するデータに対して、決定された記憶粒度を単位として分割して、データ片を得るようにしてよい。さらに、文書データの内の、文書ベース、文書セットのメタデータ、ロールデータ、権限データ、ナビゲーションデータ、ソースファイルデータやフォントデータなどのような記憶粒度に関連しないデータに対して、まず、該データの前記ツリー構造内における対応レベルを決定し、そして、各レベル内の記憶粒度に関連しないデータを1つまたは複数のデータ片に分割して、対応レベル内の1つまたは複数のデータ片とする。具体的に、記憶粒度に関連しないデータの類別によって、記憶粒度に関連しないデータを分割するようにしてよい。例えば、ナビゲーションデータを1つのデータ片として、権限データを1つのデータ片とすることなどである。ここで、具体的に記憶粒度に関連しないデータを、1つのデータ片とするか、それとも複数のデータ片とするかについては、実際の応用によって決定する。同じ類別に属する記憶粒度に関連しないデータに対して、さらに、それ自身の特性によって、複数のデータ片に分割するようにしてもよい。例えば、記憶粒度が文書である場合、記憶粒度に関連するデータは該文書内の内容データなどであり、記憶粒度に関連しないデータは文書共有のフォントデータ、ソースファイルデータ、ナビゲーションデータなどである。フォントデータやソースファイルデータなどのような記憶粒度に関連しないデータの場合は、全ての文書のソースファイルデータやフォントデータを1つのデータ片とせず、異なる文書のソースファイルデータやフォントデータを異なるデータ片に分割するようにしてよい。しかし、ナビゲーションデータなどのような記憶粒度に関連しないデータの場合は、全ての文書のナビゲーションデータを1つのデータ片とするようにしてよい。
ステップ203で、分割したデータ片の間の組織構造を格納する。
本実施例では、文書ベースシステムにおける文書データのツリー構造は、XMLデータベースのツリー構造を用いて表現される。このような表現方式で、データ片の間の組織構造を格納する方式は、具体的に、該組織構造をXMLデータベースのツリー構造にマッピングすることを含む。好ましくは、集合(Collection)を用いて該マッピング後のツリー構造を格納するようにしてもよい。
ステップ204で、分割したデータ片を格納する。
本ステップで、データ片を格納する方式について、具体的に、データ片をXML文書に変換して、対応の集合に加えるようにしてよい。
ここまでで、本実施例に係る文書ベースシステムにおける文書データ記憶方法のプロセスを終了する。上記方法を応用した後、XMLデータベースの管理機能を用いて、文書ベースシステムにおける文書データを管理し、アプリケーションの要求を実現して、相応データに位置決めしてアプリケーションに返信することができる。
XMLデータベース方式を利用する最大のメリットとして、情報を抽出する際に最大の柔軟性を得ることができる。XMLデータベースがサポートするXパス(XPath)およびXクエリ(XQuery)などの方式を介して、アプリケーションは、文書オブジェクト、ページオブジェクト、層オブジェクト、層内オブジェクト(例えば、ピクチャー、文字、電子印章など)に便利にアクセスすることができる。理論上、文書ベースの構造がいずれかのレベルまで細分化されると、XMLデータベース方式を介して該レベルのオブジェクトにアクセスすることができる。
また、文書ベースシステムにおける文書データには、文書ベース、文書セットの階層構造を記述するメタデータ、権限データやグローバルデータ、ロールデータなどが若干ある。異なる文書、または同一の文書の異なるページに、上記データが複数回現れる可能性があるため、上記の記憶方式で文書データの記憶を行う際に、これらデータが、これらデータを含む異なるデータ片に複数回格納されることになり、このように、記憶領域の利用率が低下する。記憶領域の利用率を向上させるために、これらデータを独立に格納するようにしてよい。以下、グローバルデータの格納を例として、一致データの格納方式を説明する。
ステップ1で、文書ベースシステムにおける文書データのグローバルデータを抽出して独立に格納する。
本ステップで、グローバルデータを独立に格納する方式は、グローバルデータに対して対応の階層構造を確立し、確立した階層構造の下に、XML文書、ファイルまたはバイナリラージオブジェクトの形式でグローバルデータを格納することを含むようにしてよい。
ステップ2で、グローバルデータを含むデータ片においてグローバルデータへの引用を記録する。
上記の方式でグローバルデータの格納を行うと、グローバルデータを1回だけ格納し、他のデータ片において、独立して格納されたグローバルデータを記録せずに、該グローバルデータへの引用を記録することが可能になり、記憶領域の利用率が大幅に向上する。権限データ、メタデータなどのような他の一致データの格納方式については、上記と同じであるため、ここでは説明を省略する。
本実施例では、ステップ1においてグローバルデータに対して対応の階層構造を確立することは、グローバルデータをXMLデータベースのツリー構造内のある階層に対応させ、グローバルデータを該階層の下に格納することを含むようにしてよい。他のメタデータ、ロールデータなどについても、それに対応する類似の階層構造を確立して、相応のデータを該階層の下に格納するようにしてもよい。
本発明の第2実施例では、ファイルシステム方式で文書ベースシステムにおける文書データのツリー構造を表す。このような方式で、本発明に係る文書ベースシステムにおける文書データ記憶方法のプロセスは、以下のステップを含む。
ステップ301で、文書ベースシステムにおける文書データのツリー構造を設定する。
本ステップで、設定された文書ベースシステムにおける文書データのツリー構造は、実施例1と同じであるため、ここでは説明を省略する。
文書ベースシステムにおける文書データのツリー構造を表す方式について、ファイルシステムのツリー構造を用いて文書ベースシステムにおける文書データのツリー構造を表すようにしてよい。
例えば、文書ベースシステムにおける文書データに対して文書セット、文書、ページ、層、および層内オブジェクトを設定する場合、ファイルシステムのツリー構造を用いて上記の階層を表すようにしてよい。例えば、文書セットに複数の文書が含まれ、文書に複数のページが含まれ、ページに複数の層が含まれ、層に複数の層内オブジェクトが含まれる。文書ベースのツリー構造は以下のように表せる。
Figure 0005152877
ステップ302で、文書ベースシステムにおける文書データの記憶粒度を決定し、該記憶粒度で文書ベースシステムにおける文書データをデータ片に分割する。
本ステップで、文書データの記憶粒度を決定する方式、および文書データをデータ片に分割する方式については、実施例1と同じであるため、ここでは説明を省略する。
ステップ303で、分割したデータ片の間の組織構造を決定して格納する。
本ステップで、各データ片の間の組織構造を決定し、例えば、各層データの属する文書セット、文書、ページなどを決定する。そして、該組織構造をファイルシステム内のディレクトリの形式で記録する。
文書Doc1内の文書データを記憶する場合、該文書Doc1がDocList1の下に位置し、Doc1の文書構造は、第1ページに3層を備え、後ろの2ページにそれぞれ1層を備える3ページを含むと仮定すると、文書ベースに格納された組織構造は以下の通りである。
Figure 0005152877
ステップ304で、分割したデータ片を格納する。
本ステップで、分割したデータ片を格納する方式について、具体的にデータ片をファイルシステム内のファイルとして、対応のディレクトリの下に格納するようにしてもよい。ここで、対応のディレクトリは、上記組織構造内の相応のディレクトリであってよい。
ここまでで、本実施例に係る文書ベースシステムにおける文書データ記憶方法のプロセスを終了する。
上記の方法を応用して文書記憶を完成した後、文書にアクセスする際に、文書セット名+文書名+ページ番号+層番号+…を指定することによって、アクセスしようとする記憶粒度オブジェクト(例えば、層オブジェクト)に迅速に位置決めし、データを取得してアプリケーションに返信することができる。
本実施例では、記憶領域の利用率を向上させるために、文書ベース、文書セットのメタデータ、ロールデータ、権限データ、およびグローバルデータを独立に格納するようにしてもよい。その具体的な方式は、実施例1のステップ1〜2に類似している。相違点として、本実施例における文書ベースのツリー構造の表現方式に対応し、上記のデータに対して対応の階層構造を確立する方式は、具体的に、ファイルシステムのディレクトリで特別のディレクトリを作成してグローバルデータに対応する階層構造とし、該ディレクトリの下にグローバルデータを格納することである。具体的に、上記グローバルデータなどは、ファイルの形式で格納されるようにしてよい。上記グローバルデータを含む他のデータ片には、上記グローバルデータを独立に格納する必要がなく、相応データへの引用だけが含まれることで、記憶領域の利用率を大幅に向上させる。
もちろん、本実施例では、層を記憶粒度とする場合を例に説明しているが、実際に、より粗いまたはより細かい記憶粒度で文書データを記憶することを実現するために、より粗いまたはより細かい記憶粒度に対応するディレクトリを作成してもよい。
本発明の第3実施例では、関係データベース方式で文書ベースシステムにおける文書データのツリー構造を表す。このような方式で、本発明に係る文書ベースシステムにおける文書データ記憶方法のプロセスは、以下のステップを含む。
ステップ401で、文書データを記述するためのツリー構造を設定する。
本ステップで、設定された文書ベースを記述するツリー構造は、実施例1と同じであるため、ここでは説明を省略する。
ツリー構造を表す方式として、関係データベース内のツリー構造を用いて文書ベースシステムにおける文書データのツリー構造を表す。
例えば、文書ベースに対してディレクトリ(即ち、文書セット)、文書、ページの3つの階層を設定する場合、関係データベース内の3つのテーブル(ディレクトリテーブル、文書テーブル、ページテーブル)で、ディレクトリ、文書、ページの3つのレベルの構造を有する仮想ディレクトリシステムを構築するようにしてよい。ここで、ディレクトリテーブルの定義は表1に示す通りであり、文書テーブルの定義は表2に示す通りであり、ページテーブルの定義は表3に示す通りである。
Figure 0005152877
Figure 0005152877
Figure 0005152877
ステップ402で、文書ベースシステムにおける文書データの記憶粒度を決定し、該記憶粒度で文書ベースシステムにおける文書データをデータ片に分割する。
本実施例では、文書データの記憶粒度を決定する方式、および文書データをデータ片に分割する方式については、実施例1と同じであるため、ここでは説明を省略する。
ステップ403で、分割したデータ片の間の組織構造を決定して格納する。
本ステップで、各データ片の間の組織構造を決定し、例えば、各層データの属する文書セット、文書、ページなどを決定する。そして、該組織構造を関係データベースにおける相関テーブルの形式で記録する。
Doc1内の文書データを記憶する場合、該文書Doc1がDocList1の下に位置し、Doc1が3ページを含み、記憶粒度がページであると仮定すると、文書ベースに格納された組織構造と具体的なデータ片は、下記の表4〜6の相関テーブルの方式で記憶されるようにしてよい。
Figure 0005152877
Figure 0005152877
Figure 0005152877
ステップ404で、分割したデータ片を格納する。
本ステップで、分割したデータ片を格納する方式について、具体的に、データ片を関係データベース内のバイナリラージオブジェクトとして、対応の相関テーブルに格納するようにしてもよい。
ここまでで、本実施例に係る文書ベースシステムにおける文書データ記憶方法のプロセスを終了する。
本実施例では、記憶領域の利用率を向上させるために、文書ベース、文書セットのメタデータ、ロールデータ、権限データやグローバルデータなどを独立に格納するようにしてもよい。その具体的な方式は、実施例1のステップ1〜2に類似している。相違点として、本実施例文書ベースシステムにおける文書データのツリー構造の表現方式に対応し、グローバルデータに対して対応の階層構造を確立する方式は、具体的に、関係データベースの相関テーブルにおいて、相応データに対応する階層構造として、特別なエントリーを作成し、該エントリーにデータを格納することである。
具体的に実現する場合、ステップ401で設定された階層構造の定義を修正し、そのうちの記憶粒度テーブルの定義(即ち、ページテーブルの定義)を表7のように修正する。
Figure 0005152877
Figure 0005152877
ここからわかるように、ページ番号0のページに対応する相関テーブルを用いて、グローバルデータに対応する階層構造を表す。一致データを関係データベース内のバイナリラージオブジェクトとして、対応の相関テーブルに格納するようにしてよい。一致データを含む他のデータ片には、一致データを独立に格納する必要がなく、一致データへの引用だけが含まれることで、記憶領域の利用率を大幅に向上させる。
もちろん、本実施例では、ページを記憶粒度とする場合を例に説明しているが、実際に、より細かい記憶粒度で文書を記憶することを実現するために、より細かい記憶粒度に対応する相関テーブルを作成してもよい。
上述した本発明の具体的な実施形態からわかるように、本発明の実施例に係る方法では、まず、文書ベースのツリー構造を設定し、そして、文書ベースシステムにおける文書データの記憶粒度を決定し、該記憶粒度で文書ベースシステムにおける文書データをデータ片に分割し、各データ片の間の組織構造を決定して格納し、データ片を格納する。
図2は、本発明の実施例に係る文書ベースシステムにおける文書データ記憶を実現する装置の構成を示す図である。図2に示すように、本発明の実施例に係る装置は、記憶粒度確認ユニット501と、データ片分割ユニット502と、記録ユニット50と、を含む。
ここで、記憶粒度確認ユニット501は、文書ベースシステムにおける文書データの記憶粒度を決定する。
データ片分割ユニット502は、記憶粒度確認ユニット501で決定された記憶粒度で、文書データをデータ片に分割する。記録ユニット50は、データ片分割ユニット502で分割した各データ片の間の組織構造を記録し、相応の組織構造で、データ片分割ユニット502で分割した各データ片を格納する。
本発明の実施例に係る文書ベースシステムにおける文書データ記憶を実現する方法およびその装置によれば、文書ベースシステムにおける文書データをより細かいデータ片に分割して格納することができる。このように、ユーザが、ある文書の検索またはアクセスを行う際に、一番細かい記憶粒度のレベルに迅速且つ正確に位置決めし、柔軟且つ効率的な文書検索や内容抽出を行うことができる。ネットワークに基づく文書アプリケーションの場合は、ユーザの興味のある内容だけを伝送してもよく、文書伝送過程中の負担を低減することができる。
また、本発明の実施例では、文書データ記憶を行う際に、様々なフォーマットの文書を統合して格納することができるため、文書の互換性に極めて大きな利便性をもたらす。
上記は、本発明の好ましい実施例にすぎず、本発明の保護範囲を限定するものではない。本発明の精神と原則内で行われる種々の修正、均等置換え、改善などは全て本発明の保護範囲内に含まれるべきである。

Claims (5)

  1. 文書ベースシステムにおける文書データ記憶方法であって、
    前記文書データがツリー構造で記述され、
    前記文書データを記憶する際に、
    前記文書データを前記ツリー構造で複数のデータ片に分割し、
    前記複数のデータ片をそれぞれ記憶し、前記複数のデータ片の間の組織構造を記録する、ことを含み、
    ここで、前記データ片の各々が前記ツリー構造内の1つのサブツリーまたは1つのノードに対応し、
    前記文書データを前記ツリー構造で複数のデータ片に分割することが、
    前記文書データの記憶粒度を取得し、前記記憶粒度を最少単位として、前記文書データの内の、記憶粒度に関連するデータを、複数のデータ片に分割し、
    前記ツリー構造の内の、前記記憶粒度以上の各ノードのグローバルデータを、前記ノードのサブノードに対応する1つまたは複数のデータ片に分割し、ここで、前記グローバルデータが、前記文書データの内の、記憶粒度に関連しないデータである、ことを含み、
    前記複数のデータ片をそれぞれ記憶することが、
    前記ツリー構造の各ノードをXMLデータベースのツリー構造にマッピングして格納し、
    前記複数のデータ片をデータベースのXML文書に変換して、前記XMLデータベースのツリー構造に加える、ことを含むことを特徴とする方法。
  2. 前記文書データの記憶粒度が前記ツリー構造内の1レベルであることを特徴とする請求項1に記載の方法。
  3. 前記各ノードのグローバルデータを、前記ノードのサブノードに対応する1つまたは複数のデータ片に分割することが、
    前記各ノードのグローバルデータの類別によって、前記グローバルデータを前記ノードのサブノードに対応する1つまたは複数のデータ片に分割することを含むことを特徴とする請求項1に記載の方法。
  4. 前記ツリー構造のルートノードが文書レベルであり、リーフノードが、ページ、層、オブジェクトグループ、オブジェクトの1つまたは任意の組合せを含むことを特徴とする請求項1に記載の方法。
  5. 文書ベースシステムにおける文書データ記憶装置であって、
    前記文書データをツリー構造で複数のデータ片に分割する第1ユニットと、
    前記複数のデータ片をそれぞれ記憶し、前記複数のデータ片の間の組織構造を記録する第2ユニットと、
    を含み、
    ここで、前記第1ユニットで分割したデータ片の各々が前記ツリー構造内の1つのサブツリーまたは1つのノードに対応し、
    前記文書データをツリー構造で複数のデータ片に分割することが、
    前記文書データの記憶粒度を取得し、前記記憶粒度を最小分割単位として、前記文書データの内の、記憶粒度に関連するデータを、複数のデータ片に分割し、
    前記ツリー構造の内の、前記記憶粒度以上の各ノードのグローバルデータを、前記ノードのサブノードに対応する1つまたは複数のデータ片に分割し、ここで、前記グローバルデータが、前記文書データの内の、記憶粒度に関連しないデータである、ことを含み、
    前記複数のデータ片をそれぞれ記憶することが、
    前記ツリー構造の各ノードをXMLデータベースのツリー構造にマッピングして格納し、
    前記複数のデータ片をデータベースのXML文書に変換して、前記XMLデータベースのツリー構造に加える、ことを含むことを特徴とする装置。
JP2010520410A 2007-08-15 2008-08-15 文書ベースシステムにおける文書データ記憶方法およびその装置 Expired - Fee Related JP5152877B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2007101203253A CN101369268B (zh) 2007-08-15 2007-08-15 一种文档库系统中文档数据的存储方法
CN200710120325.3 2007-08-15
PCT/CN2008/072010 WO2009021465A1 (fr) 2007-08-15 2008-08-15 Procédé et dispositif pour mémoriser des données de document dans un système de banque de documents

Publications (2)

Publication Number Publication Date
JP2010536105A JP2010536105A (ja) 2010-11-25
JP5152877B2 true JP5152877B2 (ja) 2013-02-27

Family

ID=40350402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010520410A Expired - Fee Related JP5152877B2 (ja) 2007-08-15 2008-08-15 文書ベースシステムにおける文書データ記憶方法およびその装置

Country Status (5)

Country Link
US (1) US8423521B2 (ja)
EP (1) EP2180413A4 (ja)
JP (1) JP5152877B2 (ja)
CN (1) CN101369268B (ja)
WO (1) WO2009021465A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236681A (zh) * 2010-04-20 2011-11-09 中兴通讯股份有限公司 一种数据存储及获取的系统及方法
US20120290926A1 (en) * 2011-05-12 2012-11-15 Infinote Corporation Efficient document management and search
CN102439598A (zh) * 2011-09-15 2012-05-02 华为技术有限公司 一种文档模板管理方法和系统
CN102567545B (zh) * 2012-01-16 2014-10-29 北大方正集团有限公司 Xml数据库系统的xml文档组织管理方法及系统
CN103678302B (zh) * 2012-08-30 2018-11-09 北京百度网讯科技有限公司 一种文档结构化组织方法及装置
US9729603B2 (en) * 2012-09-27 2017-08-08 Alcatel Lucent Content stream delivery using variable cache replacement granularity
US20150052047A1 (en) * 2013-08-19 2015-02-19 Xerox Business Services, Llc Methods and systems for facilitating document banking
CN104657665B (zh) * 2015-03-12 2017-12-08 四川神琥科技有限公司 一种文件处理方法
CN106855866A (zh) * 2015-12-09 2017-06-16 北大方正集团有限公司 Xml文档存储方法及装置
CN106970928B (zh) * 2016-01-14 2020-12-29 平安科技(深圳)有限公司 文件管理方法和系统
CN106503274A (zh) * 2016-12-22 2017-03-15 北京览群智数据科技有限责任公司 一种数据整合与搜索方法及服务器
CN108055351B (zh) * 2017-12-29 2021-04-16 深圳市毕美科技有限公司 三维文件的处理方法及装置

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
JPH05101054A (ja) * 1991-10-04 1993-04-23 Fujitsu Ltd 部品合成による文書作成支援システム
US6546406B1 (en) * 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
JP2991142B2 (ja) * 1996-12-13 1999-12-20 日本電気株式会社 動的部品化機能付き構造化文書データベースシステム
JP3721747B2 (ja) * 1997-10-30 2005-11-30 富士ゼロックス株式会社 文書処理装置および方法並びに文書処理プログラムを記録した媒体
US7529756B1 (en) * 1998-07-21 2009-05-05 West Services, Inc. System and method for processing formatted text documents in a database
US6993527B1 (en) * 1998-12-21 2006-01-31 Adobe Systems Incorporated Describing documents and expressing document structure
NO992269D0 (no) * 1999-05-10 1999-05-10 Fast Search & Transfer Asa S°kemotor med todimensjonalt skalerbart, parallell arkitektur
AUPQ117599A0 (en) * 1999-06-24 1999-07-22 Canon Kabushiki Kaisha Split tree data structure
JP3879350B2 (ja) * 2000-01-25 2007-02-14 富士ゼロックス株式会社 構造化文書処理システム及び構造化文書処理方法
AUPR063400A0 (en) * 2000-10-06 2000-11-02 Canon Kabushiki Kaisha Xml encoding scheme
US20020152244A1 (en) * 2000-12-22 2002-10-17 International Business Machines Corporation Method and apparatus to dynamically create a customized user interface based on a document type definition
JP4045399B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 構造化文書管理装置及び構造化文書管理方法
CN1464440A (zh) * 2002-06-17 2003-12-31 财团法人资讯工业策进会 工作对象关联方法
US20060259524A1 (en) * 2003-03-17 2006-11-16 Horton D T Systems and methods for document project management, conversion, and filing
GB2401215A (en) * 2003-05-02 2004-11-03 David Nicholas Rousseau Digital Library System
US7380205B2 (en) * 2003-10-28 2008-05-27 Sap Ag Maintenance of XML documents
US7440967B2 (en) * 2004-11-10 2008-10-21 Xerox Corporation System and method for transforming legacy documents into XML documents
US7421651B2 (en) * 2004-12-30 2008-09-02 Google Inc. Document segmentation based on visual gaps
US7685150B2 (en) * 2005-04-19 2010-03-23 Oracle International Corporation Optimization of queries over XML views that are based on union all operators
CN100547590C (zh) * 2005-12-05 2009-10-07 北京书生国际信息技术有限公司 文档处理系统
US9015301B2 (en) * 2007-01-05 2015-04-21 Digital Doors, Inc. Information infrastructure management tools with extractor, secure storage, content analysis and classification and method therefor
CN101021858A (zh) * 2007-01-29 2007-08-22 华为技术有限公司 一种数据存储方法及装置及数据查找、添加、删除方法
US7895197B2 (en) * 2007-04-30 2011-02-22 Sap Ag Hierarchical metadata generator for retrieval systems

Also Published As

Publication number Publication date
EP2180413A1 (en) 2010-04-28
WO2009021465A1 (fr) 2009-02-19
JP2010536105A (ja) 2010-11-25
US20100146005A1 (en) 2010-06-10
CN101369268A (zh) 2009-02-18
US8423521B2 (en) 2013-04-16
CN101369268B (zh) 2011-08-24
EP2180413A4 (en) 2011-01-19

Similar Documents

Publication Publication Date Title
JP5152877B2 (ja) 文書ベースシステムにおける文書データ記憶方法およびその装置
US8229932B2 (en) Storing XML documents efficiently in an RDBMS
US8321470B2 (en) Heterogeneous multi-level extendable indexing for general purpose annotation systems
US6581062B1 (en) Method and apparatus for storing semi-structured data in a structured manner
JP3844370B2 (ja) 多次元データを格納しかつアクセスするコンピュータ方法及び格納構造
US7739288B2 (en) Systems and methods of directory entry encodings
US8694510B2 (en) Indexing XML documents efficiently
US7487174B2 (en) Method for storing text annotations with associated type information in a structured data store
CN110263317B (zh) 一种生成文档模板的方法及装置
KR100930455B1 (ko) 쿼리별 검색 컬렉션 생성 방법 및 시스템
US7720885B2 (en) Generating a word-processing document from database content
CN102810114A (zh) 基于本体的个人计算机资源管理系统
US8166075B2 (en) Method for mapping an X500 data model onto a relational database
KR20090028758A (ko) 정보 재사용 방법, 정보 제공 방법, 편집 가능한 문서, 및 문서 편집 시스템
CN104462147A (zh) 一种文档的存储方法
US20090125488A1 (en) Geographic XML database management system
US8037090B2 (en) Processing structured documents stored in a database
JP3786233B2 (ja) 情報検索方法および情報検索システム
JPH08235040A (ja) データファイル管理システム
KR100678123B1 (ko) 관계형 데이터베이스에서의 xml 데이터 저장 방법
Kaporis et al. ISB-tree: A new indexing scheme with efficient expected behaviour
CN104133890B (zh) 一种云端大数据处理方法和系统
KR100904890B1 (ko) 임베디드 멀티미디어 기기에 적합한 mpeg-7메타-데이터 저장 방법
CN106980676A (zh) 基于智能密钥盘的文件管理方法
US20240004835A1 (en) Metadata for quering file system pathnames

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120529

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121129

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151214

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5152877

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees