JP2005234837A - 構造化文書処理方法、構造化文書処理システム及びそのプログラム - Google Patents

構造化文書処理方法、構造化文書処理システム及びそのプログラム Download PDF

Info

Publication number
JP2005234837A
JP2005234837A JP2004042289A JP2004042289A JP2005234837A JP 2005234837 A JP2005234837 A JP 2005234837A JP 2004042289 A JP2004042289 A JP 2004042289A JP 2004042289 A JP2004042289 A JP 2004042289A JP 2005234837 A JP2005234837 A JP 2005234837A
Authority
JP
Japan
Prior art keywords
document
holding unit
structured document
partial
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004042289A
Other languages
English (en)
Inventor
Junichi Odagiri
淳一 小田切
Satoru Nakajima
哲 中島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2004042289A priority Critical patent/JP2005234837A/ja
Priority to US10/964,736 priority patent/US20050187899A1/en
Publication of JP2005234837A publication Critical patent/JP2005234837A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets

Abstract

【課題】構造化文書の抽出、編集、検索を行う構造化文書処理システムに関し、CPUの負荷とメモリ使用量を低減する。
【解決手段】構造化文書(10)中の枝である特定タグの位置情報を位置情報保持部(12)に事前に取出しておき,これをもとに構造化文書(10)から要素,属性,要素内容という部分文書を抽出する。オリジナルの構造化文書から一部を抽出するだけなので,従来の木構造として取得する方法と比較して、CPU負荷を低減でき、メモリ使用量も少なくできる。又、抽出したものと文書変換用テンプレート(20)に直接当てはめて、他の構造化文書生成する。
【選択図】図1

Description

本発明は、SGML(Standard Generated Markup Language),XML( eXtensible Markup Language),HTML(Hyper Text Markup Language)文書などの構造化文書を処理,または元の構造を変換する構造化文書処理方法、構造化文書処理システム及びそのプログラムに関する。
インターネットの目覚しい普及に伴い、インターネットを通じて複数のシステム、サービス間で連携するデータを、構造化文書で記述するケースが増えてきた。これは、データの連携が多様化するに連れ、データ構造を容易に決定、拡張できるようにする必要が生じたことによる。
構造化文書としては、SGML(Standard Generated Markup Language),XML( eXtensible Markup Language),HTML(Hyper Text Markup Language)文書が知られており、この構造化文書は、データのみならずデータの意味を表わすタグを持つ。
例えば、XMLは、1998年2月に、W3C(World Wide Web Consortium)によって、正式に勧告されたものである。XML規格では、「<」と「>」で囲まれた文字列をタグ、「<文字列>」を開始タグ、「</文字列>」を、終了タグ、開始タグと終了タグで挟まれた文字列を要素、タグ内に記述された要素の名前を、要素名、要素に対する付加情報を、属性と呼ぶ。
各システム、サービスは、このタグを元に、データの意味を理解して、自動的に処理する。この構造化文書は、単なるテキスト文書であるため,データを追加したい場合などは、そのデータをタグで囲んで挿入すればよい。
このように、データ構造をタグとして、文書に埋め込む構成をとることにより、データ構造の柔軟性と拡張性の高さを持ち、且つタグを人間が見て、意味あるテキストで記述することにより、独立のシステムで取り扱っていたデータを、他のシステムでも、容易に取り扱うことが可能となる。
例えば、構造化文書中のタグ、データを処理解析して、その一部をユーザアプリケーションに渡すことができる。ユーザアプリケーションは渡された文書をもとにデータ処理を行い、各種サービスなどを提供する。
XML処理は、このXML文書から要素名、要素内容、属性、文字列などの内容を取得し、ユーザアプリケーションに渡す、又は内容を変更、追加、削除する。このXML処理では、DOM(Document Object Model)プロセッサが、W3CのXML標準API(Application Programming Interface)として定められ,広く使われている。
図16及び図17は、従来技術の説明図であり、前述のDOMプロセッサの説明図である。DOMプロセッサの特徴として、データの編集が容易なことがあげられる。これは、図16に示すように、DOMプロセッサが、XML文書1000の全データを、メモリ1100上に、木構造状に展開するためである。
従来のDOMプロセッサの検索や編集時の手順は、先ず、XML文書1000の全データを、一旦メモリ1100中に、木構造状に展開し、次に、メモリ1100上の木構造を辿って、指定されたデータを検索、編集するものである。
また、XML文書をWebなどから公開する際には、図17に示すように、DOMプロセッサで、前述の図16のように、データを検索,編集した後に、ユーザがXML文書中のデータを理解できるように、サーバーサイド1200で、HTMLやPDFに変換する。この変換には、XSLTを用いられてきた。XSLTは、DOMプロセッサで解析された木構造をもとに、必要な木のみを、HTMLや他の構造をもつXMLに変換するものである。
このDOMプロセッサによる構造化文書処理は、全データを、木構造状に、メモリ上に展開するため、メモリ展開時のCPU負荷が高く、例えば、XML文書の4〜6倍のメモリ量が必要となる。
また,HTMLへの変換時も、XSLTが木構造を解析しつつ、変換処理を行うので,木構造が大きい場合は、DOMプロセッサによるデータ処理のみならず、HTML変換処理のCPU負荷が高く,メモリ消費量が多くなり,ユーザの問合せに対する応答に時間が掛かる。
このような全データを木構造にするDOMプロセッサの問題を改善するため、木構造を部分木に分けて、管理し、参照された部分木に対応する構造化文書の一部を展開し、変換する方法が、提案されている(例えば、特許文献1、2)。
特開2003−178049号公報 特開2003−067403号公報
この提案された従来の方法では、部分木に展開するため、全データを木構造に展開する方法に比し、CPUの負荷が少なくなり、メモリ使用量は少なくなるが、やはり、木構造に展開する必要があるため、部分木展開時のCPU負荷が高く、しかもメモリ使用量の削減も充分でないという問題が生じる。
また,HTMLへの変換時も、XSLTが木構造を解析しつつ、変換処理を行うので,DOMによるデータ処理のみならず、HTML変換処理のCPU負荷が高く、メモリ消費量が多くなる。
このため,ユーザの問合せに対する応答に時間が掛かるようになり、特に、構造化文書の検索処理に時間がかかるという問題があった。
従って、本発明の目的は、ユーザの問い合わせに対し、構造化文書から高速に必要な要素を抽出して、応答時間を短縮するための構造化文書の処理方法、構造化文書処理システム及びそのプログラムを提供することにある。
又、本発明の他の目的は、木構造に展開することなく、構造化文書から高速に必要な要素を抽出して、応答時間を短縮するための構造化文書の処理方法、構造化文書処理システム及びそのプログラムを提供することにある。
更に、本発明の他の目的は、構造化文書の処理のためのCPUの負荷を軽減するための構造化文書の処理方法、構造化文書処理システム及びそのプログラムを提供することにある。
この目的の達成のため、本発明は、構造化文書保持部に保持された構造化文書を処理する構造化文書処理方法において、構造化文書中の木の位置情報を位置情報保持部に保持するステップと、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出するステップとを有する。
又、本発明は、構造化文書保持部に保持された構造化文書を処理する構造化文書処理システムにおいて、前記構造化文書保持部の構造化文書中の木の位置情報を保持する位置情報保持部と、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出する処理部とを有する。
又、本発明は、構造化文書保持部に保持された構造化文書を処理するプログラムであって、構造化文書中の木の位置情報を位置情報保持部に保持するステップと、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出するステップとをコンピュータに実行させる。
更に、本発明では、好ましくは、前記抽出した部分文書を部分文書保持部に保持するステップと、抽出する部分文書が前記部分文書保持部に保持されているかを判定するステップと、前記抽出する部分文書が前記部分文書保持部に保持されている時は、前記部分文書保持部から前記部分文書を抽出し、前記抽出する部分文書が前記部分文書保持部に保持されていない時は、前記木の位置情報を使用して、前記構造化文書から前記部分文書を抽出するステップとを更に有する。
更に、本発明では、好ましくは、前記部分文書保持部に、前記構造化文書中の編集された部分文書を保持するステップを更に有する。
更に、本発明では、好ましくは、前記構造化文書保持部の前記構造化文書の編集が無かった部分をコピーし、前記部分文書保持部の編集された部分文書と合わせて、変更後の部分文書を生成するステップを更に有する。
更に、本発明では、好ましくは、前記部分文書保持部に保持された部分文書から、前記位置保持部の位置情報を使用して、前記部分文書の内部データを抽出するステップを更に有する。
更に、本発明では、好ましくは、文書化構造変換用テンプレートに、前記抽出した部分文書を当てはめ、構造化文書の変換を行うステップを更に有する。
更に、本発明では、好ましくは、前記抽出ステップは、前記位置保持部の位置情報に従い、特定のタグで囲われた領域、タグの属性、開始タグの終端と終了タグの先端に挟まれた領域の少なくとも1つを、前記部分文書として、抽出するステップからなる。
更に、本発明では、好ましくは、前記編集された部分文書と、前記位置保持部で保持された位置情報とを、前記構造化文書保持部に保存するステップを更に有する。
本発明では、構造化文書中の枝である特定タグの位置情報を事前に取出しておき,これをもとに構造化文書から要素,属性,要素内容という枝を抽出する。オリジナルの構造化文書から一部を抽出するだけなので,従来の木構造として取得する方法と比較して、CPU負荷を低減でき、メモリ使用量も少なくできる。
又、抽出したものと文書変換用テンプレートに直接当てはめて、他の構造化文書生成する。直接当てはめにより、XLST変換が不要となり,更にCPU負荷が低くなる。
以下、本発明の実施の形態を、構造化文書処理システム、第1の実施の形態、第2の実施の形態、第3の実施の形態、他の実施の形態の順で説明するが、本発明は、この実施の形態に限られない。
[構造化文書処理システム]
図1は、本発明の構造化文書処理システムの一実施の形態の構成図、図2は、図1の構造化文書の説明図、図3は、図1の位置情報の説明図、図4は、図1のシステムの動作説明図である。
図1に示すように、構造化文書処理システムは、構造化文書ファイル(ここでは、XML文書ファイル)10を有するサーバ1に、クライアント3が、構造化文書を参照、検索、編集を依頼する。
サーバ1は、構造化文書10中の特定タグの位置情報を事前に取出しておき,位置情報保持部(メモリ)12に保持する。サーバ1は、この位置情報をもとに、XML文書10から要素,属性,要素内容を抽出する。
このように、オリジナルのXML文書10から一部を抽出するだけなので,従来の木構造として取得する方法と比較して,サーバ1のCPU負荷が低くなる。
又、クライアント3に送信するため、サーバ1で、HTML変換用テンプレート20と、テンプレートの定義体22を設け、抽出した要素内容を、HTML変換用テンプレート20に直接当てはめて,HTMLを生成する。この直接の当てはめにより、従来のXLST変換が不要となり、更に、サーバ1のCPU負荷が低くなる。
具体的に説明する。図1の構造化文書10では、木構造で表現すると、開始タグ<製品リスト>から終了タグ</製品リスト>までが、木(親)であり、その間の開始タグ<製品>から終了タグ</製品>までが、部分木(子)であり、更に、その間の開始タグ<型名>から終了タグ</型名>までが、枝(孫)となる。
この枝は、図2に示すように、要素と呼ばれ、要素内に、属性と、要素内容(ここでは、PC)が、記述される。即ち、実際の文字列データは、属性、要素内容であり、タグで、これらの文字列の定義をする。図1の構造化文書10の例では、図3の数字に示すように、位置情報(文字列の位置又は構造化文書の文字列の格納位置)が与えられる。
このように定義された位置情報(図1では、枝である型名タグ)を、構造化文書10から事前の取得し、位置保持部12に保持し、次の手順で変換を行う。
(1)ユーザが指定した特定タグの位置情報を、位置保持部12から取出す。
(2)位置情報をもとに,もとのXML文書10から枝である要素,属性,要素内容を抽出する。
(3)抽出した要素,属性又は要素内容を、HTMLテンプレート20に当てはめる。
(4)当てはめて作成したHTMLをユーザ(クライアント)3に返信する。
このように、構造化文書10のなかで、必要な要素,属性又は要素内容のみを抽出,管理する。又、位置情報を取出しておくことにより,2回目以降は、その位置情報をもとに、部分文書(要素等)を高速に抽出できる。
又、通常のDOMなどは、木構造状に展開するために、内部的に要素,属性,要素内容を分解して保持しておく。そのため、もとのXML文書に戻すには、分解したものをマージ(併合)する処理が必要となる。しかし,本発明では、部分文書を出力する際には、元の構造化文書の一部を抽出するだけなので,マージ処理が存在しない。このため高速に抽出することが可能となる。
更に、位置情報は単なる数値データなので,木構造より少ないメモリ量ですむ。更に、ユーザアプリケーション側でのCPU負荷を軽減できる。即ち、ユーザアプリケーションでは,構造化文書の一部の構造化文書(要素)ではなく,部分文書(要素の内容である要素内容や,要素の属性)のみが必要な場合がある。
例えば、ユーザアプリケーションが要素内容をもとに検索を行う場合は、タグが付いているのは却って無駄なので,要素よりは要素内容だけを抽出した方がよい。これを実現するために,特定タグの開始タグの先端、終端、終了タグの先端、終端、特定タグの属性の位置情報を取得しておくことで、部分文書として要素内容や要素の属性を抽出する。
図4により、ファイル空間で説明する。図16でも説明したように、多くの場合、データは集められて1つのレコード(部分木)を成し、このレコードが、複数存在している形をとる。このような場合は、はじめに各レコードを、部分文書として、その位置情報を取得しておき,次に細かく内部のデータ(要素内容、属性)を見たい場合は,各レコード(部分文書)内部の特定タグ(要素)の位置情報を取得して、データ(要素内容)を抽出する。
図4では、本発明をSPlitXMLと称し、従来の部分木によるものを、SPlitDOMと称している。SPlitDOMでも、レコード(部分木)の位置情報を取得しているが、本発明のSPlitXMLでは、レコード(部分木)の位置情報と、レコード内の要素(枝)の位置情報を取得している。
このため、直接要素内容をアクセスできるため、他の構造化文書(例えば、HTML)への変換にかかるCPU負荷を削減できる。前述したように,SPlitDOMでは、木構造に変換し、XSLTは、与えられた木構造を解析・理解しつつ、必要な要素内容を取得する。
このため,木構造の一部の柔軟な指定が可能であるが、その分CPU負荷がかかり、CPUの計算速度が遅いモバイル機器(モバイルPC,PDA,携帯電話等)などで、HTML変換を行うのは、非現実的である。
そこで,抽出部で要素内容を抽出し、これを予め用意しておいたHTML変換用テンプレート20に当てはめることにより、XSLTを使用することなく、HTML変換が可能となるため,CPU負荷が低くなる。
[第1の実施の形態]
図5は、本発明の第1の実施の形態のシステム構成図、図6は、図5の位置情報の第1の実施の形態の説明図、図7は、図5の位置情報の第2の実施の形態の説明図、図8は、図5の位置情報保持部の説明図である。
図5のシステムは、製品情報を表わすXML文書の一部を、ユーザアプリケーション(クライアント3)が参照し,編集する例を示す。処理モジュール1は、例えば、前述のサーバで構成され、XML文書101には、多数の製品データ(製品タグ)が存在し,製品タグの一部を部分文書としてXML文書101から抽出、参照する。
処理モジュール1は、構造化文書保持部101を構成するファイル装置と、CPU、メモリ等を有する。メモリには,部分文書保持部105と、位置保持部104とが設けられる。CPUは、抽出部102、部分文書管理部103,コピー部112を機能モジュールとして有する。
部分文書管理部103は,はじめに、構造化文書保持部101から位置情報を取出し、位置情報保持部104に格納する。以降は、この位置情報を元に、抽出部102が、構造化文書保持部101から部分文書を取出す。位置保持部104は,位置情報を保持する。
この位置情報及び位置情報保持部を、図6乃至図8で説明する。図6は、1つの要素(枝)あるいは要素内容を抽出する場合の位置情報を示す。図6に示すように、1つの要素(枝)あるいは要素内容を抽出する場合には、位置情報として、要素の開始タグの先端と終端と、終了タグの先端と終端の計4つの位置である。
其々の位置を4byteで表わすため,1つの要素あたり高々16byteとなる。図6では、図5の品名要素を示す。位置保持部104は、図8に示すように、各製品タグiに対し、要素(ここでは、型名要素、品名要素)の開始タグの先端と終端と、終了タグの先端と終端の計4つの位置を保持する。
図6の実施例では、要素を部分文書として抽出するが,属性を保持する場合は、図7に示すように、属性値(ここでは、01)の開始位置と終了位置であり、計8byteとなる。
図5に戻り、部分文書保持部105は、一種のキャッシュメモリであり、後述するように、一旦抽出された又は更新された部分文書を保持する。コピー部112は、元の構造化文書101と更新された部分文書から更新が反映された構造化文書111を作成する。
次に、図5のシステムにおけるXML文書参照処理を、図9の参照処理フロー図により、説明する。
S201:参照前の処理として、部分文書管理部103は、構造化文書保持部100から構造化文書101中の製品タグの位置情報を取出し、位置保持部104へ位置情報を格納する。即ち、図6乃至図8で説明したように、製品タグの位置情報として、要素の開始、終了タグの位置を取出し、図8のように、テーブル構成の位置保持部104に格納する。
このXML文書101全体の製品タグを対象として、予め取出し、保持する他に、ユーザの指定により、型名要素、品名要素、属性値のいずれか1つ又は2つを対象とすることもできる。
S202:ユーザアプリケーション108からi番目の製品タグを参照したいという指示を受け、部分文書管理部103を介し、部分文書保持部105は、i番目に既に抽出された部分文書(製品タグの開始から終了までの文書)が格納されているか,あるいは格納されていなくて「null」が入っているかを判断する。
S203:「null」の場合は,部分文書保持部103からの応答に応じて、部分文書管理部103が、位置保持部104のi番目の製品タグの位置情報を取出し、抽出部102に送り、抽出部102は、構造化文書保持部101から指定された位置情報の部分文書を抽出し、部分文書管理部103を介しユーザアプリケーション108に、部分文書を返す。この時、抽出部102は、抽出された部分文書を部分文書保持部105の指定位置に格納する。
S204:「null」でない場合は,部分文書保持部105は、そこに格納されている部分文書を、部分文書管理部103を介しユーザアプリケーションに返す。
このように、構造化文書のなかで必要な要素,属性又は要素内容(枝)のみを抽出,管理するので、構造化文書処理時のCPU負荷およびメモリ使用量を削減できる。例えば,データが多量に存在する場合は,初めに検索処理を行って絞込むが,絞り込み結果は全体の一部なので,全データの木構造を生成する必要はない。このようにしてCPU負荷を削減できる。
又,位置情報を取出すことで、部分文書抽出のCPU負荷とメモリ使用量を削減できる。即ち、位置情報を取出しておけば,2回目以降はその位置情報をもとに、部分文書を高速に抽出できる。又、通常のDOMなどは木構造状に展開するために,内部的に要素,属性,要素内容を分解して保持しておくため,もとのXML文書に戻すには,分解したものをマージする処理が必要となる。しかし,本発明では,部分文書を出力する際には元の構造化文書の一部を抽出するだけなので,マージ処理が存在しないため高速に抽出することが可能となる。更に、位置情報は、単なる数値データなので,木構造より少ないメモリ量ですむ。
更に、部分文書保持部105を設けたので、部分文書の抽出,編集のCPU負荷を削減できる。ユーザアプリケーション側から抽出,編集の要求があるたびに,構造化文書保持部101にて保持されている構造化文書を参照して抽出,編集することは、CPU負荷が高い。
そこで,一旦抽出した部分文書は部分文書保持部105にて,保持しておく。また,図10にて後述するように、ユーザアプリケーションから編集の要求があった場合は、ここで保持されている部分文書とユーザアプリケーションから渡される編集された部分文書を置き換える。そして編集結果を元の構造化文書に反映させる場合には,この部分文書を構造化文書に当てはめる。
更に、ユーザアプリケーションでは,構造化文書の一部の構造化文書(要素)ではなく,部分文書(要素の内容である要素内容や,要素の属性)のみが必要な場合がある。例えば、ユーザアプリケーションが要素内容をもとに検索を行う場合は,タグが付いているのは却って無駄なので,要素よりは要素内容だけを抽出した方がよい。
これを実現するために,特定タグの開始タグの先端,終端,終了タグの先端,終端,特定タグの属性の位置情報を取得しておくことで,部分文書として要素内容や要素の属性を抽出する。これにより、ユーザアプリケーションでのCPU負荷を軽減できる。
次に、図5のシステムの編集処理を、図10の編集処理フロー図に従い、説明する。
S301:編集前処理として、ステップS201と同様に、部分文書管理部103が、構造化文書保持部100から構造化文書101中の製品タグの位置情報を取出し,位置保持部104へ位置情報を格納する。
S302:部分文書管理部103は、ユーザアプリケーション108から渡された編集後の部分文書109(図5参照)を、部分文書保持部105に格納する。これにより、編集処理を終了し、次の保存処理に移行する。
S303:部分文書保持部105は、i番目の部分文書が編集されたかどうかを判断する。
S304:編集されたと判断した場合、部分文書保持部105は、部分文書保持部105にある編集された部分文書を、構造化文書保持部100に作成された更新が反映された構造化文書111に反映する。即ち、構造化文書111の更新個所に、編集された部分文書を上書きする。
S305:部分文書保持部105で編集されていないと判断した場合は、コピー部112が、編集がある部分まで、構造化文書保持部100のもとの構造化文書101をそのままコピーし、更新された構造化文書111へ反映(コピー)する。
S306:S303以下を、部分文書(製品タグ)数分繰り返し、終了する。
このようにして、部分文書(製品タグ)の編集結果を、元の構造化文書に反映させる際のCPU負荷を削減できる。即ち、部分文書の中には、抽出しただけで編集しなかったものも存在する。その場合は、編集しなかった部分文書をも、自動的に元の構造化文書に反映させるのは、CPU負荷が大きい。編集した部分文書のみを,元の構造化文書に当てはめるようにして、CPU負荷を軽減する。
[第2の実施の形態]
次に、本発明の第2の実施の形態を説明する。図11は、本発明の第2の実施の形態のシステム構成図、図12は、その編集処理フロー図、図13は、図12の編集後の保存処理フロー図である。
図11のシステムは、処理モジュール1(1−1)に存在する構造化文書保持部100が、製品情報を表わすXML文書101を,構造化文書保持部200へ送信し,処理モジュール2(1−2)で,このXML文書の一部を,ユーザアプリケーション108が参照、編集する例を示す。
図11に示すように、XML文書101には、多数の製品データ(製品タグ)が存在し、製品タグの一部を部分文書として、XML文書から抽出,参照する。処理モジュール1−1は、構造化文書保持部101に、構造化文書101と、製品タグ位置を保持する。
また、処理モジュール1−2の構造化文書保持部200、抽出部102,部分文書管理部103,部分文書保持部105,コピー部112は、図5の実施の形態と同一のものである。
部分文書管理部105は、処理モジュール1−1から製品タグ位置102を受け取り、位置保持部104に保持する。処理モジュール1−1の構造化文書保持部100は、構造化文書101を処理モジュール1−2全般で使用されている文字エンコーディングに変換してから、処理モジュール1−2の構造化文書保持部200に渡す。
位置保持部104は,位置情報を保持するが、この位置情報は、先頭から何文字目かが記載されている(図3参照)。図6と同様に、1つの要素あるいは要素内容を抽出する場合、位置情報として開始タグの先端、終端と、終了タグの先端と終端の計4つの位置である。この位置を表わすのに必要なbyte数は、第1の実施の形態と同様に4byteで問題ない。
次に、図11のシステムの編集処理を、図12の編集処理フロー図により、説明する。
S401:処理モジュール1−2は、処理モジュール1−1から送られてきた,処理モジュール1−2で使用されているエンコーディングに変換された構造化文書101と製品タグ位置120を、構造化文書保持部200および部分文書管理部103に格納する。次回以降は、これを位置情報として使用すればよいので,第1の実施の形態の図9のS301の取出し処理が不要となる。
S402:ユーザアプリケーション108から渡された編集後の部分文書109を、部分文書保持部105に格納する。
次に、図11のシステムの保存処理を、図13の保存処理フロー図により、説明する。
S501:部分文書保持部105は、i番目の部分文書が編集されたかどうかを判断する。
S502:編集されたと判断した場合、部分文書保持部105は、部分文書保持部105にある編集された部分文書を、構造化文書保持部200に作成された更新が反映された構造化文書111に反映する。即ち、構造化文書111の更新個所に、編集された部分文書を上書きする。
S503:部分文書保持部105で編集されていないと判断した場合は、コピー部112が、編集がある部分まで、構造化文書保持部200のもとの構造化文書101−1をそのままコピーし、更新された構造化文書111へ反映(コピー)する。
S504:S501以下を、部分文書(製品タグ)数分繰り返す。
S505:位置保持部104の製品タグ位置情報を,構造化文書保持部200に、122として、保存する。従って、次回以降は、これを位置情報として使用すればよいので取出し処理が不要となる。
この実施の形態では、編集があった部分文書を構造化文書保持部200に格納する際に、位置保持部104で保持されている特定のタグあるいは属性の位置情報も、構造化文書保持部200に格納する。そして,再び格納した構造化文書101−1、111を処理,変換する際には,この位置情報122を使用することで,位置情報の取得処理を行う必要がない。
又、特定のタグあるいは属性の位置情報の取得には、文字列検索が必要となるので,CPU負荷が高いため、よって,二回目以降あるいは事前に位置情報を取得して保持しておけば,実際に構造化文書への処理および変換が必要な場合に,このCPU負荷をキャンセルできる。
更に、この実施の形態では、構造化文書保持部100上のアドレスにおいて、構造化文書の先頭を起点として数えて何番目のアドレスであるかを示した位置情報を使用する。例えば、先頭からの何byte目であるかを位置情報に使用する。
同様に、構造化文書の先頭を起点として、数えて何文字目かを示した位置情報を使用しても良い。構造化文書が日本語である場合は,その構造化文書の文字エンコードによっては、2byteで日本語一文字を表わす場合がある。文字エンコードは,実際にはシステム毎に異なるものを使用している場合があるので,システム間で構造化文書および位置情報をやり取りする場合には何文字目からが特定タグあるいは属性であるか,ということが分かっていると良い場合がある。
[第3の実施の形態]
次に、本発明の第3の実施の形態として、製品情報を表わすXML文書に対して,型名による検索を行い,製品情報を検索結果として,Webブラウザ上に表示するユーザアプリケーションをとして示す。
図14は、本発明の第3の実施の形態のシステム構成図、図15は、その検索処理フロー図である。
この例では、検索結果として、製品タグと親子関係にある型名タグ,品名タグのデータを表示する。図14に示すように、処理モジュール1と変換モジュール2が設けられる。処理モジュール1は、部分文書を抽出し,変換モジュール2は、抽出した部分文書とHTML変換用テンプレート20を元にHTML変換を行う。
又、構造化文書保持部100,抽出部102,部分文書管理部103,部分文書保持部105,位置保持部104は、図5で説明したものと同一のものである。処理部130は、部分文書保持部105に格納されている製品タグ中の型名タグ,品名タグの位置情報を取得し,それをもとに型名データ,品名データ(要素内容)を取得する。
変換モジュール2は、変換部408と、テンプレート保持部410とを有する。テンプレート保持部410は、HTMLのテーブル定義の先頭(<HTML>,<table>)と、終端(<HTML>,</table>)と、テーブル内容(<tr>〜</tr>)を、テンプレートとして、保持するメモリである。
変換部408は、ヒットした品名データと型名データをテンプレート保持部410で格納しているテンプレートに当てはめる処理を行う。処理部130、変換部408も、CPUの機能モジュールである。
次に、図14のシステムの検索処理を、図15の検索処理フロー図により、説明する。
S601:検索前処理として、部分文書管理部103は、構造化文書保持部100から構造化文書101中の製品タグの位置情報を取出し、位置保持部104へ位置情報を格納する。即ち、図6乃至図8で説明したように、製品タグの位置情報として、要素の開始、終了タグの位置を取出し、図8のように、テーブル構成の位置保持部104に格納する。
このXML文書101全体の製品タグを対象として、予め取出し、保持する他に、ユーザの指定により、型名要素、品名要素、属性値のいずれか1つ又は2つを対象とすることもできる。
S602:抽出部102は、この位置保持部104の位置情報(製品タグ位置)を元に、構造化文書101から製品タグを抽出し,部分文書保持部105に格納する。
S603:処理部130は、位置保持部104から部分文書保持部105に格納されている製品タグ中の型名タグ、品名タグの位置情報を取得し,それをもとに型名データ,品名データを取得する。即ち、タグを除いた検索対象データ、HTMLデータを抽出する。
S604:ユーザアプリケーション108からの検索キーを取得し,処理部130が、検索対象データと検索キーとを照合する。
S605:照合の結果、ヒットした場合は、変換部408が、品名データと型名データを、テンプレート保持部410で格納しているテンプレート20に当てはめる。これを、ユーザアプリケーション108にHTML文書として、送信する。
このようにして、段階的に細かく部分文書を取得する。多くの場合、データは集められて1つのレコードを成し,このレコードが複数存在している形をとる。このような場合は,はじめに各レコードを部分文書として、その位置情報を取得しておき,次に細かく内部のデータを見たい場合は,各レコード(部分文書)内部の特定タグの位置情報を取得して,データを抽出する。
又、他の構造化文書(ここでは、HTML文書)への変換にかかるCPU負荷を削減できる。即ち、前述したようにXLSTは、与えられた木構造を解析・理解しつつ、必要な要素内容を取得する。このため,木構造の一部の柔軟な指定が可能である。しかし、その分CPU負荷がかかるため,CPUの計算速度が遅いモバイル機器などでHTML変換を行うには、時間がかかり、現実的に困難である。
そこで、抽出部、処理部で要素内容を抽出し,これを予め用意しておいたHTML変換用テンプレート20に当てはめる。これにより,XLSTを使用することなく,HTML変換が可能となり、CPU負荷が低くなる。
[他の実施の形態]
前述の実施の形態では、構造化文書を、XML文書で説明したが、SGML, HTML等の他の形式の構造化文書に適用できる。同様に、変換される構造化文書も、HTMLに限らず、他の形式のものを利用できる。
以上、本発明を実施の形態により説明したが、本発明の趣旨の範囲内において、本発明は、種々の変形が可能であり、本発明の範囲からこれらを排除するものではない。
(付記1)構造化文書保持部に保持された構造化文書を処理する構造化文書処理方法において、構造化文書中の木の位置情報を位置情報保持部に保持するステップと、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出するステップとを有することを特徴とする構造化文書処理方法。
(付記2)前記抽出した部分文書を部分文書保持部に保持するステップと、抽出する部分文書が前記部分文書保持部に保持されているかを判定するステップと、前記抽出する部分文書が前記部分文書保持部に保持されている時は、前記部分文書保持部から前記部分文書を抽出し、前記抽出する部分文書が前記部分文書保持部に保持されていない時は、前記木の位置情報を使用して、前記構造化文書から前記部分文書を抽出するステップとを更に有することを特徴とする付記1の構造化文書処理方法。
(付記3)前記部分文書保持部に、前記構造化文書中の編集された部分文書を保持するステップを更に有することを特徴とする付記2の構造化文書処理方法。
(付記4)前記構造化文書保持部の前記構造化文書の編集が無かった部分をコピーし、前記部分文書保持部の編集された部分文書と合わせて、変更後の部分文書を生成するステップを更に有することを特徴とする付記3の構造化文書処理方法。
(付記5)前記部分文書保持部に保持された部分文書から、前記位置保持部の位置情報を使用して、前記部分文書の内部データを抽出するステップを更に有することを特徴とする付記2の構造化文書処理方法。
(付記6)文書化構造変換用テンプレートに、前記抽出した部分文書を当てはめ、構造化文書の変換を行うステップを更に有することを特徴とする付記1の構造化文書処理方法。
(付記7)前記抽出ステップは、前記位置保持部の位置情報に従い、特定のタグで囲われた領域、タグの属性、開始タグの終端と終了タグの先端に挟まれた領域の少なくとも1つを、前記部分文書として、抽出するステップからなることを特徴とする付記1の構造化文書処理方法。
(付記8)前記編集された部分文書と、前記位置保持部で保持された位置情報とを、前記構造化文書保持部に保存するステップを更に有することを特徴とする付記3の構造化文書処理方法。
(付記9)構造化文書保持部に保持された構造化文書を処理する構造化文書処理システムにおいて、前記構造化文書保持部の構造化文書中の木の位置情報を保持する位置情報保持部と、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出する処理部とを有することを特徴とする構造化文書処理システム。
(付記10)前記抽出した部分文書を保持する部分文書保持部を更に有し、前記処理部は、抽出する部分文書が前記部分文書保持部に保持されているかを判定し、前記抽出する部分文書が前記部分文書保持部に保持されている時は、前記部分文書保持部から前記部分文書を抽出し、前記抽出する部分文書が前記部分文書保持部に保持されていない時は、前記木の位置情報を使用して、前記構造化文書から前記部分文書を抽出することを特徴とする付記9の構造化文書処理システム。
(付記11)前記処理部は、前記部分文書保持部に、前記構造化文書中の編集された部分文書を保持することを特徴とする付記10の構造化文書処理システム。
(付記12)前記処理部は、前記構造化文書保持部の前記構造化文書の編集が無かった部分をコピーし、前記部分文書保持部の編集された部分文書と合わせて、変更後の部分文書を生成することを特徴とする付記11の構造化文書処理システム。
(付記13)前記処理部は、前記部分文書保持部に保持された部分文書から、前記位置保持部の位置情報を使用して、前記部分文書の内部データを抽出することを特徴とする付記10の構造化文書処理システム。
(付記14)前記処理部は、文書化構造変換用テンプレートに、前記抽出した部分文書を当てはめ、構造化文書の変換を行うことを特徴とする付記9の構造化文書処理システム。
(付記15)前記処理部は、前記位置保持部の位置情報に従い、特定のタグで囲われた領域、タグの属性、開始タグの終端と終了タグの先端に挟まれた領域の少なくとも1つを、前記部分文書として、抽出することを特徴とする付記9の構造化文書処理システム。
(付記16)前記処理部は、前記編集された部分文書と、前記位置保持部で保持された位置情報とを、前記構造化文書保持部に保存することを特徴とする付記11の構造化文書処理システム。
(付記17)構造化文書保持部に保持された構造化文書を処理するプログラムであって、構造化文書中の木の位置情報を位置情報保持部に保持するステップと、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出するステップとをコンピュータに実行させることを特徴とするコンピュータ読み取り可能なプログラム。
(付記18)前記抽出した部分文書を部分文書保持部に保持するステップと、抽出する部分文書が前記部分文書保持部に保持されているかを判定するステップと、前記抽出する部分文書が前記部分文書保持部に保持されている時は、前記部分文書保持部から前記部分文書を抽出し、前記抽出する部分文書が前記部分文書保持部に保持されていない時は、前記木の位置情報を使用して、前記構造化文書から前記部分文書を抽出するステップとを更にコンピュータに実行させることを特徴とする付記17のプログラム。
(付記19)前記部分文書保持部に、前記構造化文書中の編集された部分文書を保持するステップを更にコンピュータに実行させることを特徴とする付記18のプログラム。
(付記20)前記構造化文書保持部の前記構造化文書の編集が無かった部分をコピーし、前記部分文書保持部の編集された部分文書と合わせて、変更後の部分文書を生成するステップを更にコンピュータに実行させることを特徴とする付記19のプログラム。
(付記21)前記部分文書保持部に保持された部分文書から、前記位置保持部の位置情報を使用して、前記部分文書の内部データを抽出するステップを更にコンピュータに実行させることを特徴とする付記18のプログラム。
(付記22)文書化構造変換用テンプレートに、前記抽出した部分文書を当てはめ、構造化文書の変換を行うステップを更にコンピュータに実行させることを特徴とする付記17のプログラム。
(付記23)前記抽出ステップとして、前記位置保持部の位置情報に従い、特定のタグで囲われた領域、タグの属性、開始タグの終端と終了タグの先端に挟まれた領域の少なくとも1つを、前記部分文書として、抽出するステップをコンピュータに実行させることを特徴とする付記17のプログラム。
(付記24)前記編集された部分文書と、前記位置保持部で保持された位置情報とを、前記構造化文書保持部に保存するステップを更にコンピュータに実行させることを特徴とする付記19のプログラム。
構造化文書中の枝である特定タグの位置情報を事前に取出しておき,これをもとに構造化文書から要素,属性,要素内容という部分文書を抽出し、オリジナルの構造化文書から一部を抽出するだけなので,従来の木構造として取得する方法と比較して、CPU負荷を低減でき、メモリ使用量も少なくできる。
又、抽出したものと文書変換用テンプレートに直接当てはめて、他の構造化文書生成する。直接当てはめにより、XLST変換が不要となり,更にCPU負荷が低くなる。このため、処理能力の低い機器でも、構造化文書の処理が、高速に実行できる。
本発明の一実施の形態の構造化文書処理システムの全体構成図である。 図1の構造化文書の説明図である。 図1の位置情報の説明図である。 図1の構成の抽出動作の説明図である。 本発明の第1の実施の形態の構造化文書処理システムの構成図である。 図5の位置情報の第1の実施の形態の説明図である。 図5の位置情報の第2の実施の形態の説明図である。 図5の位置保持部の構成図である。 図5の参照処理フロー図である。 図5の編集処理フロー図である。 本発明の第2の実施の形態の構造化文書処理システムの構成図である。 図11の編集処理フロー図である。 図11の保存処理フロー図である。 本発明の第3の実施の形態の構造化文書処理システムの構成図である。 図14の検索処理フロー図である。 従来の構造化文書処理のDOMの説明図である。 従来の構造化文書処理の説明図である。
符号の説明
1 サーバ(処理モジュール)
2 変換モジュール
3 クライアント
10,101,111 構造化文書
12,104 位置保持部
20 変換テンプレート
100 構造化文書保持部
102 抽出部
103 部分文書管理部
105 部分文書保持部
108 ユーザアプリケーション
112 コピー部
130 処理部
408 変換部
410 テンプレート保持部

Claims (10)

  1. 構造化文書保持部に保持された構造化文書を処理する構造化文書処理方法において、
    構造化文書中の木の位置情報を位置情報保持部に保持するステップと、
    指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出するステップとを有する
    ことを特徴とする構造化文書処理方法。
  2. 前記抽出した部分文書を部分文書保持部に保持するステップと、
    抽出する部分文書が前記部分文書保持部に保持されているかを判定するステップと、
    前記抽出する部分文書が前記部分文書保持部に保持されている時は、前記部分文書保持部から前記部分文書を抽出し、前記抽出する部分文書が前記部分文書保持部に保持されていない時は、前記木の位置情報を使用して、前記構造化文書から前記部分文書を抽出するステップとを更に有する
    ことを特徴とする請求項1の構造化文書処理方法。
  3. 前記部分文書保持部に、前記構造化文書中の編集された部分文書を保持するステップを更に有する
    ことを特徴とする請求項2の構造化文書処理方法。
  4. 前記構造化文書保持部の前記構造化文書の編集が無かった部分をコピーし、前記部分文書保持部の編集された部分文書と合わせて、変更後の部分文書を生成するステップを更に有する
    ことを特徴とする請求項3の構造化文書処理方法。
  5. 文書化構造変換用テンプレートに、前記抽出した部分文書を当てはめ、構造化文書の変換を行うステップを更に有する
    ことを特徴とする請求項1の構造化文書処理方法。
  6. 前記抽出ステップは、前記位置保持部の位置情報に従い、特定のタグで囲われた領域、タグの属性、開始タグの終端と終了タグの先端に挟まれた領域の少なくとも1つを、前記部分文書として、抽出するステップからなる
    ことを特徴とする請求項1の構造化文書処理方法。
  7. 構造化文書保持部に保持された構造化文書を処理する構造化文書処理システムにおいて、
    前記構造化文書保持部の構造化文書中の木の位置情報を保持する位置情報保持部と、
    指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出する処理部とを有する
    ことを特徴とする構造化文書処理システム。
  8. 前記抽出した部分文書を保持する部分文書保持部を更に有し、
    前記処理部は、抽出する部分文書が前記部分文書保持部に保持されているかを判定し、前記抽出する部分文書が前記部分文書保持部に保持されている時は、前記部分文書保持部から前記部分文書を抽出し、前記抽出する部分文書が前記部分文書保持部に保持されていない時は、前記木の位置情報を使用して、前記構造化文書から前記部分文書を抽出する
    ことを特徴とする請求項7の構造化文書処理システム。
  9. 前記処理部は、前記部分文書保持部に、前記構造化文書中の編集された部分文書を保持する
    ことを特徴とする請求項9の構造化文書処理システム。
  10. 構造化文書保持部に保持された構造化文書を処理するプログラムであって、
    構造化文書中の木の位置情報を位置情報保持部に保持するステップと、指示された前記構造化文書の部分文書を、前記保持した木の位置情報を使用して、抽出するステップとをコンピュータに実行させる
    ことを特徴とするコンピュータ読み取り可能なプログラム。
JP2004042289A 2004-02-19 2004-02-19 構造化文書処理方法、構造化文書処理システム及びそのプログラム Pending JP2005234837A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004042289A JP2005234837A (ja) 2004-02-19 2004-02-19 構造化文書処理方法、構造化文書処理システム及びそのプログラム
US10/964,736 US20050187899A1 (en) 2004-02-19 2004-10-15 Structured document processing method, structured document processing system, and program for same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004042289A JP2005234837A (ja) 2004-02-19 2004-02-19 構造化文書処理方法、構造化文書処理システム及びそのプログラム

Publications (1)

Publication Number Publication Date
JP2005234837A true JP2005234837A (ja) 2005-09-02

Family

ID=34857970

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004042289A Pending JP2005234837A (ja) 2004-02-19 2004-02-19 構造化文書処理方法、構造化文書処理システム及びそのプログラム

Country Status (2)

Country Link
US (1) US20050187899A1 (ja)
JP (1) JP2005234837A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007200189A (ja) * 2006-01-30 2007-08-09 Hitachi Ltd 文書検索方法、文書検索プログラムおよび文書検索装置
JP2007323443A (ja) * 2006-06-01 2007-12-13 Canon Inc Webサービス実行方法及び情報処理装置
JP2009521774A (ja) * 2005-12-22 2009-06-04 オラクル・インターナショナル・コーポレーション Xml文書をメモリにロードする方法及びメカニズム
JP2009157875A (ja) * 2007-12-28 2009-07-16 Dainippon Printing Co Ltd 構造化文書ファイル、およびその処理装置および方法
JP2009537029A (ja) * 2006-05-12 2009-10-22 サムスン エレクトロニクス カンパニー リミテッド コンテンツ暗号キーの位置を効率的に提供する方法および装置
JP2009258971A (ja) * 2008-04-16 2009-11-05 Ntt Docomo Inc データ同期方法および通信装置
JP2010282347A (ja) * 2009-06-03 2010-12-16 Nec Corp 構文解析装置、構文解析方法、及びプログラム
US8423888B2 (en) 2005-03-30 2013-04-16 Fujitsu Limited Document conversion and use system
CN111259202A (zh) * 2020-01-10 2020-06-09 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4525115B2 (ja) * 2004-03-11 2010-08-18 日本電気株式会社 構造化文書処理装置、構造化文書処理方法、および構造化文書処理プログラム
US20060224956A1 (en) * 2005-04-05 2006-10-05 International Business Machines Corporation Intelligent document saving
JP4234698B2 (ja) * 2005-06-20 2009-03-04 富士通株式会社 構造化文書処理システム
CN101223603A (zh) * 2005-07-22 2008-07-16 皇家飞利浦电子股份有限公司 光盘节目播放控制方法及装置
JP5142773B2 (ja) * 2008-03-13 2013-02-13 キヤノン株式会社 メッセージ生成処理方法及びメッセージ生成処理装置
US8413165B2 (en) * 2008-03-31 2013-04-02 Sap Ag Managing consistent interfaces for maintenance order business objects across heterogeneous systems
US9715558B2 (en) * 2008-04-14 2017-07-25 International Business Machines Corporation Structure-position mapping of XML with variable-length data
US10229379B2 (en) * 2015-04-20 2019-03-12 Sap Se Checklist function integrated with process flow model
CN108519963B (zh) * 2018-03-02 2021-12-03 山东科技大学 一种将流程模型自动转换为多语言文本的方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830620A (ja) * 1994-07-19 1996-02-02 Fuji Xerox Co Ltd 構造検索装置
CA2242158C (en) * 1997-07-01 2004-06-01 Hitachi, Ltd. Method and apparatus for searching and displaying structured document
JP3879350B2 (ja) * 2000-01-25 2007-02-14 富士ゼロックス株式会社 構造化文書処理システム及び構造化文書処理方法
JP3943830B2 (ja) * 2000-12-18 2007-07-11 株式会社東芝 文書合成方法および文書合成装置
JP4045399B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 構造化文書管理装置及び構造化文書管理方法
JP4045400B2 (ja) * 2001-08-24 2008-02-13 富士ゼロックス株式会社 検索装置及び検索方法
US7451390B2 (en) * 2001-09-10 2008-11-11 Fujitsu Limited Structured document processing system, method, program and recording medium
JP2003150586A (ja) * 2001-11-12 2003-05-23 Ntt Docomo Inc 文書変換システム、文書変換方法及び文書変換プログラムを記録したコンピュータ読み取り可能な記録媒体
JP4418154B2 (ja) * 2002-12-27 2010-02-17 株式会社エヌ・ティ・ティ・ドコモ 構造化文書変換装置、構造化文書変換方法および構造化文書変換プログラム
JP4267336B2 (ja) * 2003-01-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造パターン候補を生成する方法、システムおよびプログラム

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8423888B2 (en) 2005-03-30 2013-04-16 Fujitsu Limited Document conversion and use system
JP2009521774A (ja) * 2005-12-22 2009-06-04 オラクル・インターナショナル・コーポレーション Xml文書をメモリにロードする方法及びメカニズム
JP4746433B2 (ja) * 2006-01-30 2011-08-10 株式会社日立製作所 文書検索方法、文書検索プログラムおよび文書検索装置
JP2007200189A (ja) * 2006-01-30 2007-08-09 Hitachi Ltd 文書検索方法、文書検索プログラムおよび文書検索装置
JP2009537029A (ja) * 2006-05-12 2009-10-22 サムスン エレクトロニクス カンパニー リミテッド コンテンツ暗号キーの位置を効率的に提供する方法および装置
US8340297B2 (en) 2006-05-12 2012-12-25 Samsung Electronics Co., Ltd. Method and apparatus for efficiently providing location of contents encryption key
JP2007323443A (ja) * 2006-06-01 2007-12-13 Canon Inc Webサービス実行方法及び情報処理装置
JP2009157875A (ja) * 2007-12-28 2009-07-16 Dainippon Printing Co Ltd 構造化文書ファイル、およびその処理装置および方法
JP4719243B2 (ja) * 2008-04-16 2011-07-06 株式会社エヌ・ティ・ティ・ドコモ データ同期方法および通信装置
JP2009258971A (ja) * 2008-04-16 2009-11-05 Ntt Docomo Inc データ同期方法および通信装置
JP2010282347A (ja) * 2009-06-03 2010-12-16 Nec Corp 構文解析装置、構文解析方法、及びプログラム
CN111259202A (zh) * 2020-01-10 2020-06-09 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统
CN111259202B (zh) * 2020-01-10 2023-08-04 西宁宁光工程咨询有限公司 一种文档结构化数据嵌入方法及系统

Also Published As

Publication number Publication date
US20050187899A1 (en) 2005-08-25

Similar Documents

Publication Publication Date Title
JP2005234837A (ja) 構造化文書処理方法、構造化文書処理システム及びそのプログラム
US20170357631A1 (en) Analysis of documents using rules
US7975220B2 (en) Apparatus, program product and method for structured document management
EP1949269B1 (en) Managing relationships between resources stored within a repository
US20080126396A1 (en) System and method for implementing dynamic forms
JP2008052662A (ja) 構造化文書管理システム及びプログラム
US20070055679A1 (en) Data expansion method and data processing method for structured documents
JPH07319917A (ja) 文書データべース管理装置および文書データべースシステム
US7457812B2 (en) System and method for managing structured document
US20130212121A1 (en) Client-side modification of electronic documents in a client-server environment
JPWO2006137563A1 (ja) データ処理装置及びデータ処理方法
JPWO2006137562A1 (ja) 文書処理装置及び文書処理方法
JP2008097215A (ja) データ処理装置
JPWO2003067470A1 (ja) 文書配信装置、文書受信装置、文書配信方法、文書配信プログラム、文書配信システム
JPWO2002103554A1 (ja) データ処理方法、データ処理プログラム、およびデータ処理装置
US7451390B2 (en) Structured document processing system, method, program and recording medium
US20060112327A1 (en) Structured document processing apparatus and structured document processing method, and program
US20030041305A1 (en) Resilient data links
US7805424B2 (en) Querying nested documents embedded in compound XML documents
JP2002342342A (ja) 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体
JP4242701B2 (ja) 格納検索装置、格納検索プログラム、および格納検索プログラム記録媒体
JP2004303097A (ja) 構造化文書の部分文書抽出プログラムおよび部分文書抽出方法
JP2008140157A (ja) 構造化文書処理装置
JP2004348485A (ja) 構造化文書処理方法及び装置及び構造化文書処理プログラム及び構造化文書処理プログラムを格納した記憶媒体
JP2008140081A (ja) 構造化文書検索システム及びデータベース管理プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051026

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070510

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070515

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070717

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071127