JP4273960B2 - 構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム - Google Patents
構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム Download PDFInfo
- Publication number
- JP4273960B2 JP4273960B2 JP2003430005A JP2003430005A JP4273960B2 JP 4273960 B2 JP4273960 B2 JP 4273960B2 JP 2003430005 A JP2003430005 A JP 2003430005A JP 2003430005 A JP2003430005 A JP 2003430005A JP 4273960 B2 JP4273960 B2 JP 4273960B2
- Authority
- JP
- Japan
- Prior art keywords
- subtree
- node
- structured document
- information
- reading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Marc Girardot、外1名、"Millau: an encoding format for efficient representation and exchange of XML over the Web"、Computer Networks: The International Journal of Computer and Telecommunications Networking、Netherlands、North-Holland Publishing Co.、June 2000、Volume33,Issue1-6、p.747-p.765、
これにより、この符号化データを用いて構造化文書の内容を出力する処理では、部分木の指定がされた場合には、当該部分木に含まれるノードの内容を、木構造全体を走査することなく出力することが出来る。従って、構造化文書の内容の出力の時間が早くなり、また処理数が少なくなる。
これにより、この符号化データを用いて構造化文書の内容を出力する処理において、ヘッダ部を読み込んでおけば、部分木の識別情報を指定されれば、それに対応する部分木読取位置情報に基づいて、符号化データから部分木内容情報を即時に読み込むことが出来る。
本発明によれば、ヘッダ部読取手段が、予め符号化データからヘッダ部を読み取り、部分木指定受付手段が部分木の指定を受け付け、部分木読取位置取得手段が指定を受け付けた部分木の識別情報に対応付けられてヘッダ部に保持されている部分木読取位置情報を取得する。そして、部分木内容情報読取手段が読み取った部分木読取位置情報に基づいて、部分木情報格納部に保持される部分木内容情報を読み取る。これにより、部分木内容情報を木構造における全てのノードを確認しなくても読み取ることが出来るので、処理の軽減や構造化文書の内容の出力を速くすることができる。
図1は同実施形態の構造化文書処理装置の構成を示す図である。この図において、符号1は構造化文書処理装置である。そしてこの構造化文書符号化装置1において、符号11はXMLやHTMLなどで記述された構造化文書が符号化された符号化データを記憶する符号化データ記憶部である。また12は構造化文書の出力の指示を受け付ける指示受付部(部分木指定受付手段)である。また13は符号化データ記憶部11に記録されている符号化データに基づいて、構造化文書の内容を出力する構造化文書出力処理部(ヘッダ部読取手段、部分木読取位置取得手段、部分木内容情報読取手段)である。また14はXMLやHTMLなどで記述された構造化文書が記録された構造化文書記憶部、また15は構造化文書を符号化して符号化データを生成する構造化文書符号化データ生成部である。
この図が示すように、構造化文書符号化データ生成部15は、構造化文書記憶部14から構造化文書を読み取り、所定の部分木ごとに分解する(1)。ここで所定の部分木は、例えば構造化文書がテキストなどの文書の情報であれば、章や節などに対応する構造文書中のノードの集合を表す部分木である。そして構造化文書符号化データ生成部15は、各所定の部分木の情報を、部分木内の各ノードの構成する木構造を示す部分木構造情報と、当該部分木内の各ノードの内容を示すノード内容情報とに分解して(2)、それら部分木構造情報とノード内容情報とからなる部分木内容情報を部分木ごとに順に保持する部分木情報格納部と、ヘッダ部とを保持する符号化データを生成する。
この図が示すように、構造化文書符号化データ生成部15の生成した符号化データは、ヘッダ部と、構造化文書の所定の部分木ごとの部分木構造情報とノード内容情報とからなる部分木内容情報を、部分木ごとに保持する部分木情報格納部を保持している。
この図が示すように符号化データに含まれるヘッダ部は、ファイル名やファイルサイズや作成日時の情報のほかに、部分木番号(部分木の識別情報)と、当該部分木番号に対応する部分木に関する部分木構造情報およびノード内容情報が格納されたデータ領域の先頭アドレス(部分木読取位置)と、を対応付けて保持している。
この図が示すように、部分木構造情報は、1つの部分木に含まれる各ノードごとに、少なくとも、属する部分木の番号が記録される領域と、ノードの内容の先頭アドレス(ノード内容読取位置情報)が記録される領域と、ノード位置情報が記録される領域とで構成されている。そして、ノードが属する部分木の番号とそのノードの内容情報が格納されたデータ領域の先頭アドレスとが組み合わされた番号がノードIDとなる。ここで、ノード位置情報は、親ノード(Parent)のノードIDや、子ノードのノードIDや、兄弟ノードのノードIDを保持している。なお、子ノードのノードIDには第1子ノード(First Chile)のノードIDが記録される。また兄弟ノードのノードIDには、次の兄弟ノード(Next Sibling)のノードIDが記録される。
この図が示すようにノード内容情報は、部分木に含まれる各ノードごとに、ノードに含まれる要素名や要素内容や属性名や属性値などの内容の情報が格納される。
まず、指示受付部12が構造化文書の内容の出力指示を受け付けると、指示受付部12は構造化文書出力処理部13に構造化文書の内容を出力する指示を行なう(ステップS1)。この時、指定受付部12は例えば、部分木の番号とノードIDとを受け付け、当該部分木番号とノードIDとを構造化文書出力処理部13に通知する。すると、構造化文書出力処理部13は、符号化データ記憶部11に記録されている符号化データからヘッダ部の情報を読み込む(ステップS2)。
Claims (3)
- 構造化文書で表される木構造の所定の部分木ごとに、当該部分木に含まれる各ノードそれぞれについての親ノード、子ノード、兄弟ノードからなる部分木内のノード位置を示す部分木構造情報と部分木に含まれる各ノードのノード内容とを保持する部分木内容情報を、前記所定の部分木数分格納した部分木情報格納部と、
前記所定の部分木ごとに、部分木の識別情報と前記部分木内容情報の読み取り位置を示す部分木読取位置情報とを対応付けて保持するヘッダ部と、
を有する符号化データを用いて前記構造化文書の出力処理を行なう構造化文書処理装置であって、
予め前記符号化データから前記ヘッダ部を読み取るヘッダ部読取手段と、
前記部分木の指定を受け付ける部分木指定受付手段と、
前記指定を受け付けた部分木の識別情報に対応付けられて前記ヘッダ部に保持されている部分木読取位置情報を取得する部分木読取位置取得手段と、
当該読み取った部分木読取位置情報に基づいて、前記部分木情報格納部に保持される部分木内容情報を読み取る部分木内容情報読取手段と、
前記読み取った部分木内容情報に保持されるノード内容を、当該読み取った部分木内容情報で示される部分木に含まれる各ノードの前記親ノード、子ノード、兄弟ノードからなる部分木内のノード位置に基づいて表示出力する表示出力手段と、
を備えることを特徴とする構造化文書処理装置。 - 構造化文書で表される木構造の所定の部分木ごとに、当該部分木に含まれる各ノードそれぞれについての親ノード、子ノード、兄弟ノードからなる部分木内のノード位置を示す部分木構造情報と部分木に含まれる各ノードのノード内容とを保持する部分木内容情報を、前記所定の部分木数分格納した部分木情報格納部と、
前記所定の部分木ごとに、部分木の識別情報と前記部分木内容情報の読み取り位置を示す部分木読取位置情報とを対応付けて保持するヘッダ部と、
を有する符号化データを用いて前記構造化文書の出力処理を行なう構造化文書処理装置の構造化文書処理方法であって、
前記構造化文書処理装置のヘッダ部読取手段が、予め前記符号化データから前記ヘッダ部を読み取り、
前記構造化文書処理装置の部分木指定受付手段が、前記部分木の指定を受け付け、
前記構造化文書処理装置の部分木読取位置取得手段が、前記指定を受け付けた部分木の識別情報に対応付けられて前記ヘッダ部に保持されている部分木読取位置情報を取得し、
前記構造化文書処理装置の部分木内容情報読取手段が、当該読み取った部分木読取位置情報に基づいて、前記部分木情報格納部に保持される部分木内容情報を読み取り、
前記構造化文書処理装置の表示出力手段が、前記読み取った部分木内容情報に保持されるノード内容を、当該読み取った部分木内容情報で示される部分木に含まれる各ノードの前記親ノード、子ノード、兄弟ノードからなる部分木内のノード位置に基づいて表示出力する
ことを特徴とする構造化文書処理方法。 - 構造化文書で表される木構造の所定の部分木ごとに、当該部分木に含まれる各ノードそれぞれについての親ノード、子ノード、兄弟ノードからなる部分木内のノード位置を示す部分木構造情報と部分木に含まれる各ノードのノード内容とを保持する部分木内容情報を、前記所定の部分木数分格納した部分木情報格納部と、
前記所定の部分木ごとに、部分木の識別情報と前記部分木内容情報の読み取り位置を示す部分木読取位置情報とを対応付けて保持するヘッダ部と、
を有する符号化データを用いて前記構造化文書の出力処理を行なう構造化文書処理装置のコンピュータを、
予め前記符号化データから前記ヘッダ部を読み取るヘッダ部読取手段、
前記部分木の指定を受け付ける部分木指定受付手段、
前記指定を受け付けた部分木の識別情報に対応付けられて前記ヘッダ部に保持されている部分木読取位置情報を取得する部分木読取位置取得手段、
当該読み取った部分木読取位置情報に基づいて、前記部分木情報格納部に保持される部分木内容情報を読み取る部分木内容情報読取手段、
前記読み取った部分木内容情報に保持されるノード内容を、当該読み取った部分木内容情報で示される部分木に含まれる各ノードの前記親ノード、子ノード、兄弟ノードからなる部分木内のノード位置に基づいて表示出力する表示出力手段、
として機能させることを特徴とするプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430005A JP4273960B2 (ja) | 2003-12-25 | 2003-12-25 | 構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003430005A JP4273960B2 (ja) | 2003-12-25 | 2003-12-25 | 構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005190121A JP2005190121A (ja) | 2005-07-14 |
JP4273960B2 true JP4273960B2 (ja) | 2009-06-03 |
Family
ID=34788503
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003430005A Expired - Fee Related JP4273960B2 (ja) | 2003-12-25 | 2003-12-25 | 構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4273960B2 (ja) |
-
2003
- 2003-12-25 JP JP2003430005A patent/JP4273960B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005190121A (ja) | 2005-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005141650A (ja) | 構造化文書符号化装置及び構造化文書符号化方法ならびにそのプログラム | |
US7350199B2 (en) | Converting XML code to binary format | |
US7013425B2 (en) | Data processing method, and encoder, decoder and XML parser for encoding and decoding an XML document | |
JP3973557B2 (ja) | 構造化された文書を圧縮/伸長する方法 | |
JP4443130B2 (ja) | デジタル画像復号システムおよび方法 | |
US7349959B2 (en) | Method for creating and processing a soap message, and method, apparatus and program for processing information | |
US20090138529A1 (en) | Method and device for coding and decoding information | |
US8849726B2 (en) | Information processing apparatus and control method for the same | |
JP2009501991A (ja) | 構造化文書を圧縮および解凍するための方法および装置 | |
US6850948B1 (en) | Method and apparatus for compressing textual documents | |
JP2004536481A (ja) | 構造化文書の木構造におけるパスの符号化および復号化方法 | |
JP4273960B2 (ja) | 構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム | |
JP2009059215A (ja) | 構造化文書処理装置、構造化文書処理方法 | |
US20050228811A1 (en) | Method of and system for compressing and decompressing hierarchical data structures | |
JP2006100973A (ja) | データ圧縮装置、及びデータ伸長装置 | |
JP4821287B2 (ja) | 構造化文書の符号化方法、符号化装置、符号化プログラム、復号装置及び符号化された構造化文書のデータ構造 | |
JP2004519771A (ja) | スキーマ、構文解析方法及びスキーマに基づいてビットストリームを発生する方法 | |
JP2004234405A (ja) | プロトコル符号化/復号化装置 | |
JP5536066B2 (ja) | 要素の符号化方法と装置 | |
JP4360428B2 (ja) | 記録装置、記録方法、コンピュータプログラムおよび記録媒体 | |
JP2005202842A (ja) | 構造化文書処理装置及び構造化文書処理方法ならびにそのプログラム | |
JP4165482B2 (ja) | 画像表示プログラムおよび画像表示装置 | |
EP2068252A2 (en) | Method and apparatus for encoding and decoding XML document using path code | |
KR100660057B1 (ko) | 패스트 인포셋을 이용한 이진 엑스엠엘 저장 방법 및 복원방법 | |
JP2007058645A (ja) | Xmlデータ圧縮装置、xmlデータ圧縮方法及びxmlデータ圧縮プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20061222 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061222 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20061222 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20081010 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081111 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090107 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090210 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090223 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120313 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120313 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130313 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140313 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |