JP4887726B2 - 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 - Google Patents
構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 Download PDFInfo
- Publication number
- JP4887726B2 JP4887726B2 JP2005304968A JP2005304968A JP4887726B2 JP 4887726 B2 JP4887726 B2 JP 4887726B2 JP 2005304968 A JP2005304968 A JP 2005304968A JP 2005304968 A JP2005304968 A JP 2005304968A JP 4887726 B2 JP4887726 B2 JP 4887726B2
- Authority
- JP
- Japan
- Prior art keywords
- record
- array
- elements
- csv
- contents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
(1)XMLについて
ここで、XML規格に基づき、専門用語の呼び方を定めておく。一対の”< ”と”> ”で囲まれた文字列をタグ、”< 文字列> ”を開始タグ、”</文字列> ”を終了タグ、開始タグから終了タグまでの文字列全体を要素、開始タグと終了タグで挟まれた文字列を要素内容、タグ内に記述される要素の名前を要素名( あるいはタグ名) 、要素に対する付加情報を属性と呼ぶ。
(2)XML文書を扱う標準的なAPI
代表的な構造化文書であるXML文書では、応用ソフトからXML文書を扱うために、DOM (Document Object Model)と、SAX (Simple API for XML)と呼ばれる二つの標準的なインターフェイス(API)規格が定められている。SAXは、ストリーム形式でXML文書を読み取るため、メモリ消費が小さく、一般に高速である。したがって、時系列の出力で参照するだけの簡単な処理に向いている。
(3)省リソース化のための先願技術(図17参照)
標準API (DOM)が大量に動作メモリを消費し、処理速度が遅いのは、データ処理に使わない要素も含め全要素をメモリ上に展開するからである。処理速度、メモリ量は、XML文書の要素数に比例する。本願出願人は、これらの不便さを解決するために、「XML CSV圧縮」という方法を先願(特許文献1、2、3)している。この方法は、XML文書中の要素を、ランダムアクセスが必要な要素と、一括アクセスでいい要素の2つのグループに分け、複数個の一括アクセス要素をCSV (Comma Separated Values) 形式で一つの要素にまとめる変換を施すことによって、実質的な要素数を減らし、標準APIのメモリ使用量を削減するとともに、高速化を実現するものである。
(0)CSV圧縮文書操作オブジェクトの作成:オブジェクトのコンストラクタであり、Object=new CSVCDocument として扱うデータを初期化したオブジェクトを作成する。
(1)CSV圧縮文書のロード:ファイルの読み込み処理をObject.openCSVCFile ( 入力CSV圧縮ファイル名,レコード要素名)、戻り値を”エラーのステイタス”とする。補助記憶装置105に格納されたファイルをメモリ101にロードし、CSV圧縮ファイル名とレコード要素名のデータを取得し、CSV圧縮文書ファイルのヘッダを読み取って、データをデータ用と管理用連想配列に格納する。
(2)CSV圧縮文書のクローズ:ファイルのクローズ処理をObject.closeCSVCDocument( ) 、戻り値を”エラーのステイタス”とする。
(3)XML文書のレコード数:レコード数の取得処理をObject.recordLength( )、戻り値を”オープン時に指定したレコードのレコード数”とする。
(4)レコード要素の読出し:レコード要素の読出し処理をContent = Object.getElement (レコード番号,要素名 )、戻り値を”要素内容,またはエラーのステイタス”とする。
(5)レコード要素の書込み:レコード要素の書込み処理をObject.putElement ( レコード番号,要素名,要素内容 )、戻り値を”エラーのステイタス”とする。
・結合 CSV 形式文字列 = join( 区切り文字, 配列) ;
図14は、本発明の実施の形態になる圧縮された構造化文書ファイルのレコード数読み出し処理のフローを示す。以下に、レコード数読出し処理 recordLength を示す。
(付記1) レコード形式で構成された構造化文書のデータ処理方法であって、
前記構造化文書におけるレコード内の複数の要素を、個々にアクセスすべき第一の要素と一括してアクセスすべき第二の要素とにグループ分けする要素区分けステップと、
前記第二の要素として対象となる前記レコード内の要素を区切り符号によって繋げて一つの要素に圧縮変換し、当該要素の種類を表すヘッダを付してメモリに格納する圧縮変換ステップと、
応用ソフトによって前記レコード内の複数の要素にアクセスする際に、前記ヘッダ情報を最初に読み込ませ、当該要素が前記圧縮変換ステップで圧縮変換された前記第二の要素に該当するか否かを前記ヘッダ情報から判断する要素判断ステップと、
前記レコード内の要素が前記第二の要素に該当しない場合に、当該要素内容をそのままアクセスさせ、また、前記レコード内の要素が前記第二の要素に該当する場合には、前記区切り符号で表現された要素内容を個々の要素内容に分解しメモリ上に展開した後にアクセスさせる要素アクセスステップと、
をコンピュータに実行させることを特徴とする構造化文書のデータ処理方法。
(付記2) 前記構造化文書をメモリに展開するときに、前記構造化文書ファイルをストリームデータとして読み取り、前記構造化文書の各要素を配列に割り当てて格納することを特徴とする付記1に記載の構造化文書のデータ処理方法。
(付記3) 前記構造化文書のメモリへの展開において、前記第一の要素と前記区切り符号で一括に表現された第二の要素をレコード毎に割り当てる第一の配列と、前記第二の要素の個々の要素内容を個々の要素内容に分解して割り当てる第二の配列とを有することを特徴とする付記1または2に記載の構造化文書のデータ処理方法。
(付記4) 前記第二の要素において、前記区切り符号でまとめた要素内容を個々の要素内容に分解し前記第二の配列に展開してからアクセスさせる際に、前記第二の配列が予め定めた容量を越える場合、前記第二の配列中で以前に展開した配列要素を前記区切り符号によってまとめて第一の配列に書き戻した後、書き戻した前記配列要素に個々の要素内容を展開するようにしたことを特徴とする付記1乃至3に記載の構造化文書のデータ処理方法。
(付記5) 前記メモリ上に展開した構造化文書を書き替え、レコード毎に、前記第一の要素に対するの第一の配列の内容を構造化文書として出力するとともに、前記第二の要素は、前記第二の配列に展開してなければ前記第一の配列の内容を出力し、あるいは、第二の配列要素に展開していれば個々の要素の内容を区切り符号によって一括して出力することを特徴とする付記1乃至4に記載の構造化文書のデータ処理方法。
(付記6) 前記区切り符号で一括化された要素を展開する第二の配列は、アクセス時に、カウンタによって今までに使った場所の数を計数し、最も以前に使った場所、あるいは最も使用頻度が少ない場所を空けることで、展開する数を一定数に抑えることを特徴とする付記1乃至5に記載の構造化文書のデータ処理方法。
(付記7) レコード形式で構成された構造化文書のデータ処理プログラムであって、
コンピュータに、
前記構造化文書におけるレコード内の複数の要素を、個々にアクセスすべき第一の要素と一括してアクセスすべき第二の要素とにグループ分けする要素区分けステップと、
前記第二の要素として対象となる前記レコード内の要素を区切り符号によって繋げて一つの要素に圧縮変換し、当該要素の種類を表すヘッダを付してメモリに格納する圧縮変換ステップと、
応用ソフトによって前記レコード内の複数の要素にアクセスする際に、前記ヘッダ情報を最初に読み込ませ、当該要素が前記圧縮変換ステップで圧縮変換された前記第二の要素に該当するか否かを前記ヘッダ情報から判断する要素判断ステップと、
前記レコード内の要素が前記第二の要素に該当しない場合に、当該要素内容をそのままアクセスさせ、また、前記レコード内の要素が前記第二の要素に該当する場合には、前記区切り符号で表現された要素内容を個々の要素内容に分解しメモリ上に展開した後にアクセスさせる要素アクセスステップと、
を実行させる構造化文書のデータ処理プログラム。
(付記8) レコード形式で構成された構造化文書のデータ処理装置であって、
前記構造化文書におけるレコード内の複数の要素を、個々にアクセスすべき第一の要素と一括してアクセスすべき第二の要素とにグループ分けする要素区分け手段と、
前記第二の要素として対象となる前記レコード内の要素を区切り符号によって繋げて一つの要素に圧縮変換し、当該要素の種類を表すヘッダを付してメモリに格納する圧縮変換手段と、
応用ソフトによって前記レコード内の複数の要素にアクセスする際に、前記ヘッダ情報を最初に読み込ませ、当該要素が前記圧縮変換ステップで圧縮変換された前記第二の要素に該当するか否かを前記ヘッダ情報から判断する要素判断手段と、
前記レコード内の要素が前記第二の要素に該当しない場合に、当該要素内容をそのままアクセスさせ、また、前記レコード内の要素が前記第二の要素に該当する場合には、前記区切り符号で表現された要素内容を個々の要素内容に分解しメモリ上に展開した後にアクセスさせる要素アクセス手段と、
を有することを特徴とする構造化文書のデータ処理装置。
11 要素区分手段
12 圧縮/復元変換手段
13 要素判断手段
14 要素アクセス手段
20 APIソフト( XMLパーサ)
30 アプリケーション・ソフト
40 エンドユーザ
50 アプリ開発者
100 コンピュータ
101 CPU
102 メモリ
103 入力装置
104 出力装置
105 補助記憶装置
106 媒体駆動装置
107 可搬記録媒体
108 ネットワーク接続装置
109 バス
Claims (4)
- レコード内の複数の要素が個々にアクセスすべき第一の要素と一括してアクセスすべき第二の要素とに区分けし、前記第二の要素である複数の要素を区切り符号によって繋げて一つの要素に圧縮変換するCSV化がなされ、前記第二の要素の要素名をヘッダ情報として付して記憶装置に格納した構造化文書をコンピュータが処理するデータ処理方法であって、
応用ソフトによって前記レコード内の複数の要素にアクセスする際に、前記ヘッダ情報に基づいて、前記第一の要素と前記区切り符号で一括に表現された第二の要素とをレコード毎に第一の配列として割り当て、また前記第二の要素の一括された要素内容を個々の要素内容に分解して第二の配列として割り当ててメモリに格納するステップと、
アクセス対象の要素が前記第二の要素に該当するか否かを前記第一の配列から判断する要素判断ステップと、
前記レコード内の要素が前記第二の要素に該当しない場合に、当該要素内容をそのままアクセスさせ、前記レコード内の要素が前記第二の要素に該当する場合には、前記区切り符号で表現された要素内容が個々の要素内容に分解された前記第二の配列にしたがってアクセスさせる要素アクセスステップと、
を有することを特徴とする構造化文書のデータ処理方法。 - 前記構造化文書をメモリに展開するときに、前記構造化文書をストリームデータとして読み取り、前記ヘッダ情報に基づいて、前記構造化文書の各要素及び各要素内容を前記第一の配列及び前記第二の配列に割り当てて格納することを特徴とする請求項1に記載の構造化文書のデータ処理方法。
- レコード内の複数の要素が個々にアクセスすべき第一の要素と一括してアクセスすべき第二の要素とに区分けし、前記第二の要素である複数の要素を区切り符号によって繋げて一つの要素に圧縮変換するCSV化がなされ、前記第二の要素の要素名をヘッダ情報として付して記憶装置に格納した構造化文書のデータ処理プログラムであって、
コンピュータに、
応用ソフトによって前記レコード内の複数の要素にアクセスする際に、前記ヘッダ情報に基づいて、前記第一の要素と前記区切り符号で一括に表現された第二の要素とをレコード毎に第一の配列として割り当て、また前記第二の要素の一括された要素内容を個々の要素内容に分解して第二の配列として割り当ててメモリに格納するステップと、
アクセス対象の要素が前記第二の要素に該当するか否かを前記第一の配列から判断する要素判断ステップと、
前記レコード内の要素が前記第二の要素に該当しない場合に、当該要素内容をそのままアクセスさせ、前記レコード内の要素が前記第二の要素に該当する場合には、前記区切り符号で表現された要素内容が個々の要素内容に分解された前記第二の配列にしたがってアクセスさせる要素アクセスステップと、
を実行させる構造化文書のデータ処理プログラム。 - レコード内の複数の要素が個々にアクセスすべき第一の要素と一括してアクセスすべき第二の要素とに区分けし、前記第二の要素である複数の要素を区切り符号によって繋げて一つの要素に圧縮変換するCSV化がなされ、前記第二の要素の要素名をヘッダ情報として付して記憶装置に格納した構造化文書のデータ処理装置であって、
応用ソフトによって前記レコード内の複数の要素にアクセスする際に、前記ヘッダ情報に基づいて、前記第一の要素と前記区切り符号で一括に表現された第二の要素とをレコード毎に第一の配列として割り当て、また前記第二の要素の一括された要素内容を個々の要素内容に分解して第二の配列として割り当ててメモリに格納する手段と、
アクセス対象の要素が前記第二の要素に該当するか否かを前記第一の配列から判断する要素判断手段と、
前記レコード内の要素が前記第二の要素に該当しない場合に、当該要素内容をそのままアクセスさせ、前記レコード内の要素が前記第二の要素に該当する場合には、前記区切り符号で表現された要素内容が個々の要素内容に分解された前記第二の配列にしたがってアクセスさせる要素アクセス手段と、
を有することを特徴とする構造化文書のデータ処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005304968A JP4887726B2 (ja) | 2005-10-19 | 2005-10-19 | 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005304968A JP4887726B2 (ja) | 2005-10-19 | 2005-10-19 | 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007114972A JP2007114972A (ja) | 2007-05-10 |
JP4887726B2 true JP4887726B2 (ja) | 2012-02-29 |
Family
ID=38097096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005304968A Expired - Fee Related JP4887726B2 (ja) | 2005-10-19 | 2005-10-19 | 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4887726B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016057970A (ja) * | 2014-09-11 | 2016-04-21 | 株式会社東芝 | 情報処理装置、情報処理方法及びプログラム |
JP6511598B2 (ja) * | 2016-07-22 | 2019-05-15 | 益満 大 | プログラム及び情報処理システム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004061713A1 (ja) * | 2002-12-27 | 2004-07-22 | Fujitsu Limited | 構造化文書の構造変換装置、構造変換方法、記録媒体 |
JP2005284417A (ja) * | 2004-03-26 | 2005-10-13 | Fujitsu Ltd | テーブル形式のxml文書のランダムアクセス方法、及びそのプログラム |
-
2005
- 2005-10-19 JP JP2005304968A patent/JP4887726B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007114972A (ja) | 2007-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8418053B2 (en) | Division program, combination program and information processing method | |
US9423926B2 (en) | Method for graphical representation of a content collection | |
US7246170B2 (en) | Scheme for systematically registering meta-data with respect to various types of data | |
US8631041B2 (en) | Secondary lazy-accessible serialization of electronic content | |
US7882154B2 (en) | Hierarchical inherited XML DOM | |
US20110314456A1 (en) | System and Method for Mapping Structured Document to Structured Data of Program Language and Program for Executing Its Method | |
US20060190491A1 (en) | Database access system and database access method | |
US20050132278A1 (en) | Structural conversion apparatus, structural conversion method and storage media for structured documents | |
JP4246186B2 (ja) | 構造化文書のデータ展開方法、データ処理方法及び処理システム | |
US6535970B1 (en) | Method and apparatus for enhanced performance caching for path names | |
MXPA06001214A (es) | Sistema de archivos representados dentro de una base de datos. | |
CN102047231A (zh) | 数据存储和访问 | |
MXPA03010779A (es) | METODO Y MEDIO LEGIBLE POR CAMPUTADORA PARA IMPORTAR Y EXPORTAR DATOS JERáRQUICAMENTE ESTRUCTURADOS. | |
US20030067493A1 (en) | Method, apparatus and computer program product for eliminating unnecessary dialog box pop-ups | |
EP1091295B1 (en) | Data management system using a plurality of data operation modules | |
JP2002278812A (ja) | ディジタル・ライブラリ用コード生成システム | |
US6519598B1 (en) | Active memory and memory control method, and heterogeneous data integration use system using the memory and method | |
US7451390B2 (en) | Structured document processing system, method, program and recording medium | |
JP4887726B2 (ja) | 構造化文書のデータ処理方法、データ処理プログラム、およびデータ処理装置 | |
CN101388018A (zh) | 电脑辅助设计文件的管理方法 | |
US7386570B2 (en) | Method, system and program product for providing high performance data lookup | |
KR100775852B1 (ko) | 응용 프로그램의 자원 검색 시스템 및 방법 | |
CN101136034A (zh) | 快速链接的管理装置和方法 | |
US7107336B2 (en) | Method and apparatus for enhanced server page execution | |
CN116304463A (zh) | 一种前端开发中的网页文案管理方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080324 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100706 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110208 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110408 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20111115 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20111128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4887726 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20141222 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |