JP2002297568A

JP2002297568A - 構造化文書符号化装置及び記録媒体

Info

Publication number: JP2002297568A
Application number: JP2001094920A
Authority: JP
Inventors: Hironori Yahagi; 裕紀矢作; Shigeru Yoshida; 茂吉田
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2001-03-29
Filing date: 2001-03-29
Publication date: 2002-10-11

Abstract

(57)【要約】【課題】本発明は構造化文書符号化装置に関し、動作メ
モリ量の削減、処理速度の向上の双方を実現するため、
要素内容や属性名に対して有効な圧縮が得られるように
する。【解決手段】構造化文書において、属性名、かつ／また
は、要素内容の文字列を、該当する要素名に関係付け
て、より短い文字コードの文字列として符号化する装置
であって、属性名、かつ／または、要素内容の文字列を
該当する要素名毎に対応表を作成し、該対応表を用いて
符号化し、該符号化を適用すると同時に、要素名だけを
集めて集計し、要素名もより短い文字コードの文字列と
して符号化する手段（対応表作成手段１０６、及び変換
手段１０８を含む手段）を備えた。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ＸＭＬ文書のよう
な構造化文書を符号化する構造化文書符号化装置及び記
録媒体に関する。

【０００２】

【従来の技術】以下、従来例について説明する。

【０００３】(1) ：構造化文書の代表例構造化文書の代表例として、大規模保存データベース向
けのＳＧＭＬ（Standard General Markup Language）、
ＷＷＷ向けに簡便な構成を持つＨＴＭＬ（Hyper Text M
arkup Language）、ＳＧＭＬをインターネット向けに簡
略化したＸＭＬ（eXtensible Markup Language）等があ
る。

【０００４】ＨＴＭＬはＷＷＷのコンテンツ形式として
世界的に普及している。ＸＭＬはＨＴＭＬを補うものと
して、最近、特に注目を浴びている。即ち、インターネ
ット上で文書だけでなく、携帯電話、カーナビゲーショ
ン等あらゆる情報機器が交信するための媒介となりつつ
ある。

【０００５】(2) ：ＸＭＬ文書の概要図１１に示したように、ＸＭＬ文書は大きく分けて次の
３つの部分からなる。

【０００６】ＸＭＬ宣言文書型定義（Document Type Definition,DTD）ＸＭＬ実現値また、処理上の観点から以下の２つに分けられる。

【０００７】ａ：整形式（well-formed ）ｂ：検証済み（valid ）前記の各構成と処理上の区分との関係、並びにＳＧＭ
Ｌ、ＨＴＭＬとの関係は図１２のＢ図に示されている。
また、ＸＭＬ文書を解析して、ブラウザなどの他の応用
ソフトに渡す媒介となる役割を果たすソフトは、図１２
のＡ図に示すように、ＸＭＬプロセッサ、或いはＸＭＬ
パーサー（構文解析ソフト）と呼ばれている。

【０００８】(3) ：ＳＡＸとＤＯＭ図１３に示すように、Ｊａｖａ言語でＸＭＬ文書を操作
するための標準ＡＰＩ（Application Programming Inte
rface ）には、ＳＡＸ（Simple API for XML）とＤＯＭ
（Document Object Model ）の２種類がある。

【０００９】ＳＡＸは、ＸＭＬ文書を読みながら、文書
や要素の開始や終了、文字列の出現といった事象（even
t ）を応用ソフトに通知する事象駆動型のＡＰＩであ
る。これに対して、ＤＯＭは、汎用的なＸＭＬ操作ＡＰ
Ｉで、ＸＭＬ文書をＤＯＭオブジェクトとしてメモリ上
に展開する。この場合、ＤＯＭオブジェクトの木構造と
してメモリ上に展開する。

【００１０】応用ソフトにはこのＤＯＭオブジェクトに
対する操作を行うことで、ＸＭＬ文書へアクセスを行う
ことができる。また、ＤＯＭオブジェクトからＸＭＬ文
書を生成することもできる。ＸＭＬ文書とＤＯＭ木構造
との関係を、図１３のＢ図及び図１４に示す。

【００１１】図１４において、図の矢印「→」は、各節
点を呼び出すための「method」（関数）を意味する。
「document」は、ＸＭＬ文書の全体を表現するインタフ
ェースである。「NodeList」は、或る節点に属する下位
の要素や文字データをＸＭＬ文書内での出現順に管理す
るために使用される。「Element 」や「Text」等のイン
スタンスを節点に持つ。「NamedNodeMap」は、並び順に
意味はないが、名前をキーにして値を参照する必要があ
る節点を集めたものであり、属性等が記述される。

【００１２】(4) ：先の出願の説明（図１５参照）先の出願は、平成１１年６月２１日付けで出願した平成
１１年特許願第１７３４６８号、及び平成１２年３月３
１日付けで出願した平成１２年特許願第９８０４３号で
あり、以下、図１５を参照しながら前記先の発明の概要
を従来例として説明する。

【００１３】この発明は２パス方式を採る。図１５の
(a) に示した第１パスでは、要素集計手段１０１は、Ｘ
ＭＬ文書（サンプル）１００を走査し、要素名、属性名
を検出して集計し、要素名−頻度表１０２を作成する。
そして、集計した結果（要素名−頻度表１０２）から、
頻度に応じた符号を算出し、対応表１０３を作成し、出
力する。

【００１４】図１５の (b)に示した第２パスでは、変換
手段１０４は、ＸＭＬ文書（サンプル）１００を走査
し、要素名、属性名を検出して、第１パスで求めた対応
表１０３から対応する符号を検索する。そして、要素
名、属性名も検索した符号の文字列に置換する。それに
より「変換ＸＭＬ文書」１０５が生成される。

【００１５】

【発明が解決しようとする課題】前記のような従来のＤ
ＯＭを用いたタグ検索方式には次のような課題がある。

【００１６】(1) ：ＤＯＭの木構造が大きい場合、木構
造を辿って検索キーと同じ文字列を各要素内容から検出
するのに時間がかかる。

【００１７】(2) ：ＤＯＭでは、各項目に長い文字列が
出現することを予期して、長い固定長メモリ領域を確保
して、データを書き込むので、大きい動作メモリ量が必
要となる。

【００１８】(3) ：先の出願（特願平１２−９８０４３
号）では、要素名を短い文字列に置換する方法が開示し
た。しかし、要素内容の種類が膨大である時、要素内容
全体に対しての静的な対応表を用意しただけでは、有効
な圧縮ができない。

【００１９】本発明は、このような従来の課題を解決
し、動作メモリ量の削減、処理速度の向上の双方を実現
するため、要素内容や属性名に対して有効な圧縮が得ら
れるようにすることを目的とする。

【００２０】

【課題を解決するための手段】本発明は前記の目的を達
成するため、次のように構成した。

【００２１】(1) ：構造化文書において、属性名、かつ
／または、要素内容の文字列を、該当する要素名に関係
付けて、より短い文字コードの文字列として符号化する
構造化文書符号化装置であって、前記属性名、かつ／ま
たは、要素内容の文字列を、該当する要素名毎に対応表
を作成し、該対応表を用いて符号化する第１の処理手段
（対応表作成手段、及び変換手段）と、前記第１の処理
手段による符号化を適用すると同時に、要素名だけを集
めて集計し、要素名にも、より短い文字コードの文字列
として符号化する第２の処理手段を備えていることを特
徴とする構造化文書符号化装置。

【００２２】(2) ：前記(1) の構造化文書符号化装置に
おいて、所定の高頻度の文字列についてのみ前記対応表
を作成し、元の構造化文書中で、識別文字を付して高頻
度文字列の符号を識別するようにし、高頻度文字列のみ
符号化する第３の処理手段を備えていることを特徴とす
る。

【００２３】(3) ：前記(1) の構造化文書符号化装置に
おいて、前記要素内容は符号化しない旨の識別符号の文
字を、前記要素名に付加して要素内容の符号化／非符号
化を区別し識別する第４の処理手段を備えていることを
特徴とする。

【００２４】(4) ：前記(2) の構造化文書符号化装置に
おいて、前記識別文字と同じ要素名、或いは属性名の先
頭に含まれることがある場合は、同構造化文書における
全ての要素名、或いは属性名を前記識別文字で始まる符
号に置き換える第５の処理手段を備えていることを特徴
とする。

【００２５】（作用） (a) ：前記(1) では、該当する要素名に、属性名、かつ
／または、要素内容文字列の対応表を作成し、該対応表
を用いて符号化するので、対象となる文字列の種類が限
られ、より短い符号で表現できる。また、要素名を一体
一で短い符号に置き換えるので、既存の応用ソフトに対
して変更を要求することなく処理が可能となり、透過性
を維持できる。

【００２６】(b) ：前記(2) では、高頻度の部分文字列
を短い符号に置き換えるので、文書全体の圧縮率を向上
させることができる。

【００２７】(c) ：前記(3) では、数値データのように
圧縮しにくく、また、符号でなく直接数値で参照した方
がよいデータは、予め圧縮しない指定を設けるので、検
索速度を向上することができる。

【００２８】(d) ：前記(4) では、識別文字と同じ要素
名、或いは属性名の先頭に含まれることがある場合は、
同構造化文書における全ての要素名、或いは属性名を識
別文字で始まる符号に置き換えるので、要素名、属性名
に予め識別文字と同じ文字が含まれていた場合でも、混
乱を防止することができる。

【００２９】

【発明の実施の形態】以下、本発明の実施の形態を、図
面に基づいて詳細に説明する。なお、以下に説明する例
は、前記構造化文書符号化装置をＸＭＬ文書符号化装置
に適用した例である。

【００３０】§１：ＸＭＬ文書符号化装置の説明本実施の形態では、ＸＭＬ文書符号化装置の処理によ
り、属性名、要素内容等の有効な圧縮効果が得られるよ
うにする。全体の概略（原理説明図）を図１に示す。図
１の(1) 図に示す対応表作成手段１０６は、ＸＭＬ文書
（サンプル）１００を入力し、要素名の集計を行う。一
方、要素毎に属性名、要素内容を集計し（頻度表１０２
を作成）、要素名に属性名、要素内容を関係付けた対応
表１０７を作成し、出力する。

【００３１】次に、図１の(2) 図に示す変換手段１０８
では、変換対象のＸＭＬ文書（サンプル）１００を入力
し、前記求めた対応表１０７を用いて変換（符号化）
し、変換ＸＭＬ文書（符号化されたＸＭＬ文書）１０５
を出力する。このＸＭＬ文書符号化装置の機能は次の通
りである。

【００３２】(1) ：ＸＭＬ文書符号化装置は、ＸＭＬ文
書において、属性名、かつ／または、要素内容の文字列
を、該当する要素名に関係付けて、より短い文字コード
の文字列として符号化する。具体的には、前記属性名、
かつ／または、要素内容の文字列を、該当する要素名毎
に対応表を作成し、該対応表を用いて符号化する。ま
た、前記符号化を適用すると同時に、要素名だけを集計
し、要素名も、より短い文字コードの文字列として符号
化する機能を備えている。

【００３３】このような機能により、該当する要素名
に、属性名、かつ／または、要素内容文字列の対応表を
作成するので、対象となる文字列の種類が限られ、より
短い符号で表現できる。また、要素名も一体一で短い符
号に置き換えるので、既存の応用ソフトに対して変更を
要求することなく処理が可能となり、透過性を維持でき
る。

【００３４】(2) ：ＸＭＬ文書符号化装置は、所定の高
頻度の文字列についてのみ前記対応表を作成し、元の構
造化文書中で、識別文字を付して高頻度文字列の符号を
識別するようにし、高頻度文字列のみ符号化する機能を
備えている。このような機能により、高頻度の部分文字
列を短い符号に置き換えるので、文書全体の圧縮率を向
上させることができる。

【００３５】(3) ：ＸＭＬ文書符号化装置は、要素内容
は符号化しない旨の識別符号の文字を、前記要素名に付
加して要素内容の符号化／非符号化を区別し識別する機
能を備えている。このような機能により、数値データの
ように圧縮しにくく、また、符号でなく直接数値で参照
した方がよいデータは、予め圧縮しない指定を設けるの
で、検索速度を向上することができる。

【００３６】(4) ：ＸＭＬ文書符号化装置は、識別文字
と同じ要素名、或いは属性名の先頭に含まれることがあ
る場合は、同構造化文書における全ての要素名、或いは
属性名を前記識別文字で始まる符号に置き換える機能を
備えている。このような機能により、要素名、属性名に
予め識別文字と同じ文字が含まれていた場合でも、混乱
を防止することができる。

【００３７】(5) ：ＸＭＬ文書符号化装置は、符号化し
た要素名に通し番号を付け、該通し番号で、属性名、か
つ／または、要素内容の文字列を符号化する該対応表を
選択する機能を備えている。このような機能により、各
要素名に通し番号を付けることができるので、同番号
が、対応表を参照する際の識別手段となり得る。

【００３８】(6) ：ＸＭＬ文書符号化装置は、識別文字
と同じ文字が、予め、要素内容の先頭にある場合は、同
文字を他の表現に置き換える機能を備えている。このよ
うな機能により、識別文字と同じ文字を他の表現に置き
換えることができるので、混乱を防止することができ
る。

【００３９】(7) ：ＸＭＬ文書符号化装置は、要素内容
の長さが所定の閾値を超えた場合は、同要素内容を符号
化の対象から外す機能を備えている。このような機能に
より、長さが長く、繰り返しも殆どないような文字列を
圧縮の対象から外すことができ、処理速度の低下を防げ
る。

【００４０】(8) ：ＸＭＬ文書符号化装置は、ＸＭＬ文
書の中で、外部の文書型定義ファイルを参照する指定が
ある場合には、属性名、要素内容等の置き換え処理で生
成された圧縮構造化文書を一度、構文解析ソフトに適用
して、同文書の構造が該文書型定義に合致することを検
証した上で、該文書型定義の指定を該圧縮文書から外す
機能を備えている。このような機能により、外部参照を
外すことができるので、ディスクのアクセス時間やネッ
トワークのトラフィックを節減することができる。

【００４１】(9) ：ＸＭＬ文書符号化装置は、構造化文
書の終了タグと開始タグとに挟まれた空白記号（ＣＲ、
ＬＦ、ＳＰ、ＴＡＢ等）を除去する機能を備えている。
このような機能により、空白記号（ＣＲ、ＬＦ、ＳＰ、
ＴＡＢ等）を除去することができるので、ＤＯＭの木構
造から空白記号に該当する節点を省くことで、木構造の
探索時間やメモリ容量を節減できる。なお、前記ＸＭ
Ｌ文書符号化装置は、パーソナルコンピュータ、ワーク
ステーション等の任意のコンピュータにより実現される
装置であり、前記機能を実現するための手段（対応表作
成手段１０６、変換手段１０８等）は、それぞれ前記コ
ンピュータのＣＰＵが、記録媒体（ハードディスク、リ
ムーバブルディスク、フレキシブルディスク等）に格納
されているプログラムを読み出して実行することにより
実現するものである。

【００４２】§２：ＸＭＬ文書符号化装置の具体的な説
明以下、ＸＭＬ文書符号化装置について具体的に説明す
る。

【００４３】(a) ：要素毎の対応表１０７の作成要素毎の対応表１０７は、図２に示すように、要素内
容、又は属性名の頻度と割り当てた圧縮符号とを併記す
る。例えば、図２の(1) 図に示すＸＭＬデータが入力し
た場合、図２の(2) 図に示す(a) の「要素内容による集
計、符号化」のように、要素「姓」の要素内容が「三
浦」であれば、要素内容の頻度は「３０」であり、圧縮
符号は「．ａ」とする。また、要素「姓」の要素内容が
「岸」であれば、要素内容の頻度は「２５」であり、圧
縮符号は「．ｂ」とする。また、要素「姓」の要素内容
が「高橋」であれば、要素内容の頻度は「１０」であ
り、圧縮符号は「．ｃ」とする。

【００４４】更に、図２の(2) 図に示す (b)の「属性名
による集計、符号化」のように、要素「姓」の属性名が
「旧姓」であれば、属性名の頻度は「１０００」であ
り、圧縮符号は「．ａ」とする。また、要素「姓」の属
性名が「画数」であれば、属性名の頻度は「１０００」
であり、圧縮符号は「．ｂ」とする。

【００４５】(b) ：高頻度文字列の符号化高頻度文字列の符号化は、図３に示すように、要素内容
の文字列、並びにその部分文字列の頻度を集計し、所定
の閾値以上の文字列、部分文字列のみ残す。また、圧縮
符号の開始、並びに同符号の長さの違いを示す識別記号
を用いる。

【００４６】例えば、図３において、(1) 図には、要素
「住所」の要素内容を集計した例が示してあり、(2) 図
では、部分文字列「神奈川県厚木市」までの出現頻度が
所定の閾値（１００）以上であると確認しており、(3)
図では、「神奈川県厚木市」だけ「Ａ」と符号化して
おり、(4) 図では、識別文字（１バイト）の利用が示さ
れている。

【００４７】(c) ：各対応表の番号付け各対応表の番号付けは、図４に示すように、要素名の符
号に付けた通し番号を元に、要素毎の対応表を参照す
る。例えば、図４において、(1) 図には、要素名の符号
化並びに番号付けの例で示してある。この例では、要素
名が「姓」で、要素名の頻度が「１０００」で、圧縮符
号が「ａ」の場合、通し番号（図の「番号」に対応）
が「０」となっている。

【００４８】また、要素名が「名」で、要素名の頻度が
「１０００」で、圧縮符号が「ｂ」の場合、通し番号
が「１」、要素名が「住所」で、要素名の頻度が「１０
００」で、圧縮符号が「ｃ」の場合、通し番号が
「２」、要素名が「生年月日」で、要素名の頻度が「１
０００」で、圧縮符号が「ｄ」の場合、通し番号が
「３」、要素名が「前の住所」で、要素名の頻度が「１
２０」で、圧縮符号が「ｅ」の場合、通し番号が
「４」、要素名が「出生地」で、要素名の頻度が「６
０」で、圧縮符号が「ｆ」の場合、通し番号が「５」
となっている。

【００４９】(2) 図には、各対応表の番号の付け方が示
してあり、この例では、「０」が要素内容を識別する接
尾語、「１」が属性名を識別する接尾語とする。そし
て、各対応表の番号＝（要素名の番号）＋（要素内容／
属性名を識別する接尾語）で表す。このようにして、
(3) 図には、番号で参照できる各対応表（００、０１、
１０、１１）が示してある。

【００５０】(d) ：符号化しない要素内容の告知符号化しない要素内容の告知は、図５のＡ図のように、
一連の要素名の中で、その要素内容を符号化すべきでな
いものを指示する。この例では、図５のＡ図に示したよ
うに、「要素内容の符号化？」の欄に記された
「“Ｎ”」は、符号化を適用しない旨の指示である。す
なわち、要素名が「生年月日」で、要素名の頻度が「１
０００」で、圧縮符号が「ｄ」で通し番号が「３」
は、符号化を適用しないことを示している。

【００５１】(e) ：要素内容で識別記号と同じ文字を回
避要素内容で識別記号と同じ文字を回避する場合、図５の
Ｂ図に示すように、識別記号と同じ先頭の文字を持つ要
素内容に対処する。

【００５２】図５のＢ図には、要素内容で識別符号と同
じ文字を避ける手段が示されている。例えば、図５のＢ
図の(1) には、識別符号と同じ文字が要素内容の先頭に
含まれる場合が示されている。また、図５のＢ図の(2)
には、実体参照による置換え処置が示され、図５のＢ図
の(3) には、文字参照による置換え処置が示されてい
る。

【００５３】(f) ：要素名、属性名で識別記号と同じ文
字を回避要素名、属性名で識別記号と同じ文字を回避する場合、
図６のＡ図のように、識別記号と同じ先頭の文字を持つ
要素名、属性名に対処する。

【００５４】(g) ：長い要素内容の非符号化長い要素内容の非符号化は、図６のＢ図のように、閾値
を超える長さの要素内容に対処する。すなわち、要素内
容の文字数を数え、所定の閾値（例えば、２０文字）を
超える場合は、その要素内容における符号化を中止す
る。

【００５５】(h) ：空白記号の除去空白記号の除去は、図６のＣ図のように、空白記号（Ｃ
Ｒ、ＬＦ、ＳＰ、ＴＡＢ等）を除去する。すなわち、タ
グ間の空白記号を除去してＤＯＭ木から余分な登録を除
く。

【００５６】(i) ：ＤＴＤ外部サブセットの廃止ＤＴＤ外部サブセットの廃止は、図７に示すように、外
部の資源（外部の文書型定義、或いはＥＮＴＲＹ、ＥＮ
ＴＩＴＩＥＳ属性による外部の非解析対象実態）の利用
を制限する。

【００５７】図７において、Ａは、例えば、インターネ
ット上の情報処理装置のハードディスク装置が保持する
ＸＭＬ文書例、Ｂは前記ＸＭＬ文書を変換した後の文書
例、ＣはＢ図の文書をパーサー（構文解析ソフト）に適
用し、結果のデータＤを得ることを示している。また、
Ｅは文書型定義であり、これを変換し、Ｆのデータ（変
換後の文書型定義）を得ることを示している。

【００５８】前記Ｅに示すデータは、インターネット上
の別の装置（ＡのＸＭＬ文書を保持する装置とは別の装
置）のハードディスク装置が保持するデータである。ま
た、要素型宣言、属性リスト宣言のみからなるＤＴＤ外
部サブセット（Ｅ、Ｆのデータを言う）は、一旦、パー
サーによる検証が済んだ後は使用しない。これは、ディ
スク上のアクセス軽減、ネットワーク上のトラフィック
軽減のためである。

【００５９】すなわち、この処理は、Ｅに示すデータを
参照してＡに示すデータを変換し、Ｂのデータを得る。
そして、Ｂに示すデータは、パーサに適用し、Ｆのデー
タを参照してＤのデータを得る。

【００６０】§３：動作の説明 (1) ：ＸＭＬ文書符号化装置の対応表作成手段１０６に
より前記(a) の「要素毎の対応表１０７」を作成する場
合、ＸＭＬ文書（サンプル）１００を入力し、属性名、
或いは要素内容の出現頻度をそれぞれ集計し、符号を算
出（対応表を参照してもよい）し、登録する。この場
合、図２のように、要素毎に集計したため、要素内容に
偏りが生じる。

【００６１】すなわち、要素名に応じて出現する要素内
容が限定されるため、より短い符号で互いに区別でき
る。従って、符号化効率が上がり、圧縮率が改善され
る。

【００６２】(2) ：前記(b) の「高頻度文字列の符号
化」では、頻度の閾値を、例えば、１００とする。図３
の例では、閾値に満たない例が２つあるが、途中までの
部分文字列である「神奈川県厚木市」までを取って集計
すれば、閾値を上回ることが分かる。このように高い頻
度の文字列や部分文字列を要素毎に集計、抽出する。

【００６３】符号の割り当ては次のようになる。第１文
字列は符号の開始を示す識別文字である。識別文字とし
て、「」、「：」（各１バイト）を採用する。理由
は、要素名、属性名も同様な方法で符号化したいのだ
が、ＸＭＬ文書で名前の先頭として許される文字は、ア
ルファベット、漢字、仮名等の通常の文字以外は、前記
の２文字しかないためである。

【００６４】ここで、「」の後は１文字までが圧縮符
号とする。ＡＳＣＩＩ符号までならば１バイト、ＳＪＩ
Ｓ、ＥＵＣ符号ならば２バイト、そして、ＵＴＦ−８符
号ならば、２〜３バイトである。一方、「：」が符号の
先頭に来た場合は、その次にＡＳＣＩＩ符号以外の２文
字が続く。一方、これにより、低頻度の要素内容は元デ
ータのままとする。

【００６５】(3) ：前記(c) の「各対応表の番号付け」
では、図４に示すように、要素名も頻度に応じて符号化
する（先の出願参照）が、その結果に対して、通し番号
を付ける。一方、同じ要素名の符号に対して、要素内
容、或いは属性名の対応表がそれぞれ対応するため、接
尾語で区別する必要がある。要素名の符号に付けた番号
に、前記接尾語を付けた番号を元に各対応表を参照す
る。

【００６６】(4) ：前記(d) の「符号化しない要素内容
の告知」では、図５のＡ図に示すように、要素内容の中
には、数値のように符号化しにくいものがある。その場
合は、予め、その内容を符号化しない要素の要素名を指
定しておく手段を設ける。そして、要素名を符号化する
際に、前記の指定を元に、対応表において、該当する要
素に対して、符号化を適用しない指示（“Ｎ”）を出
す。

【００６７】(5) ：前記(e) の「要素内容で識別記号と
同じ文字を回避」では、図５のＢ図のように、要素内容
の先頭には、識別記号と同じ文字を持つものがあるが、
その場合は、図５のＢ図のように、文字参照或いは実態
参照を用いて置き換えておく。

【００６８】(6) ：前記(f) の「要素名、属性名で識別
記号と同じ文字を回避」では、図６のＡ図のように、要
素名あるいは属性名の先頭には、識別記号と同じ文字を
持つものがある。要素名あるいは属性名では、前記(5)
のような置き換えはきかない。

【００６９】その場合は、図６のＡ図のように、そのＸ
ＭＬ文書における全ての要素名あるいは属性名を所定の
識別記号で始まる符号に置き換える。前記(2) のよう
に、高頻度の要素内容だけ符号化した場合は、識別記号
で始まる例とそうでない例とが混ざっていた。

【００７０】しかし、元の要素名、属性名で識別記号と
同じ文字で始まる例が混ざっていた場合は、混乱を避け
るために、全ての要素名、属性名を識別記号で始まる符
号で置き換える。

【００７１】すなわち、要素名、属性名は全て識別記号
で始まる圧縮符号に置き換えるものとする。圧縮前の元
の状態で、一部の要素名、属性名の内に、識別記号と同
じ文字で始まるものが混ざっていた場合がある。そうで
ない場合でも、圧縮をかけたら、全て識別記号で始まる
符号に置き換わったものとすると、混乱は避けられる。

【００７２】(7) ：前記(g) の「長い要素内容の非符号
化」では、図６のＢ図のように、要素内容の中には、新
聞記事のように、１００文字以上あるものもある。高頻
度の部分文字列を登録したいという趣旨からは外れるの
で、要素内容の長さに閾値を超える長さの要素内容は符
号化しないことにする。

【００７３】(8) ：前記(h) の「空白記号の除去」で
は、図６のＣ図のように、空白記号は、ＤＯＭ木におい
て独立した節点となるが、処理装置の処理速度を遅ら
せ、動作記憶容量を増す働きがある。そこで、空白記号
をＸＭＬ文書から除去しておく必要がある。

【００７４】(9) ：前記(i) の「ＤＴＤ外部サブセット
の廃止」では、図７のように、外部の資源（外部の文書
型定義、あるいはＥＮＴＩＴＩ、ＥＮＴＩＴＩＥＳ属性
による外部の非解析対象実態）は、アクセスするのに負
荷を伴う。同じディスク内でもアクセス時間がかかり、
ネットワーク上の外部資源もｈｔｔｐセッションの起動
やトラフィックを要する。

【００７５】そのため、画像のように、ＸＭＬ文書に取
り込めない非解析対象実体は仕方がないが、外部ファイ
ルのＤＴＤはなるべく用いないようにＸＭＬ文書を変更
する。また、整形式のＤＴＤでは、ＤＴＤの内容はＸＭ
Ｌ文書中のＸＭＬ宣言の後に置く。また、検証済のＤＴ
Ｄについては、一度、パーサー（構文解析ソフト）に適
用して、文書構造を検証した後、ＤＴＤの指定を外す。

【００７６】すなわち、前記ＤＴＤの外部サブセットの
廃止処理は、次のようにして処理を行う。

【００７７】：文書定義で外部のＤＴＤを使用してい
るか点検する。

【００７８】：前記のＤＴＤ外部サブセットの登録内
容で、型宣言、属性リスト宣言のような検証済みＸＭＬ
文書としての指定があるかを点検する。

【００７９】：実施例１の処理で、符号化の済んだＸ
ＭＬ文書をパーサ（構文解析ソフト）に適用し、ＤＴＤ
の指定に沿うことを確認する。

【００８０】：前記の符号化の済んだＸＭＬ文書か
ら、文書型定義の指定を外す。

【００８１】§４：対応表作成手段（第１パス）による
対応表作成処理の説明対応表作成処理フローチャートを図８に示す。以下、図
８に基づいて、前記対応表作成手段１０６が行う第１パ
スの対応表作成処理を説明する。なお、Ｓ１〜Ｓ１１は
各処理ステップを示す。

【００８２】この処理では、先ず、対応表作成手段１０
６は、ＸＭＬ文書（サンプル）１００の読み込みを開始
し（Ｓ１）、各要素を全て検出したか否かを判断する
（Ｓ２）。その結果、全ての要素を検出してなければ、
要素名を図３の方法で符号化し、通し番号をふる（要素
名の符号化→通し番号）（Ｓ３）。

【００８３】次に、図４に示したように、要素毎の対応
表に通し番号を付加し、前記Ｓ３の処理における通し番
号を、要素毎に設ける対応表に付与する（Ｓ４）。そし
て、前記通し番号を要素毎の対応表の検索に用いる。ま
た、図５のＢ図のように、検出した要素名の中で、その
要素内容を符号化しない指定を読み取り、対応表に、
“Ｙ”（符号化する）、“Ｎ”（符号化しない）と記述
する（Ｓ５）。

【００８４】次に、図６のＢ図に示したように、要素内
容の長さ＞閾値の関係が有るか否かを判断し、要素内容
を読み込む過程で、その長さが閾値を超えた場合は、同
要素を対象から外す（Ｓ６）。そして、要素毎に要素内
容の（部分）文字列を集計する。この場合、要素毎に設
けた対応表で、検出した要素内容の文字列及び部分文字
列を集計する（Ｓ７）。

【００８５】次に、要素毎に設けた対応表で、検出した
属性名の文字列を集計する（Ｓ８）。そして、（部分）
文字列の頻度＜閾値の関係が有るか否かを判断し（Ｓ
９）、図３のように、要素内容の元の文字列の頻度は閾
値に達しなくても、ある部分文字列まで逆上れば閾値に
達する場合は、後者を採用し、対応表に用いる（Ｓ
９）。

【００８６】次に、該当の（部分）文字列を対応表に蓄
積し、符号を指定する。この処理では、前記Ｓ９の処理
で閾値に達した要素内容の文字列、部分文字列は対応表
に蓄積し、符号を当てる（Ｓ１０）。なお、要素名、属
性名、低頻度の時、対応表に登録しない場合がある。

【００８７】しかし、図６のＡ図のように、識別記号と
同じ文字で始まる例が含まれる場合は、頻度を問わず、
全ての要素名、属性名を登録する。そして、後述する第
２パスの処理Ｓ２５で置き換える。こけは混同を避ける
ためである。その後、作成した対応表を出力する（Ｓ１
１）。

【００８８】§５：変換手段（第２パス）による処理の
説明変換手段により変換処理フローチャートを図９に示す。
以下、図９に基づいて、変換手段１０８（第２パス）が
行う処理を説明する。なお、Ｓ２１〜Ｓ２７は各処理ス
テップを示す。

【００８９】この処理では、先ず、変換手段１０８は、
前記対応表作成手段１０６で作成した対応表を入力し
（Ｓ２１）、続いてＸＭＬ文書（サンプル）１００を入
力する（Ｓ２２）。そして、識別記号と同じ文字か否か
を判断する。この時、変換手段１０８は、前記第１パス
の処理Ｓ５、Ｓ６で該当する符号化から外れた要素内容
であって、その先頭の数文字が識別符号と同じ文字にな
るかを点検する（Ｓ２３）。

【００９０】その結果、先頭の数文字が識別符号と同じ
文字になれば、識別記号を置換する（Ｓ２４）。この場
合、図５のＢ図ように、実体参照、文字参照により置き
換える。そして、要素名、属性名、要素内容の該当の
（部分）文字列を符号化する。この場合、符号化すべき
要素名、属性名、要素内容の該当の（部分）文字列は、
要素毎の対応表により置き換える（Ｓ２５）。

【００９１】なお、前記Ｓ２３の処理において、先頭の
数文字が識別符号と同じ文字にならない場合は、Ｓ２４
の処理を行うことなく、Ｓ２５の処理に移行する。ま
た、Ｓ２５の処理終了後、空白記号を除去する（Ｓ２
６）。この処理では、図６のＣ図のように、終了タグと
開始タグに挟まれた位置にある空白記号を除去する。次
に、変換ＸＭＬ文書を処理し（Ｓ２７）、この処理を終
了する。

【００９２】§６：本発明と先の発明（従来例）の共通
の応用ソフトでの利用例の説明本発明と先の発明の共通の応用ソフトでの利用例を図１
０に示す。図１０において、(1) 図は利用例１：タグ検
索、(2) 図は利用例２：ＸＭＬ→ＸＭＬ／ＨＴＭＬ変
換、(3) 図は利用例３：ＸＭＬ文書の更新を示す。

【００９３】なお、図１０では、本発明の対象は太い枠
で囲んであり、その他の部分は先の発明（従来例として
説明したもの）と同じである。具体的には、(1) 図、
(2) 図、(3) 図に示した「変換ＸＭＬ文書」と、「要素
・符号対応表」が本発明の対象であり、その他の部分は
先の発明（従来例）と共通である。

【００９４】予め符号化により変換した変換ＸＭＬ文書
は、種々の用途に応用することができ、変換により削減
した分のスループットの向上が得られる。一方、変換後
のＸＭＬ文書でもマーク付けの構造を把握でき、既存の
ブラウザ、ビューア等の応用ソフトを適用しても僅かな
修正で組み込み実行できるようにしなければならない。
つまり、既存の応用ソフトから見て、元の文書を変換し
たことを意識せずに使えるような透過性を実現する必要
がある。次に利用例を説明する。

【００９５】：タグ検索の方法（図１０の(1) 図参
照）図１０の(1) 図に示すように、ＸＭＬ文書の代表的な応
用例として、データベースとしてのＸＭＬ文書のタグ検
索がある。これは、先ず、入力した変換ＸＭＬ文書のタ
グ構造をＸＭＬパーサで解析し、ＤＯＭ或いはＳＡＸの
ＡＰＩを展開する。次に、検索キーを入力して「要素・
符号対応表」からそれぞれ符号に変換する。

【００９６】そして、同符号を新たにキーとして「変換
ＸＭＬ文書」の上を検索する。符号と同じ要素の元で同
じ文字列が検出された時、同文字列を含む部分的な文書
を「検出された変換文字列」として出力する。更に、
「検出された変換文字列」を逆変換し「検出されたＸＭ
Ｌ文書」として出力する。

【００９７】：ＸＭＬ→ＸＭＬ／ＨＴＭＬ変換（図１
０の(2) 図参照）変換ＸＭＬ文書をＸＳＬ（eXtensible Style Language
）により、他の構造の変換ＸＭＬ文書や、ＨＴＭＬ文
書に変換する。文書を表示する際に必要な体裁（スタイ
ル）情報はスタイルシートというファイルに記述され
る。

【００９８】「要素・符号対応表」により、スタイルシ
ートの内容も「変換スタイルシート」に変換される。こ
れを元に、「変換ＸＭＬ文書」は、整列、データ抽出等
の処理を加えた場合、「加工された変換ＸＭＬ文書」と
して出力される。一方、表示整形の処理を加えた場合、
「ＨＴＭＬ文書」として出力される。

【００９９】：ＸＭＬ文書の更新（図１０の(3) 図参
照）変換ＸＭＬ文書をＤＯＭ或いはＳＡＸに展開した後、削
除、挿入、変更等の作業を行い、結果を「更新した変換
ＸＭＬ文書」として出力する。挿入、変更の際には、
「要素・符号対応表」から操作対象の要素に対応する符
号を得る。

【０１００】（付記）前記の説明に対し、次のような構
成を付記する。

【０１０１】（付記１）構造化文書において、属性名、
かつ／または、要素内容の文字列を、該当する要素名に
関係付けて、より短い文字コードの文字列として符号化
する構造化文書符号化装置であって、前記属性名、かつ
／または、要素内容の文字列を、該当する要素名毎に対
応表を作成し、該対応表を用いて符号化する第１の処理
手段（対応表作成手段１０６、及び変換手段１０８）
と、前記第１の処理手段による符号化を適用すると同時
に、要素名だけを集めて集計し、要素名も、より短い文
字コードの文字列として符号化する第２の処理手段を備
えていることを特徴とする構造化文書符号化装置。

【０１０２】この装置では、該当する要素名に、属性
名、かつ／または、要素内容文字列の対応表を作成する
ので、対象となる文字列の種類が限られ、より短い符号
で表現できる。また、要素名を一体一で短い符号に置き
換えるので、既存の応用ソフトに対して変更を要求する
ことなく処理が可能となり、透過性を維持できる。

【０１０３】（付記２）所定の高頻度の文字列につい
てのみ前記対応表を作成し、元の構造化文書中で、識別
文字を付して高頻度文字列の符号を識別するようにし、
高頻度文字列のみ符号化する第３の処理手段を備えてい
ることを特徴とする（付記１）記載の構造化文書符号化
装置。

【０１０４】この装置では、高頻度の部分文字列を短い
符号に置き換えるので、文書全体の圧縮率を向上させる
ことができる。

【０１０５】（付記３）前記要素内容は符号化しない
旨の識別符号の文字を、前記要素名に付加して要素内容
の符号化／非符号化を区別し識別する第４の処理手段を
備えていることを特徴とする（付記１）記載の構造化文
書符号化装置。

【０１０６】この装置では、数値データのように圧縮し
にくく、また、符号でなく直接数値で参照した方がよい
データは、予め圧縮しない指定を設けるので、検索速度
を向上することができる。

【０１０７】（付記４）前記識別文字と同じ要素名、
或いは属性名の先頭に含まれることがある場合は、同構
造化文書における全ての要素名、或いは属性名を前記識
別文字で始まる符号に置き換える第５の処理手段を備え
ていることを特徴とする（付記２）記載の構造化文書符
号化装置。

【０１０８】この装置では、識別文字と同じ要素名、或
いは属性名の先頭に含まれることがある場合は、同構造
化文書における全ての要素名、或いは属性名を前記識別
文字で始まる符号に置き換えるので、要素名、属性名に
予め識別文字と同じ文字が含まれていた場合でも、混乱
を防止することができる。

【０１０９】（付記５）コンピュータに、前記属性
名、かつ／または、要素内容の文字列を、該当する要素
名毎に対応表を作成し、該対応表を用いて符号化する第
１の処理手段と、前記第１の処理手段による符号化を適
用すると同時に、要素名だけを集めて集計し、要素名
も、より短い文字コードの文字列として符号化する第２
の処理手段の機能を実現させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体。

【０１１０】この装置では、該当する要素名に、属性
名、かつ／または、要素内容文字列の対応表を作成する
ので、対象となる文字列の種類が限られ、より短い符号
で表現できる。また、要素名を一体一で短い符号に置き
換えるので、既存の応用ソフトに対して変更を要求する
ことなく処理が可能となり、透過性を維持できる。

【０１１１】（付記６）前記符号化した要素名に通し
番号を付け、該通し番号で、属性名、かつ／または、要
素内容の文字列を符号化する該対応表を選択する第６の
処理手段を備えていることを特徴とする（付記１）記載
の構造化文書符号化装置。

【０１１２】この装置では、各要素名に通し番号を付け
るので、同番号が、対応表を参照する際の識別手段とな
り得る。

【０１１３】（付記７）前記識別文字と同じ文字が、
予め、要素内容の先頭にある場合は、同文字を他の表現
に置き換える第７の処理手段を備えていることを特徴と
する（付記２）記載の構造化文書符号化装置。

【０１１４】この装置では、識別文字と同じ文字を他の
表現に置き換えるので、混乱を防止することができる。

【０１１５】（付記８）前記要素内容の長さが所定の
閾値を超えた場合は、同要素内容を符号化の対象から外
す第８の処理手段を備えていることを特徴とする（付記
１）記載の構造化文書符号化装置。

【０１１６】この装置では、長さが長く、繰り返しも殆
どないような文字列を圧縮の対象から外すので、処理速
度の低下を防げる。

【０１１７】（付記９）構造化文書の中で、外部の文
書型定義ファイルを参照する指定がある場合には、属性
名、要素内容等の置き換え処理で生成された圧縮構造化
文書を一度、構文解析ソフトに適用して、同文書の構造
が該文書型定義に合致することを検証した上で、該文書
型定義の指定を該圧縮文書から外す第９の処理手段を備
えていることを特徴とする（付記１）記載の構造化文書
符号化装置。

【０１１８】この装置では、外部参照を外すので、ディ
スクのアクセス時間やネットワークのトラフィックを節
減することができる。

【０１１９】（付記１０）構造化文書の終了タグと開
始タグとに挟まれた空白記号（ＣＲ、ＬＦ、ＳＰ、ＴＡ
Ｂ等）を除去する第１０の処理手段を備えていることを
特徴とする（付記１）記載の構造化文書符号化装置。

【０１２０】この装置では、空白記号を除去するので、
ＤＯＭの木構造から空白記号（ＣＲ、ＬＦ、ＳＰ、ＴＡ
Ｂ等）に該当する節点を省くことができ、木構造の探索
時間やメモリ容量を節減できる。

【０１２１】

【発明の効果】以上説明したように、本発明によれば次
のような効果がある。

【０１２２】(1) ：従来例に比べ、要素内容、属性名に
ついて有効な圧縮率が得られる。このため、本発明によ
る変換ＸＭＬ文書を用いて、ＸＭＬ処理時間を短縮する
ことができる。

【０１２３】(2) ：空白記号が除去されるため、ＤＯＭ
木における余分な節点がなくなり、処理速度が向上す
る。また、動作記憶容量も軽減する。

【０１２４】(3) ：外部セブセットを外すため、同ファ
イルが同じディスク上にあった場合は、アクセス時間が
なくなり、また、ネットワーク上にあった場合は、ネッ
トワーク上のトラフィックを軽減できる。

【０１２５】(4) ：請求項１、５では、該当する要素名
に、属性名、かつ／または、要素内容文字列の対応表を
作成し、この対応表を用いて符号化するので、対象とな
る文字列の種類が限られ、より短い符号で表現できる。
また、要素名を一体一で短い符号に置き換えるので、既
存の応用ソフトに対して変更を要求することなく処理が
可能となり、透過性を維持できる。

【０１２６】(5) ：請求項２では、高頻度の部分文字列
を短い符号に置き換えるので、文書全体の圧縮率を向上
させることができる。

【０１２７】(6) ：請求項３では、数値データのように
圧縮しにくく、また、符号でなく直接数値で参照した方
がよいデータは、予め圧縮しない指定を設けるので、検
索速度を向上できる。

【０１２８】(7) ：請求項４では、識別文字と同じ要素
名、或いは属性名の先頭に含まれることがある場合は、
同構造化文書における全ての要素名、或いは属性名を識
別文字で始まる符号に置き換えるので、要素名、属性名
に予め識別文字と同じ文字が含まれていた場合でも、混
乱を防止することができる。

【図面の簡単な説明】

【図１】本発明の原理説明図であり、(1) 図は文書の各
要素名、属性名、要素内容を集計した対応表を作成する
場合の説明図、(2) 図はＸＭＬ文書の要素名の短縮変換
の説明図である。

【図２】本発明の実施の形態における要素毎の対応表で
あり、(1) 図はＸＭＬデータの例、(2) 図は各要素毎に
要素内容、属性に関して独自の対応表を持つ場合を示
す。

【図３】本発明の実施の形態における高頻度文字列の符
号化を示す図であり、(1) 図は要素「住所」の要素内容
を集計、(2) 図は部分文字列「神奈川県厚木市」までの
出現頻度が所定の閾値（１００）以上であると確認、
(3) 図は「神奈川県厚木市」だけ「Ａ」と符号化、
(4) 図は識別文字（１バイト）の利用を示す。

【図４】本発明の実施の形態における要素名の符号化に
よる各対応表の番号付けを示す図であり、(1) 図は要素
名の符号化並びに番号付け、(2) 図は各対応表の番号の
付け方、(3) 図は番号で参照できる各対応表を示す。

【図５】本発明の実施の形態における各手段の説明（そ
の１）であり、Ａ図は符号化しない要素内容を告知する
手段、Ｂ図は要素内容で識別符号と同じ文字を避ける手
段を示す。

【図６】本発明の実施の形態における各手段の説明（そ
の２）であり、Ａ図は要素名、属性名で識別符号と同じ
文字を避ける手段、Ｂ図は閾値以上の文字数の要素内容
は符号化しない手段、Ｃ図はタグ間の空白記号を除去し
てＤＯＭ木から余分な登録を除く手段を示す。

【図７】本発明の実施の形態におけるＤＴＤの外部サブ
セットの廃止を示す図である。

【図８】本発明の実施の形態における対応表作成処理フ
ローチャートである。

【図９】本発明の実施の形態における変換処理フローチ
ャートである。

【図１０】本発明の実施の形態における本発明と先の発
明の共通の応用ソフトでの利用例であり、(1) 図は利用
例１：タグ検索、(2) 図は利用例２：ＸＭＬ→ＸＭＬ／
ＨＴＭＬ変換、(3) 図は利用例３：ＸＭＬ文書の更新を
示す。

【図１１】本発明の実施の形態におけるＸＭＬ用語の説
明であり、(1) 図はＸＭＬ文書の構成部分、(2) 図は１
つの要素を表すタグの書き方、(3) 図は属性の書き方を
示す。

【図１２】本発明の実施の形態におけるＸＭＬプロセッ
サの処理と構造化文書の説明図であり、Ａ図はＸＭＬプ
ロセッサの処理説明図、Ｂ図は構造化文書の構成と処理
上の区分との関係を示す。

【図１３】本発明の実施の形態におけるＸＭＬの説明図
であり、Ａ図はＸＭＬの標準ＡＰＩ、Ｂ図はＸＭＬ文書
の資料データを示す。

【図１４】本発明の実施の形態における資料データに対
するＤＯＭを示した図である。

【図１５】本発明の実施の形態における先の発明の処理
説明図であり、(a)図は文書の各要素名を集計した対応
表を作成、 (b)図はＸＭＬ文書の要素名の短縮変換を示
す。

【符号の説明】

１００ＸＭＬ文書（サンプル）１０１要素集計手段１０２頻度表１０３、１０４変換手段１０５変換ＸＭＬ文書１０６対応表作成手段１０７対応表１０８変換手段（符号化手段）

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ０６Ｆ 17/30 ２３０Ｇ０６Ｆ 17/30 ２３０ＡＦターム(参考） 5B009 NA05 SA08 5B075 NR16 5B082 GA02 GA06

Claims

【特許請求の範囲】

【請求項１】構造化文書において、属性名、かつ／また
は、要素内容の文字列を、該当する要素名に関係付け
て、より短い文字コードの文字列として符号化する構造
化文書符号化装置であって、前記属性名、かつ／または、要素内容の文字列を、該当
する要素名毎に対応表を作成し、該対応表を用いて符号
化する第１の処理手段と、前記第１の処理手段による符号化を適用すると同時に、
要素名だけを集めて集計し、要素名も、より短い文字コ
ードの文字列として符号化する第２の処理手段を備えて
いることを特徴とする構造化文書符号化装置。
【請求項２】所定の高頻度の文字列についてのみ前記対
応表を作成し、元の構造化文書中で、識別文字を付して
高頻度文字列の符号を識別するようにし、高頻度文字列
のみ符号化する第３の処理手段を備えていることを特徴
とする請求項１記載の構造化文書符号化装置。
【請求項３】前記要素内容は符号化しない旨の識別符号
の文字を、前記要素名に付加して要素内容の符号化／非
符号化を区別し識別する第４の処理手段を備えているこ
とを特徴とする請求項１記載の構造化文書符号化装置。
【請求項４】前記識別文字と同じ要素名、或いは属性名
の先頭に含まれることがある場合は、同構造化文書にお
ける全ての要素名、或いは属性名を前記識別文字で始ま
る符号に置き換える第５の処理手段を備えていることを
特徴とする請求項２記載の構造化文書符号化装置。
【請求項５】コンピュータに、前記属性名、かつ／または、要素内容の文字列を、該当
する要素名毎に対応表を作成し、該対応表を用いて符号
化する第１の処理手段と、前記第１の処理手段による符号化を適用すると同時に、
要素名だけを集めて集計し、要素名も、より短い文字コ
ードの文字列として符号化する第２の処理手段の機能を
実現させるためのプログラムを記録したコンピュータ読
み取り可能な記録媒体。