JP2002297568A - 構造化文書符号化装置及び記録媒体 - Google Patents

構造化文書符号化装置及び記録媒体

Info

Publication number
JP2002297568A
JP2002297568A JP2001094920A JP2001094920A JP2002297568A JP 2002297568 A JP2002297568 A JP 2002297568A JP 2001094920 A JP2001094920 A JP 2001094920A JP 2001094920 A JP2001094920 A JP 2001094920A JP 2002297568 A JP2002297568 A JP 2002297568A
Authority
JP
Japan
Prior art keywords
names
character
correspondence table
name
encoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2001094920A
Other languages
English (en)
Inventor
Hironori Yahagi
裕紀 矢作
Shigeru Yoshida
茂 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2001094920A priority Critical patent/JP2002297568A/ja
Publication of JP2002297568A publication Critical patent/JP2002297568A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】本発明は構造化文書符号化装置に関し、動作メ
モリ量の削減、処理速度の向上の双方を実現するため、
要素内容や属性名に対して有効な圧縮が得られるように
する。 【解決手段】構造化文書において、属性名、かつ/また
は、要素内容の文字列を、該当する要素名に関係付け
て、より短い文字コードの文字列として符号化する装置
であって、属性名、かつ/または、要素内容の文字列を
該当する要素名毎に対応表を作成し、該対応表を用いて
符号化し、該符号化を適用すると同時に、要素名だけを
集めて集計し、要素名もより短い文字コードの文字列と
して符号化する手段(対応表作成手段106、及び変換
手段108を含む手段)を備えた。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、XML文書のよう
な構造化文書を符号化する構造化文書符号化装置及び記
録媒体に関する。
【0002】
【従来の技術】以下、従来例について説明する。
【0003】(1) :構造化文書の代表例 構造化文書の代表例として、大規模保存データベース向
けのSGML(Standard General Markup Language)、
WWW向けに簡便な構成を持つHTML(Hyper Text M
arkup Language)、SGMLをインターネット向けに簡
略化したXML(eXtensible Markup Language)等があ
る。
【0004】HTMLはWWWのコンテンツ形式として
世界的に普及している。XMLはHTMLを補うものと
して、最近、特に注目を浴びている。即ち、インターネ
ット上で文書だけでなく、携帯電話、カーナビゲーショ
ン等あらゆる情報機器が交信するための媒介となりつつ
ある。
【0005】(2) :XML文書の概要 図11に示したように、XML文書は大きく分けて次の
3つの部分からなる。
【0006】XML宣言 文書型定義(Document Type Definition,DTD) XML実現値 また、処理上の観点から以下の2つに分けられる。
【0007】a:整形式(well-formed ) b:検証済み(valid ) 前記の各構成と処理上の区分との関係、並びにSGM
L、HTMLとの関係は図12のB図に示されている。
また、XML文書を解析して、ブラウザなどの他の応用
ソフトに渡す媒介となる役割を果たすソフトは、図12
のA図に示すように、XMLプロセッサ、或いはXML
パーサー(構文解析ソフト)と呼ばれている。
【0008】(3) :SAXとDOM 図13に示すように、Java言語でXML文書を操作
するための標準API(Application Programming Inte
rface )には、SAX(Simple API for XML)とDOM
(Document Object Model )の2種類がある。
【0009】SAXは、XML文書を読みながら、文書
や要素の開始や終了、文字列の出現といった事象(even
t )を応用ソフトに通知する事象駆動型のAPIであ
る。これに対して、DOMは、汎用的なXML操作AP
Iで、XML文書をDOMオブジェクトとしてメモリ上
に展開する。この場合、DOMオブジェクトの木構造と
してメモリ上に展開する。
【0010】応用ソフトにはこのDOMオブジェクトに
対する操作を行うことで、XML文書へアクセスを行う
ことができる。また、DOMオブジェクトからXML文
書を生成することもできる。XML文書とDOM木構造
との関係を、図13のB図及び図14に示す。
【0011】図14において、図の矢印「→」は、各節
点を呼び出すための「method」(関数)を意味する。
「document」は、XML文書の全体を表現するインタフ
ェースである。「NodeList」は、或る節点に属する下位
の要素や文字データをXML文書内での出現順に管理す
るために使用される。「Element 」や「Text」等のイン
スタンスを節点に持つ。「NamedNodeMap」は、並び順に
意味はないが、名前をキーにして値を参照する必要があ
る節点を集めたものであり、属性等が記述される。
【0012】(4) :先の出願の説明(図15参照) 先の出願は、平成11年6月21日付けで出願した平成
11年特許願第173468号、及び平成12年3月3
1日付けで出願した平成12年特許願第98043号で
あり、以下、図15を参照しながら前記先の発明の概要
を従来例として説明する。
【0013】この発明は2パス方式を採る。図15の
(a) に示した第1パスでは、要素集計手段101は、X
ML文書(サンプル)100を走査し、要素名、属性名
を検出して集計し、要素名−頻度表102を作成する。
そして、集計した結果(要素名−頻度表102)から、
頻度に応じた符号を算出し、対応表103を作成し、出
力する。
【0014】図15の (b)に示した第2パスでは、変換
手段104は、XML文書(サンプル)100を走査
し、要素名、属性名を検出して、第1パスで求めた対応
表103から対応する符号を検索する。そして、要素
名、属性名も検索した符号の文字列に置換する。それに
より「変換XML文書」105が生成される。
【0015】
【発明が解決しようとする課題】前記のような従来のD
OMを用いたタグ検索方式には次のような課題がある。
【0016】(1) :DOMの木構造が大きい場合、木構
造を辿って検索キーと同じ文字列を各要素内容から検出
するのに時間がかかる。
【0017】(2) :DOMでは、各項目に長い文字列が
出現することを予期して、長い固定長メモリ領域を確保
して、データを書き込むので、大きい動作メモリ量が必
要となる。
【0018】(3) :先の出願(特願平12−98043
号)では、要素名を短い文字列に置換する方法が開示し
た。しかし、要素内容の種類が膨大である時、要素内容
全体に対しての静的な対応表を用意しただけでは、有効
な圧縮ができない。
【0019】本発明は、このような従来の課題を解決
し、動作メモリ量の削減、処理速度の向上の双方を実現
するため、要素内容や属性名に対して有効な圧縮が得ら
れるようにすることを目的とする。
【0020】
【課題を解決するための手段】本発明は前記の目的を達
成するため、次のように構成した。
【0021】(1) :構造化文書において、属性名、かつ
/または、要素内容の文字列を、該当する要素名に関係
付けて、より短い文字コードの文字列として符号化する
構造化文書符号化装置であって、前記属性名、かつ/ま
たは、要素内容の文字列を、該当する要素名毎に対応表
を作成し、該対応表を用いて符号化する第1の処理手段
(対応表作成手段、及び変換手段)と、前記第1の処理
手段による符号化を適用すると同時に、要素名だけを集
めて集計し、要素名にも、より短い文字コードの文字列
として符号化する第2の処理手段を備えていることを特
徴とする構造化文書符号化装置。
【0022】(2) :前記(1) の構造化文書符号化装置に
おいて、所定の高頻度の文字列についてのみ前記対応表
を作成し、元の構造化文書中で、識別文字を付して高頻
度文字列の符号を識別するようにし、高頻度文字列のみ
符号化する第3の処理手段を備えていることを特徴とす
る。
【0023】(3) :前記(1) の構造化文書符号化装置に
おいて、前記要素内容は符号化しない旨の識別符号の文
字を、前記要素名に付加して要素内容の符号化/非符号
化を区別し識別する第4の処理手段を備えていることを
特徴とする。
【0024】(4) :前記(2) の構造化文書符号化装置に
おいて、前記識別文字と同じ要素名、或いは属性名の先
頭に含まれることがある場合は、同構造化文書における
全ての要素名、或いは属性名を前記識別文字で始まる符
号に置き換える第5の処理手段を備えていることを特徴
とする。
【0025】(作用) (a) :前記(1) では、該当する要素名に、属性名、かつ
/または、要素内容文字列の対応表を作成し、該対応表
を用いて符号化するので、対象となる文字列の種類が限
られ、より短い符号で表現できる。また、要素名を一体
一で短い符号に置き換えるので、既存の応用ソフトに対
して変更を要求することなく処理が可能となり、透過性
を維持できる。
【0026】(b) :前記(2) では、高頻度の部分文字列
を短い符号に置き換えるので、文書全体の圧縮率を向上
させることができる。
【0027】(c) :前記(3) では、数値データのように
圧縮しにくく、また、符号でなく直接数値で参照した方
がよいデータは、予め圧縮しない指定を設けるので、検
索速度を向上することができる。
【0028】(d) :前記(4) では、識別文字と同じ要素
名、或いは属性名の先頭に含まれることがある場合は、
同構造化文書における全ての要素名、或いは属性名を識
別文字で始まる符号に置き換えるので、要素名、属性名
に予め識別文字と同じ文字が含まれていた場合でも、混
乱を防止することができる。
【0029】
【発明の実施の形態】以下、本発明の実施の形態を、図
面に基づいて詳細に説明する。なお、以下に説明する例
は、前記構造化文書符号化装置をXML文書符号化装置
に適用した例である。
【0030】§1:XML文書符号化装置の説明 本実施の形態では、XML文書符号化装置の処理によ
り、属性名、要素内容等の有効な圧縮効果が得られるよ
うにする。全体の概略(原理説明図)を図1に示す。図
1の(1) 図に示す対応表作成手段106は、XML文書
(サンプル)100を入力し、要素名の集計を行う。一
方、要素毎に属性名、要素内容を集計し(頻度表102
を作成)、要素名に属性名、要素内容を関係付けた対応
表107を作成し、出力する。
【0031】次に、図1の(2) 図に示す変換手段108
では、変換対象のXML文書(サンプル)100を入力
し、前記求めた対応表107を用いて変換(符号化)
し、変換XML文書(符号化されたXML文書)105
を出力する。このXML文書符号化装置の機能は次の通
りである。
【0032】(1) :XML文書符号化装置は、XML文
書において、属性名、かつ/または、要素内容の文字列
を、該当する要素名に関係付けて、より短い文字コード
の文字列として符号化する。具体的には、前記属性名、
かつ/または、要素内容の文字列を、該当する要素名毎
に対応表を作成し、該対応表を用いて符号化する。ま
た、前記符号化を適用すると同時に、要素名だけを集計
し、要素名も、より短い文字コードの文字列として符号
化する機能を備えている。
【0033】このような機能により、該当する要素名
に、属性名、かつ/または、要素内容文字列の対応表を
作成するので、対象となる文字列の種類が限られ、より
短い符号で表現できる。また、要素名も一体一で短い符
号に置き換えるので、既存の応用ソフトに対して変更を
要求することなく処理が可能となり、透過性を維持でき
る。
【0034】(2) :XML文書符号化装置は、所定の高
頻度の文字列についてのみ前記対応表を作成し、元の構
造化文書中で、識別文字を付して高頻度文字列の符号を
識別するようにし、高頻度文字列のみ符号化する機能を
備えている。このような機能により、高頻度の部分文字
列を短い符号に置き換えるので、文書全体の圧縮率を向
上させることができる。
【0035】(3) :XML文書符号化装置は、要素内容
は符号化しない旨の識別符号の文字を、前記要素名に付
加して要素内容の符号化/非符号化を区別し識別する機
能を備えている。このような機能により、数値データの
ように圧縮しにくく、また、符号でなく直接数値で参照
した方がよいデータは、予め圧縮しない指定を設けるの
で、検索速度を向上することができる。
【0036】(4) :XML文書符号化装置は、識別文字
と同じ要素名、或いは属性名の先頭に含まれることがあ
る場合は、同構造化文書における全ての要素名、或いは
属性名を前記識別文字で始まる符号に置き換える機能を
備えている。このような機能により、要素名、属性名に
予め識別文字と同じ文字が含まれていた場合でも、混乱
を防止することができる。
【0037】(5) :XML文書符号化装置は、符号化し
た要素名に通し番号を付け、該通し番号で、属性名、か
つ/または、要素内容の文字列を符号化する該対応表を
選択する機能を備えている。このような機能により、各
要素名に通し番号を付けることができるので、同番号
が、対応表を参照する際の識別手段となり得る。
【0038】(6) :XML文書符号化装置は、識別文字
と同じ文字が、予め、要素内容の先頭にある場合は、同
文字を他の表現に置き換える機能を備えている。このよ
うな機能により、識別文字と同じ文字を他の表現に置き
換えることができるので、混乱を防止することができ
る。
【0039】(7) :XML文書符号化装置は、要素内容
の長さが所定の閾値を超えた場合は、同要素内容を符号
化の対象から外す機能を備えている。このような機能に
より、長さが長く、繰り返しも殆どないような文字列を
圧縮の対象から外すことができ、処理速度の低下を防げ
る。
【0040】(8) :XML文書符号化装置は、XML文
書の中で、外部の文書型定義ファイルを参照する指定が
ある場合には、属性名、要素内容等の置き換え処理で生
成された圧縮構造化文書を一度、構文解析ソフトに適用
して、同文書の構造が該文書型定義に合致することを検
証した上で、該文書型定義の指定を該圧縮文書から外す
機能を備えている。このような機能により、外部参照を
外すことができるので、ディスクのアクセス時間やネッ
トワークのトラフィックを節減することができる。
【0041】(9) :XML文書符号化装置は、構造化文
書の終了タグと開始タグとに挟まれた空白記号(CR、
LF、SP、TAB等)を除去する機能を備えている。
このような機能により、空白記号(CR、LF、SP、
TAB等)を除去することができるので、DOMの木構
造から空白記号に該当する節点を省くことで、木構造の
探索時間やメモリ容量を節減できる。 なお、前記XM
L文書符号化装置は、パーソナルコンピュータ、ワーク
ステーション等の任意のコンピュータにより実現される
装置であり、前記機能を実現するための手段(対応表作
成手段106、変換手段108等)は、それぞれ前記コ
ンピュータのCPUが、記録媒体(ハードディスク、リ
ムーバブルディスク、フレキシブルディスク等)に格納
されているプログラムを読み出して実行することにより
実現するものである。
【0042】§2:XML文書符号化装置の具体的な説
明 以下、XML文書符号化装置について具体的に説明す
る。
【0043】(a) :要素毎の対応表107の作成 要素毎の対応表107は、図2に示すように、要素内
容、又は属性名の頻度と割り当てた圧縮符号とを併記す
る。例えば、図2の(1) 図に示すXMLデータが入力し
た場合、図2の(2) 図に示す(a) の「要素内容による集
計、符号化」のように、要素「姓」の要素内容が「三
浦」であれば、要素内容の頻度は「30」であり、圧縮
符号は「.a」とする。また、要素「姓」の要素内容が
「岸」であれば、要素内容の頻度は「25」であり、圧
縮符号は「.b」とする。また、要素「姓」の要素内容
が「高橋」であれば、要素内容の頻度は「10」であ
り、圧縮符号は「.c」とする。
【0044】更に、図2の(2) 図に示す (b)の「属性名
による集計、符号化」のように、要素「姓」の属性名が
「旧姓」であれば、属性名の頻度は「1000」であ
り、圧縮符号は「.a」とする。また、要素「姓」の属
性名が「画数」であれば、属性名の頻度は「1000」
であり、圧縮符号は「.b」とする。
【0045】(b) :高頻度文字列の符号化 高頻度文字列の符号化は、図3に示すように、要素内容
の文字列、並びにその部分文字列の頻度を集計し、所定
の閾値以上の文字列、部分文字列のみ残す。また、圧縮
符号の開始、並びに同符号の長さの違いを示す識別記号
を用いる。
【0046】例えば、図3において、(1) 図には、要素
「住所」の要素内容を集計した例が示してあり、(2) 図
では、部分文字列「神奈川県厚木市」までの出現頻度が
所定の閾値(100)以上であると確認しており、(3)
図では、「神奈川県厚木市」だけ「 A」と符号化して
おり、(4) 図では、識別文字(1バイト)の利用が示さ
れている。
【0047】(c) :各対応表の番号付け 各対応表の番号付けは、図4に示すように、要素名の符
号に付けた通し番号を元に、要素毎の対応表を参照す
る。例えば、図4において、(1) 図には、要素名の符号
化並びに番号付けの例で示してある。この例では、要素
名が「姓」で、要素名の頻度が「1000」で、圧縮符
号が「 a」の場合、通し番号(図の「番号」に対応)
が「0」となっている。
【0048】また、要素名が「名」で、要素名の頻度が
「1000」で、圧縮符号が「 b」の場合、通し番号
が「1」、要素名が「住所」で、要素名の頻度が「10
00」で、圧縮符号が「 c」の場合、通し番号が
「2」、要素名が「生年月日」で、要素名の頻度が「1
000」で、圧縮符号が「 d」の場合、通し番号が
「3」、要素名が「前の住所」で、要素名の頻度が「1
20」で、圧縮符号が「 e」の場合、通し番号が
「4」、要素名が「出生地」で、要素名の頻度が「6
0」で、圧縮符号が「 f」の場合、通し番号が「5」
となっている。
【0049】(2) 図には、各対応表の番号の付け方が示
してあり、この例では、「0」が要素内容を識別する接
尾語、「1」が属性名を識別する接尾語とする。そし
て、各対応表の番号=(要素名の番号)+(要素内容/
属性名を識別する接尾語)で表す。このようにして、
(3) 図には、番号で参照できる各対応表(00、01、
10、11)が示してある。
【0050】(d) :符号化しない要素内容の告知 符号化しない要素内容の告知は、図5のA図のように、
一連の要素名の中で、その要素内容を符号化すべきでな
いものを指示する。この例では、図5のA図に示したよ
うに、「要素内容の符号化?」の欄に記された
「“N”」は、符号化を適用しない旨の指示である。す
なわち、要素名が「生年月日」で、要素名の頻度が「1
000」で、圧縮符号が「 d」で通し番号が「3」
は、符号化を適用しないことを示している。
【0051】(e) :要素内容で識別記号と同じ文字を回
避 要素内容で識別記号と同じ文字を回避する場合、図5の
B図に示すように、識別記号と同じ先頭の文字を持つ要
素内容に対処する。
【0052】図5のB図には、要素内容で識別符号と同
じ文字を避ける手段が示されている。例えば、図5のB
図の(1) には、識別符号と同じ文字が要素内容の先頭に
含まれる場合が示されている。また、図5のB図の(2)
には、実体参照による置換え処置が示され、図5のB図
の(3) には、文字参照による置換え処置が示されてい
る。
【0053】(f) :要素名、属性名で識別記号と同じ文
字を回避 要素名、属性名で識別記号と同じ文字を回避する場合、
図6のA図のように、識別記号と同じ先頭の文字を持つ
要素名、属性名に対処する。
【0054】(g) :長い要素内容の非符号化 長い要素内容の非符号化は、図6のB図のように、閾値
を超える長さの要素内容に対処する。すなわち、要素内
容の文字数を数え、所定の閾値(例えば、20文字)を
超える場合は、その要素内容における符号化を中止す
る。
【0055】(h) :空白記号の除去 空白記号の除去は、図6のC図のように、空白記号(C
R、LF、SP、TAB等)を除去する。すなわち、タ
グ間の空白記号を除去してDOM木から余分な登録を除
く。
【0056】(i) :DTD外部サブセットの廃止 DTD外部サブセットの廃止は、図7に示すように、外
部の資源(外部の文書型定義、或いはENTRY、EN
TITIES属性による外部の非解析対象実態)の利用
を制限する。
【0057】図7において、Aは、例えば、インターネ
ット上の情報処理装置のハードディスク装置が保持する
XML文書例、Bは前記XML文書を変換した後の文書
例、CはB図の文書をパーサー(構文解析ソフト)に適
用し、結果のデータDを得ることを示している。また、
Eは文書型定義であり、これを変換し、Fのデータ(変
換後の文書型定義)を得ることを示している。
【0058】前記Eに示すデータは、インターネット上
の別の装置(AのXML文書を保持する装置とは別の装
置)のハードディスク装置が保持するデータである。ま
た、要素型宣言、属性リスト宣言のみからなるDTD外
部サブセット(E、Fのデータを言う)は、一旦、パー
サーによる検証が済んだ後は使用しない。これは、ディ
スク上のアクセス軽減、ネットワーク上のトラフィック
軽減のためである。
【0059】すなわち、この処理は、Eに示すデータを
参照してAに示すデータを変換し、Bのデータを得る。
そして、Bに示すデータは、パーサに適用し、Fのデー
タを参照してDのデータを得る。
【0060】§3:動作の説明 (1) :XML文書符号化装置の対応表作成手段106に
より前記(a) の「要素毎の対応表107」を作成する場
合、XML文書(サンプル)100を入力し、属性名、
或いは要素内容の出現頻度をそれぞれ集計し、符号を算
出(対応表を参照してもよい)し、登録する。この場
合、図2のように、要素毎に集計したため、要素内容に
偏りが生じる。
【0061】すなわち、要素名に応じて出現する要素内
容が限定されるため、より短い符号で互いに区別でき
る。従って、符号化効率が上がり、圧縮率が改善され
る。
【0062】(2) :前記(b) の「高頻度文字列の符号
化」では、頻度の閾値を、例えば、100とする。図3
の例では、閾値に満たない例が2つあるが、途中までの
部分文字列である「神奈川県厚木市」までを取って集計
すれば、閾値を上回ることが分かる。このように高い頻
度の文字列や部分文字列を要素毎に集計、抽出する。
【0063】符号の割り当ては次のようになる。第1文
字列は符号の開始を示す識別文字である。識別文字とし
て、「 」、「:」(各1バイト)を採用する。理由
は、要素名、属性名も同様な方法で符号化したいのだ
が、XML文書で名前の先頭として許される文字は、ア
ルファベット、漢字、仮名等の通常の文字以外は、前記
の2文字しかないためである。
【0064】ここで、「 」の後は1文字までが圧縮符
号とする。ASCII符号までならば1バイト、SJI
S、EUC符号ならば2バイト、そして、UTF−8符
号ならば、2〜3バイトである。一方、「:」が符号の
先頭に来た場合は、その次にASCII符号以外の2文
字が続く。一方、これにより、低頻度の要素内容は元デ
ータのままとする。
【0065】(3) :前記(c) の「各対応表の番号付け」
では、図4に示すように、要素名も頻度に応じて符号化
する(先の出願参照)が、その結果に対して、通し番号
を付ける。一方、同じ要素名の符号に対して、要素内
容、或いは属性名の対応表がそれぞれ対応するため、接
尾語で区別する必要がある。要素名の符号に付けた番号
に、前記接尾語を付けた番号を元に各対応表を参照す
る。
【0066】(4) :前記(d) の「符号化しない要素内容
の告知」では、図5のA図に示すように、要素内容の中
には、数値のように符号化しにくいものがある。その場
合は、予め、その内容を符号化しない要素の要素名を指
定しておく手段を設ける。そして、要素名を符号化する
際に、前記の指定を元に、対応表において、該当する要
素に対して、符号化を適用しない指示(“N”)を出
す。
【0067】(5) :前記(e) の「要素内容で識別記号と
同じ文字を回避」では、図5のB図のように、要素内容
の先頭には、識別記号と同じ文字を持つものがあるが、
その場合は、図5のB図のように、文字参照或いは実態
参照を用いて置き換えておく。
【0068】(6) :前記(f) の「要素名、属性名で識別
記号と同じ文字を回避」では、図6のA図のように、要
素名あるいは属性名の先頭には、識別記号と同じ文字を
持つものがある。要素名あるいは属性名では、前記(5)
のような置き換えはきかない。
【0069】その場合は、図6のA図のように、そのX
ML文書における全ての要素名あるいは属性名を所定の
識別記号で始まる符号に置き換える。前記(2) のよう
に、高頻度の要素内容だけ符号化した場合は、識別記号
で始まる例とそうでない例とが混ざっていた。
【0070】しかし、元の要素名、属性名で識別記号と
同じ文字で始まる例が混ざっていた場合は、混乱を避け
るために、全ての要素名、属性名を識別記号で始まる符
号で置き換える。
【0071】すなわち、要素名、属性名は全て識別記号
で始まる圧縮符号に置き換えるものとする。圧縮前の元
の状態で、一部の要素名、属性名の内に、識別記号と同
じ文字で始まるものが混ざっていた場合がある。そうで
ない場合でも、圧縮をかけたら、全て識別記号で始まる
符号に置き換わったものとすると、混乱は避けられる。
【0072】(7) :前記(g) の「長い要素内容の非符号
化」では、図6のB図のように、要素内容の中には、新
聞記事のように、100文字以上あるものもある。高頻
度の部分文字列を登録したいという趣旨からは外れるの
で、要素内容の長さに閾値を超える長さの要素内容は符
号化しないことにする。
【0073】(8) :前記(h) の「空白記号の除去」で
は、図6のC図のように、空白記号は、DOM木におい
て独立した節点となるが、処理装置の処理速度を遅ら
せ、動作記憶容量を増す働きがある。そこで、空白記号
をXML文書から除去しておく必要がある。
【0074】(9) :前記(i) の「DTD外部サブセット
の廃止」では、図7のように、外部の資源(外部の文書
型定義、あるいはENTITI、ENTITIES属性
による外部の非解析対象実態)は、アクセスするのに負
荷を伴う。同じディスク内でもアクセス時間がかかり、
ネットワーク上の外部資源もhttpセッションの起動
やトラフィックを要する。
【0075】そのため、画像のように、XML文書に取
り込めない非解析対象実体は仕方がないが、外部ファイ
ルのDTDはなるべく用いないようにXML文書を変更
する。また、整形式のDTDでは、DTDの内容はXM
L文書中のXML宣言の後に置く。また、検証済のDT
Dについては、一度、パーサー(構文解析ソフト)に適
用して、文書構造を検証した後、DTDの指定を外す。
【0076】すなわち、前記DTDの外部サブセットの
廃止処理は、次のようにして処理を行う。
【0077】:文書定義で外部のDTDを使用してい
るか点検する。
【0078】:前記のDTD外部サブセットの登録内
容で、型宣言、属性リスト宣言のような検証済みXML
文書としての指定があるかを点検する。
【0079】:実施例1の処理で、符号化の済んだX
ML文書をパーサ(構文解析ソフト)に適用し、DTD
の指定に沿うことを確認する。
【0080】:前記の符号化の済んだXML文書か
ら、文書型定義の指定を外す。
【0081】§4:対応表作成手段(第1パス)による
対応表作成処理の説明 対応表作成処理フローチャートを図8に示す。以下、図
8に基づいて、前記対応表作成手段106が行う第1パ
スの対応表作成処理を説明する。なお、S1〜S11は
各処理ステップを示す。
【0082】この処理では、先ず、対応表作成手段10
6は、XML文書(サンプル)100の読み込みを開始
し(S1)、各要素を全て検出したか否かを判断する
(S2)。その結果、全ての要素を検出してなければ、
要素名を図3の方法で符号化し、通し番号をふる(要素
名の符号化→通し番号)(S3)。
【0083】次に、図4に示したように、要素毎の対応
表に通し番号を付加し、前記S3の処理における通し番
号を、要素毎に設ける対応表に付与する(S4)。そし
て、前記通し番号を要素毎の対応表の検索に用いる。ま
た、図5のB図のように、検出した要素名の中で、その
要素内容を符号化しない指定を読み取り、対応表に、
“Y”(符号化する)、“N”(符号化しない)と記述
する(S5)。
【0084】次に、図6のB図に示したように、要素内
容の長さ>閾値の関係が有るか否かを判断し、要素内容
を読み込む過程で、その長さが閾値を超えた場合は、同
要素を対象から外す(S6)。そして、要素毎に要素内
容の(部分)文字列を集計する。この場合、要素毎に設
けた対応表で、検出した要素内容の文字列及び部分文字
列を集計する(S7)。
【0085】次に、要素毎に設けた対応表で、検出した
属性名の文字列を集計する(S8)。そして、(部分)
文字列の頻度<閾値の関係が有るか否かを判断し(S
9)、図3のように、要素内容の元の文字列の頻度は閾
値に達しなくても、ある部分文字列まで逆上れば閾値に
達する場合は、後者を採用し、対応表に用いる(S
9)。
【0086】次に、該当の(部分)文字列を対応表に蓄
積し、符号を指定する。この処理では、前記S9の処理
で閾値に達した要素内容の文字列、部分文字列は対応表
に蓄積し、符号を当てる(S10)。なお、要素名、属
性名、低頻度の時、対応表に登録しない場合がある。
【0087】しかし、図6のA図のように、識別記号と
同じ文字で始まる例が含まれる場合は、頻度を問わず、
全ての要素名、属性名を登録する。そして、後述する第
2パスの処理S25で置き換える。こけは混同を避ける
ためである。その後、作成した対応表を出力する(S1
1)。
【0088】§5:変換手段(第2パス)による処理の
説明 変換手段により変換処理フローチャートを図9に示す。
以下、図9に基づいて、変換手段108(第2パス)が
行う処理を説明する。なお、S21〜S27は各処理ス
テップを示す。
【0089】この処理では、先ず、変換手段108は、
前記対応表作成手段106で作成した対応表を入力し
(S21)、続いてXML文書(サンプル)100を入
力する(S22)。そして、識別記号と同じ文字か否か
を判断する。この時、変換手段108は、前記第1パス
の処理S5、S6で該当する符号化から外れた要素内容
であって、その先頭の数文字が識別符号と同じ文字にな
るかを点検する(S23)。
【0090】その結果、先頭の数文字が識別符号と同じ
文字になれば、識別記号を置換する(S24)。この場
合、図5のB図ように、実体参照、文字参照により置き
換える。そして、要素名、属性名、要素内容の該当の
(部分)文字列を符号化する。この場合、符号化すべき
要素名、属性名、要素内容の該当の(部分)文字列は、
要素毎の対応表により置き換える(S25)。
【0091】なお、前記S23の処理において、先頭の
数文字が識別符号と同じ文字にならない場合は、S24
の処理を行うことなく、S25の処理に移行する。ま
た、S25の処理終了後、空白記号を除去する(S2
6)。この処理では、図6のC図のように、終了タグと
開始タグに挟まれた位置にある空白記号を除去する。次
に、変換XML文書を処理し(S27)、この処理を終
了する。
【0092】§6:本発明と先の発明(従来例)の共通
の応用ソフトでの利用例の説明 本発明と先の発明の共通の応用ソフトでの利用例を図1
0に示す。図10において、(1) 図は利用例1:タグ検
索、(2) 図は利用例2:XML→XML/HTML変
換、(3) 図は利用例3:XML文書の更新を示す。
【0093】なお、図10では、本発明の対象は太い枠
で囲んであり、その他の部分は先の発明(従来例として
説明したもの)と同じである。具体的には、(1) 図、
(2) 図、(3) 図に示した「変換XML文書」と、「要素
・符号対応表」が本発明の対象であり、その他の部分は
先の発明(従来例)と共通である。
【0094】予め符号化により変換した変換XML文書
は、種々の用途に応用することができ、変換により削減
した分のスループットの向上が得られる。一方、変換後
のXML文書でもマーク付けの構造を把握でき、既存の
ブラウザ、ビューア等の応用ソフトを適用しても僅かな
修正で組み込み実行できるようにしなければならない。
つまり、既存の応用ソフトから見て、元の文書を変換し
たことを意識せずに使えるような透過性を実現する必要
がある。次に利用例を説明する。
【0095】:タグ検索の方法(図10の(1) 図参
照) 図10の(1) 図に示すように、XML文書の代表的な応
用例として、データベースとしてのXML文書のタグ検
索がある。これは、先ず、入力した変換XML文書のタ
グ構造をXMLパーサで解析し、DOM或いはSAXの
APIを展開する。次に、検索キーを入力して「要素・
符号対応表」からそれぞれ符号に変換する。
【0096】そして、同符号を新たにキーとして「変換
XML文書」の上を検索する。符号と同じ要素の元で同
じ文字列が検出された時、同文字列を含む部分的な文書
を「検出された変換文字列」として出力する。更に、
「検出された変換文字列」を逆変換し「検出されたXM
L文書」として出力する。
【0097】:XML→XML/HTML変換(図1
0の(2) 図参照) 変換XML文書をXSL(eXtensible Style Language
)により、他の構造の変換XML文書や、HTML文
書に変換する。文書を表示する際に必要な体裁(スタイ
ル)情報はスタイルシートというファイルに記述され
る。
【0098】「要素・符号対応表」により、スタイルシ
ートの内容も「変換スタイルシート」に変換される。こ
れを元に、「変換XML文書」は、整列、データ抽出等
の処理を加えた場合、「加工された変換XML文書」と
して出力される。一方、表示整形の処理を加えた場合、
「HTML文書」として出力される。
【0099】:XML文書の更新(図10の(3) 図参
照) 変換XML文書をDOM或いはSAXに展開した後、削
除、挿入、変更等の作業を行い、結果を「更新した変換
XML文書」として出力する。挿入、変更の際には、
「要素・符号対応表」から操作対象の要素に対応する符
号を得る。
【0100】(付記)前記の説明に対し、次のような構
成を付記する。
【0101】(付記1)構造化文書において、属性名、
かつ/または、要素内容の文字列を、該当する要素名に
関係付けて、より短い文字コードの文字列として符号化
する構造化文書符号化装置であって、前記属性名、かつ
/または、要素内容の文字列を、該当する要素名毎に対
応表を作成し、該対応表を用いて符号化する第1の処理
手段(対応表作成手段106、及び変換手段108)
と、前記第1の処理手段による符号化を適用すると同時
に、要素名だけを集めて集計し、要素名も、より短い文
字コードの文字列として符号化する第2の処理手段を備
えていることを特徴とする構造化文書符号化装置。
【0102】この装置では、該当する要素名に、属性
名、かつ/または、要素内容文字列の対応表を作成する
ので、対象となる文字列の種類が限られ、より短い符号
で表現できる。また、要素名を一体一で短い符号に置き
換えるので、既存の応用ソフトに対して変更を要求する
ことなく処理が可能となり、透過性を維持できる。
【0103】(付記2) 所定の高頻度の文字列につい
てのみ前記対応表を作成し、元の構造化文書中で、識別
文字を付して高頻度文字列の符号を識別するようにし、
高頻度文字列のみ符号化する第3の処理手段を備えてい
ることを特徴とする(付記1)記載の構造化文書符号化
装置。
【0104】この装置では、高頻度の部分文字列を短い
符号に置き換えるので、文書全体の圧縮率を向上させる
ことができる。
【0105】(付記3) 前記要素内容は符号化しない
旨の識別符号の文字を、前記要素名に付加して要素内容
の符号化/非符号化を区別し識別する第4の処理手段を
備えていることを特徴とする(付記1)記載の構造化文
書符号化装置。
【0106】この装置では、数値データのように圧縮し
にくく、また、符号でなく直接数値で参照した方がよい
データは、予め圧縮しない指定を設けるので、検索速度
を向上することができる。
【0107】(付記4) 前記識別文字と同じ要素名、
或いは属性名の先頭に含まれることがある場合は、同構
造化文書における全ての要素名、或いは属性名を前記識
別文字で始まる符号に置き換える第5の処理手段を備え
ていることを特徴とする(付記2)記載の構造化文書符
号化装置。
【0108】この装置では、識別文字と同じ要素名、或
いは属性名の先頭に含まれることがある場合は、同構造
化文書における全ての要素名、或いは属性名を前記識別
文字で始まる符号に置き換えるので、要素名、属性名に
予め識別文字と同じ文字が含まれていた場合でも、混乱
を防止することができる。
【0109】(付記5) コンピュータに、前記属性
名、かつ/または、要素内容の文字列を、該当する要素
名毎に対応表を作成し、該対応表を用いて符号化する第
1の処理手段と、前記第1の処理手段による符号化を適
用すると同時に、要素名だけを集めて集計し、要素名
も、より短い文字コードの文字列として符号化する第2
の処理手段の機能を実現させるためのプログラムを記録
したコンピュータ読み取り可能な記録媒体。
【0110】この装置では、該当する要素名に、属性
名、かつ/または、要素内容文字列の対応表を作成する
ので、対象となる文字列の種類が限られ、より短い符号
で表現できる。また、要素名を一体一で短い符号に置き
換えるので、既存の応用ソフトに対して変更を要求する
ことなく処理が可能となり、透過性を維持できる。
【0111】(付記6) 前記符号化した要素名に通し
番号を付け、該通し番号で、属性名、かつ/または、要
素内容の文字列を符号化する該対応表を選択する第6の
処理手段を備えていることを特徴とする(付記1)記載
の構造化文書符号化装置。
【0112】この装置では、各要素名に通し番号を付け
るので、同番号が、対応表を参照する際の識別手段とな
り得る。
【0113】(付記7) 前記識別文字と同じ文字が、
予め、要素内容の先頭にある場合は、同文字を他の表現
に置き換える第7の処理手段を備えていることを特徴と
する(付記2)記載の構造化文書符号化装置。
【0114】この装置では、識別文字と同じ文字を他の
表現に置き換えるので、混乱を防止することができる。
【0115】(付記8) 前記要素内容の長さが所定の
閾値を超えた場合は、同要素内容を符号化の対象から外
す第8の処理手段を備えていることを特徴とする(付記
1)記載の構造化文書符号化装置。
【0116】この装置では、長さが長く、繰り返しも殆
どないような文字列を圧縮の対象から外すので、処理速
度の低下を防げる。
【0117】(付記9) 構造化文書の中で、外部の文
書型定義ファイルを参照する指定がある場合には、属性
名、要素内容等の置き換え処理で生成された圧縮構造化
文書を一度、構文解析ソフトに適用して、同文書の構造
が該文書型定義に合致することを検証した上で、該文書
型定義の指定を該圧縮文書から外す第9の処理手段を備
えていることを特徴とする(付記1)記載の構造化文書
符号化装置。
【0118】この装置では、外部参照を外すので、ディ
スクのアクセス時間やネットワークのトラフィックを節
減することができる。
【0119】(付記10) 構造化文書の終了タグと開
始タグとに挟まれた空白記号(CR、LF、SP、TA
B等)を除去する第10の処理手段を備えていることを
特徴とする(付記1)記載の構造化文書符号化装置。
【0120】この装置では、空白記号を除去するので、
DOMの木構造から空白記号(CR、LF、SP、TA
B等)に該当する節点を省くことができ、木構造の探索
時間やメモリ容量を節減できる。
【0121】
【発明の効果】以上説明したように、本発明によれば次
のような効果がある。
【0122】(1) :従来例に比べ、要素内容、属性名に
ついて有効な圧縮率が得られる。このため、本発明によ
る変換XML文書を用いて、XML処理時間を短縮する
ことができる。
【0123】(2) :空白記号が除去されるため、DOM
木における余分な節点がなくなり、処理速度が向上す
る。また、動作記憶容量も軽減する。
【0124】(3) :外部セブセットを外すため、同ファ
イルが同じディスク上にあった場合は、アクセス時間が
なくなり、また、ネットワーク上にあった場合は、ネッ
トワーク上のトラフィックを軽減できる。
【0125】(4) :請求項1、5では、該当する要素名
に、属性名、かつ/または、要素内容文字列の対応表を
作成し、この対応表を用いて符号化するので、対象とな
る文字列の種類が限られ、より短い符号で表現できる。
また、要素名を一体一で短い符号に置き換えるので、既
存の応用ソフトに対して変更を要求することなく処理が
可能となり、透過性を維持できる。
【0126】(5) :請求項2では、高頻度の部分文字列
を短い符号に置き換えるので、文書全体の圧縮率を向上
させることができる。
【0127】(6) :請求項3では、数値データのように
圧縮しにくく、また、符号でなく直接数値で参照した方
がよいデータは、予め圧縮しない指定を設けるので、検
索速度を向上できる。
【0128】(7) :請求項4では、識別文字と同じ要素
名、或いは属性名の先頭に含まれることがある場合は、
同構造化文書における全ての要素名、或いは属性名を識
別文字で始まる符号に置き換えるので、要素名、属性名
に予め識別文字と同じ文字が含まれていた場合でも、混
乱を防止することができる。
【図面の簡単な説明】
【図1】本発明の原理説明図であり、(1) 図は文書の各
要素名、属性名、要素内容を集計した対応表を作成する
場合の説明図、(2) 図はXML文書の要素名の短縮変換
の説明図である。
【図2】本発明の実施の形態における要素毎の対応表で
あり、(1) 図はXMLデータの例、(2) 図は各要素毎に
要素内容、属性に関して独自の対応表を持つ場合を示
す。
【図3】本発明の実施の形態における高頻度文字列の符
号化を示す図であり、(1) 図は要素「住所」の要素内容
を集計、(2) 図は部分文字列「神奈川県厚木市」までの
出現頻度が所定の閾値(100)以上であると確認、
(3) 図は「神奈川県厚木市」だけ「 A」と符号化、
(4) 図は識別文字(1バイト)の利用を示す。
【図4】本発明の実施の形態における要素名の符号化に
よる各対応表の番号付けを示す図であり、(1) 図は要素
名の符号化並びに番号付け、(2) 図は各対応表の番号の
付け方、(3) 図は番号で参照できる各対応表を示す。
【図5】本発明の実施の形態における各手段の説明(そ
の1)であり、A図は符号化しない要素内容を告知する
手段、B図は要素内容で識別符号と同じ文字を避ける手
段を示す。
【図6】本発明の実施の形態における各手段の説明(そ
の2)であり、A図は要素名、属性名で識別符号と同じ
文字を避ける手段、B図は閾値以上の文字数の要素内容
は符号化しない手段、C図はタグ間の空白記号を除去し
てDOM木から余分な登録を除く手段を示す。
【図7】本発明の実施の形態におけるDTDの外部サブ
セットの廃止を示す図である。
【図8】本発明の実施の形態における対応表作成処理フ
ローチャートである。
【図9】本発明の実施の形態における変換処理フローチ
ャートである。
【図10】本発明の実施の形態における本発明と先の発
明の共通の応用ソフトでの利用例であり、(1) 図は利用
例1:タグ検索、(2) 図は利用例2:XML→XML/
HTML変換、(3) 図は利用例3:XML文書の更新を
示す。
【図11】本発明の実施の形態におけるXML用語の説
明であり、(1) 図はXML文書の構成部分、(2) 図は1
つの要素を表すタグの書き方、(3) 図は属性の書き方を
示す。
【図12】本発明の実施の形態におけるXMLプロセッ
サの処理と構造化文書の説明図であり、A図はXMLプ
ロセッサの処理説明図、B図は構造化文書の構成と処理
上の区分との関係を示す。
【図13】本発明の実施の形態におけるXMLの説明図
であり、A図はXMLの標準API、B図はXML文書
の資料データを示す。
【図14】本発明の実施の形態における資料データに対
するDOMを示した図である。
【図15】本発明の実施の形態における先の発明の処理
説明図であり、(a)図は文書の各要素名を集計した対応
表を作成、 (b)図はXML文書の要素名の短縮変換を示
す。
【符号の説明】
100 XML文書(サンプル) 101 要素集計手段 102 頻度表 103、104 変換手段 105 変換XML文書 106 対応表作成手段 107 対応表 108 変換手段(符号化手段)
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) G06F 17/30 230 G06F 17/30 230A Fターム(参考) 5B009 NA05 SA08 5B075 NR16 5B082 GA02 GA06

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】構造化文書において、属性名、かつ/また
    は、要素内容の文字列を、該当する要素名に関係付け
    て、より短い文字コードの文字列として符号化する構造
    化文書符号化装置であって、 前記属性名、かつ/または、要素内容の文字列を、該当
    する要素名毎に対応表を作成し、該対応表を用いて符号
    化する第1の処理手段と、 前記第1の処理手段による符号化を適用すると同時に、
    要素名だけを集めて集計し、要素名も、より短い文字コ
    ードの文字列として符号化する第2の処理手段を備えて
    いることを特徴とする構造化文書符号化装置。
  2. 【請求項2】所定の高頻度の文字列についてのみ前記対
    応表を作成し、元の構造化文書中で、識別文字を付して
    高頻度文字列の符号を識別するようにし、高頻度文字列
    のみ符号化する第3の処理手段を備えていることを特徴
    とする請求項1記載の構造化文書符号化装置。
  3. 【請求項3】前記要素内容は符号化しない旨の識別符号
    の文字を、前記要素名に付加して要素内容の符号化/非
    符号化を区別し識別する第4の処理手段を備えているこ
    とを特徴とする請求項1記載の構造化文書符号化装置。
  4. 【請求項4】前記識別文字と同じ要素名、或いは属性名
    の先頭に含まれることがある場合は、同構造化文書にお
    ける全ての要素名、或いは属性名を前記識別文字で始ま
    る符号に置き換える第5の処理手段を備えていることを
    特徴とする請求項2記載の構造化文書符号化装置。
  5. 【請求項5】コンピュータに、 前記属性名、かつ/または、要素内容の文字列を、該当
    する要素名毎に対応表を作成し、該対応表を用いて符号
    化する第1の処理手段と、 前記第1の処理手段による符号化を適用すると同時に、
    要素名だけを集めて集計し、要素名も、より短い文字コ
    ードの文字列として符号化する第2の処理手段の機能を
    実現させるためのプログラムを記録したコンピュータ読
    み取り可能な記録媒体。
JP2001094920A 2001-03-29 2001-03-29 構造化文書符号化装置及び記録媒体 Withdrawn JP2002297568A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001094920A JP2002297568A (ja) 2001-03-29 2001-03-29 構造化文書符号化装置及び記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001094920A JP2002297568A (ja) 2001-03-29 2001-03-29 構造化文書符号化装置及び記録媒体

Publications (1)

Publication Number Publication Date
JP2002297568A true JP2002297568A (ja) 2002-10-11

Family

ID=18949049

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001094920A Withdrawn JP2002297568A (ja) 2001-03-29 2001-03-29 構造化文書符号化装置及び記録媒体

Country Status (1)

Country Link
JP (1) JP2002297568A (ja)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227579A (ja) * 2003-01-17 2004-08-12 Microsoft Corp Xmlコードをバイナリコードへ変換する方法およびシステム
WO2004079586A1 (ja) * 2003-03-07 2004-09-16 Sharp Kabushiki Kaisha マークアップ言語の処理を最適に行なうことのできるデータ変換方法
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
JP2006154993A (ja) * 2004-11-26 2006-06-15 Fujitsu Ltd ウェブ画面作成方法、プログラム及びサーバ
JP2006221654A (ja) * 2005-02-11 2006-08-24 Fujitsu Ltd デリミタを減少させる方法及びシステム
JPWO2005101210A1 (ja) * 2004-04-09 2008-03-06 シャープ株式会社 データ解析装置およびデータ解析プログラム
WO2008126224A1 (ja) * 2007-03-29 2008-10-23 Fujitsu Limited 情報処理装置及び情報処理方法
JP2009037628A (ja) * 2008-09-05 2009-02-19 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2010152932A (ja) * 2010-03-31 2010-07-08 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2010152933A (ja) * 2010-03-31 2010-07-08 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2010152934A (ja) * 2010-03-31 2010-07-08 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP4845224B2 (ja) * 2005-12-14 2011-12-28 インターナショナル・ビジネス・マシーンズ・コーポレーション ポータルにおけるナビゲーション状態を効率的にシリアル化するための方法、システム、およびコンピュータ・プログラム
US8166073B2 (en) 2004-12-03 2012-04-24 Sharp Kabushiki Kaisha Information processing device, storage device and computer-readable medium for accepting description information of multi-media content including keywords and reference information indicative of duplicative occurrence of each keyword and retrieving location information in the content using the respective keywords and associated reference information
JP2016139309A (ja) * 2015-01-28 2016-08-04 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法
EP3193260A2 (en) 2016-01-13 2017-07-19 Fujitsu Limited Encoding program, encoding method, encoding device, decoding program, decoding method, and decoding device

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004227579A (ja) * 2003-01-17 2004-08-12 Microsoft Corp Xmlコードをバイナリコードへ変換する方法およびシステム
EP1610228A4 (en) * 2003-03-07 2009-07-29 Sharp Kk DATA CONVERSION METHOD FOR REALIZING MARKING LANGUAGE PROCESSING
WO2004079586A1 (ja) * 2003-03-07 2004-09-16 Sharp Kabushiki Kaisha マークアップ言語の処理を最適に行なうことのできるデータ変換方法
EP1610228A1 (en) * 2003-03-07 2005-12-28 Sharp Kabushiki Kaisha Data conversion method capable of optimally performing mark-up language processing
JP2005018672A (ja) * 2003-06-30 2005-01-20 Hitachi Ltd 構造化文書の圧縮方法
JPWO2005101210A1 (ja) * 2004-04-09 2008-03-06 シャープ株式会社 データ解析装置およびデータ解析プログラム
JP2006154993A (ja) * 2004-11-26 2006-06-15 Fujitsu Ltd ウェブ画面作成方法、プログラム及びサーバ
JP4553246B2 (ja) * 2004-11-26 2010-09-29 富士通株式会社 ウェブ画面作成方法、プログラム及びサーバ
US8266183B2 (en) 2004-12-03 2012-09-11 Sharp Kabushiki Kaisha Information processing device for selectively locating and reading description information of multi-media content divided into a time series at a first level that is further divided and correlated to a second level using a keyword/ID information and reference information representative of the keyword/ID
US8166073B2 (en) 2004-12-03 2012-04-24 Sharp Kabushiki Kaisha Information processing device, storage device and computer-readable medium for accepting description information of multi-media content including keywords and reference information indicative of duplicative occurrence of each keyword and retrieving location information in the content using the respective keywords and associated reference information
US8301663B2 (en) 2004-12-03 2012-10-30 Sharp Kabushiki Kaisha Information processing device for selectively locating and reading description information of multi-media content divided into a time series at a first level that is further divided and correlated to a second level using a keyword/ID information and reference information representative of the keyword/ID
US8301664B2 (en) 2004-12-03 2012-10-30 Sharp Kabushiki Kaisha Storage device for generating and storing description information of multi-media contents including keywords in which duplicative keywords are replaced by reference information, and a computer readable storage medium for causing a computer to function as the storage device and to locate selected keywords in said multi-media content
US8260819B2 (en) 2004-12-03 2012-09-04 Sharp Kabushiki Kaisha Information storage device for storing description information of multimedia content in the form of tree structure wherein the description information is generated using a keyword and ID information representative of the keyword as new leaves of the tree structure
US8244771B2 (en) 2004-12-03 2012-08-14 Sharp Kabushiki Kaisha Information processing device for accepting description information of multi-media content including keywords and reference information indicative of duplicative occurrence of each keyword and retrieving location information in the content using the respective keywords and associated reference information
JP2006221654A (ja) * 2005-02-11 2006-08-24 Fujitsu Ltd デリミタを減少させる方法及びシステム
JP4845224B2 (ja) * 2005-12-14 2011-12-28 インターナショナル・ビジネス・マシーンズ・コーポレーション ポータルにおけるナビゲーション状態を効率的にシリアル化するための方法、システム、およびコンピュータ・プログラム
US8301783B2 (en) 2005-12-14 2012-10-30 International Business Machines Corporation Method, system, and computer program product for efficiently serializing navigational state in a portal
WO2008126224A1 (ja) * 2007-03-29 2008-10-23 Fujitsu Limited 情報処理装置及び情報処理方法
JP2009037628A (ja) * 2008-09-05 2009-02-19 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2010152934A (ja) * 2010-03-31 2010-07-08 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2010152933A (ja) * 2010-03-31 2010-07-08 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2010152932A (ja) * 2010-03-31 2010-07-08 Sharp Corp 記憶装置およびコンピュータ読取り可能な記録媒体
JP2016139309A (ja) * 2015-01-28 2016-08-04 富士通株式会社 文字データ変換プログラム、文字データ変換装置および文字データ変換方法
EP3193260A2 (en) 2016-01-13 2017-07-19 Fujitsu Limited Encoding program, encoding method, encoding device, decoding program, decoding method, and decoding device

Similar Documents

Publication Publication Date Title
US7519903B2 (en) Converting a structured document using a hash value, and generating a new text element for a tree structure
RU2358311C2 (ru) Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml
JP2002297568A (ja) 構造化文書符号化装置及び記録媒体
US7496838B2 (en) Converting markup language files
JP2002099428A (ja) ハッシュコンパクトxmlパーサ
JPH08241332A (ja) 全文登録語検索装置および方法
MXPA04003187A (es) Separador de documentos que reconoce idioma.
RU2003134278A (ru) Способ и считываемый компьютером носитель для импорта и экспорта иерархически структурированных данных
US7318194B2 (en) Methods and apparatus for representing markup language data
EP1519279B1 (en) Document transformation system
CN105005472B (zh) 一种web上显示维吾尔文字的方法及装置
KR100584038B1 (ko) 큰 문자 세트 브라우저
US8805860B2 (en) Processing encoded data elements using an index stored in a file
JP2001067348A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
US20030121005A1 (en) Archiving and retrieving data objects
CN101617307B (zh) 编解码设备和方法
JP2008084341A (ja) 構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体
JP4382663B2 (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
CN113065086A (zh) 网页正文提取方法、装置、电子设备及存储介质
CN113139145A (zh) 页面生成方法、装置、电子设备及可读存储介质
JPH06290021A (ja) ソースプログラム圧縮方法
JPWO2005101210A1 (ja) データ解析装置およびデータ解析プログラム
JP3966086B2 (ja) 文書処理装置および方法
JP2002342342A (ja) 文書管理方法及びその実施システム並びにその処理プログラムと記録媒体
Mohammadzadeh et al. Using utf-8 to extract main content of right to left language web pages

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080603