JP2001243219A - 不完全な形式のhtml文書の記述構造 - Google Patents

不完全な形式のhtml文書の記述構造

Info

Publication number
JP2001243219A
JP2001243219A JP2000388793A JP2000388793A JP2001243219A JP 2001243219 A JP2001243219 A JP 2001243219A JP 2000388793 A JP2000388793 A JP 2000388793A JP 2000388793 A JP2000388793 A JP 2000388793A JP 2001243219 A JP2001243219 A JP 2001243219A
Authority
JP
Japan
Prior art keywords
html document
tree structure
code
elements
structure representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000388793A
Other languages
English (en)
Inventor
Benjamin Kelsey Julian
ベンジャミン ケルシー ジュリアン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of JP2001243219A publication Critical patent/JP2001243219A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/221Parsing markup language streams

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 (修正有) 【課題】 入力HTML文書を再構成し、正確なHTM
Lにする方法を開示する。 【解決手段】入力HTML文書から階層ツリー構造表現
を作成し、ツリー構造表現内の要素のための現在の挿入
位置を保持する。走査中、正確なHTMLに違反する入
力HTML文書の要素(208)を識別し、各要素は、
次に、最初に現在挿入位置からツリー構造を逆戻りする
ことにより個別に処理され、識別された要素が従属する
ことができる更なる挿入位置を識別する。続いて、ツリ
ー構造表現の更なる挿入位置において、新しい要素を作
成し、逆戻り中に通過したこれらの新要素に対応する。
新しい要素は、逆戻り中に出会った要素に対して逆順で
作成し、識別された要素は、次に、新しい要素の末尾の
1つに追加される。こうして、ツリー構造表現は、出力
HTML文書に変換する。

Description

【発明の詳細な説明】
【0001】
【著作権に関して】本特許明細書は、著作権保護を受け
る資料を含む。著作権者は、審査の目的で関連する特許
庁のファイルから本特許明細書又は関係資料を複製する
ことに異議はないが、それ以外では全ての著作権を所有
する。
【0002】
【発明の属する技術分野】本発明は電子文書内の構造化
に関し、特にマークアップ言語などのコンピュータ言語
内の構造化形式及びそれらから形成される文書に関す
る。
【0003】
【従来の技術】コンピュータ符号化の分野は、多様な符
号化方式及びプログラム方式を取り扱っているが、それ
らの方式の全てが特定の符号化方式を規定するある種の
規則を取り入れており、結果を得るためには、通常、そ
のような方式のユーザは、方式を固守する必要がある。
例えば、パスカル言語でプログラミングを行なう人は、
パスカル言語のプログラムを動作させるためには、コー
ドが適正なパスカル構文に一致することを確実にする必
要がある。コードが構文に従っていない場合、プログラ
ムのコンパイル時に「構文誤り」が発生する。
【0004】高度構造化言語でのプログラミングとは対
照的に、最近ではいわゆる「マークアップ言語」を使用
して文書の変更又は作成を行なうのが一般的になってき
ており、文書の内容がある特定の環境において、通常、
表示画面又はプリンタ上で提示される機構を提供する。
この一例としてはHTML(Hypertext Mark-up Langua
ge)があり、別の例としてはXML(Extended Mark-up
Language)がある。このようなマークアップ言語の目
的は、作成者の望むように内容が表示又は提示されるよ
うに、表示又は提示したい内容に対して付加的な表記法
を提供することである。
【0005】HTML文書形式は、インターネット及び
WWW(World Wide Web)において広く普及している。
実際、HTMLのマーク付けで構築される文書は、文書
作成時に機能する特定の国際的に認められたHTML標
準に従っていないという点で誤っていることが多い。本
特許明細書の作成時点での最新のHTML標準は、htt
p://www.w3c.org及びhttp://www.w3c.org/TR/REC-htm14
0/で得ることができるだろう。
【0006】HTML文書の現在の標準は、そのような
文書がツリーとして表現されることを要求している。ツ
リーのような構造では、文書の各要素は別の要素に完全
に含まれることが要求されるので、要素同士は重なって
はいけない。表面的にHTMLに類似するが、実際は、
HTML標準により設定されたツリー状階層構造に違反
する文書を生成し易いことは、多くの経験から明らかで
ある。さらに、そのような誤った文書を人間が解釈すれ
ば曖昧性を解決できる可能性が高いが、現在の標準に従
った場合の意味をなすことと、HTML文書の作成者が
実際に意図していることには不一致が生じることが多
い。
【0007】HTMLを読込むコンピュータアプリケー
ションは、そのような問題に数多くの異なった方法で取
り組んでいる。アプリケーションには、不正なHTML
構造を受け付けず、内容を省くか又は非直観的な方法で
内容を表現するものもある。その例として、「OPER
A」やより配布数の少ないインターネットブラウザが数
多くあり、より正確な挙動により一部のユーザに支持さ
れている。その他のアプリケーションでは、HTMLソ
ースに厳密な誤りが含まれているにもかかわらず、ユー
ザが意図しそうなことに合わせようと試みている。これ
らの例として、Microsoft Corporationの「Internet Ex
plorer」(商標)、Netscape Corporationの「Netscape
Navigator」(商標)及びCanon Inc.の「WebRecord」
(商標)がある。Internet Explorer及びNetscape Navi
gatorが、厳密なHTMLからの変化をどのように扱う
のかを判定するためにかなり努力したにもかかわらず、
本発明者等は、これらの製品が曖昧なHTML又は誤っ
たHTMLを明白に解決する方法を判定することができ
なかった。
【0008】このようにHTML標準に従わないことに
より生じる重大な問題は、HTML文書と対話するその
他の言語及びツールが存在することであり、例えば、J
AVA(登録商標)スクリプトのようなスクリプト言語
及びCSS2(カスケードスタイルシート2)のような
書式付け言語がある。このようなツールは、HTML文
書に正確なツリー構造があることを予期していて、その
結果、不完全に形成されたHTML文書を解釈する際に
は規定された挙動を行なわないことが多い。従って、作
成結果を保証することができない。
【0009】
【課題を解決するための手段】本発明の目的は、既存の
構成の1つ以上の問題点をほぼ解決するか又は少なくと
も改善することである。
【0010】本発明の第1の面によれば、入力HTML
文書を正確なHTMLとなるように再構成する方法であ
って、(a) 階層ツリー構造表現を作成するために、前
記入力HTML文書を直線的に走査し、前記走査では、
前記ツリー構造表現における要素のための現在の挿入位
置を保持し、(b) 前記走査の間、前記入力HTML文
書において正確なHTMLに違反する要素を識別し、前
記識別された要素の各々に対し、(b)(i) 前記現在の挿
入位置から前記ツリー構造を逆戻りし、前記識別された
要素が従属することができる更なる挿入位置を識別し、
前記逆戻りでは、前記逆戻り中に通過した前記識別され
た要素の各親要素を記録し、(b)(ii) 前記逆戻り中に
通過したこれらの前記親要素に対応する前記ツリー構造
表現の前記更なる挿入位置において新しい要素を作成
し、前記新しい要素を前記逆戻り中に出会った順とは逆
順で作成し、(b)(iii) 前記識別された要素を前記新し
い要素の末尾の1つに追加し、(c) 前記ツリー構造表
現を出力HTML文書に変換することを含む方法が提供
される。
【0011】本発明の別の面であって、前記方法を実現
する装置が提供される。本発明のさらに別の面におい
て、上記方法を実現するためのコンピュータプログラム
を記録したコンピュータ可読媒体を含むコンピュータプ
ログラム製品が提供される。本発明のその他の面も開示
されている。
【0012】
【発明の実施の形態】次に本発明の複数の実施形態に関
し、図面を参照しながら説明する。
【0013】以下に記載する好適な実施形態は、該し
て、コンピュータネットワークのブラウジングアプリケ
ーションへ適用される。しかしながら、説明の簡略化の
ために、好適な実施形態は、HTML、及び、WWW
(World Wide Web)及びこれに適用可能な規格上で機能
するブラウザに関して説明する。しかしながら、本発明
は記載された方法のみに限定されるものではない。例え
ば、本発明は、XMLアプリケーションに対する誤り訂
正及びデータ修復のような、他の規格環境において適用
してもよい。
【0014】本実施形態について説明する前に、対象と
する規格の問題について説明する。例えば、HTML中
の要素は、開始タグ及び終了タグを有する。正確なHT
MLの文法によれば、太字テキストからなる2つの段落
を有する文書は、以下のコードAで示した様式で表現さ
れ得る。
【0015】コードA <BODY> <P><B>The first paragraph.</B></P> <P><B>The second paragraph.</B></P> </BODY> コードAは、コードの要素である本文(body)に関する
識別子で始まり、段落の開始を示す第1のサブタグPが
続く。このタグには、サブタグBが続く。このタグは、
これに続く要素について、太字機能に有効に「スイッ
チ」する。コードAでは次に、文書の第1の段落のテキ
スト内容が記述されており、この内容は太字を解除する
スイッチ及び段落を終了するスイッチで締めくくられ
る。第2の段落も段落開始タグを用いることで始まり、
太字へスイッチするタグが続いている。第2の段落のテ
キストが続いた後、太字を解除するタグ及び段落の終了
タグが来る。その後、本文は適切な様式で終了する。
【0016】コードAでは正確なHTMLが記述されて
いるが、HTML規格ではショートカットや省略形を許
容している。コードAは、以下のコードBにより次に示
されるように略記することもできる。
【0017】コードB <BODY> <P><B>The first paragraph.</B> <P><B>The second paragraph.</B> </BODY> コードBでは、各段落の終了タグが省略されているのが
わかる。これがHTMLにおいて許されているのは、第
1の段落の場合、段落開始タグが続くからである。HT
MLは、段落のネスティングを許容しないので、新しい
段落の開始は、前の段落の終了を要求するものとして直
ちに解決される。本文の終了に関しても同様である。
【0018】HTMLの記述における一般的な誤りは、
正確な解釈では要求される必要なタグを省略してしまう
ことである。この例をコードCで示す。コードCでは、
第1の段落における太字の解除タグ及び第2の段落にお
ける太字のタグが省略されている。このような変則が生
じるのは、多くの作成者がこの構文は、太字が第2の段
落まで及ぶことを意味しているものと考えてしまうため
である。
【0019】コードC <BODY> <P><B>The first paragraph. <P>The second paragraph. </BODY> 上記コードCで表わされる状況では、1つの要素(この
場合、太字)が2つの親を共有するという不可能な状況
になる。この場合、太字の要素は、第1の段落で開始
し、第2の段落で終了する。この解釈は、太字の要素の
親として、両方の段落要素をもっている。
【0020】HTMLにおける1つの段落を別の段落内
にネストすることはできないので、新しい段落の開始に
より前の段落は終了し、第1の段落の子である要素は全
て終了させる必要がある。
【0021】以下のコードDのように、HTML文書に
おいて生じ得る同様な別の誤りもある。
【0022】コードD <BODY> <P><B>The first paragraph.</P> <P>The second paragraph. </BODY> コードDの場合、第1の段落の終了は明示されている
が、太字の要素の終了は未だ曖昧である。
【0023】本実施形態及び上述した例によれば、上述
したHTMLの文法の誤りは、第2の段落の開始により
終了する全ての要素をノートすること、及び、第1の段
落中の初めの要素へリンクバックする子ノード(すなわ
ち、HTMLに直接割当てられていない特別なノード)
を第2の段落中に作成すること、により解決される。コ
ードDの場合、第1の段落の終了が明示されているの
で、本実施形態では、次の適切な包含要素へのリンクバ
ックを作成するための命令として、太字の要素の予定さ
れていない終了を用いる。
【0024】図1は、上述したコードAの正確なHTM
Lのツリー構造を示す。図1において、本文(body)1
02は、HTML文書を形成する表現ツリーのルートノ
ードである。第1の段落104は、第1の子ノードとし
て記述され、そこから太字スイッチ106が従属し、第
1の段落のテキスト108が続く。同様に、第2の段落
は、第2の子110として記述され、対応する太字スイ
ッチ112及び対応する第2の段落のテキスト114が
それに続く。ツリー100のHTML走査において、走
査は、ルートノード102で開始し、次に第1の分岐に
沿って第1の子104まで進む。ツリー100の第1の
分岐の終了の要素まで進むためには、テキスト108に
対して作用する太字のスイッチ106を通過する必要が
ある。第2の分岐を処理するためには、ルートノード1
02を中継して第2の子ノード110に至る前に、処理
は第1の分岐に沿って逆戻りし、太字106を解除し、
第1の段落104を終了する必要がある。
【0025】コードCの誤った表現において、対応する
ツリーは、テキスト108が太字106を通過せずに段
落104まで直接戻る点で不完全である。正確なHTM
Lの解釈及び限定的な誤り訂正の実行のもとでは、この
ような表現は、第2の段落を太字ではなく普通の形式で
表示するであろう。この例において、本実施形態により
与えられる1つの解決策は、正しいHTMLの解釈が行
われるように、第1の太字スイッチ106へ戻るリンク
120を、第2の太字スイッチ112に対して与えるた
めに、誤りの形式を認識することにある。しかしなが
ら、そのようなリンクに対するHTML規格の表現はな
い。代わりに、それを補う親ノードから所望の構造がコ
ピーされる。
【0026】これらの問題に対応するために、好適な実
施形態では、HTML文書を直線的に読み出し、そのH
TML文書のツリー構造を再構成する。具体的に言う
と、そのような再構成において、ノード中の各タグはツ
リーに対して、例えば、ノードの開始又は終了のような
何かを行なう。各ノードは、1つ前のノードの子として
作成される。誤りは、段落内のネスティングが不完全な
場合に生じる。1つの解決法は、ツリーを走査し、新し
いノードを作成すると共に、何が走査されたかを記憶し
て、残りのノードを訂正するためにツリーをトレースバ
ックすることができるようにすることである。そのよう
な整理の結果として、図1に示すように、誤ったHTM
Lは、第2の太字スイッチ112から第1の太字スイッ
チ106に戻る直感的なリンク120を作成することに
より訂正され得る。
【0027】上述のコードCの誤ったコードに関して、
そのような解決策の具体的な例が、図2Aから図2Fに
示されている。また、この例は、図4Aから図4Dのフ
ローチャートに示す方法400を参照して説明する。
【0028】図2Aは、図4Aのステップ402に対応
するツリー構造の始端を示している。ステップ402で
は、タグ「body」により識別されるルートノード200
から成る最小のツリーが形成されている。ステップ40
2でルートノード200と結合しているのは、子ノード
が従属する位置を示す挿入位置202である。ツリー構
造の作成は、新しい要素のストリームを供給するHTM
Lパーサなどの処理により起動する。ここでの新しい要
素とは、入力ストリームからのタグに対応したツリーに
追加され得る新しいノードである。これらは、開始タグ
及び終了タグを含むことができるが、テキストは、上述
した目的のための開始タグとしてとして機能する。
【0029】方法400における次のステップ404
は、次の、又は、新しい要素(NE)の取得であり、続
くステップ406では、その要素をツリーへ挿入する処
理を見越して、再現リスト(RL)は空にされる。続く
ステップ408は、処理中のものが「終了タグ」かどう
かを判定するためのテストを行なう。これは、HTML
コードから直接判定される。コードCは、ここでは開始
タグ<P>を含んでいるので、ステップ408は「N
o」を返す。制御は、次に、図4Cのステップ412に
進む。
【0030】ステップ412は、開始タグとツリーの挿
入位置(IP)202とを一致させる挿入規則を判定す
るプロセスを開始する。プロセスは、挿入位置202が
新しい要素にとって適しているかどうかの判定を行なう
ステップ414を含む。コードCにおいては、新しい要
素は、本文ノード200に追加するのに適していると判
定される段落であるので、ステップ414は成立する。
次に、ステップ416では、段落204は挿入位置20
2における子ノードとしてツリーに追加される。これ
は、図2Bにおいて明らかである。次に、ステップ41
8(図4C)では、挿入されたばかりの新しい要素(す
なわち、段落204)が挿入位置において使用されるの
が適しているかどうかを判定する。適している場合、段
落204の場合と同様にステップ420が実行され、挿
入位置206は、新しい要素(すなわち、段落204)
を参照するように設定される。新しい要素が、挿入位置
として適していない場合、ステップ420を通らず、制
御は図4Bのステップ428に進む。ステップ428
は、再現リスト中の参照をもとにして挿入位置206の
下にリンクバックノードを作成し、この前の新しいノー
ドを現在の挿入位置とする。制御は続いてステップ40
4に戻り、次の要素を取得する。
【0031】図2Cも同様に続き、太字スイッチに対応
する次のノード208は、第1の子ノード204に追加
され、新しい挿入位置210が作成される。
【0032】図2Dは、第1の段落のテキスト212の
包含及びそのテキストが挿入位置210に従属している
ことを示す。なお、図2Dにおいて、挿入位置210が
太字ノード208に従属したままであるのは、HTML
規則のもとでは、テキストは他のタグ(ツリー中の追加
ノード)の容器として考えることはできないからであ
る。この点に関し、テキストは、内容を表現する様態を
マークアップするものとは対照的に、文書の具体的な内
容である。この点に関し、上述の図4A及び図4Cの方
法ステップが、ステップ418に到達するまで再度たど
られ、「No」が返される。続いて、ステップ428で
は、段落が挿入位置として適していないため、太字ノー
ド208を現在の挿入位置210として保持する。
【0033】制御は、再度ステップ404及びステップ
406に戻り、コードCの更なる構文解析により第2の
段落用の開始タグが現れる。コードCの第2の段落が、
現在の挿入位置210に追加されたとすると、段落を相
互にネストさせることができないHTMLに違反するこ
とになる。本実施形態では、挿入位置210は、新しい
段落を追加可能な位置までツリーを逆戻りする。具体的
にいうと、ステップ460(図4D)とステップ412
(図4C)との間のループ内で生じるトレースバックに
おいては、太字ノード208が再現されることになって
おり、それは後述のステップ448及びステップ450
の操作の結果として起こるということに留意すべきであ
る。挿入位置は、次に段落204まで進む。走査は、続
いてルートノード200に戻り、新しい段落をルートノ
ードに追加してもよいと判定される(すなわち、ステッ
プ412及びステップ414)。ルートノード200に
追加される段落214の作成とともに、第2の段落の作
成に対する新しい命令が図2Eに示されている(すなわ
ち、ステップ416)。新しい挿入位置216が作成さ
れる(すなわち、ステップ419及びステップ42
0)。
【0034】記載した各例に関する種々の訂正は、表形
式で以下のように要約することもできる。表中、括弧内
の数字は、関係する判定が行なわれる方法400中のス
テップを表わす。
【0035】
【表1】
【0036】
【表2】
【0037】各HTMLタグを各別のHTMLタグに関
連付けることを要求する更なる規則を開発してもよい
が、この規則は特定のアプリケーションにとって必要と
される修正機能を実行するために作用する。それが適正
であるか又は必要とされれば、規則を複数のグループに
分類し、いかなる例外も記録するようにしてもよい。
【0038】このプロセスは、ステップ408、412
及び414を介して起こる。ステップ414は「No」
を返すが、それはある段落は他の段落の子にはなれない
からである。ステップ421(図4C)が次に実行さ
れ、新しい要素が破棄されるかどうかを判定する。破棄
は、テキスト及び関連タグが表及び制御の具合の悪い箇
所にある少数の例において起こる。例えば、BOLD及
びITALICのようなタグは、テキストの内容にのみ
関係があり、表などの他の内容には関係がない。本例で
は、新しい要素は破棄されず、ステップ422が続き、
挿入位置により識別される現在のノードの親ノードがテ
ストされる。本例のように親が有効の場合、ステップ4
48のテストが次に行われる。本例では、上記の規則表
は、親が保存される可能性のあることを示している。ス
テップ450は、続いて挿入位置210への参照を再現
リストに追加する。ステップ452は、ツリーの頂上に
到達したかどうかを判定する。本例の場合は、これには
あてはまらないので、続くステップ454では、ノード
の親(すなわち、図2Dの段落204)に新しい挿入位
置を作成する。これらのステップは、挿入位置がルート
ノード、すなわち、この場合では本文ノード200に逆
戻りするまで繰り返される。そうなると、ステップ41
4は、挿入位置が新しい要素に適していると判定するこ
とができ、前回同様、第2の段落214は、本体ノード
に追加され、挿入位置は216に更新されて、図2Eの
構成となる。
【0039】処理の次のステップは、新しい命令が追加
されるのに先立って、ツリーの第1の分岐において通過
した要素の各々を再現することである。結果は図2Fに
示されるが、ここで段落214に追加されるのは、ツリ
ーの第1の分岐で走査した太字要素208に対応する太
字要素218である。挿入位置は、第2の段落のテキス
ト220が追加される位置である太字222へと更新さ
れる。
【0040】このプロセスは、再度フローチャートを参
照することにより理解されるだろう。フローチャートで
は、コードCの更なる構文解析により第2の段落のテキ
スト内容が次の要素であることが示されている。ステッ
プ404、408及び412は、コードCの更なる構文
解析に基づいて行われるが、この場合においてもテキス
トは開始タグとして解釈する。前回同様、ステップ41
4、416及び418が続く。再現リストに保存された
挿入位置が、太字210に追加されたままの場合(上述
のステップ450から)、ステップ420が次に行わ
れ、ステップ428が続く。ステップ428において
は、リンクバックノード218が再現リストより確立さ
れ、既存の挿入位置216に従属する。ノード218
は、図2Fに示すリンク224を形成する。リンクは太
字ノード208を指し示すので、リンクバックノード2
18は太字ノードとして動作する。これは、挿入位置が
更新されて、ステップ428に従ってリンクバックノー
ド218と結合する位置222になることを規定してい
る。
【0041】コードCを更に構文解析すると終了タグ<
/BODY>が現れるので、ステップ408の次にはス
テップ424が続く。この場合、終了タグは本文に関係
し、第2の段落に結びついた挿入位置を終了させる訳で
はない。従って、ステップ430が続き、タグと挿入位
置とを一致させる終了規則を判定する。ステップ432
は、終了タグを無視する規則を提示する。表のノード
は、このように終了タグを吸収する場合がしばしばあ
り、このことは終了タグの適用範囲を制限するが、HT
MLの幾分か偶発的な発展から生じる歴史的及び/又は
任意の理由により行われる。
【0042】本例においては、このようなことは適正で
はなく、親ノードが保存されるステップ434が続く。
これは実行が可能であるので、ステップ436は、挿入
位置に参照を追加する。ステップ438は、挿入位置が
本文ノード200まで逆戻りする原因となり、ツリーの
頂上に到達すると、ステップ440が実行され、終了タ
グの破棄という結果になる。これは、内容を本文タグの
末尾の後にもってきて、故意に間違えるようなことをし
た場合でも、終了タグの後の内容はまだ追加することが
できるということを意味する。好適な実施形態では、追
加のノードが、例えば、単に元のノードよりコピーされ
たような同種の他のノードであるよりは、元のノードに
リンクバックすることの方が重要である。その理由は、
言語により情報とHTML文書の構造に従ったノードと
を結び付けることは可能であり、それはコードのセクシ
ョンをコピーする「粗暴な」方法よりも簡潔で計算上融
通性の高い解決法であるからである。ここで、以下のコ
ードEは、親の第1の子である段落の子の太字要素の色
を設定するCSS2コードの構成要素を取り入れてい
る。
【0043】 Code E <HEAD> <STYLE> } P:first-child B{color:red} } CSS2 code </STYLE> } <BODY> <P><B>The first paragraph. <P>The second paragraph. </BODY> コードEの目的と認識されるのは、段落を赤色で色付け
することである。誤ったHTMLにより表現されている
ものとして、このようなコードで通例予期される挙動
は、第2の段落も赤で色付けされることである。本実施
形態による構造上の訂正が、完全に独立した太字要素を
第2の段落中に置くことと同等であった場合、その第2
の太字要素は、赤色を適用した規則のセレクタと一致し
なかったであろう。このような表現を実現する好適な方
法は、走査を進めるのと並行して表現ツリーを構成する
元のHTMLソース文書を読み進めることである。ツリ
ーに対する現在の挿入位置の概念は、ツリーが形成され
る際に保持されている。ツリーの入力は、2種類の命令
に分けられるが、1つは、新しいノードを作成する命令
であり(新しい要素タグ又はテキスト内容のため)、も
う1つは、終了タグが存在するためであるが、ノードを
終了させる命令である。新しい要素のツリーへの追加を
試みた場合、その新しい要素は検査され、現在の挿入位
置においてネストが許される種類であるかどうかを判定
する。新しい要素が許容される場合、その新しい要素は
ツリーに追加され、その要素がツリー中で常に葉ノード
である必要がある種類でない限り、新しい挿入位置が作
成される。現在の挿入位置に新しい要素を追加すること
が許容されない場合、本実施形態では、新しいノードに
おけるリンクバックノードとして再現されることが必要
な親ノードを記録しながら、親ノードを通って引き返
す。許容される親ノードが識別される場合、新しい要素
ノードが作成され、リンクバックノードが新しい要素ノ
ードに追加される。終了タグに出会った場合、リンクバ
ックする必要があるノードを順番に記録しながら、挿入
位置から祖先を通って逆方向にツリーを走査する。これ
は、要素が終了を必要とすると識別されるまで進められ
る。今度は、終了させられた要素の親が、新しいリンク
バックノードが追加される新しい挿入位置になる。各リ
ンクバックノードが作成されると、そのノード自体が挿
入位置になる。従って、複数のリンクバックノードがあ
れば、その各々は明らかに先行するリンクバックの子と
して作成されるだろう。
【0044】上述のコードEに示すCSS2コード及び
図2Aから図2Fに記述された方法のステップに戻って
説明すると、CSS2情報を適正に処理するためには、
選択可能な2つの方法がある。第1の方法は、全てのC
SS2情報を取得するためにツリー上の第1のパスを行
なうことであり、CSS2情報を取得するために追加文
書の取得を必要とする。ノードが配置される度にCSS
情報が当てはまるかどうかに関してチェックを行なって
判定することができ、当てはまる場合はノードに当ては
められるように、この情報はメモリ上に保存される。し
かしながら、このような方法は、動的HTMLの場合、
効果がない。これに対する解決法は、もう1つの方法で
あり、その方法において、図2Fに記述されるステップ
のように、第2の太字ノード218と元の太字ノード2
08との間でリンクバックするベクトルが形成される。
リンクは、CSS情報が元のノードからコピーすること
ができるように元のノードから作成されるが、図2Fに
おいて、リンク224として示される。
【0045】図2Aから図2Fの再構成の方法及び本明
細書で全般的に記述される方法は、図3に示されるよう
な従来の汎用コンピュータシステム300を用いて実施
されるのが好ましい。このようなシステムでは、再構成
のプロセスはコンピュータシステム300内で実行され
るアプリケーションプログラムなどのソフトウェアとし
て実現される。特に、再構成の方法のステップは、コン
ピュータにより実行されるソフトウェア中の命令により
達成される。ソフトウェアは、再構成の方法を実行する
部分と、コンピュータとユーザとのユーザインタフェー
スを管理する部分の2つの別々の部分に分割してもよ
い。ソフトウェアは、例えば、以下に記載の記憶装置を
含むコンピュータ読み取り可能な媒体に格納してもよ
い。ソフトウェアは、コンピュータ読み取り可能な媒体
からコンピュータにロードされ、コンピュータにより実
行される。そのようなソフトウェア又はコンピュータプ
ログラムが記録されたコンピュータ読み取り可能な媒体
は、コンピュータプログラム製品である。コンピュータ
におけるコンピュータプログラム製品の使用は、本発明
の実施形態によるHTML文書を再構成するのに好都合
な装置を達成する。
【0046】コンピュータシステム300は、コンピュ
ータモジュール301、キーボード302及びマウス3
03などの入力装置、プリンタ315及び表示装置31
4などを含む出力装置を備える。変復調器(モデム)ト
ランシーバ装置316は、例えば、電話回線321又は
その他の機能媒体を介して接続可能な通信網320と通
信を行なうためにコンピュータモジュール301により
使用される。モデム316は、インターネット及び構内
通信網(LAN)又は広域網(WAN)などのその他の
ネットワークシステムへのアクセスを得るために使用す
ることができる。
【0047】コンピュータモジュール301は、通常、
少なくとも1つの処理ユニット305、例えば、半導体
のランダムアクセスメモリ(RAM)及び読出し専用記
憶素子(ROM)などから形成したメモリユニット30
6、ビデオインタフェース307ならびにキーボード3
02、マウス303、及びオプションとしてジョイステ
ィック(不図示)用の入出力インタフェース313を含
む入出力インタフェース及びモデム316用のインタフ
ェース308を含む。記憶装置309も提供され、通
常、ハードディスク装置310、フロッピー(登録商
標)ディスク装置311を含む。磁気テープ装置(不図
示)も使用してよい。CR−ROM装置312は、通
常、不揮発性データ源として設けられる。コンピュータ
モジュール301の構成要素305から313は、通
常、相互接続バス204を介し、当業者に公知のコンピ
ュータシステム300の従来型の動作モードと結果的に
同じ様式で通信を行なう。実施形態を実施することが可
能なコンピュータの例としてIBMのPC及び互換機、
Sun Sparcstation又はそこから派生する同様のコンピュ
ータシステムがあげられる。
【0048】通常、本実施形態のアプリケーションプロ
グラムは、ハードディスク装置310に常駐しており、
実行時にプロセッサ305により読み出され、制御され
る。プログラムの中間記憶領域及びネットワーク320
から取得したいかなるデータも半導体メモリ306を用
いて、あるいはハードディスク装置310とともに用い
て達成してもよい。好適な実施形態によるツリーの再構
成は、メモリ306中で行なってもよい。幾つかの例に
おいては、アプリケーションプログラムは、CD−RO
M又はフロッピーディスクに記録してユーザに供給し、
対応する装置312又は311を介して読み出すか、あ
るいはモデム装置316を介してユーザがネットワーク
320から読み出してもよい。さらに、ソフトウェア
は、磁気テープと、ROM又は集積回路と、光磁気ディ
スクと、コンピュータモジュール301と別の装置との
間の無線又は赤外線の伝送チャネルと、PCMCIAカ
ードなどのコンピュータ読み取り可能なカードと、電子
メール伝送及びウェブサイト上などで記録された情報を
含むインターネット及びイントラネットとを含むその他
のコンピュータ読み取り可能な媒体からコンピュータシ
ステム300にロードすることも可能である。これまで
の説明は、関連するコンピュータ読み取り可能な媒体の
ただの例示である。その他のコンピュータ読み取り可能
な媒体も、本発明の趣旨から逸脱することなく実施する
ことができる。
【0049】上述の再構成の方法は、不完全に形成され
たHTMLがHTML標準と一致する構文へと再構成さ
れるように解釈されるのを可能にする。その結果、再構
成された構文は、ブラウジングアプリケーションにより
解釈されてもよく、HTML標準に従って一貫した再現
が可能になる。
【0050】本実施形態に関連して上述された例は、テ
キスト、段落及び太字演算子に関係するが、HTML標
準において広く普及している別のスイッチや内容などの
解釈を通しても同様の事が生じる可能性がある。
【0051】本発明の実施形態は、コンピュータ産業及
びデータ処理産業に適用可能であり、特に特定の基準と
一致していると称しているが、必ずしもその基準に準拠
していない幅広い書類に触れさせられる可能性のあるコ
ンピュータネットワークブラウジングソフトウェアアプ
リケーションに適用可能であることは、上述から明らか
である。
【0052】これまでの記述では、本発明の一実施形態
のみを説明しており、本発明の趣旨から逸脱することな
く変形及び/又は変更が可能であるが、実施形態は例証
するものであり、制限するものではない。
【図面の簡単な説明】
【図1】HTML文書のツリー構造を示す図である。
【図2A】不完全に形成されたHTMLを訂正するため
の処理段階を示す図である。
【図2B】不完全に形成されたHTMLを訂正するため
の処理段階を示す図である。
【図2C】不完全に形成されたHTMLを訂正するため
の処理段階を示す図である。
【図2D】不完全に形成されたHTMLを訂正するため
の処理段階を示す図である。
【図2E】不完全に形成されたHTMLを訂正するため
の処理段階を示す図である。
【図2F】不完全に形成されたHTMLを訂正するため
の処理段階を示す図である。
【図3】本発明の実施形態の実施が可能な汎用コンピュ
ータの概略ブロック図である。
【図4A】各処理段階を表わすフローチャートである。
【図4B】各処理段階を表わすフローチャートである。
【図4C】各処理段階を表わすフローチャートである。
【図4D】各処理段階を表わすフローチャートである。

Claims (24)

    【特許請求の範囲】
  1. 【請求項1】 入力HTML文書を正確なHTMLとな
    るように再構成する方法であって、 (a) 階層ツリー構造表現を作成するために、前記入力
    HTML文書を直線的に走査し、前記走査では、前記ツ
    リー構造表現における要素のための現在の挿入位置を保
    持し、 (b) 前記走査の間、前記入力HTML文書において正
    確なHTMLに違反する要素を識別し、 前記識別された要素の各々に対し、 (b)(i) 前記現在の挿入位置から前記ツリー構造を逆戻
    りし、前記識別された要素が従属することができる更な
    る挿入位置を識別し、前記逆戻りでは、前記逆戻り中に
    通過した前記識別された要素の各親要素を記録し、 (b)(ii) 前記逆戻り中に通過したこれらの前記親要素
    に対応する前記ツリー構造表現の前記更なる挿入位置に
    おいて新しい要素を作成し、前記新しい要素を前記逆戻
    り中に出会った順とは逆順で作成し、 (b)(iii) 前記識別された要素を前記新しい要素の末尾
    の1つに追加し、 (c) 前記ツリー構造表現を出力HTML文書に変換す
    ることを含む方法。
  2. 【請求項2】 前記工程(b)(iii)は、前記追加・識別さ
    れた要素から前記逆戻り中に出会った第1の前記親要素
    へ至るリンクを作成することを特徴とする請求項1に記
    載の方法。
  3. 【請求項3】 前記リンクはベクトルであることを特徴
    とする請求項2に記載の方法。
  4. 【請求項4】 前記工程(b)(iii)は、前記逆戻り中に出
    会った第1の前記親要素の構文を前記追加・識別された
    要素にコピーすることを特徴とする請求項1に記載の方
    法。
  5. 【請求項5】 1つ以上の前記要素は、それの関連情報
    を含み、 前記方法は前記工程(a)の前に、更に、 前記関連情報を有する前記要素を識別するために、前記
    入力HTML文書の初期パスを行い、各要素及び対応す
    る前記関連情報の記録を保持し、前記要素が前記ツリー
    構造表現に配置される度に前記対応する関連情報を結び
    付けることを特徴とする請求項1に記載の方法。
  6. 【請求項6】 更に、 (d) 前記出力HTML文書を、再現することを特徴と
    する請求項1に記載の方法。
  7. 【請求項7】 前記出力HTML文書をビデオディスプ
    レイを使用して再現することを特徴とする請求項6に記
    載の方法。
  8. 【請求項8】 前記出力HTML文書をプリンタを使用
    して再現することを特徴とする請求項6に記載の方法。
  9. 【請求項9】 入力HTML文書を正確なHTMLとな
    るように再構成するための装置であって、 階層ツリー構造表現を作成するために、前記入力HTM
    L文書を直線的に走査し、前記走査では、前記ツリー構
    造表現における要素のための現在の挿入位置を保持する
    手段と、 前記走査の間、前記入力HTML文書において正確なH
    TMLに違反する要素を識別する手段と、 前記現在の挿入位置から前記ツリー構造表現を逆戻りし
    て前記識別された要素が従属することができる更なる挿
    入位置を識別し、前記逆戻りでは、前記逆戻り中に通過
    した前記識別された要素の各親要素を記録する手段と、 前記逆戻り中に通過したこれらの前記親要素に対応する
    前記ツリー構造表現の前記更なる挿入位置において新し
    い要素を作成し、前記新しい要素を前記逆戻り中に出会
    った順とは逆順で作成する手段と、 前記識別された要素を前記新しい要素の末尾の1つに追
    加する手段と、 前記ツリー構造表現を出力HTML文書に変換する手段
    と、を備えたことを特徴とする装置。
  10. 【請求項10】 前記追加する手段は、前記追加・識別
    された要素から前記逆戻り中に出会った第1の前記親要
    素へ至るリンクを作成することを特徴とする請求項9に
    記載の装置。
  11. 【請求項11】 前記リンクはベクトルであることを特
    徴とする請求項10に記載の装置。
  12. 【請求項12】 前記追加する手段は、前記逆戻り中に
    出会った第1の前記親要素の構文を前記追加・識別され
    た要素にコピーすることを特徴とする請求項9に記載の
    装置。
  13. 【請求項13】 1つ以上の前記要素は、それの関連情
    報を含み、 前記装置は、更に、 前記関連情報を有する前記要素を識別するための、前記
    入力HTML文書の初期パスを行い、各要素及び対応す
    る前記関連情報の記録を保持し、前記要素が前記ツリー
    構造表現に配置される度に前記対応する関連情報を結び
    付ける手段を備えたことを特徴とする請求項9に記載の
    装置。
  14. 【請求項14】 更に、 前記出力HTML文書を再現する手段を備えたことを特
    徴とする請求項9に記載の装置。
  15. 【請求項15】 前記出力HTML文書を再現する手段
    はビデオディスプレイであることを特徴とする請求項1
    4に記載の装置。
  16. 【請求項16】 前記出力HTML文書を再現する手段
    はプリンタであることを特徴とする請求項14に記載の
    装置。
  17. 【請求項17】 入力HTML文書を正確なHTMLに
    する手順をコンピュータに実行させるプログラムを記録
    したコンピュータ可読媒体であって、 前記プログラムは、 前記入力HTML文書を直線的に走査して階層ツリー構
    造表現を作成し、前記走査が前記ツリー構造表現におけ
    る要素のための現在の挿入位置を保持するコードと、 前記走査中、前記入力HTML文書において正確なHT
    MLに違反する要素を識別するコードと、 前記現在の挿入位置から前記ツリー構造表現を逆戻りし
    て前記識別された要素が従属することができる更なる挿
    入位置を識別し、前記逆戻りでは、前記逆戻り中に通過
    した前記識別された要素の各親要素を記録するコード
    と、 前記ツリー構造表現の前記更なる挿入位置において、新
    しい要素を作成し、前記新しい要素が、前記逆戻り中に
    通過したこれらの前記親要素に対応し、前記新しい要素
    が、前記逆戻り中に出会った順とは逆入力順で作成され
    るコードと、 前記識別された要素を前記新しい要素の末尾の1つに追
    加するコードと、 前記ツリー構造表現を出力HTML文書に変換するコー
    ドと、を含むことを特徴とするコンピュータ可読媒体。
  18. 【請求項18】 前記追加するコードは、前記追加・識
    別された要素から前記逆戻り中に出会った第1の前記親
    要素へ至るリンクを作成するコードを含むことを特徴と
    する請求項17に記載のコンピュータ可読媒体。
  19. 【請求項19】 前記リンクはベクトルであることを特
    徴とする請求項18記載のコンピュータ可読媒体。
  20. 【請求項20】 前記追加するコードは、前記逆戻り中
    に出会った第1の前記親要素の構文を前記追加・識別さ
    れた要素にコピーするコードを含むことを特徴とする請
    求項17に記載のコンピュータ可読媒体。
  21. 【請求項21】 1つ以上の前記要素は、それの関連情
    報を含み、 前記プログラムは、更に、 前記関連情報を有する前記要素を識別するために、前記
    入力HTML文書の初期パスを行い、各要素及び対応す
    る前記関連情報の記録を保持し、前記要素が前記ツリー
    構造表現に配置される度に前記対応する関連情報が前記
    要素に結び付けるコードを含むことを特徴とする請求項
    17に記載のコンピュータ可読媒体。
  22. 【請求項22】 更に、 前記出力HTML文書を再現するコードを含むことを特
    徴とする請求項17記載のコンピュータ可読媒体。
  23. 【請求項23】 前記出力HTML文書をビデオディス
    プレイを使用して再現することを特徴とする請求項22
    記載のコンピュータ可読媒体。
  24. 【請求項24】 前記出力HTML文書をプリンタを使
    用して再現することを特徴とする請求項22記載のコン
    ピュータ可読媒体。
JP2000388793A 1999-12-22 2000-12-21 不完全な形式のhtml文書の記述構造 Pending JP2001243219A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
AUPQ4799A AUPQ479999A0 (en) 1999-12-22 1999-12-22 Structures to represent poorly formed html documents
AU4799 1999-12-22

Publications (1)

Publication Number Publication Date
JP2001243219A true JP2001243219A (ja) 2001-09-07

Family

ID=3818938

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000388793A Pending JP2001243219A (ja) 1999-12-22 2000-12-21 不完全な形式のhtml文書の記述構造

Country Status (3)

Country Link
US (1) US7058884B2 (ja)
JP (1) JP2001243219A (ja)
AU (1) AUPQ479999A0 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206261A (ja) * 2012-03-29 2013-10-07 Toshiba Corp 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI115416B (fi) * 2001-03-23 2005-04-29 Nokia Corp Rakenteellisen datan jäsennys
US20040148568A1 (en) * 2001-06-13 2004-07-29 Springer Timothy Stephen Checker and fixer algorithms for accessibility standards
US8041739B2 (en) * 2001-08-31 2011-10-18 Jinan Glasgow Automated system and method for patent drafting and technology assessment
WO2003077142A1 (en) * 2002-03-04 2003-09-18 Medstory.Com Method, apparatus, and system for data modeling and processing
US7036073B2 (en) * 2002-06-27 2006-04-25 Microsoft Corporation System and method for supporting non-native XML in native XML of a word-processor document
US9378187B2 (en) 2003-12-11 2016-06-28 International Business Machines Corporation Creating a presentation document
US7162692B2 (en) * 2003-12-11 2007-01-09 International Business Machines Corporation Differential dynamic content delivery
US8499232B2 (en) 2004-01-13 2013-07-30 International Business Machines Corporation Differential dynamic content delivery with a participant alterable session copy of a user profile
US7571380B2 (en) 2004-01-13 2009-08-04 International Business Machines Corporation Differential dynamic content delivery with a presenter-alterable session copy of a user profile
US7890848B2 (en) 2004-01-13 2011-02-15 International Business Machines Corporation Differential dynamic content delivery with alternative content presentation
US7430707B2 (en) 2004-01-13 2008-09-30 International Business Machines Corporation Differential dynamic content delivery with device controlling action
US7519683B2 (en) 2004-04-26 2009-04-14 International Business Machines Corporation Dynamic media content for collaborators with client locations in dynamic client contexts
US7827239B2 (en) 2004-04-26 2010-11-02 International Business Machines Corporation Dynamic media content for collaborators with client environment information in dynamic client contexts
US7487208B2 (en) 2004-07-08 2009-02-03 International Business Machines Corporation Differential dynamic content delivery to alternate display device locations
US8185814B2 (en) 2004-07-08 2012-05-22 International Business Machines Corporation Differential dynamic delivery of content according to user expressions of interest
US9167087B2 (en) 2004-07-13 2015-10-20 International Business Machines Corporation Dynamic media content for collaborators including disparate location representations
US7426538B2 (en) 2004-07-13 2008-09-16 International Business Machines Corporation Dynamic media content for collaborators with VOIP support for client communications
WO2008040046A1 (en) * 2006-10-04 2008-04-10 Thegofa Pty Ltd Method and apparatus relating to webpages and real estate information
US7895514B1 (en) * 2006-10-23 2011-02-22 Adobe Systems Incorporated Systems and methods for solving rendering compatibility problems across electronic document viewers
US8996682B2 (en) * 2007-10-12 2015-03-31 Microsoft Technology Licensing, Llc Automatically instrumenting a set of web documents
CN116304060B (zh) * 2023-05-16 2023-08-25 北京拓普丰联信息科技股份有限公司 一种基于聚类构建通用词库的方法、装置及电子设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5276793A (en) * 1990-05-14 1994-01-04 International Business Machines Corporation System and method for editing a structured document to preserve the intended appearance of document elements
US5767867A (en) 1995-11-27 1998-06-16 Sun Microsystems, Inc. Method for alpha blending images utilizing a visual instruction set
US6023302A (en) 1996-03-07 2000-02-08 Powertv, Inc. Blending of video images in a home communications terminal
WO1998006033A1 (en) * 1996-08-08 1998-02-12 Agranat Systems, Inc. Embedded web server
JPH10124495A (ja) 1996-08-16 1998-05-15 Pfu Ltd 原稿テキスト生成処理装置及びそのプログラム記憶媒体
US6035326A (en) * 1997-05-07 2000-03-07 International Business Machines Corporation Mapping table lookup optimization system
US5991713A (en) * 1997-11-26 1999-11-23 International Business Machines Corp. Efficient method for compressing, storing, searching and transmitting natural language text
US6144365A (en) 1998-04-15 2000-11-07 S3 Incorporated System and method for performing blending using an over sampling buffer
US6558431B1 (en) * 1998-09-11 2003-05-06 Macromedia, Inc. Storing valid and invalid markup language in strict and relaxed tables respectively
US6507856B1 (en) * 1999-01-05 2003-01-14 International Business Machines Corporation Dynamic business process automation system using XML documents
US6675354B1 (en) * 1999-11-18 2004-01-06 International Business Machines Corporation Case-insensitive custom tag recognition and handling
JP3879350B2 (ja) * 2000-01-25 2007-02-14 富士ゼロックス株式会社 構造化文書処理システム及び構造化文書処理方法
FR2811782B1 (fr) * 2000-07-12 2003-09-26 Jaxo Europ Systeme de conversion de documents a structure arborescente par parcours selectif de ladite structure

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6010058755, Dave Raggett, Clean up your Web pages with HTML TIDY, 19990726, W3C *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013206261A (ja) * 2012-03-29 2013-10-07 Toshiba Corp 構造化データ生成装置、データ処理装置、構造化データ生成方法、及び構造化データ生成プログラム

Also Published As

Publication number Publication date
US20010054048A1 (en) 2001-12-20
AUPQ479999A0 (en) 2000-02-03
US7058884B2 (en) 2006-06-06

Similar Documents

Publication Publication Date Title
JP2001243219A (ja) 不完全な形式のhtml文書の記述構造
JP3690730B2 (ja) 構造回復システム、構文解析システム、変換システム、コンピュータ装置、構文解析方法、及び記憶媒体
EP0349457B1 (en) Dynamic redefinition of a shell structure
US7240279B1 (en) XML patterns language
US7069501B2 (en) Structured document processing system and structured document processing method
US7694284B2 (en) Shareable, bidirectional mechanism for conversion between object model and XML
US7117436B1 (en) Generating a Web page by replacing identifiers in a preconstructed Web page
Boyer Canonical XML version 1.0
US20040015782A1 (en) Templating method for automated generation of print product catalogs
US20110258538A1 (en) Capturing DOM Modifications Mediated by Decoupled Change Mechanism
US20110072413A1 (en) Embedding expressions in xml literals
US20020035580A1 (en) Computer readable medium containing HTML document generation program
JP2004030582A (ja) 構造化文書編集装置、構造化文書編集方法及びプログラム
JP2003085016A (ja) スキーマ生成装置、データ処理装置及びその方法並びにプログラム
US6907565B1 (en) Web-based output writer and editor
WO2011069903A1 (en) Method and system for on-line editing electronic documents
JP4943002B2 (ja) 強く型付けされた環境において未知のマークアップを保存する方法およびシステム
US20030159105A1 (en) Interpretive transformation system and method
US20040237043A1 (en) Source file generation apparatus
Ono et al. XSLT stylesheet generation by example with WYSIWYG editing
JP3843810B2 (ja) マルチテンプレート管理システムおよびマルチテンプレート管理プログラム
Cisco Development Concepts
US8239759B1 (en) System and method for editing documents using stored commands
JP4207992B2 (ja) 構造化文書処理システム及び構造化文書処理方法
CN112650479A (zh) 网页css结构自动生成方法及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071221

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20071221

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20080829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101210

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110311