JP4688816B2

JP4688816B2 - 効果的な省スペースｘｍｌパーシング

Info

Publication number: JP4688816B2
Application number: JP2006543885A
Authority: JP
Inventors: セイント−ヒレア、イリアン; キッド、ネルソン; ロー、ブライアン
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2003-12-18
Filing date: 2004-12-01
Publication date: 2011-05-25
Anticipated expiration: 2024-12-01
Also published as: US20050138542A1; CN1898644A; EP1695211A1; JP2007514239A; CN100444117C; WO2005064461A1

Description

本発明は、広くインターネット技術に関する。より具体的には、本発明は、ＸＭＬ（拡張可能マークアップ言語）パーシングのためのシステムおよび方法に関する。

拡張ワイヤレスＰＣ（パーソナルコンピュータ）、ディジタルホーム、およびディジタルオフィスの複数の先駆けは、全てＸＭＬ（拡張可能マークアップ言語）を活用する複数の標準プロトコルに基づく。複数の伝統的なＸＭＬパーサは、複雑であり、複数の組み込み型デバイスにそれほど適していない。多くのデバイスベンダは、ＸＭＬパーシングの複雑さおよびオーバーヘッドのため、これら複数の標準プロトコルを彼らの複数のデバイスの中に実装することの困難さを有している。例えば、現在のパーサは、ＤＯＭ（ドキュメントオブジェクトモデル）およびＳＡＸ（ＳｉｍｐｌｅＡＰＩ（アプリケーションプログラミングインターフェース）ｆｏｒＸＭＬ）の２つのカテゴリに分類される。

複数のＤＯＭパーサは、ＸＭＬ文字列を解析し、複数のＸＭＬ要素のまとまりを返すことで動作する。それぞれの要素は、ＸＭＬドキュメントの中の特定の要素に関する情報を有する。これを可能にするには、情報の全ては、返される構造にコピーされなければならない。これは、多くのメモリオーバーヘッドをもたらす。

複数のＳＡＸパーサは、設計において、とてもよりシンプルである。それらは、複数のステートレスフォワードパーサである。つまり、パーサを用いるアプリケーションは、状態を維持するために、ロジックを有さなければならず、アプリケーションに渡される任意のデータは、アプリケーションのメモリバッファにコピーされなければならない。ＳＡＸパーサは、ＤＯＭパーサよりもとてもシンプルな設計であるが、ＳＡＸパーサは、それでも多くのメモリオーバーヘッドを要求する。

したがって、必要とされることは、多くのメモリオーバーヘッドを要求しないＸＭＬを解析するためのシステムおよび方法である。同様に必要とされることは、設計においてシンプルであり、その上、省スペースを要求するＸＭＬを解析するためのシステムおよび方法である。さらに必要とされることは、設計においてシンプルであり、少しのオーバーヘッド要求し、それにより複数のデバイスベンダがＸＭＬパーシングを彼らの複数のデバイスに組み込むことを可能にするＸＭＬを解析するためのシステムおよび方法である。
米国特許第６７６３４９９号明細書米国特許出願公開第２００５／０１６５７２４号明細書米国特許第６３６２９０１号明細書米国特許第７３１３７８５号明細書米国特許第６５８１０６３号明細書 "XML Parser for Java" ORACLE9I XML API REFERENCE-XDK AND ORACLE XML DB, 2002 GENADY BERYOZKIN: "Pay Less for Strings or How Strings Work" 21 February 2001, TECHNION-ISRAEL INSTITUTE OF TECHNOLOGY "Package oracle.xml.parser.v2" ORACLE9I SUPPLIED JAVA PACKAGES REFERENCE, 2002

ここに盛り込まれ、明細書の部分を構成する添付の複数の図面は、本発明の複数の実施形態を説明し、その説明と共に、さらに本発明の複数の原理を説明し、ならびに当業者が本発明を生産するおよび使用することを可能にすることに役立つ。複数の図面で、同様の複数の参照番号は、同一の、機能上同様な、および／または構造上同様な複数の要素を広く示す。要素が最初に現れる図面は、対応する参照番号内の左端の（複数の）桁により示される。

本発明の一実施形態に従って複数のＸＭＬ文字列を解析するための一例のシステムを説明するブロック図である。

本発明の一実施形態に従って複数のＸＭＬ文字列を解析するための一例の方法を説明するフロー図である。

本発明の一実施形態に係る一例の連結リストノード構造を説明する。

本発明の一実施形態に係る一例の連結リスト属性構造を説明する。

一例のＸＭＬ文字列を説明する。

本発明の一実施形態に従ってソースＸＭＬをトークン化するための方法を説明する一例のフロー図である。

本発明の一実施形態に従って連結リストノード構造を生成するための一例の方法を説明するフロー図である。本発明の一実施形態に従って連結リストノード構造を生成するための一例の方法を説明するフロー図である。

本発明の一実施形態に係る図３Ａに図示される一例のＸＭＬ文字列のための一例の連結リストノード構造を説明する。

本発明の一実施形態に従ってＸＭＬ文字列が有効かどうかを判断する一例の方法を説明するフロー図である。

本発明の一実施形態に従って連結リストノード構造から複数の属性構造の連結リストを作成する一例の方法を説明するフロー図である。本発明の一実施形態に従って連結リストノード構造から複数の属性構造の連結リストを作成する一例の方法を説明するフロー図である。

図３Ａの一例のＸＭＬ文字列のための本発明の一実施形態に係る一例の連結リスト属性構造を説明する。

本発明の一実施形態に従って開始および終了連結リストノード構造からデータを得るための一例の方法を説明するフロー図である。

本発明の一実施形態に従って図３Ａの一例のＸＭＬ文字列から抽出されるデータを説明する。

発明の詳細な説明

本発明は、ここで特定の複数のアプリケーションのための説明に役立つ複数の実施形態への参照を伴い説明されるが、本発明がそれに制限されないことは、理解されるべきである。ここで提供される複数の内容が入手可能な当業者は、その範囲内の付加的な複数の修正、複数の応用、および複数の実施形態および本発明の複数の実施形態が非常に役立つ付加的な複数の領域を認識するだろう。

本発明の明細書中の"１つの実施形態"、"一実施形態"または"他の実施形態"への参照は、実施形態に関連して説明される特定の特徴、構造または特性は、本発明の少なくとも１つの実施形態に含まれることを意味する。したがって、明細書を通してさまざまな場所に現れる複数のフレーズの複数の出現"１つの実施形態において"または"一実施形態において"は、必ずしも同じ実施形態を参照している全てではない。

本発明の複数の実施形態は、大量のメモリオーバーヘッドを要求しないＸＭＬを解析するためのシステムおよび方法に向けられる。本発明は、複数のゼロメモリコピーをを用いることでこれを果たし、これにより、省スペースでとても効果的なパーサを生み出す。本発明の複数の実施形態は、ＸＭＬに関して説明されるが、複数のマークアップ言語の他の複数のタイプも同様に応用可能である。

図１は、ＸＭＬを解析するためのシステム１００を説明する一例のブロック図である。システム１００は、ゼロコピー文字列パーサモジュール１０２およびパーサロジックモジュール１０４を備える。ゼロコピー文字列パーサモジュール１０２は、パーサロジックモジュール１０４に結合される。

ゼロコピー文字列パーサモジュール１０２は、任意のデータをコピーすることなく複数のＸＭＬ文字列を解析することに対して責任がある。ゼロコピー文字列パーサモジュール１０２は、シングルパスパーサであり、したがって、アプリケーションから受信される入力文字列は一度だけ読み込まれる。

図１に示されるように、パーサロジックモジュール１０４は、ゼロコピー文字列パーサモジュール１０２の上部に構築される。パーサロジックモジュール１０４は、ＸＭＬ実体を解析するために要求されるロジックを備える。したがって、パーサロジックモジュール１０４は、ＸＭＬ文字列をメモリにコピーせざる得ないことなく、複数のＸＭＬ文字列を解析するために、ゼロコピー文字列パーサモジュール１０２と対話する。

ゼロコピー文字列パーサモジュール１０２は、解析すべき入力文字列および入力文字列の長さをアプリケーションから受信する。パーシングロジックモジュール１０４は、ゼロコピー文字列パーサモジュール１０２に、解析するための区切り文字を提供し、それにより、ゼロコピー文字列パーサモジュール１０２が文字列をトークン化することを可能にする。それぞれのトークンは、ソースＸＭＬ文字列（すなわち入力文字列）へのインデックスを有し、その値、および値の長さを表す特性を表す。文字列が一旦トークン化されると、複数の連結リストノード構造は、複数のトークンを用いて構築され、複数の連結リスト属性構造は、複数の連結リストノード構造を用いて構築される。複数のノードおよび属性構造は、ソースＸＭＬ文字列への複数のポインタを有する。複数の連結リストノードおよび属性構造は、ソースＸＭＬ文字列に関連する複数のポインタを維持する間、メモリから解放される。複数の構造を削除しながら複数のポインタを維持することは、ＸＭＬ文字列がコピーされなくてはならないことを防ぎ、これにより、メモリオーバーヘッドを最小にする。

文字列のトークン化の後、ゼロコピー文字列パーサモジュール１０２は、それぞれのトークンをパーシングロジックモジュール１０４へ複数の連結リストノード構造を作成するために送る。パーシングロジックモジュール１０４は、複数のトークンを受信すると、トークンの長さおよび区切り文字と共に、ゼロコピー文字列パーサモジュール１０２へ、１回に１つのトークンを返す。ゼロコピー文字列パーサモジュール１０２は、その後、連結リストノード構造のための複数のポインタを得るために、その区切り文字を用いてトークンを解析するこのプロセスは、全てのトークンが適切に解析されるまで続く。複数の連結リストノード構造が一旦作成されると、複数の連結リストノード構造は、ＸＭＬ文字列に含まれる複数の属性への複数のポインタを提供するための複数の連結リスト属性構造を作成するために使用される。同様に、ＸＭＬ文字列内のデータは、複数のポインタを用いて、複数の連結リストノード構造から抽出される。

ＸＭＬ文字列を解析するために、少なくとも５つの区切り文字が使用される。複数の区切り文字は、開括弧"＜"、スペース" "、コロン"："、等号"＝"、および閉括弧"＞"を含むが、これに制限されない。ロジックパーサモジュール１０４は、複数のトークンを解析し、それぞれのトークンを解析するために、ゼロコピー文字列パーサモジュール１０２へ適切な区切り文字を提供する。複数のＸＭＬ文字列を解析するプロセスは、これから図２Ａを参照して説明される。

図２Ａは、本発明の一実施形態に従って複数のＸＭＬ文字列を解析するための一例の方法を説明するフロー図２００である。本発明は、フロー図２００に関し、ここで説明される実施形態に制限されない。それどころか、当業者には、ここで提供される複数の内容を読んだ後、他の複数の機能フロー図が本発明の範囲内であることは、明白である。プロセスは、ブロック２０２で始まり、直ちにブロック２０４へ進む。

ブロック２０４では、アプリケーションからゼロコピー文字列パーサモジュール１０２への入力であるＸＭＬ文字列が、複数の連結リストノード構造に変形される。ＸＭＬ文字列内のそれぞれの要素は、開始タグのための１つのノード構造およびエンドタグのための１つのノード構造の２つのノード構造に変形される。

図２Ｂは、本発明の一実施形態に係る一例のノード構造２２０を説明する。ノード構造２２０は、名称領域２２２、名称長領域２２４，名称空間領域２２６、名称空間長領域２２８、開始タグ領域２３０、空タグ領域２３２、予約領域２３４、次領域２３６、親領域２３８、ピア領域２４０、および終了タグ領域２４２を備える。

名称領域２２２は、要素タグの名称を表す。名称長領域２２４は、要素タグの名称の長さを表す。名称空間領域２２６は、要素タグに関連する任意の接頭辞の名称を表す。名称空間長領域２２８は、要素タグに関連する任意の接頭辞の長さを表す。

開始タグ領域２３０は、セットされた場合、要素タグが開始タグであることを示すフラグを表す。開始タグ領域２３０が消去された場合、タグは終了タグである。空タグ領域２３２は、セットされた場合、要素タグが空タグであることを示すフラグを表す。空タグは、それ自身のそばにあるタグである。言い換えれば、空タグは、どの内容をも囲まない。空タグは、閉括弧（すなわち、"＞"）の代わりに、スラッシュおよび閉括弧（すなわち、"／＞"）で終わる。

予約領域２３４は、タグが開始タグの場合、次の閉括弧（すなわち、"＞"）の位置を表す。予約領域２３４は、タグが終了タグの場合、最初の開括弧（すなわち、"＜"）の位置を表す。次領域２３６は、次のノード構造へのポインタを表す。

親領域２３８は、親要素の開要素へのポインタを表す。親要素は、ネスト化された要素を囲む要素である。ピア領域２４０は、ピア要素の開要素へのポインタを表す。ピア要素は、別の要素と同一の場所に配置される要素である。言い換えれば、複数のピア要素は、同じレベルである。例えば、同じ親要素を有する複数の子要素は複数のピア要素である。終了タグ領域２４２は、要素タグの閉要素へのポインタを表す。

図２のブロック２０４に戻って、ノード構造２２０内の特定の複数の領域は、最初に満たされる。これら複数の領域は、名称領域２２２、名称長領域２２４、名称空間領域２２６、名称空間長領域２２８、開始タグ領域２３０、空タグ領域２３２、予約領域２３４、および次領域２３６を含む。名称、名称空間、予約、および次は、ソースＸＭＬ文字列への複数のポインタである。ＸＭＬ文字列から連結リストノード構造を決定する方法は、図３Ｂ−図３Ｄを参照して以下においてさらに説明される。

ブロック２０６において、ＸＭＬ入力文字列のシンタックスは、入力文字列が有効かどうかを判断するために検証される。これは、それぞれの要素が正しく開けられるおよび閉じられるかどうかを検証することで果たされる。複数のＸＭＬドキュメントのための制約は、それらが適格であることである。特定の複数のルールは、ＸＭＬドキュメントが適格かどうかを判断する。１つのこのようなルールは、全ての開始タグは終了タグを有し、終了タグは、開始タグと同じ名称、同じ名称空間等を含まなければならないことである。例えば、＜Ａ：ＥｌｅｍｅｎｔＴａｇ＞と名付けられた開始タグは、＜／Ａ：ＥｌｅｍｅｎｔＴａｇ＞と名付けられた終了タグで終わらなければならない。同様に、全てのタグは完全にネスト化されなければならない。例えば、１つは、＜ＥｌｅｍｅｎｔＴａｇ＞ … ＜ＩｎｎｅｒＴａｇ＞ … ＜／ＩｎｎｅｒＴａｇ＞ … ＜／ＥｌｅｍｅｎｔＴａｇ＞を有し、＜ＥｌｅｍｅｎｔＴａｇ＞ … ＜ＩｎｎｅｒＴａｇ＞ … ＜／ＥｌｅｍｅｎｔＴａｇ＞ … ＜／ＩｎｎｅｒＴａｇ＞ではない。

ＸＭＬ文字列が検証されている間、連結リストノード構造の残りの複数の領域が満たされる。これら複数の領域は、親領域２３８、ピア領域２４０および終了タグ領域２４２を含む。ＸＭＬ文字列のシンタックスを検証するための方法は、図４を参照して以下で説明される。

ブロック２０８において、複数の属性構造の連結リストは、連結リストノード構造から作成される。一例の連結リスト属性構造２５０は、図２Ｃで説明される。連結リスト属性構造２５０は、属性名称領域２５２、属性名称長領域２５４、属性値領域２６０、接頭辞名称領域２５６、接頭辞名称長領域２５８、属性値長領域２６２、および次属性領域２６４を備える。

属性名称領域２５２は、属性の名称を表す。属性名称長領域２５４は、属性名称の長さを表す。接頭辞名称領域２５６は、接頭辞の名称を表す。接頭辞名称長領域２５８は、接頭辞名称の長さを表す。属性値領域２６０は、属性の値を表す。属性値長領域２６２は、属性値の長さを表す。次属性領域２６４は、幾つか存在する場合、次の属性へのポインタを表す。連結リスト属性構造を作成するための方法は、図５Ａおよび図５Ｂを参照して、以下で説明される。

図２Ａに戻って、ブロック２１０において、与えられるノード構造からのデータセグメントが得られる。１つの実施形態では、与えられる要素のデータは、単純な文字列である。１つの実施形態では、与えられる要素のデータは、ＸＭＬサブツリーである。データセグメントの決定は、図６Ａを参照して、以下に説明される。

ブロック２１２において、複数のノード構造連結リストおよび複数の属性構造連結リストは、消去または解放され、元のＸＭＬ文字列への複数のポインタのみを残す。

連結リストノード構造および連結リスト属性構造を作成するための複数の方法を説明するに先立って、これら複数の方法を説明する時に参照される一例のＸＭＬ文字列が説明される。図３Ａは、一例のＸＭＬ文字列３０２を説明する。ＸＭＬ文字列３０２は、"ｕ：ＥｌｅｍｅｎｔＴａｇ"と名付けられた開始タグ３０４、"ｉｄ"と名付けられた属性３０６、"ＴｅｓｔＶａｌｕｅ"と名付けられた属性値３０８、"ＩｎｎｅｒＴａｇ"と名付けられた開始タグ３１０、"ＳａｍｐｌｅＶａｌｕｅ"と名付けられたテキストデータ３１２、"ＩｎｎｅｒＴａｇ"と名付けられた終了タグ３１４、および"ｕ：ＥｌｅｍｅｎｔＴａｇ"と名付けられた終了タグ３１６を備える。それぞれの開始タグ３０４および３１０は、適合している終了タグ３１６および３１４をそれぞれ有する。したがって、それぞれの開始タグは、開括弧"＜"により識別され、各終了タグは、スラッシュが続く開括弧"＜／"により識別される。

図３Ｂは、本発明の一実施形態に従ってソースＸＭＬをトークン化するための方法を説明する一例のフロー図３２０である。本発明は、フロー図３２０に関し、ここで説明される実施形態に制限されない。それどころか、当業者には、ここで提供される複数の内容を読んだ後、他の複数の機能フロー図が本発明の範囲内であることは、明白である。プロセスは、ブロック３２２で始まり、プロセスは、直ちに、ブロック３２４へ進む。

ブロック３２４において、アプリケーションからのＸＭＬ文字列およびパーシングロジック１０４からの開括弧（"＜"）区切り文字は、ゼロコピー文字列パーサモジュール１０２への入力である。ゼロコピー文字列パーサモジュール１０２は、複数のトークンのリストを得るために、開括弧区切り文字を用いてＸＭＬ文字列を解析する（ブロック３２６）。複数のトークンのリストは、ＸＭＬ入力文字列内のそれぞれのタグの開始を表す。図３Ａからの一例のＸＭＬ文字列３０２を用いて、以下の複数のトークンのリストが返される。（１）ｕ：ＥｌｅｍｅｎｔＴａｇ；（２）ＩｎｎｅｒＴａｇ；（３）／ＩｎｎｅｒＴａｇ；および（４）／ｕ：ＥｌｅｍｅｎｔＴａｇそれぞれのトークンは、ソースＸＭＬ文字列へのインデックスを代表し、その値、および値の長さを表す特性を表す。

ブロック３２８において、複数のトークンのリストは、パーサロジックモジュール１０４へ返される。複数のトークンのリストからのそれぞれのトークンは、別個の連結リストノード構造を作成するために使用され、それは、図３Ｃおよび図３Ｄを参照してさらに説明される。

図３Ｃおよび図３Ｄは、本発明の一実施形態に従って連結リストノード構造を生成するための一例の方法を説明するフロー図２０４である。本発明は、フロー図２０４に関し、ここで説明される実施形態に制限されない。それどころか、当業者には、ここで提供される複数の内容を読んだ後、他の複数の機能フロー図が本発明の範囲内であることは、明白である。プロセスは、図３Ｃのブロック３３０で始まり、プロセスは、直ちにブロック３３２へ進む。

ブロック３３２において、トークンおよびスペース区切り文字（すなわち、" "）は、パーサロジックモジュール１０４からゼロコピー文字列パーサモジュール１０２への入力である。

ブロック３３４において、トークンは、構造のためのタグ名称を識別するために、スペース（すなわち、" "）区切り文字を用いて解析される。例えば、トークンｕ：ＥｌｅｍｅｎｔＴａｇｉｄ＝"ＴｅｓｔＶａｌｕｅ"を用いて、ゼロコピー文字列パーサモジュール１０２は、スペース区切り文字を用いて解析し、トークンの２つの部分をパーサロジックモジュール１０４に返す。すなわち、一番目の部分は、ｕ：ＥｌｅｍｅｎｔＴａｇであり、二番目の部分は、ｉｄ＝"ＴｅｓｔＶａｌｕｅ"である。トークンの一番目の部分、ｕ：ＥｌｅｍｅｎｔＴａｇは、常にタグ名称を備える。トークンの二番目の部分、ｉｄ＝"ＴｅｓｔＶａｌｕｅ"は、（複数の）属性を備える。スペースを含まない複数のトークンに対して、ゼロコピー文字列パーサモジュール１０２は、トークンをそのままで返す。この場合、返されるトークンは、一番目のトークンなので、それは、タグ名称を備える。

ブロック３３６において、パーサロジックモジュール１０４は、タグ名称を備える一番目の部分をコロン文字（すなわち、"："）区切り文字と共にゼロコピー文字列パーサ１０２へ送る。コロン区切り文字は、タグのローカル名称から名称空間を抽出するために使用される。

判断ブロック３３８において、タグ名称を備えるトークンの一番目の文字が"／"で始まるかが判断される。タグ名称を備えるトークンの一番目の文字が"／"で始まる場合、タグは、終了タグである。この場合、開始タグは、消去され（ブロック３４０）、一番目の開括弧（"＜"）は、予約ポインタとしてセットされる（３４２）。プロセスは、その後ブロック３４８へ進む。

判断ブロック３３８に戻り、タグ名称を備えるトークンの一番目の文字が"／"で始まらない場合、タグは、開始タグである。この場合、開始タグは、セットされ（ブロック３４４）、次の閉括弧（"＞"）の位置は、予約ポインタとしてセットされる（ブロック３４６）。プロセスは、その後ブロック３４８へ進む。

ブロック３４８において、タグ名称を備えるトークンは、コロン区切り文字を用いて解析される。

図３Ｄの判断ブロック３５０において、タグ名称を備えるトークン内でコロン区切り文字が見つかるかが判断される。トークン内にコロン区切り文字が見つかる場合、コロンの左の全ての文字は、名称空間としてセットされ、コロンの右の全ての文字は、要素のローカル名称またはタグ名称としてセットされる（ブロック３５２）。例えば、解析された場合、開始タグｕ：ＥｌｅｍｅｎｔＴａｇは、"ｕ"を名称空間接頭辞としておよび"ＥｌｅｍｅｎｔＴａｇ"をローカルタグ名称として示す。トークン内にコロン区切り文字が見つからない場合、トークン内の全ての文字は、タグ名称を表す（ブロック３５４）。

ブロック３５６において、タグ名称の長さおよび、存在する場合、名称空間の長さが決定される。

ブロック３５８において、タグ名称および名称空間は、存在する場合、パーサロジックモジュール１０４に返される。ブロック３６０において、トークンの二番目の部分は、ゼロコピー文字列パーサ１０２へ渡される。

判断ブロック３６２において、トークンの二番目の部分の一番目の文字が"／"かどうかが判断される。一番目のトークンの二番目の部分の一番目の文字が"／"であると判断される場合、タグは、空タグであり、プロセスは、ブロック３６４へ進む。

ブロック３６４において、空タグ領域２３２は、セットされる。プロセスは、その後ブロック３６８へ進む。

判断ブロック３６２へ戻って、一番目のトークンの二番目の部分の一番目の文字が"／"でないと判断される場合、プロセスは、ブロック３６６へ進む。

ブロック３６６において、空タグ領域２３２は、消去され、プロセスは、ブロック３６８へ進む。

ブロック３６８において、次領域２３６は、次のタグの開始へのポインタとしてセットされる。例えば、一例のＸＭＬ文字列３０２において、開始タグｕ：ＥｌｅｍｅｎｔＴａｇのための次領域２３６は、ＩｎｎｅｒＴａｇへのポインタである。

図３Ｅは、図３Ａに示される一例のＸＭＬ文字列３０２のための本発明の一実施形態に係る複数の一例の連結リストノード構造を説明する。ＸＭＬ文字列３０２内のそれぞれの開始タグおよび終了タグのための連結リストノード構造が示される。複数の連結リストノード構造の複数の領域からの複数の矢印は、実際のＸＭＬ文字列への複数のポインタを示す。

一番目の連結リストノード構造３７０は、開始タグｕ：ＥｌｅｍｅｎｔＴａｇを代表する。タグ名称は、ＥｌｅｍｅｎｔＴａｇである。ＥｌｅｍｅｎｔＴａｇは、名称長領域２２４に示されるように、長さにおいて１０文字である。名称空間接頭辞は、ｕであり、名称空間長領域２２８に示されるように、長さにおいて１文字である。開始タグは、セットされる。空タグは消去される。予約領域２３４は、開始タグｕ：ＥｌｅｍｅｎｔＴａｇの閉括弧を指し示す。次領域２３６は、ＩｎｎｅｒＴａｇである次のタグを指し示す。終了タグ領域２４２は、／ｕ：ＥｌｅｍｅｎｔＴａｇであるｕ：ＥｌｅｍｅｎｔＴａｇの終了タグを指し示す。

二番目の連結リストノード構造３７２は、開始タグＩｎｎｅｒＴａｇを代表する。タグ名称は、ＩｎｎｅｒＴａｇである。ＩｎｎｅｒＴａｇは、領域２２４に示されるように、長さにおいて８文字である。ＩｎｎｅｒＴａｇは、名称空間を有さない（それは、ＩｎｎｅｒＴａｇ内のコロン文字の欠如によりしめされる）。したがって、名称空間長は、領域２２８に示されるようにゼロ（０）である。開始タグは、セットされる。空タグは、消去される。予約領域２３４は、開始タグＩｎｎｅｒＴａｇの閉括弧を指し示す。次領域２３６は、／ＩｎｎｅｒＴａｇである次のタグを指し示す。ＩｎｎｅｒＴａｇの親は、ｕ：ＥｌｅｍｅｎｔＴａｇである。終了タグ領域２４２は、／ＩｎｎｅｒＴａｇであるＩｎｎｅｒＴａｇの終了タグを指し示す。

三番目の連結リストノード構造３７４は、終了タグ／ＩｎｎｅｒＴａｇを代表する。タグ名称は、ＩｎｎｅｒＴａｇであり、長さは８文字である。前に示したように、ＩｎｎｅｒＴａｇは、名称空間を有さず、したがって、名称空間長はゼロである。開始タグは、消去される。空タグは、消去される。予約領域２３４は、終了タグ／ＩｎｎｅｒＴａｇの開括弧を指し示す。次領域２３６は、／ｕ：ＥｌｅｍｅｎｔＴａｇである次のタグを指し示す。ノード構造３７４は、終了タグを表すので、残りの複数の領域２３８、２４０、および２４２は、空である。

四番目の連結リストノード構造３７６は、終了タグ／ｕ：ＥｌｅｍｅｎｔＴａｇを代表する。タグ名称は、ＥｌｅｍｅｎｔＴａｇであり、長さは１０文字である。名称空間は、ｕであり、長さは１文字である。開始タグは、消去される。空タグは、消去される。予約領域２３４は、終了タグｕ：ＥｌｅｍｅｎｔＴａｇの開括弧を指し示す。ノード構造３７６は、終了タグを表し、ＸＭＬ文字列３０２内の最後のタグなので、次領域２３６、親領域２３８、ピア領域２４０および終了タグ領域２４２は、空である。

図４は、本発明の一実施形態に従ってＸＭＬ文字列が有効かどうかを判断するための方法を説明する一例のフロー図２０６である。本発明は、フロー図２０６に関し、ここで説明される実施形態に制限されない。それどころか、当業者には、ここで提供される複数の内容を読んだ後、他の複数の機能フロー図が本発明の範囲内であることは、明白である。プロセスは、ブロック４０２で始まり、プロセスは、直ちにブロック４０４へ進む。

ブロック４０４において、スタックは、初期化される。これは、スタックを消去することで果たされる。

ブロック４０６において、連結リストノード構造は、受け取られる。判断ブロック４０８において、連結リストノード構造が開始タグを表すかどうかが判断される。連結リストノード構造が開始タグを表すと判断される場合、プロセスは、判断ブロック４１０へ進む。

判断ブロック４１０において、開始タグがすでにスタック内に存在するかどうかが判断される。開始タグがスタック内にすでに存在する場合、親領域２３８は、スタックの上部の現在のアイテムへのポインタで満たされる（ブロック４１２）。例えば、図３Ａ内のＸＭＬ文字列３０２を用いて、ＥｌｅｍｅｎｔＴａｇは、ＩｎｎｅｒＴａｇの親である。これは、図３Ｅの連結リストノード構造３７２においても同様に示される。プロセスは、その後ブロック４１４へ進む。

ブロック４１０へ戻り、開始タグはスタック内に存在しないと判断される場合（すなわち、スタックは、空である）、プロセスは、ブロック４１４へ進む。

ブロック４１４において、現在の連結リストノード構造の開始タグは、スタック上に置かれる。プロセスは、次の連結リンクノード構造を受信するために、ブロック４０６へ戻る。

ブロック４０８へ戻り、連結リストノード構造が終了タグであると判断される場合、プロセスは、ブロック４１６へ進む。ブロック４１６において、スタックの上部の開始タグは、スタックからポップオフされる。

ブロック４１８において、ポップされた開始タグのピア領域２４０は、現在の終了タグの次領域ポインタ２３６で満たされる。次のＸＭＬ構造は、ピアを説明する。
＜ｕ：ＥｌｅｍｅｎｔＴａｇｉｄ＝""ＴｅｓｔＶａｌｕｅ"＞
＜ＩｎｎｅｒＴａｇ＞ＳａｍｐｌｅＶａｌｕｅ＜／ＩｎｎｅｒＴａｇ＞
＜ＡｎｏｔｈｅｒＴａｇ＞ＡｎｏｔｈｅｒＶａｌｕｅ＜／ＡｎｏｔｈｅｒＴａｇ＞
＜／ｕ：ＥｌｅｍｅｎｔＴａｇ＞
上の例において、ＩｎｎｅｒＴａｇおよびＡｎｏｔｈｅｒＴａｇは複数のピアである。ＩｎｎｅｒＴａｇおよびＡｎｏｔｈｅｒＴａｇは、同様に両方とも、ｕ：ＥｌｅｍｅｎｔＴａｇの子供たちである。プロセスは、判断ブロック４２０へ進む。

判断ブロック４２０において、ポップオフされた開始タグが現在の終了タグに適合するかどうかが判断される。ポップオフされた開始タグが現在の終了タグと適合する場合、ＸＭＬ文字列は、有効な文字列であるとみなされる（ブロック４２２）。言い換えれば、ＸＭＬ文字列のシンタックスは、この時点では、正しい。終了タグ領域２４２は、現在の終了タグで満たされる（ブロック４２４）。

判断ブロック４２６において、現在の連結リストノード構造が現在のＸＭＬ文字列のための最後の構造かどうかが判断される。現在の連結リストノード構造が現在のＸＭＬ文字列のための最後の構造ではないと判断される場合、プロセスは、次の連結リストノード構造を受信するためにブロック４０６へ戻る。

判断ブロック４２６へ戻り、現在の連結リストノード構造が現在のＸＭＬ文字列のための最後の構造であると判断される場合、プロセスはブロック４３０へ進み、プロセスは終了する。

判断ブロック４２０へ戻り、ポップオフされた開始タグが現在の終了タグに適合しないと判断される場合、ＸＭＬ文字列は無効な文字列とみなされる（ブロック４２８）。プロセスは、ブロック４３０へ進み、プロセスは、直ちに終了する。

アプリケーションが与えられる要素内に含まれる複数の属性へのアクセスを望む場合、アプリケーションは、ゼロコピー文字列パーサ１０２に連結リストノード構造を与えてよい。ゼロコピー文字列パーサ１０２は、複数の属性を解析するために、要素の複数の予約ポインタを使用する。ゼロコピー文字列パーサ１０２は、複数の属性構造の連結リストを返し、複数の値の長さを表す複数の特性と同様に属性名および属性値を表すために、これは、元の文字列への複数のポインタを有する。属性解析がアプリケーションにより要求されないので、複数の属性を解析するためにこの方法を使用することは、大多数のケースにとって、より少ないオーバーヘッドをもたらす。同様に、複数の属性が解析される場合、メモリコピーが無く、これは、旧来の複数の解析方法と比べて、より高い性能およびより少ないリソースの使用をもたらす。

図５Ａおよび図５Ｂは、本発明の一実施形態に従って連結リストノード構造から複数の属性構造の連結リストを作成するための一例の方法を説明するフロー図２０８である。本発明は、フロー図２０８に関し、ここで説明される実施形態に制限されない。それどころか、当業者には、ここで提供される複数の内容を読んだ後、他の複数の機能フロー図が本発明の範囲内であることは、明白である。プロセスは、図５Ａのブロック５０２で始まり、プロセスは、直ちにブロック５０４へ進む。

ブロック５０４において、開始タグのための連結リストノードは、ゼロコピー文字列パーサ１０２への入力である。

ブロック５０６において、連結リストノード構造からの予約ポインタの位置を用いて、予約ポインタは、ＸＭＬ文字列内に開括弧が見つかるまで、減らされる。開括弧文字から予約ポインタの間の情報は、属性文字列を定義する。

ブロック５０８において、属性文字列は、スペース文字を用いて複数のトークンへ解析される。前に示されたように、一番目のトークンは、タグ名称である。残りのトークンまたは複数のトークンは、幾らかでもあれば、実際の複数の属性である。ブロック５１０において、一番目のトークンは、属性ではないので廃棄される。

ブロック５１２において、残りのトークンまたは複数のトークンは、属性名称を属性値から分離させるために、等号文字を用いて解析される。属性名称は、等号の左の複数の文字の全てに等しく、また、属性値は、等号の右の複数の文字の全てに等しい（ブロック５１４）。

ブロック５１６において、属性名称は、存在するならば接頭辞を得るために、コロン記号（すなわち、"："）を用いて解析される。図５Ｂの判断ブロック５１８において、属性名称内にコロン文字が見つかるかどうかが判断される。コロン文字が見つかる場合、コロンの左の全ては、接頭辞名称としてセットされ、コロンの右の全ては、属性名称としてセットされる（ブロック５２０）。属性名称内にコロン文字が存在しないと判断される場合、ブロック５２２において、全体のトークンが属性名称としてセットされる。

ブロック５２４において、属性名称、属性値、および接頭辞名称の長さが決定される。接頭辞名称が存在しない場合、接頭辞名称の長さは、ゼロにセットされる。

ブロック５２６において、ＸＭＬ文字列内に別の属性が存在する場合、次属性領域２６４は、次の属性へのポインタとしてセットされる。

図５Ｃは、図３Ａの一例のＸＭＬ文字列３０２のための本発明の一実施形態に係る一例の連結リスト属性構造５３０を説明する。図５Ｃに示されるように、唯一の属性、すなわち、ｉｄ＝"ＴｅｓｔＶａｌｕｅ"は、ＸＭＬ文字列３０２に含まれる。連結リスト属性構造５３０内の複数のポインタは、ＸＭＬ文字列３０２内の位置を指し示す複数の矢印を用いて示される。残りの複数の領域２５４，２５８，および２６２は、それぞれ、属性名称、接頭辞名称、および属性値の長さを示す。ＸＭＬ文字列３０２は、１つの属性のみを有するので、次属性領域２６４は、ＸＭＬ文字列３０２内の位置へのポインタを含まない。

アプリケーションが要素内に含まれるデータへのアクセスを望む場合、一つの実施形態では、アプリケーションは、開始連結リストノード構造をゼロコピー文字列パーサモジュール１０２へ与える。開始連結リストノード構造内の複数のポインタを用いて、ゼロコピー文字列パーサモジュール１０２は、終了タグを配置する。他の実施形態では、アプリケーションは、開始および終了連結リストノード構造をゼロコピー文字列パーサモジュール１０２へ与える。ゼロコピー文字列パーサモジュール１０２は、データセグメントを決定するために、パーサ１０２に渡される複数の構造のための開始および終了タグの複数の予約ポインタを使用し、データセグメントをアプリケーションへ返す。

図６Ａは、本発明の一実施形態に従って開始および終了連結リストノード構造からデータセグメントを得るための一例の方法を説明するフロー図２１０である。本発明は、フロー図２１０に関し、ここで説明される実施形態に制限されない。それどころか、当業者には、ここで提供される複数の内容を読んだ後、他の複数の機能フロー図が本発明の範囲内であることは、明白である。プロセスは、ブロック６０２で始まり、プロセスは、直ちにブロック６０４へ進む。

ブロック６０４において、対応する開始および終了タグのための両方の連結リストノード構造が受け取られる。

ブロック６０６において、開始および終了タグの複数の予約ポインタを用いて、データセグメントは、決定される。開始タグのための予約ポインタは、閉括弧を指し示し、終了タグのための予約ポインタは、開括弧を指し示す。したがって、データセグメントは、これら２つの予約ポインタの間の全てである。図６Ｂは、本発明の一実施形態に従って図３Ａの一例のＸＭＬ文字列から抽出されるデータを説明する。ＩｎｎｅｒＴａｇの開始タグのための予約ポインタ６１０は、ＩｎｎｅｒＴａｇの閉括弧を指し示しており、さらに、／ＩｎｎｅｒＴａｇの終了タグのための予約ポインタ６１２は、／ＩｎｎｅｒＴａｇの開または開始括弧を指し示している。したがって、ＳａｍｐｌｅＶａｌｕｅ６１４は、複数の予約ポインタ６１０および６１２それぞれの間に位置するので、データセグメントである。

ブロック６０８において、データセグメントは、アプリケーションへ返される。

本発明の複数の実施形態の特定の複数の側面は、ハードウェア、ソフトウェア、またはその組み合わせを用いて実装され、１つ以上のコンピュータシステムまたは他の複数のプロセッシングシステム内に実装される。実際、１つの実施形態において、複数の方法は、複数の携帯できるまたは固定されたコンピュータ、複数のパーソナルディジタルアシスタント（ＰＤＡ）、複数のセットトップボックス、複数の携帯電話および複数のページャ、ならびにそれぞれがプロセッサ、プロセッサにより読み込み可能な記憶媒体（揮発性および不揮発性メモリおよび／または複数の記憶要素を含む）、少なくとも１つの入力デバイス、および１つ以上の出力デバイスを備える他の複数の電子デバイスなどの複数のプログラム可能マシン上で実行している複数のプログラムで実装される説明された複数の機能を実行するためにおよび出力情報を生成するために、プログラムコードは、入力デバイスを用いて入力されるデータに適用される。出力情報は、１つ以上の出力デバイスに適用される。当業者であれば、本発明の複数の実施形態は、複数のマルチプロセッサシステム、複数のミニコンピュータ、複数のメインフレームコンピュータ、および同様なものを含むさまざまなコンピュータシステム構成で実行されることを理解するだろう。本発明の複数の実施形態は、同様に、複数の分散コンピューティング環境で実行され、複数のタスクは、コミュニケーションネットワークを介してリンクされる複数のリモートプロセッシングデバイスにより実行される。

それぞれのプログラムは、プロセッシングシステムと通信するために、高水準手続き型またはオブジェクト指向プログラミング言語で実装される。しかしながら、所望されれば、複数のプログラムは、アセンブリまたは機械言語で実装される。どんな場合でも、言語は、コンパイルまたは解釈される。

複数のプログラム命令は、複数の命令でプログラムされる汎用または特定用途プロセッシングシステムにここで説明された複数の方法を実行させるために使用される。あるいは、複数の方法は、複数の方法を実行するためのハードウェアロジックを備える特定の複数のハードウェアコンポーネントにより、または複数のプログラムされたコンピュータコンポーネントおよび複数のカスタムハードウェアコンポーネントの任意の組み合わせにより実行される。ここで説明される複数の方法は、プロセッサシステムまたは他の電子デバイスが本複数の方法を実行するようにプログラムするために使用される複数の命令がそこに記憶される機械可読媒体を含むコンピュータプログラム製品として提供される。ここで用いられる用語"機械可読媒体"または"機械アクセス可能媒体"は、機械による実行のために複数の命令の列を記憶またはエンコードでき、機械にここで説明される複数の方法の任意の一つを実行させる任意の媒体を含む。複数の用語"機械可読媒体"および"機械アクセス可能媒体"は、それ故に、複数の半導体メモリ、複数の光学および磁気ディスク、およびデータ信号をエンコードする搬送波を含むが、制限はされない。その上、どのような形（例えば、プログラム、プロシージャ、プロセス、アプリケーション、モジュール、ロジック等）にせよ、動作を起こすまたは結果をもたらすように技術的にソフトウェアについて言及することは、一般的である。このような複数の表現は、単に、プロセッサに行為を遂行させるまたは結果を生成させるプロセッシングシステムによるソフトウェアの実行を述べる簡単な方法である。

上記において、本発明のさまざまな実施形態が説明されたが、それらは、ほんの例として示され、制限ではないことは、理解されるべきである。添付の複数の請求項に定義される本発明の精神および範囲から逸脱することなく、形式および詳細のさまざまな変更がそこになされることは、当業者には理解されるだろう。したがって、本発明の広さおよび範囲は、上記において説明された例の複数の実施形態のいずれかにより制限されるべきではなく、複数の請求項およびそれらの複数の均等物に従って定義されるべきである。

Claims

複数のマークアップ言語記述を分けるための方法であって、
文字列パーサが、アプリケーションからの入力文字列を、前記入力文字列に含まれる複数の要素のそれぞれの内に要素内容および複数の属性を表す文字列の位置を定義する前記入力文字列の内部の位置への複数のポインタを含む複数の連結リストノード構造に変形してメモリに作成する段階と、
前記文字列パーサが、前記入力文字列のシンタックスを検証する段階と、
前記文字列パーサが、複数の属性を有する前記複数の連結リストノード構造から、前記複数の連結リストノード構造に含まれる前記複数のポインタが指す位置によって定義される前記複数の属性を表す文字列の位置への複数のポインタを含む連結リスト属性構造を前記メモリに作成する段階と、
前記文字列パーサが、要素内容を有する前記複数の連結リストノード構造から、前記アプリケーションに返却されるべき、前記複数の連結リストノード構造に含まれる前記複数のポインタが指す位置によって定義される前記要素内容を抽出する段階と、
前記文字列パーサが、前記複数の連結リストノード構造および前記連結リスト属性構造を前記メモリから解放する段階と
を備え、
前記複数の連結リストノード構造および前記連結リスト属性構造を解放する段階において、前記文字列パーサは、前記入力文字列が前記メモリにコピーされなくてはならないことを防ぐべく、前記連結リスト属性構造の作成および前記要素内容の抽出をした後に、前記複数の連結リストノード構造および前記連結リスト属性構造内の前記複数のポインタを維持したまま、前記複数の連結リストノード構造および前記連結リスト属性構造を削除する
方法。
前記複数の連結リストノード構造の中の前記複数のポインタは、タグ名称、名称空間、予約位置、次タグ、親タグ、ピア要素、および終了タグへの１つ以上のポインタを含む
請求項１に記載の方法。
前記連結リスト属性構造の中の前記複数のポインタは、属性名称、属性値、接頭辞名称、および次属性への１つ以上のポインタを含む
請求項１または２に記載の方法。
前記予約位置への前記ポインタは、開始タグのために次の閉括弧へのポインタおよび終了タグのために開括弧へのポインタを含む
請求項２に記載の方法。
前記入力文字列を複数の連結リストノード構造に変形する段階は、
前記文字列パーサが、ＸＭＬ文字列である前記入力文字列、および、前記ＸＭＬ文字列中の要素である前記複数の要素に含まれるタグの開始を示す文字である区切り文字として開括弧文字を受け取る段階と、
前記文字列パーサが、前記開括弧の区切り文字を用いて、前記入力文字列を解析して、前記複数の要素に含まれるタグの開始を表す複数のトークンのリストを得る段階と、
前記文字列パーサが、前記複数のトークンの連結リストを返す段階と、
前記文字列パーサが、１つの連結リストノード構造を提供するために前記連結リストのそれぞれのトークンを解析する段階と
を有する請求項１から４のいずれかに記載の方法。
前記１つの連結リストノード構造を提供するために前記連結リストの中のそれぞれのトークンを解析する段階は、
前記文字列パーサが、前記トークンがスラッシュ（"／"）で始まるかどうかを判断する段階と、
前記トークンが前記スラッシュで始まっていない場合に、前記文字列パーサが前記連結リストノード構造の中の開始タグ領域をセットし、前記トークンが前記スラッシュで始まる場合に、前記文字列パーサが前記開始タグ領域を消去する段階と、
スペース文字が前記トークンの中で見つかった場合に、前記文字列パーサが、前記トークンを一番目の部分および二番目の部分に分けるために、前記区切り文字として前記スペース文字を用いて前記トークンを解析する段階と、
前記スペース文字が前記トークンの中で見つかった場合には、
前記文字列パーサが、前記トークンの前記一番目の部分の中の一番目の文字から前記トークンの前記一番目の部分の中のコロンに先立つ文字にわたる長さの名称空間のために、前記連結リストノード構造の中の名称空間ポインタを前記トークンの前記一番目の部分の中の一番目の文字にセットし、前記コロンの右の文字から前記トークンの前記一番目の部分の最後の文字にわたる長さのタグ名称のために、前記連結リストノード構造の中のタグ名称ポインタを前記トークンの前記一番目の部分の中の前記コロンの右の文字にセットして、
前記スペース文字が前記トークンの中で見つからなかった場合には、
前記文字列パーサが、前記トークンの長さのタグ名称のために、前記連結リストノード構造の中のタグ名称ポインタを前記トークンの中の前記複数の文字にセットし、ゼロの長さの名称空間のために、前記連結リストノード構造の中の名称空間ポインタをｎｕｌｌポインタとしてセットする、段階と、
前記文字列パーサが、前記連結リストノード構造の中の次領域ポインタが前記次のトークンの先頭を指し示すようにセットする段階と
を含む請求項５に記載の方法。
前記１つの連結リストノード構造を提供するために前記連結リストの中のそれぞれのトークンを解析する段階は、
前記トークンが開始タグの場合に、前記文字列パーサが、前記連結リストノード構造の中の予約ポインタが前記トークンの最後の閉括弧を指し示すようにセットし、前記トークンが終了タグの場合に、前記文字列パーサが、前記予約ポインタが前記トークンの先頭の開括弧を指し示すようにセットする段階
をさらに含む請求項６に記載の方法。
前記１つの連結リストノード構造を提供するために前記連結リストの中のそれぞれのトークンを解析する段階は、
前記文字列パーサが、前記トークンの前記二番目の部分の一番目の文字が前記スラッシュで始まっているかどうかを判断する段階と、
前記トークンの前記二番目の部分が前記スラッシュで始まっている場合に、前記文字列パーサが前記連結リストノード構造の中の空タグ領域をセットし、前記トークンの前記二番目の部分が前記スラッシュで始まっていない場合に、前記文字列パーサが前記連結リストノード構造の中の空タグ領域を消去する段階と
をさらに含む請求項６または７に記載の方法。
前記入力文字列のシンタックスを検証する段階は、
前記文字列パーサが、スタックを初期化する段階と、
前記文字列パーサが、前記入力文字列のための前記連結リストノード構造を受け取る段階と、
前記文字列パーサが、受け取った前記連結リストノード構造が開始タグおよび終了タグのいずれを表すかを判断する段階と、
前記連結リストノード構造が現在の開始タグを表す場合には、前記文字列パーサが、前記連結リストノード構造の中の親領域を前記スタックの上部の前記開始タグへのポインタで満たし、前記現在の開始タグを前記スタックに置き、前記連結リストノード構造が現在の終了タグを表す場合には、前記文字列パーサが、前記スタックの前記上部の前記開始タグをポップオフし、前記連結リストノード構造の中のピア領域を前記現在の終了タグの次領域ポインタへのポインタで満たして、前記現在の終了タグが前記スタックからポップオフされる前記開始タグと適合するかどうかを判断する段階と、
前記現在の終了タグが前記スタックからポップオフされる前記開始タグと適合しない場合に、前記文字列パーサが前記入力文字列を無効であるとし、前記現在の終了タグが前記スタックからポップオフされる前記開始タグと適合する場合に、前記文字列パーサが、前記入力文字列を有効であるとするとともに前記連結リストノード構造の終了タグを前記現在の終了タグで満たす段階と、
前記入力文字列が有効であり、かつ、前記連結リストノード構造が前記入力文字列のための最後の連結リストノード構造でない場合に、前記スタックの前記初期化を除き、前記文字列パーサが、前記入力文字列からの前記次の連結リストノード構造を用いて、上記プロセスを繰り返す段階と
を有する請求項１から８のいずれかに記載の方法。
前記連結リスト属性構造を前記メモリに作成する段階は、
前記文字列パーサが、開始タグのための連結リストノード構造を受け取る段階と、
前記文字列パーサが、前記連結リストノード構造の中の予約ポインタを用いて、開括弧文字と前記予約ポインタとの間の文字で属性文字列が表されるよう、前記開括弧文字が前記入力文字列の中で見つかるまで前記予約ポインタの位置をデクリメントする段階と、
前記文字列パーサが、前記属性文字列の一番目の部分および前記属性文字列の二番目の部分を提供するために、区切り文字としてスペース文字を用いて前記属性文字列を解析する段階と、
前記文字列パーサが、前記属性文字列の前記一番目の部分を廃棄する段階と、
前記文字列パーサが、前記区切り文字として等号を用いて、前記属性文字列の前記二番目の部分を解析する段階と、
前記文字列パーサが、前記連結リスト属性構造の中の属性値ポインタを前記属性文字列の前記二番目の部分の前記等号の後の一番目の文字へセットして、属性値長を、前記属性文字列の前記二番目の部分の前記一番目の文字から前記属性文字列の前記二番目の部分の最後にわたる長さにする段階と、
前記文字列パーサが、前記区切り文字としてコロンを用いて、前記属性文字列の前記一番目の部分を解析する段階と、
前記文字列パーサが、前記連結リスト属性構造の中の次属性領域が前記入力文字列の中の前記次の属性を指し示すようにセットする段階と
を有し、
前記区切り文字としてコロンを用いて前記属性文字列の前記一番目の部分を解析する段階は、
前記属性文字列の前記一番目の部分の中に前記コロンの文字が見つかった場合に、前記文字列パーサが、前記連結リスト属性構造の中の接頭辞名称ポインタを前記属性文字列の前記一番目の部分の中の一番目の文字へセットして、接頭辞名称の長さを、前記属性文字列の前記一番目の部分の中の前記一番目の文字から前記属性文字列の前記一番目の部分の中の前記コロンに先立つ文字にわたる長さにし、前記連結リスト属性構造の中の属性名称ポインタを前記属性文字列の前記一番目の部分の中の前記コロンの後の一番目の文字へセットして、属性名称の長さを、前記属性文字列の前記一番目の部分の中の前記コロンの後の前記一番目の文字から前記属性文字列の前記一番目の部分の最後の文字にわたる長さにする段階と、
前記属性文字列の前記一番目の部分の中に前記コロンの文字が見つからなかった場合に、前記文字列パーサが、前記連結リスト属性構造の中の前記接頭辞名称ポインタをｎｕｌｌポインタとしてセットして、前記接頭辞名称の長さをゼロにし、前記文字列パーサが、前記連結リスト属性構造の中の前記属性名称ポインタを前記属性文字列の前記一番目の部分の前記一番目の文字としてセットして、前記属性名称の長さを前記属性文字列の前記一番目の部分の長さにする段階と
を含む請求項１から９のいずれかに記載の方法。
前記要素内容を抽出する段階は、
前記文字列パーサが、対応する開始タグおよび終了タグのための前記複数の連結リストノード構造を受け取る段階と、
前記文字列パーサが、前記複数の連結リストノード構造の前記開始および終了タグの複数の予約ポインタを使用して、前記開始タグの前記予約ポインタおよび前記終了タグの前記予約ポインタの間の文字列を前記要素内容として決定する段階と
を有する請求項１から１０のいずれかに記載の方法。
前記入力文字列は、ＸＭＬ（拡張可能マークアップ言語）入力文字列を含む
請求項１から１１のいずれかに記載の方法。
前記入力文字列のシンタックスを検証する段階において、前記文字列パーサは、前記複数の連結リストノード構造を用いて、前記入力文字列のシンタックスを検証する
請求項１から８のいずれかに記載の方法。
前記連結リスト属性構造をメモリに作成する段階において、前記文字列パーサは、前記複数の連結リストノード構造の中の前記複数のポインタを用いて、前記連結リスト属性構造を前記メモリに作成する
請求項１から９、１３のいずれかに記載の方法。
前記連結リスト属性構造をメモリに作成する段階は、
前記文字列パーサが、前記アプリケーションから受け取った前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記連結リスト属性構造を前記メモリに作成する段階と、
前記文字列パーサが、前記連結リスト属性構造を前記アプリケーションに返却する段階と
を有する請求項１４に記載の方法。
前記要素内容を抽出する段階において、
前記文字列パーサは、前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記要素内容を抽出する
請求項１から１０、１３から１５のいずれかに記載の方法。
前記要素内容を抽出する段階は、
前記文字列パーサが、前記アプリケーションから受け取った前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記要素内容を抽出する段階と、
前記文字列パーサが、前記要素内容を前記アプリケーションに返却する段階と
を有する請求項１６に記載の方法。
前記複数の連結リストノード構造に含まれる前記複数のポインタは、開始タグのための次の閉括弧へのポインタと、終了タグのための開括弧へのポインタとを示す予約位置のポインタを含んでおり、
前記連結リスト属性構造をメモリに作成する段階において、前記文字列パーサは、前記予約位置のポインタを用いて前記連結リスト属性構造を前記メモリに作成し、
前記要素内容を抽出する段階において、前記文字列パーサは、前記予約位置のポインタを用いて前記要素内容を抽出する
請求項１から９、１３から１７のいずれかに記載の方法。
複数のマークアップ言語記述を分けるための方法をコンピュータに実行させるためのプログラムであって、
前記複数のマークアップ言語記述を分けるための方法は、
文字列パーサが、アプリケーションからの入力文字列を、前記入力文字列に含まれる複数の要素のそれぞれの内に要素内容および複数の属性を表す文字列の位置を定義する前記入力文字列の内部の位置への複数のポインタを含む複数の連結リストノード構造に変形してメモリに作成する段階と、
前記文字列パーサが、前記入力文字列のシンタックスを検証する段階と、
前記文字列パーサが、複数の属性を有する前記複数の連結リストノード構造から、前記複数の連結リストノード構造に含まれる前記複数のポインタが指す位置によって定義される前記複数の属性を表す文字列の位置への複数のポインタを含む連結リスト属性構造を前記メモリに作成する段階と、
前記文字列パーサが、要素内容を有する前記複数の連結リストノード構造から、前記アプリケーションに返却されるべき、前記複数の連結リストノード構造に含まれる前記複数のポインタが指す位置によって定義される前記要素内容を抽出する段階と、
前記文字列パーサが、前記複数の連結リストノード構造および前記連結リスト属性構造を前記メモリから解放する段階と
を備え、
前記複数の連結リストノード構造および前記連結リスト属性構造を解放させる段階において、前記文字列パーサは、前記入力文字列が前記メモリにコピーされなくてはならないことを防ぐべく、前記連結リスト属性構造の作成および前記要素内容の抽出をした後に、前記複数の連結リストノード構造および前記連結リスト属性構造内の前記複数のポインタを維持したまま、前記複数の連結リストノード構造および前記連結リスト属性構造を削除する
プログラム。
前記複数の連結リストノード構造の中の前記複数のポインタは、タグ名称、名称空間、予約位置、次タグ、親タグ、ピア要素、および終了タグへの１つ以上のポインタを含む請求項１９に記載のプログラム。
前記複数の連結リスト属性構造の中の前記複数のポインタは、属性名称、属性値、接頭辞名称、および次属性への１つ以上のポインタを含む
請求項１９または２０に記載のプログラム。
前記予約位置への前記ポインタは、開始タグのために次の閉括弧へのポインタおよび終了タグのために開括弧へのポインタを含む
請求項２０に記載のプログラム。
前記入力文字列を複数の連結リストノード構造に変形する段階は、
前記文字列パーサが、ＸＭＬ文字列である前記入力文字列、および、前記ＸＭＬ文字列中の要素である前記複数の要素に含まれるタグの開始を示す文字である区切り文字として開括弧文字を受け取る段階と、
前記文字列パーサが、前記開括弧の区切り文字を用いて、前記入力文字列を解析して、前記複数の要素に含まれるタグの開始を表す複数のトークンのリストを得る段階と、
前記文字列パーサが、前記複数のトークンの連結リストを返す段階と、
前記文字列パーサが、１つの連結リストノード構造を提供するために前記連結リストのそれぞれのトークンを解析する段階と
を有する請求項１９から２２のいずれかに記載のプログラム。
前記１つの連結リストノード構造を提供するために前記連結リストの中のそれぞれのトークンを解析する段階は、
前記文字列パーサが、前記トークンがスラッシュ（"／"）で始まるかどうかを判断する段階と、
前記トークンが前記スラッシュで始まっていない場合に、前記文字列パーサが前記連結リストノード構造の中の開始タグ領域をセットし、および前記トークンが前記スラッシュで始まる場合に、前記文字列パーサが前記開始タグ領域を消去する段階と、
スペース文字が前記トークンの中で見つかった場合に、前記文字列パーサが、前記トークンを一番目の部分および二番目の部分に分けるために、前記区切り文字として前記スペース文字を用いて前記トークンを解析する段階と
前記スペース文字が前記トークンの中で見つかった場合には、
前記文字列パーサが、前記トークンの前記一番目の部分の中の一番目の文字から前記トークンの前記一番目の部分の中のコロンに先立つ文字にわたる長さの名称空間のために、前記連結リストノード構造の中の名称空間ポインタを前記トークンの前記一番目の部分の中の一番目の文字にセットし、前記コロンの右の文字から前記トークンの前記一番目の部分の最後の文字にわたる長さのタグ名称のために、前記連結リストノード構造の中のタグ名称ポインタを前記トークンの前記一番目の部分の中の前記コロンの右の文字にセットして、
前記スペース文字が前記トークンの中で見つからなかった場合には、
前記文字列パーサが、前記トークンの長さのタグ名称のために、前記連結リストノード構造の中のタグ名称ポインタを前記トークンの中の前記複数の文字にセットし、ゼロの長さの名称空間のために、前記連結リストノード構造の中の名称空間ポインタをｎｕｌｌポインタとしてセットする、段階と、
前記文字列パーサが、前記連結リストノード構造の中の次領域ポインタが前記次のトークンの先頭を指し示すようにセットする段階と
を含む請求項２３に記載のプログラム。
前記１つの連結リストノード構造を提供するために前記連結リストの中のそれぞれのトークンを解析する段階は、
前記トークンが開始タグの場合に、前記文字列パーサが、前記連結リストノード構造の中の予約ポインタが前記トークンの最後の閉括弧を指し示すようにセットし、前記トークンが終了タグの場合に、前記文字列パーサが、前記予約ポインタが前記トークンの先頭の開括弧を指し示すようにセットする段階
をさらに含む請求項２４に記載のプログラム。
前記１つの連結リストノード構造を提供するために前記連結リストの中のそれぞれのトークンを解析する段階は、
前記文字列パーサが、前記トークンの前記二番目の部分の一番目の文字が前記スラッシュで始まっているかどうかを判断する段階と、
前記トークンの前記二番目の部分が前記スラッシュで始まっている場合に、前記文字列パーサが前記連結リストノード構造の中の空タグ領域をセットし、前記トークンの前記二番目の部分が前記スラッシュで始まっていない場合に、前記文字列パーサが前記連結リストノード構造の中の空タグ領域を消去する段階と
をさらに含む請求項２４または２５に記載のプログラム。
前記入力文字列のシンタックスを検証する段階は、
前記文字列パーサが、スタックを初期化する段階と、
前記文字列パーサが、前記入力文字列のための前記連結リストノード構造を受け取る段階と、
前記文字列パーサが、受け取った前記連結リストノード構造が開始タグおよび終了タグのいずれ表すかを判断する段階と
前記連結リストノード構造が現在の開始タグを表す場合には、前記文字列パーサが、前記連結リストノード構造の中の親領域を前記スタックの上部の前記開始タグへのポインタで満たし、前記現在の開始タグを前記スタックに置き、前記連結リストノード構造が現在の終了タグを表す場合には、前記文字列パーサが、前記スタックの前記上部の前記開始タグをポップオフし、前記連結リストノード構造の中のピア領域を前記現在の終了タグの次領域ポインタへのポインタで満たして、前記現在の終了タグが前記スタックからポップオフされる前記開始タグと適合するかどうかを判断する段階と、
前記現在の終了タグが前記スタックからポップオフされる前記開始タグと適合しない場合に、前記文字列パーサが前記入力文字列を無効であるとし、前記現在の終了タグが前記スタックからポップオフされる前記開始タグと適合する場合に、前記文字列パーサが、前記入力文字列を有効であるとするとともに前記連結リストノード構造の終了タグを前記現在の終了タグで満たす段階と、
前記入力文字列が有効であり、かつ、前記連結リストノード構造が前記入力文字列のための最後の連結リストノード構造でない場合に、前記スタックの前記初期化を除き、前記文字列パーサが、前記入力文字列からの前記次の連結リストノード構造を用いて、上記プロセスを繰り返す段階と
を有する請求項１９から２６のいずれかに記載のプログラム。
前記連結リスト属性構造を前記メモリに作成する段階は、
前記文字列パーサが、開始タグのための連結リストノード構造を受け取る段階と、
前記文字列パーサが、前記連結リストノード構造の中の予約ポインタを用いて、開括弧文字と前記予約ポインタとの間の文字で属性文字列が表されるよう、前記開括弧文字が前記入力文字列の中で見つかるまで、前記予約ポインタの位置をデクリメントする段階と、
前記文字列パーサが、前記属性文字列の一番目の部分および前記属性文字列の二番目の部分を提供するために、区切り文字としてスペース文字を用いて前記属性文字列を解析する段階と、
前記文字列パーサが、前記属性文字列の前記一番目の部分を廃棄する段階と、
前記文字列パーサが、前記区切り文字として等号を用いて、前記属性文字列の前記二番目の部分を解析する段階と、
前記文字列パーサが、前記連結リスト属性構造の中の属性値ポインタを前記属性文字列の前記二番目の部分の前記等号の後の一番目の文字へセットして、属性値長を、前記属性文字列の前記二番目の部分の前記一番目の文字から前記属性文字列の前記二番目の部分の最後にわたる長さにする段階と、
前記文字列パーサが、前記区切り文字としてコロンを用いて、前記属性文字列の前記一番目の部分を解析する段階と、
前記文字列パーサが、前記連結リスト属性構造の中の次属性領域が前記入力文字列の中の前記次の属性を指し示すようにセットする段階と
を有し、
前記区切り文字としてコロンを用いて前記属性文字列の前記一番目の部分を解析する段階は、
前記属性文字列の前記一番目の部分の中に前記コロンの文字が見つかった場合に、前記文字列パーサが、前記連結リスト属性構造の中の接頭辞名称ポインタを前記属性文字列の前記一番目の部分の中の一番目の文字へセットして、接頭辞名称の長さを、前記属性文字列の前記一番目の部分の中の前記一番目の文字から前記属性文字列の前記一番目の部分の中の前記コロンに先立つ文字にわたる長さにし、前記連結リスト属性構造の中の属性名称ポインタを前記属性文字列の前記一番目の部分の中の前記コロンの後の一番目の文字へセットして、属性名称の長さを、前記属性文字列の前記一番目の部分の中の前記コロンの後の前記一番目の文字から前記属性文字列の前記一番目の部分の最後の文字にわたる長さにする段階と、
前記属性文字列の前記一番目の部分の中に前記コロンの文字が見つからなかった場合に、前記文字列パーサが、前記連結リスト属性構造の中の前記接頭辞名称ポインタをｎｕｌｌポインタとしてセットして、前記接頭辞名称の長さをゼロにし、前記文字列パーサが、前記連結リスト属性構造の中の前記属性名称ポインタを前記属性文字列の前記一番目の部分の前記一番目の文字としてセットして、前記属性名称の長さを前記属性文字列の前記一番目の部分の長さにする段階と
を含む請求項１９から２７のいずれかに記載のプログラム。
前記要素内容を抽出する段階は、
前記文字列パーサが、対応する開始タグおよび終了タグのための前記複数の連結リストノード構造を受け取る段階と、
前記文字列パーサが、前記複数の連結リストノード構造の前記開始および終了タグの複数の予約ポインタを使用して、前記開始タグの前記予約ポインタおよび前記終了タグの前記予約ポインタの間の文字列を前記要素内容として決定する段階と
を有する請求項１９から２８のいずれかに記載のプログラム。
前記入力文字列は、ＸＭＬ（拡張可能マークアップ言語）入力文字列を含む
請求項１９から２８のいずれかに記載のプログラム。
前記入力文字列のシンタックスを検証する段階において、前記文字列パーサは、前記複数の連結リストノード構造を用いて、前記入力文字列のシンタックスを検証する
請求項１９から２６のいずれかに記載のプログラム。
前記連結リスト属性構造をメモリに作成する段階において、前記文字列パーサは、前記複数の連結リストノード構造の中の前記複数のポインタを用いて、前記連結リスト属性構造を前記メモリに作成する
請求項１９から２７、３１のいずれかに記載のプログラム。
前記連結リスト属性構造をメモリに作成する段階は、
前記文字列パーサが、前記アプリケーションから受け取った前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記連結リスト属性構造を前記メモリに作成する段階と、
前記文字列パーサが、前記連結リスト属性構造を前記アプリケーションに返却する段階と
を有する請求項３２に記載のプログラム。
前記要素内容を抽出する段階において、
前記文字列パーサは、前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記要素内容を抽出する
請求項１９から２８、３１から３３のいずれかに記載のプログラム。
前記要素内容を抽出する段階は、
前記文字列パーサが、前記アプリケーションから受け取った前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記要素内容を抽出する段階と、
前記文字列パーサが、前記要素内容を前記アプリケーションに返却する段階と
を有する請求項３４に記載のプログラム。
前記複数の連結リストノード構造に含まれる前記複数のポインタは、開始タグのための次の閉括弧へのポインタと、終了タグのための開括弧へのポインタとを示す予約位置のポインタを含んでおり、
前記連結リスト属性構造をメモリに作成する段階において、前記文字列パーサは、前記予約位置のポインタを用いて前記連結リスト属性構造を前記メモリに作成し、
前記要素内容を抽出する段階において、前記文字列パーサは、前記予約位置のポインタを用いて前記要素内容を抽出する
請求項１９から２７、３１から３５のいずれかに記載のプログラム。
複数のマークアップ言語記述を分けるためのシステムであって、
プロセッサに接続されたメモリと、
前記プロセッサ上で動作するゼロコピー文字列パーサ、および、前記ゼロコピー文字列パーサに結合され、アプリケーションからの入力文字列を、前記入力文字列をメモリに前記コピーすることなく解析するために前記ゼロコピー文字列パーサと対話するロジックパーサとを有する文字列パーサと
を備え、
前記文字列パーサは、
前記アプリケーションからの入力文字列を、前記入力文字列に含まれる複数の要素のそれぞれの内に要素内容および複数の属性を表す文字列の位置を定義する前記入力文字列の内部の位置への複数のポインタを含む複数の連結リストノード構造に変形してメモリに作成し、
前記入力文字列のシンタックスを検証し、
複数の属性を有する前記複数の連結リストノード構造から、前記複数の連結リストノード構造に含まれる前記複数のポインタが指す位置によって定義される前記複数の属性を表す文字列の位置への複数のポインタを含む連結リスト属性構造を前記メモリに作成し、
要素内容を有する前記複数の連結リストノード構造から、前記アプリケーションに返却されるべき、前記複数の連結リストノード構造に含まれる前記複数のポインタが指す位置によって定義される前記要素内容を抽出し、
前記文字列パーサが、前記複数の連結リストノード構造および前記連結リスト属性構造を前記メモリから解放し、
前記文字列パーサは、前記複数の連結リストノード構造および前記連結リスト属性構造を解放する場合に、前記入力文字列が前記メモリにコピーされなくてはならないことを防ぐべく、前記連結リスト属性構造の作成および前記要素内容の抽出をした後に、前記複数の連結リストノード構造および前記連結リスト属性構造内の前記複数のポインタを維持したまま、前記複数の連結リストノード構造および前記連結リスト属性構造を削除する
システム。
前記ゼロコピー文字列パーサは、シングルパスパーサである
請求項３７に記載のシステム。
前記ロジックパーサは、ＸＭＬ（拡張可能マークアップ言語）文字列を解析するために要求されるロジックを有する
請求項３７または３８に記載のシステム。
前記入力文字列は、前記入力文字列に関連する長さを有し、
前記ロジックパーサは、前記ゼロコピー文字列パーサが前記入力文字列を１つ以上の連結リストノード構造に解析することを可能にするために、区切り文字を前記ゼロコピー文字列パーサに提供する
請求項３７から３９のいずれかに記載のシステム。
前記１つ以上の連結リストノード構造は、前記ゼロコピー文字列パーサがさらに複数の連結リスト属性構造を作成するために複数のポインタを用いて前記入力文字列を解析することを可能にするために、前記入力文字列への複数のポインタを有し、
前記複数の連結リスト属性構造は、前記入力文字列の中で見つかる１つ以上の属性への付加的な複数のポインタを含む
請求項４０に記載のシステム。
前記１つ以上の連結リストノード構造は、前記ゼロコピー文字列パーサが前記入力文字列に含まれる要素の中の要素内容を抽出するために前記入力文字列をさらに解析することを可能にするために、前記入力文字列への複数の予約ポインタを備える
請求項４０または４１に記載のシステム。
前記文字列パーサは、前記入力文字列のシンタックスを検証する場合に、前記複数の連結リストノード構造を用いて、前記入力文字列のシンタックスを検証する
請求項３７に記載のシステム。
前記文字列パーサは、前記連結リスト属性構造をメモリに作成する場合に、前記複数の連結リストノード構造の中の前記複数のポインタを用いて、前記連結リスト属性構造を前記メモリに作成する
請求項３７または４３に記載のシステム。
前記文字列パーサは、前記連結リスト属性構造をメモリに作成する場合に、前記アプリケーションから受け取った前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記連結リスト属性構造を前記メモリに作成し、前記連結リスト属性構造を前記アプリケーションに返却する
請求項４４に記載のシステム。
前記文字列パーサは、前記要素内容を抽出する場合に、前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記要素内容を抽出する
請求項３７、４３から４５のいずれかに記載のシステム。
前記文字列パーサは、前記要素内容を抽出する場合に、前記アプリケーションから受け取った前記複数の連結リストノード構造に含まれる前記複数のポインタを用いて、前記要素内容を抽出し、前記要素内容を前記アプリケーションに返却する
請求項４６に記載のシステム。
前記複数の連結リストノード構造に含まれる前記複数のポインタは、開始タグのための次の閉括弧へのポインタと、終了タグのための開括弧へのポインタとを示す予約位置のポインタを含んでおり、
前記文字列パーサは、前記連結リスト属性構造をメモリに作成する場合に、前記予約位置のポインタを用いて前記連結リスト属性構造を前記メモリに作成し、前記要素内容を抽出する場合に、前記予約位置のポインタを用いて前記要素内容を抽出する
請求項３７、４３から４７のいずれかに記載のシステム。