JP4236055B2 - 構造化文書処理装置、方法、プログラム - Google Patents
構造化文書処理装置、方法、プログラム Download PDFInfo
- Publication number
- JP4236055B2 JP4236055B2 JP2005374990A JP2005374990A JP4236055B2 JP 4236055 B2 JP4236055 B2 JP 4236055B2 JP 2005374990 A JP2005374990 A JP 2005374990A JP 2005374990 A JP2005374990 A JP 2005374990A JP 4236055 B2 JP4236055 B2 JP 4236055B2
- Authority
- JP
- Japan
- Prior art keywords
- automaton
- state transition
- structured document
- document
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Document Processing Apparatus (AREA)
Description
特許文献1の発明では、オートマトンの構成方法としては、SAXイベントを一つの状態として表現していた。図1のグラフは、状態遷移数に伴う処理時間の変化を実験により計測したグラフである。図1は、同一のドキュメント(64KBのファイルサイズ)を用意し、構成する状態数(x軸)を変化させたときの、バイト列マッチングにかかる平均処理時間(ms)を示す。このグラフからわかるように、状態遷移数が多いほど、処理時間が単調に増加することがわかる。例えば、空白を一つの状態として表現したときと、空白を他の状態に統合した場合は、状態数が12000から8000と4000程少なくなり、バイト列マッチングだけにかかるコストも3.25(ms)から2.4(ms)とその性能差は約30%になる。この実験からもわかるように、状態遷移は少なければ少ないほど差分処理によるオーバヘッドが少ない。
特許文献1の発明は、構造化文書間の差分解析を行うことによって高速化されたXMLパーサであるDeltarserの基本処理を開示したものである。Deltarserは、差分検出を効率的に行うために、ドキュメント(文書)から実行時に動的にオートマトンを生成する。ここで、オートマトンの一つの状態遷移はSAXイベントの単位であるが、通常のXMLパーサの処理と比較して、状態を作るコストは高く、その処理が頻繁に起こらないようにすることが全体としての性能向上につながる。
(A)インスタンス文書の統計情報
(B)スキーマの情報
本手法は、インスタンス文書の統計情報を用いてオートマトンを最適化し、XMLパーサの高速化を実現する手法である。具体的には、以下の2つの手法を提供する。
(A−2)反復的な要素の出現回数のパターンに適応したオートマトンの作成
以下に各手法の詳細について述べる。
前述したように、特許文献1に開示されたDeltarserの更なる高速化には状態遷移に伴うコストは無視できない。よって、バイト列マッチングの際に、高い確率で連続してマッチする状態遷移が存在すれば、それらの状態を別々に表現するのではなく、一つの状態遷移として表現した方が良い。例えば、<name> IBM </name>と言ったXMLの文字列を処理する際、通常、“<name>”,“IBM”,“</name>”といった状態遷移が作成されるが、毎回すべてこれらの状態にマッチするのであれば、”<name> IBM </name>”と統合して表現した方が良い。この統合を統計的な情報を用いて行う。
ある要素が反復的に(注:この文書では繰り返しと反復の2つの用語が出てくるが、どちらも同じ意味である)出現するケースを考える。Deltarserではこのようなケースを表現するオートマトンとして、以下の2つタイプのオートマトンが作成可能である。
繰り返しの要素が出現する際、その要素を表す状態が既に作られている場合は、その状態に戻り、1回目と同じ状態遷移が行われる。図6に、これによって繰り返しがループ型の状態遷移となる場合のオートマトンを示した。
繰り返しの要素が出現する際、既にその要素を表す状態が既に作られたとしても、別途状態遷移を作る。図7に、この場合の繰り返しが1直線型の状態遷移となる場合のオートマトンを示した。
図6のループ型オートマトンを例に取ると、同じ経路を辿って状態S2に戻っていることをまず検知する必要がある。これには通過した状態遷移のIDを記録することで実現する。つまり、図6の場合、IDが{2,3,4}と言った経路が状態2に追加される。このIDリストは、前述した連続した状態遷移列(連続状態遷移列と呼ぶ)とは別のものであり、繰り返しを検知するために記録される状態遷移列を反復状態遷移列と呼ぶことにする。反復状態遷移列は、連続状態遷移列と異なり、マッチするかどうかにかかわらず、通過した状態遷移を記録するものである。
反復は入れ子の構造として出現することがある。例えば、図8のXMLインスタンス文書では、最も内側の<C>要素が任意の回数で出現し、その外側の<B>の要素は2回出現するような文書である。この文書をオートマトンとして表現すると、図9のループ型オートマトンになる。ここで、タグ<A>などによって発生する状態遷移をID番号と共に、Tid=1[<A>]のように表すものとする。このような入れ子で反復の要素が出現した場合でも、(1)の反復の回数を数えられるようにすることが必要である。
本手法は、ループの中に更にループがある入れ子構造に関して、以下の手順でそれぞれの繰り返し回数を数える。
次に、内側ループに関して(1)の方法を用いて繰り返し回数を記録する(ステップS2)。
更に、内側ループを囲む最も近い外側ループを検出した場合(ステップS3:Yes)、内側ループの回数が1回以上であっても、1回のループのIDリストのみを通過した状態遷移列として記録する(ステップS4)。外側ループに関しては、そのIDリストのカウンターを用いて繰り返し回数を数える(ステップS5)。このステップS3で外側ループが検出されない場合は(ステップS3:No)、終了する。
更に、外側ループを内側ループにし(ステップS6)、ステップS3、ステップS4、ステップS5の処理を実行する。
オートマトンの最適化に活用できるスキーマ情報を本開示書ではW3Cで規定されたXML Schemaを用いるが、DTD、RELAX(REgular LAnguage description for XML) NG等の他のスキーマ言語も利用できる。
(1)単純内容の要素が固定値を持つ場合
xsd:elementでは、fixed属性が指定されると、単純内容の要素はこの属性を使って特定の値に固定できる。
XML Schema: <xsd:element name=“name” type=“xsd:string” fixed=“IBM”/>
XML インスタンス: <name> IBM </name>
スキーマに属性値または要素間の値の候補が指定されている場合、その情報を用いて、あらかじめ、それらの状態遷移を作ることができる(オートマトンの事前構築)。
(1)ある要素の次に出現する要素が確定している場合
XML Schemaのxsd:sequenceが指定されている場合、minOccursが0以外であれば、ある要素の次に出現する要素が決まっている。Xsd:sequenceは要素の順序付きグループを定義するコンポジタである。この情報を用いることによって、2つの別々の状態を一つの状態に統合することが可能である。
XMLインスタンス
<X><A>1</A><B>2</B><C>3</C></X>
このXMLインスタンスは、通常以下の11回の状態遷移となるが、(“<X>”,“<A>”,1,“</A>”,“<B>”,2,“</B>”,“<C>”,3,“</C>”,“</X>”)スキーマ情報を用いれば、以下のように7回の状態数に削減できる。
“<X><A>”,1,“</A><B>”,2,“</B><C>”,3,“</C></X>”
Xsd:choiceで指定されている場合、ある要素の次に出現する要素の候補があらかじめわかる。この情報を用いることによって、あらかじめ、状態遷移を作ることができ、状態遷移を作るコストを減らすことができる。Xsd:choiceは排他的な(どれか1つだけを選択できる)要素またはコンポジタのグループを定義するコンポジタである。Xsd:choiceはちなみに、maxOccursをunbounded、または回数を限定して指定することができる。
Xsd:allは、その出現回数が0回または1回であるような順不同の要素グループを記述するために使う。図18に例を示す。
maxOccursがunboundedと指定されているときは、様々な回数の要素が来るとわかるので、(自信を持って)、繰り返し専用の状態遷移が作成される。
(1)属性値が固定の場合
スキーマに属性値または要素間の値が固定値として指定されている場合、その情報を用いて、前後の状態と統合することが可能である。xsd:attributeでfixed属性を指定すると、その属性の値は固定され、ここで指定された値に等しくなければならない。以下にXML SchemaとXMLインスタンスの例を示す。
XMLインスタンス <item year=“2004”>
候補値を用いて、状態遷移を事前構築できる。以下のようなXML Schemaの場合、id属性値としては、red,blue,greenのみが出現することが定義されている。この情報を用いて、事前に状態遷移を作成することができる。例としてXML Schemaを図19に示す。
XMLは要素間に任意の数の空白の出現を許す。これまでに説明した状態遷移の最適化は、いずれも空白が含まれない場合のみを例に挙げていた。しかしながら、XMLでは空白文字の出現に対する制約が緩く、要素間に任意の数の空白が出現することや、要素名の中に空白が出現することもあり得る。本発明はこのような空白の揺らぎに対しては、(A)のインスタンス文書の統計情報を活用して解決する。
−Think Pad(登録商標) T43 2668−72J(Pentium(登録商標) M 760,2.0GHz,1GB RAM)
−Windows(登録商標) XP Professional
−Java(登録商標) VM:Sun JVM 1.4.2
−比較対象
1)Deltarser:特許文献1の発明を実装したXMLパーサ
2)Schema−aware Deltarser:本発明の手法を適用したDeltarser
−比較方法
1)1万回のウォーミングアップの後、1万回実行し、その平均時間を算出した。
2)すべてのテキスト要素は(同じテキストであっても)部分処理を行った。
−テスト文書
1)図21に記載のXML Schemaファイル
2)図22に記載のXMLインスタンス文書
様々なサイズのXMLインスタンスを用いて本手法(Schema−aware Deltarser)の効果を測定した。実験結果を図23、図24に示す。これらの図においてはXMLインスタンスのファイル名(xxx.xml)が、そのドキュメントサイズ(バイト数)を表している。また、処理結果の計測時間をmsecで示している。
2 出力部
3 通信部
4 記憶部
4a インスタンス文書統計情報
4b 解析済み元構造化文書
5 インスタンス文書解析部
6 スキーマ情報解析部
7 オートマトン最適化部
8 構文解析部
9 API部
10 構造化文書処理装置
20 構造化文書
21 インスタンス文書
22 スキーマ情報
30 アプリケーション・プログラム
Claims (19)
- 電子データ化された構造化文書を構文解析する構造化文書処理装置であって、
前記構造化文書を複数のノードに区分化可能とする複数の状態の状態遷移列を生成するオートマトン生成部と、
前記構造化文書の実体であるインスタンス文書を状態解析した結果を示す状態遷移間のマッチングを調べて、連続してマッチングする状態遷移の出現頻度を示すデータである統計情報を得て、前記統計情報で示される前記出現頻度が所定の頻度閾値を超えた場合に、前記オートマトン生成部で生成された状態遷移列について前記マッチングした状態遷移を一つの状態遷移として統合し、さらに、前記状態遷移において反復的に現れる反復的要素を検知して当該反復的要素が出現する反復回数を求め、該反復回数が所定の反復閾値を超えたか否かに応じてオートマトンの型を選択してオートマトンを最適化するインスタンス文書解析部と、
前記構造化文書の情報の構造や形式を定義するスキーマ情報を解析して処理すべき要素が属性を有しているかに応じて、前記オートマトン生成部が生成した前記状態遷移列についてその状態遷移を統合してオートマトンを最適化するスキーマ情報解析部と、
前記インスタンス文書解析部が最適化したオートマトンと前記スキーマ情報解析部が最適化したオートマトンとを互いに補完してさらに最適化するオートマトン最適化部と、
を備える、構造化文書処理装置。 - 前記構造化文書がXML文書である、請求項1に記載の構造化文書処理装置。
- 前記区分化可能とする複数の状態がSAXイベントで定義される、請求項1に記載の構造化文書処理装置。
- 前記インスタンス文書解析部には、前記状態遷移ごとにIDを付加し、同一の状態遷移が存在するか否かを調べて存在すると、当該状態遷移をマッチングしたと判定し、IDリストに当該IDを記録し、該IDリストを用いて連続的にマッチングする状態遷移の回数をカウントする連続状態遷移計数部が備えられる、請求項1に記載の構造化文書処理装置。
- 前記オートマトン最適化部は、前記インスタンス文書解析部が検知する前記反復的要素に対して、前記反復的要素が入れ子になっている場合にも最適化する、請求項1に記載の構造化文書処理装置。
- 前記インスタンス文書解析部において前記構造化文書の中の要素間に出現する任意の数の空白文字のパターンを前記統計情報によって同定する、請求項1に記載の文書構造解析装置。
- コンピュータによって電子データ化された構造化文書を構文解析する構造化文書処理方法であって、
前記コンピュータが
オートマトン生成手段によって前記構造化文書を複数のノードに区分化可能とする複数の状態の状態遷移列を生成する第1のステップと、
インスタンス文書解析手段によって前記構造化文書の実体であるインスタンス文書を状態解析した結果を示す状態遷移間のマッチングを調べて、連続してマッチングする状態遷移の出現頻度を示すデータである統計情報を得て、前記統計情報で示される前記出現頻度が所定の頻度閾値を超えた場合に、前記オートマトン生成手段で生成された状態遷移列について前記マッチングした状態遷移を一つの状態遷移として統合し、さらに、前記状態遷移において反復的に現れる反復的要素を検知して当該反復的要素が出現する反復回数を求め、該反復回数が所定の反復閾値を超えたか否かに応じてオートマトンの型を選択してオートマトンを最適化する第2のステップと、
スキーマ情報解析手段によって前記構造化文書の情報の構造や形式を定義するスキーマ情報を解析して処理すべき要素が属性を有しているかに応じて、前記オートマトン生成手段が生成した前記状態遷移列についてその状態遷移を統合してオートマトンを最適化する第3のステップと、
オートマトン最適化手段によって、前記インスタンス文書解析手段が最適化したオートマトンと前記スキーマ情報解析手段が最適化したオートマトンとを互いに補完してさらに最適化する第4のステップと、
を実行する構造化文書処理方法。 - 前記構造化文書がXML文書である、請求項7に記載の構造化文書処理方法。
- 前記区分化可能とする複数の状態がSAXイベントで定義される、請求項7に記載の構造化文書処理方法。
- 前記第2のステップでは、前記状態遷移ごとにIDを付加し、同一の状態遷移が存在するか否かを調べて存在すると、当該状態遷移をマッチングしたと判定し、IDリストに当該IDを記録し、該IDリストを用いて連続的にマッチングする状態遷移の回数をカウントする請求項7に記載の構造化文書処理方法。
- 前記第2のステップにおいて、前記反復的要素に対して、前記反復的要素が入れ子になっている場合にも最適化する、請求項7に記載の構造化文書処理方法。
- 前記第2のステップにおいて前記構造化文書の中の要素間に出現する任意の数の空白文字のパターンを前記統計情報によって同定する、請求項7に記載の文書構造解析方法。
- コンピュータによって実行され、電子データ化された構造化文書を構文解析するコンピュータ・プログラムであって、
前記コンピュータに、
オートマトン生成手段によって前記構造化文書を複数のノードに区分化可能とする複数の状態の状態遷移列を生成する第1のステップと、
インスタンス文書解析手段によって前記構造化文書の実体であるインスタンス文書を状態解析した結果を示す状態遷移間のマッチングを調べて、連続してマッチングする状態遷移の出現頻度を示すデータである統計情報を得て、前記統計情報で示される前記出現頻度が所定の頻度閾値を超えた場合に、前記オートマトン生成手段で生成された状態遷移列について前記マッチングした状態遷移を一つの状態遷移として統合し、さらに、前記状態遷移において反復的に現れる反復的要素を検知して当該反復的要素が出現する反復回数を求め、該反復回数が所定の反復閾値を超えたか否かに応じてオートマトンの型を選択してオートマトンを最適化する第2のステップと、
スキーマ情報解析手段によって前記構造化文書の情報の構造や形式を定義するスキーマ情報を解析して処理すべき要素が属性を有しているかに応じて、前記オートマトン生成手段が生成した前記状態遷移列についてその状態遷移を統合してオートマトンを最適化する第3のステップと、
オートマトン最適化手段によって、前記インスタンス文書解析手段が最適化したオートマトンと前記スキーマ情報解析手段が最適化したオートマトンとを互いに補完してさらに最適化する第4のステップと、
を実行させるコンピュータ・プログラム。 - 前記構造化文書がXML文書である、請求項13に記載のコンピュータ・プログラム。
- 前記区分化可能とする複数の状態がSAXイベントで定義される、請求項13に記載のコンピュータ・プログラム。
- 前記第2のステップでは、前記状態遷移ごとにIDを付加し、同一の状態遷移が存在するか否かを調べて存在すると、当該状態遷移をマッチングしたと判定し、IDリストに当該IDを記録し、該IDリストを用いて連続的にマッチングする状態遷移の回数をカウントする請求項13に記載のコンピュータ・プログラム。
- 前記第2のステップにおいて、前記反復的要素に対して、前記反復的要素が入れ子になっている場合にも最適化する、請求項13に記載のコンピュータ・プログラム。
- 前記第2のステップにおいて前記構造化文書の中の要素間に出現する任意の数の空白文字のパターンを前記統計情報によって同定するステップを更に実行させる請求項13に記載のコンピュータ・プログラム。
- 請求項13乃至請求項18のいずれか1項に記載のコンピュータ・プログラムを記録する記録媒体。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005374990A JP4236055B2 (ja) | 2005-12-27 | 2005-12-27 | 構造化文書処理装置、方法、プログラム |
CNB2006101647029A CN100495401C (zh) | 2005-12-27 | 2006-11-14 | 结构化文档处理装置和方法 |
US11/567,242 US7707491B2 (en) | 2005-12-27 | 2006-12-06 | Optimizing differential XML processing by leveraging schema and statistics |
US12/061,747 US8181105B2 (en) | 2005-12-27 | 2008-04-03 | Apparatus, method, and program that performs syntax parsing on a structured document in the form of electronic data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005374990A JP4236055B2 (ja) | 2005-12-27 | 2005-12-27 | 構造化文書処理装置、方法、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007179170A JP2007179170A (ja) | 2007-07-12 |
JP4236055B2 true JP4236055B2 (ja) | 2009-03-11 |
Family
ID=38214094
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005374990A Expired - Fee Related JP4236055B2 (ja) | 2005-12-27 | 2005-12-27 | 構造化文書処理装置、方法、プログラム |
Country Status (3)
Country | Link |
---|---|
US (2) | US7707491B2 (ja) |
JP (1) | JP4236055B2 (ja) |
CN (1) | CN100495401C (ja) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7920180B2 (en) * | 2004-04-06 | 2011-04-05 | Hewlett-Packard Development Company, L.P. | Imaging device with burst zoom mode |
FR2914759B1 (fr) * | 2007-04-03 | 2009-06-05 | Canon Kk | Procede et dispositif de codage d'un document hierarchise |
US8140582B2 (en) * | 2008-10-07 | 2012-03-20 | International Business Machines Corporation | Service oriented architecture aggregation |
FR2939535B1 (fr) * | 2008-12-10 | 2013-08-16 | Canon Kk | Procede et systeme de traitement pour la configuration d'un processseur exi |
IL198017A (en) * | 2009-04-05 | 2015-02-26 | Rafael Advanced Defense Sys | Means and method of protecting a fighter cell in a wheeled vehicle against explosives |
CN102207936B (zh) * | 2010-03-30 | 2013-10-23 | 国际商业机器公司 | 用于提示电子文档内容变更的方法和系统 |
JP5618797B2 (ja) * | 2010-12-02 | 2014-11-05 | 三菱電機株式会社 | データ処理装置及びプログラム |
CN102184239B (zh) * | 2011-05-16 | 2013-02-27 | 复旦大学 | Xml无线数据广播模式下基于访问概率的文档分片方法 |
CN102306191A (zh) * | 2011-08-31 | 2012-01-04 | 飞天诚信科技股份有限公司 | 基于嵌入式平台的xml报文解析方法 |
US9626368B2 (en) * | 2012-01-27 | 2017-04-18 | International Business Machines Corporation | Document merge based on knowledge of document schema |
CN102708155B (zh) * | 2012-04-20 | 2015-02-18 | 西安电子科技大学 | 基于回溯自动机语法分析的jsax解析器和解析方法 |
CN103885972B (zh) * | 2012-12-20 | 2017-02-08 | 北大方正集团有限公司 | 一种文档内容结构化的方法及装置 |
US10114804B2 (en) * | 2013-01-18 | 2018-10-30 | International Business Machines Corporation | Representation of an element in a page via an identifier |
CN104391836B (zh) * | 2014-11-07 | 2017-07-21 | 百度在线网络技术(北京)有限公司 | 处理用于句法分析的特征模板的方法及装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4241402A (en) * | 1978-10-12 | 1980-12-23 | Operating Systems, Inc. | Finite state automaton with multiple state types |
JP3566457B2 (ja) | 1996-05-31 | 2004-09-15 | 株式会社日立製作所 | 構造化文書の版管理方法および装置 |
US6470362B1 (en) * | 1997-05-16 | 2002-10-22 | Compaq Computer Corporation | Extracting ordered list of words from documents comprising text and code fragments, without interpreting the code fragments |
JP2003084987A (ja) * | 2001-09-11 | 2003-03-20 | Internatl Business Mach Corp <Ibm> | Xml文書の妥当性を検証するためのオートマトンの生成方法、xml文書の妥当性検証方法、xml文書の妥当性を検証するためのオートマトンの生成システム、xml文書の妥当性検証システムおよびプログラム |
JP3888621B2 (ja) * | 2002-02-21 | 2007-03-07 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書処理システム、文書処理方法及びプログラム |
JP3907187B2 (ja) | 2002-07-31 | 2007-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Saxパーサー、saxパーサー用方法、及びプログラム |
US7493603B2 (en) * | 2002-10-15 | 2009-02-17 | International Business Machines Corporation | Annotated automaton encoding of XML schema for high performance schema validation |
JP2004314713A (ja) | 2003-04-14 | 2004-11-11 | Suzuki Motor Corp | シフトレバーブーツの取付構造 |
JP4716709B2 (ja) * | 2004-06-10 | 2011-07-06 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 構造化文書処理装置、構造化文書処理方法、及びプログラム |
US7630997B2 (en) * | 2005-03-23 | 2009-12-08 | Microsoft Corporation | Systems and methods for efficiently compressing and decompressing markup language |
US7665015B2 (en) * | 2005-11-14 | 2010-02-16 | Sun Microsystems, Inc. | Hardware unit for parsing an XML document |
US7596745B2 (en) * | 2005-11-14 | 2009-09-29 | Sun Microsystems, Inc. | Programmable hardware finite state machine for facilitating tokenization of an XML document |
EP2219117A1 (en) * | 2009-02-13 | 2010-08-18 | Siemens Aktiengesellschaft | A processing module, a device, and a method for processing of XML data |
-
2005
- 2005-12-27 JP JP2005374990A patent/JP4236055B2/ja not_active Expired - Fee Related
-
2006
- 2006-11-14 CN CNB2006101647029A patent/CN100495401C/zh active Active
- 2006-12-06 US US11/567,242 patent/US7707491B2/en not_active Expired - Fee Related
-
2008
- 2008-04-03 US US12/061,747 patent/US8181105B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US8181105B2 (en) | 2012-05-15 |
CN100495401C (zh) | 2009-06-03 |
US20080288858A1 (en) | 2008-11-20 |
US7707491B2 (en) | 2010-04-27 |
JP2007179170A (ja) | 2007-07-12 |
CN1991837A (zh) | 2007-07-04 |
US20070150493A1 (en) | 2007-06-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4236055B2 (ja) | 構造化文書処理装置、方法、プログラム | |
Lam et al. | XML document parsing: Operational and performance characteristics | |
JP3832830B2 (ja) | XPath評価方法、これを用いたXPath評価装置及び情報処理装置 | |
US7725923B2 (en) | Structured-document processing | |
US6941521B2 (en) | Method for dynamically generating a user interface from XML-based documents | |
US7519903B2 (en) | Converting a structured document using a hash value, and generating a new text element for a tree structure | |
Barbosa et al. | Efficient incremental validation of XML documents | |
US6990632B2 (en) | Method and system for inferring a schema from a hierarchical data structure for use in a spreadsheet | |
JP4365162B2 (ja) | 構造化文書のデータを検索する装置および方法 | |
US7941417B2 (en) | Processing structured electronic document streams using look-ahead automata | |
US20050223017A1 (en) | XML processor having function for filtering tree path, method of filtering tree path and recording medium storing a program to implement the method | |
US20080301545A1 (en) | Method and system for the intelligent adaption of web content for mobile and handheld access | |
US9208140B2 (en) | Rule based apparatus for modifying word annotations | |
US7499931B2 (en) | Method and apparatus for approximate projection of XML documents | |
JP2008052662A (ja) | 構造化文書管理システム及びプログラム | |
US8543898B2 (en) | Techniques for more efficient generation of XML events from XML data sources | |
US7810024B1 (en) | Efficient access to text-based linearized graph data | |
US20080005662A1 (en) | Server Device and Name Space Issuing Method | |
US7774699B2 (en) | Parallel data transformation | |
US20100049727A1 (en) | Compressing xml documents using statistical trees generated from those documents | |
US20050262129A1 (en) | Method and system for creating and loading data warehouse from semi-structured document | |
Borsotti et al. | General parsing with regular expression matching | |
JP2010186412A (ja) | 文書管理方法及び管理装置 | |
US8522133B2 (en) | Incrementally tokenizing and/or parsing a style sheet | |
Møller | Document Structure Description 2.0 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071205 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20071226 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20080121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080129 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080303 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080507 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080602 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080819 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080925 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20081106 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20081202 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
RD14 | Notification of resignation of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7434 Effective date: 20081203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20081210 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111226 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121226 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121226 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131226 Year of fee payment: 5 |
|
LAPS | Cancellation because of no payment of annual fees |