JP2005100057A - 文書変換装置 - Google Patents
文書変換装置 Download PDFInfo
- Publication number
- JP2005100057A JP2005100057A JP2003332389A JP2003332389A JP2005100057A JP 2005100057 A JP2005100057 A JP 2005100057A JP 2003332389 A JP2003332389 A JP 2003332389A JP 2003332389 A JP2003332389 A JP 2003332389A JP 2005100057 A JP2005100057 A JP 2005100057A
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- information
- template
- structure information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】 文書変換装置101は、蓄積手段102により、特定パターンを有する構造情報をテンプレートとして蓄積し、一致箇所検出手段103により、構造情報106とその変換箇所を示す変換位置情報110とを入力し、構造情報106のうち、変換位置情報110が示す変換箇所を検出対象から除外して、構造情報106とテンプレートとの一致箇所を検出し、置換手段104により、構造情報106のうちの一致箇所をテンプレートで置換して置換後構造情報112を出力し、変換手段105により、変換規則113にしたがい、置換後構造情報112と文字列情報107を変換して、第1の出力データ108と、第2の出力データ109を出力する。
【選択図】 図1
Description
上述のとおり、従来技術のようにして、構造化文書を構造情報と文字列情報とに分離して圧縮すると、圧縮率の向上が図られ、妥当性検証および構文解析が文字列情報を解凍することなく行えることとなる。
しかし、構造化文書を変換するには、構造情報と文字列情報とをともに変換する必要がある。その変換に先立ち、上述した従来技術のようにして構造化文書がLZ77等のアルゴリズムで圧縮されていると、その構造化文書を変換するときに、構造情報と文字列情報をすべて解凍しなければならなくなるから、変換処理に要する時間やメモリ量がともに増加してしまうという問題がある。
この文書変換装置は、変換位置情報が示す変換箇所を除外して、構造情報のうちの一致箇所をテンプレートで置換するため、変換手段において、構造情報を置換前に戻す処理が必要とされない。
この構成によれば、入力された変換規則から得た変換位置情報を用いて一致箇所を検出することができる。
また、変換規則が変換位置識別子を含み、変換規則に含まれる変換位置識別子を蓄積する変換規則蓄積手段と、その変換規則蓄積手段に蓄積されている変換位置識別子を変換位置情報として検出する変換位置検出手段とを更に有する文書変換装置としてもよい。
いずれの文書変換装置についても、変換手段に変換規則を入力する前に変換位置情報を一致箇所検出手段に入力することができる。
これにより、変換規則が入力されるたびに、発見手段がテンプレートを発見して蓄積手段に新たなテンプレートを自動的に加え、蓄積手段を更新することができる。
この文書変換装置は、蓄積する必要のないテンプレートを蓄積対象から除外することができる。
これにより、蓄積済みのテンプレートと同型のテンプレートを蓄積せずに除外することができる。
この文書変換装置は、変換後構造情報にテンプレートを再度適用することで、データ量をさらに削減し、圧縮することができる。
この文書変換装置は、置換後変換規則の変換後構造化文書の構造情報がすでにテンプレートで置換されているため、変換手段が置換後変換規則を用いて変換を行うと、そのテンプレートが自動的に適用され、変換とともに圧縮が行われるようになる。
このような近似テンプレートを用いることにより、テンプレートを効率よく利用することが可能となる。
この文書変換装置では、蓄積手段に蓄積されているテンプレートは構造情報を置換するためとともに、変換規則を置換するためのテンプレートとして利用できるようになる。
(第1の実施の形態)
図1は、本発明の第1の実施の形態にかかる文書変換装置101の構成を示すブロック図である。文書変換装置101は、テンプレート蓄積手段(以下「蓄積手段」という)102と、テンプレート一致箇所検出手段(以下「一致箇所検出手段」という)103と、テンプレート置換手段(以下「置換手段」という)104および変換手段105を有している。この文書変換装置101は、構造化文書100の構造情報106と文字列情報107とを入力し、第1の出力データ108と第2の出力データ109とを出力するように構成されている。
本発明の第1の実施の形態にかかる文書変換装置101は、構造化文書100を入力するにあたり、構造化文書100が図4(a)に示す構造情報12といった構造情報106と、図4(b)に示すテーブル13に列記された文字列情報といった文字列情報107とに分離された状態で入力する。
テンプレートID501は、テンプレート識別子(識別ID)を示しており、蓄積手段102に複数のテンプレートが蓄積されている際に、各テンプレートを一意に識別するために用いられる。接続情報502はテンプレートの外部インタフェースを示しており、そのテンプレートが指し示すパターンが他のテンプレートや他のノードと、どのように接続可能なのかを示す情報が設定されている。パターン構造情報503はテンプレート500の構造情報を示していて、複数のノードとそれらの相互参照とを有している。
図1に示したように、文書変換装置101では、変換位置情報110が内部に予め備えられている。ただし、文書変換装置101は、変換位置情報110を外部から入力して、取得するようにしてもよい。また、変換位置情報110を蓄積する変換位置蓄積手段(図示せず)を設け、一致箇所検出手段103がその変換位置蓄積手段から変換位置情報を取得するようにしてもよい。
なお、一致箇所検出手段103は、変換位置情報110として、構造情報と文字列情報とを用いて、構造情報における変換位置の対象を評価する評価式(例えば、Xpath式)を入力しても良い。その場合、一致箇所検出手段103は、文字列情報107を入力し、入力される変換位置情報110が示す評価式にしたがい、構造情報12における変換位置の対象を評価することとなる。
ここで、テンプレートで置換する際のテンプレートの呼び出しとなるテンプレート実体600を図6に示す。図6に示すとおり、テンプレート実体600は、採用テンプレートID601、実体ID602、実体接続情報603および実体ノード情報604を有するオブジェクトとして呼び出される。採用テンプレートID601は、蓄積手段102に蓄積されているテンプレートのうち、置換する際に採用したテンプレートを指定するための情報が設定されている。
そして、テンプレート実体600aでは、(506,p)にノード301が接続され、(508,c)にノード307が接続されることを示す情報が設定されている。また、(509,c)にノード308が接続され、(510,c)に2−506が接続されることを示す情報が設定されている。なお、(2−506,p)はテンプレート実体600b(実体ID=“2”)のテンプレート内におけるノード506の親参照pを示している。テンプレート実体600bにおいては、第1のテンプレート515における(506,p)に(1−510,c)が接続され、(508,c)にノード321が接続されることを示す情報が設定されている。また、(509,c)にノード322が接続され、(510,c)にノード323が接続されることを示す情報が設定されている。
そして、変換手段105は文字列情報107と、置換後構造情報112と、文字列情報107および置換後構造情報112を変換するための変換規則113を入力し、その変換規則113にしたがい、文字列情報107と置換後構造情報112とを変換する。また、変換手段105は変換後の置換後構造情報(以下「変換後構造情報」という)を第1の出力データ108として出力し、変換後の文字列情報(以下「変換後文字列情報」という)を第2の出力データ109として出力する。
ここで、図12は変換規則113の具体的な一例となる変換規則120の構成を示す図である。図12に示した変換規則120はXMLで記述されており、“312”を変換対象位置とし、その変換対象位置が示すノード(ノード312)以降の構造情報を<transform match=“312”>と</transform>で囲まれた構造化文書120aに変換せよ、という意味の規則が含まれている。
この文書変換装置2500は、検証手段2501の判断に応じて、発見手段2401により発見されたテンプレートを蓄積手段2503に蓄積するようになっている。例えば、検証手段2501は、発見手段2401により発見されたテンプレートが、蓄積手段2503に蓄積されているテンプレートと同型のテンプレートであるとき(つまり、発見されたテンプレートと同型のテンプレートが蓄積手段2503にあるとき)に、その発見されたテンプレートは、蓄積対象のテンプレートとして妥当でないと判断し、蓄積対象から除外するように作動する。これにより、蓄積手段2503に、無駄なテンプレートが蓄積されなくなるので、蓄積手段2503の空間利用効率を向上させることができる。
図11は第2の実施形態に係る文書変換装置1101の構成を示すブロック図である。図11に示すとおり、文書変換装置1101は蓄積手段1102と、一致箇所検出手段1103と、置換手段1104と、変換手段1105および変換位置検出手段1112を有している。この文書変換装置1101は構造情報1106、文字列情報1107、変換規則1111を入力し、第1の出力データ1108と、第2の出力データ1109とを出力する。蓄積手段1102、一致箇所検出手段1103、置換手段1104および変換手段1105は、それぞれ第2の実施形態に係る文書変換装置101の蓄積手段102、一致箇所検出手段103、置換手段104および変換手段105と同じ構成を有している。
変換規則蓄積手段1401は変換規則1111を変換手段1105で利用するたびに、変換規則1111に含まれる変換位置識別子を蓄積する。図15は、その変換位置識別子を蓄積するテーブル150を示す図である。テーブル150は、変換位置枠151と利用回数枠152とを有し、変換位置識別子が蓄積されている。
そして、変換位置検出手段1403は変換規則蓄積手段1401に蓄積されている変換位置識別子をその利用頻度に応じて、つまり、利用頻度が高く、統計的にみて利用されやすい変換位置識別子を抽出し、それを変換位置情報として一致箇所検出手段1103に伝達(入力)している。例えば、テーブル150のようにして、変換位置識別子が蓄積されているとき、利用頻度の高い変換位置識別子は、例えば、ある閾値を超える利用回数をもつ変換位置識別子とすることができる。その閾値を“10”としたときは、利用回数枠1502の値からみて、変換位置識別子として“312”のみが抽出され、その“312”が変換位置情報として一致箇所検出手段1103に入力される。
本実施の形態における文書変換装置1101、1400によれば、変換手段1105に変換規則を入力する前に変換位置情報を一致箇所検出手段1103に入力することができるため、置換後構造情報を事前に生成し、保存しておくことが可能となる。したがって、例えば、すでに変換された構造化文書と同一の構造化文書を新たに変換しようとするときは、生成済みの置換後構造情報を用いることにより、一致箇所検出手段1103と置換手段1104における一致箇所の検出とテンプレートでの置換処理をスキップ(省略)することが可能となる。そのため、文書変換装置1101、1400全体の処理時間を短縮することができる。
図17は、本発明の第3の実施の形態に係る文書変換装置1700の構成を示すブロック図である。文書変換装置1700はテンプレート蓄積手段(以下「蓄積手段」という)1701と変換規則テンプレート置換手段(以下「変換規則置換手段」という)1702と変換手段1703とを有している。文書変換装置1700は、変換対象である構造化文書の構造情報1704および文字列情報1705と、変換後構造化文書の構造情報が記述された変換規則1708とを入力し、変換後構造情報を第1の出力データ1706として出力し、変換後文字列情報を第2の出力データ1707として出力する。
テンプレート検索手順は、図20に示すとおり、処理開始後のステップ1において、変換規則1708から変換後構造化文書の構造情報を抽出する。抽出された変換後構造化文書をPjとする。抽出された変換後構造化文書の構造情報の数分、以下を繰り返す。
ステップ2に進み、蓄積手段1701からPjとノードの数が等しいものを選択する。
選択されたテンプレートをX1,X2,・・・・Xmとする。
選択されたテンプレートの数分、以下を繰り返す。
ステップ3に進み、PjとXkが同型か否かを判断して、同型の場合はステップ4に進み、同型でなければステップ4を実行することなく処理を終了する。ステップ4に進むとテンプレートを同型テンプレートとして登録し、処理を終了する。
変換手段1703は、その変換の際には、置換後変換規則1710に含まれる変換位置情報(図21の例では“312”)を用いて、変換後構造化文書の構造情報を構造情報1704にあてはめる。図22は、その変換結果として、第1の出力データ1706の一例となる変換後構造情報176を示す図である。また、第2の出力データ1707の一例となる文字列情報は図13に示したテーブル23に列記されている。これらは、図4(a)に示した構造情報12と、図4(b)に記載の文字列情報を列記したテーブル13と、図21に示した置換後変換規則171とを入力したときの第1の出力データ1706および第2の出力データ1707の一例である。図22に示す変換後構造情報176のとおり、第1の出力データ1706は構造情報のノード312以降がテンプレートで置換されている。
変換規則置換手段1702は変換規則1708から抽出した構造情報と差分が最も小さいテンプレート(以下「近似テンプレート」という)を蓄積手段1701から検出し、上記差分を示す差分情報を抽出し、置換後変換規則1710を近似テンプレートと差分情報とに置換するようにしてもよい。ここで、変換規則1708の例を図27(a)に示し、図27(a)に示した変換規則1708から抽出した構造情報1709を図27(b)に示す。例えば、蓄積手段1701に蓄積されているテンプレートが図5(b)に記載の第1のテンプレート515のみであったとき、変換規則置換手段1702は、パターン構造情報内のノード数と図27に示した(抽出した)構造情報1709内のノード数とを比較し、それらが等しければ近似テンプレートとして検出する。この例では、第1のテンプレート515のパターン構造情報505において、ノード509がノード510のnsに接続されたパターンを想定すると(ここで想定しているパターンは図示せず)、そのパターンが図27に示した(抽出した)構造情報1709と一致している。
以上のとおり、このような近似テンプレートを用いることにより、蓄積手段1701に蓄積されたテンプレートを効率よく利用することが可能となり、蓄積手段1701の容量を抑制することができる。
図18は、第4の実施の形態に係る文書変換装置1800の構成を示すブロック図である。文書変換装置1800は、蓄積手段1801、一致箇所検出手段1802、置換手段1803、変換手段1804、変換規則置換手段1805を有している。文書変換装置1800は、変換対象である構造化文書の構造情報1806および文字列情報1807を入力し、変換後構造情報を第1の出力データ1808として出力し、変換後文字列情報を第2の出力データ1809として出力する。
蓄積手段1801は、第1の実施形態に係る文書変換装置101における蓄積手段102(図1参照)と同様、予め定めておいた特定のパターンをテンプレートとして蓄積している。なお、テンプレートは特定のパターンを有すれば、予め定められてなくてもよく、第1の実施形態で説明した発見手段2401(図24参照)により、変換規則から抽出してもよい。
処理開始後のステップ10で、蓄積手段1801に蓄積されたテンプレートからノードの多い順に1つづつ選択し、以下を繰り返す。
選択したテンプレートをPjとする。
次に、ステップ11に進み、構造情報に含まれるノードから変換対象となるノードを除いた後に、Pjのノード数と一致するノードの組み合わせをX1,X2,・・・Xmと記述し、その中から、1つづつ選択して、以下を繰り返す。
選択したノードの組み合わせをXkとする。
次に、ステップ12に進み、Xkに含まれるノードはすべて置換済みのマークが無いか否かを判断し、すべて置換済みのマークが無ければステップ13に進み、そうでなければ後続のステップ13,14を実行することなく処理を終了する。ステップ13に進むと、Pj,Xkが同型か否かを判断し、同型であればステップ14に進み、そうでなければ後続のステップ14を実行することなく処理を終了する。ステップ14に進むと、Xkをテンプレート一致箇所として登録し、Xkに含まれるノードは置換済みとしてマークする。
変換規則置換手段1805は第3の実施形態における変換規則置換手段1702(図17参照)と同様、変換後構造化文書を含む変換規則1813を入力する。そして、変換規則置換手段1805は入力した変換規則1813から変換後構造化文書の構造情報を抽出する一方、抽出した構造情報と一致するテンプレートを蓄積手段1801から検出して、その構造情報をそのテンプレートで置換し、置換後変換規則1814として変換手段1804に伝達(入力)する。
構造情報1806は、上述した図4(a)に示す構造情報12と同様の構成を有している。文字列情報1807は、上述した図4(b)に示すテーブル13のように列記されている。変換規則1813は、上述した図12に示す変換規則120と同様の構成を有している。蓄積手段1801には、図5(b)に示した第1のテンプレート515と、図9に示した第2のテンプレート900とが蓄積されているとする。また、変換位置情報1810は“312”が予め設定されている。
12…構造情報、13,23…テーブル
100…構造化文書
101,1101,1400…文書変換装置
1700,1800,2400…文書変換装置
2500,1800,2400…文書変換装置
102,1102,1701,1801…蓄積手段
2402,2602…蓄積手段
103,1103,1802…一致箇所検出手段
2603…一致箇所検出手段
104,1104,1803,2604…置換手段
105,1105,1703,1804…変換手段
2605…変換手段
106,1106,1704,1806…構造情報
2607…構造情報
107,1107,1705,1807…文字列情報
2608…文字列情報
108,1108,1706…第1の出力データ
1808,2609…第1の出力データ
109,1109,1707…第2の出力データ
1809,2610…第2の出力データ
110…変換位置情報
111…一致箇所情報、
112…置換後構造情報
113,120,121,1708…変換規則
300…置換後構造情報
176,350,360…変換後構造情報
500…テンプレート、515…第1のテンプレート
600…テンプレート実体
900…第2のテンプレート
2601…第1の文書変換装置
2606…第2の文書変換装置
Claims (11)
- 構造情報と文字列情報とを有する構造化文書を変換する文書変換装置であって、
特定のパターンを有する構造情報をテンプレートとして蓄積するテンプレート蓄積手段と、
前記構造化文書を構成する構造情報と、該構造情報の変換箇所を示す変換位置情報とを入力し、前記構造情報のうち、前記変換位置情報が示す変換箇所を検出対象から除外するようにして、前記構造情報と前記テンプレートとの一致箇所を検出するテンプレート一致箇所検出手段と、
前記構造化文書を構成する構造情報と前記一致箇所を示す一致箇所情報とを入力し、前記構造情報のうち、前記一致箇所情報が示す一致箇所を前記テンプレートで置換し、置換後構造情報を出力するテンプレート置換手段と、
前記構造化文書を構成する文字列情報と、前記置換後構造情報と、前記構造化文書を構成する構造情報および文字列情報を変換するための変換規則とを入力し、該変換規則にしたがい、その入力した前記置換後構造情報と前記文字列情報とを変換し、変換後構造情報と変換後文字列情報とを出力する変換手段とを有することを特徴とする文書変換装置。 - 前記変換規則が変換位置識別子を含み、
前記変換規則から前記変換位置識別子を前記変換位置情報として検出し、その検出した変換位置識別子を前記一致箇所検出手段に入力する変換位置検出手段を更に有することを特徴とする請求項1記載の文書変換装置。 - 前記変換規則が変換位置識別子を含み、
前記変換規則に含まれる変換位置識別子を蓄積する変換規則蓄積手段と、
該変換規則蓄積手段に蓄積されている前記変換位置識別子の利用頻度に応じて、前記変換位置情報を検出する変換位置検出手段とを更に有することを特徴とする請求項1記載の文書変換装置。 - 前記変換規則が変換位置識別子を含み、
前記変換規則に含まれる変換位置識別子を蓄積する変換規則蓄積手段と、
該変換規則蓄積手段に蓄積されている前記変換位置識別子を前記変換位置情報として検出する変換位置検出手段とを更に有することを特徴とする請求項1記載の文書変換装置。 - 前記変換規則が変換後構造化文書を含み、
前記変換規則から前記変換後構造化文書の構造情報を抽出し、前記テンプレートとして前記テンプレート蓄積手段に蓄積させるテンプレート発見手段を更に有することを特徴とする請求項1〜4のいずれか一項記載の文書変換装置。 - 前記テンプレート発見手段により発見された前記テンプレートの蓄積要否を判断するテンプレート検証手段を更に有し、
該テンプレート検証手段の判断に応じて、前記テンプレート発見手段が前記テンプレートを蓄積することを特徴とする請求項5記載の文書変換装置。 - 前記テンプレート検証手段が、前記テンプレート発見手段により発見された前記テンプレートと同型のテンプレートの前記テンプレート蓄積手段における蓄積有無により、前記蓄積要否を判断することを特徴とする請求項6記載の文書変換装置。
- 前記テンプレート一致箇所検出手段が前記変換後構造情報と前記テンプレートとの一致箇所を検出し、
前記テンプレート置換手段が、前記テンプレート一致箇所検出手段から出力される前記一致箇所情報が示す一致箇所を前記テンプレートで置換することを特徴とする請求項1〜7のいずれか一項記載の文書変換装置。 - 構造情報と文字列情報とを有する構造化文書を変換する文書変換装置であって、
特定のパターンを有する構造情報をテンプレートとして蓄積するテンプレート蓄積手段と、
変換後構造化文書を含み、前記構造化文書を構成する構造情報および文字列情報を変換するための変換規則を入力し、該変換規則から前記変換後構造化文書の構造情報を抽出して、その構造情報と一致する前記テンプレートを検出し、前記構造情報を前記検出されたテンプレートで置換した置換後変換規則を出力する変換規則テンプレート置換手段と、
前記構造化文書を構成する構造情報および文字列情報と、前記置換後変換規則とを入力し、該置換後変換規則にしたがい、その入力した前記構造情報と文字列情報を変換し、変換後構造情報と変換後文字列情報とを出力する変換手段とを有することを特徴とする文書変換装置。 - 前記変換規則テンプレート置換手段が、前記変換後構造化文書の構造情報との差分が最も小さい近似テンプレートを検出し、前記差分を示す差分情報を抽出し、前記置換後変換規則を前記差分情報と前記近似テンプレートとに置換することを特徴とする請求項9記載の文書変換装置。
- 構造情報と文字列情報とを有する構造化文書を変換する文書変換装置であって、
特定のパターンを有する構造情報をテンプレートとして蓄積するテンプレート蓄積手段と、
前記構造化文書を構成する構造情報と、該構造情報の変換箇所を示す変換位置情報とを入力し、前記構造情報のうち、前記変換位置情報が示す変換箇所を検出対象から除外するようにして、前記構造情報と前記テンプレートとの一致箇所を検出するテンプレート一致箇所検出手段と、
前記構造化文書を構成する構造情報と前記一致箇所を示す一致箇所情報とを入力し、前記構造情報のうち、前記一致箇所情報が示す一致箇所を前記テンプレートで置換し、置換後構造情報を出力するテンプレート置換手段と、
変換後構造化文書を含み、前記構造化文書を構成する構造情報および文字列情報を変換するための変換規則を入力し、該変換規則から前記変換後構造化文書の構造情報を抽出して、その構造情報と一致する前記テンプレートを検出し、前記構造情報を前記検出されたテンプレートで置換した置換後変換規則を出力する変換規則テンプレート置換手段と、
前記構造化文書を構成する文字列情報、前記置換後構造情報および前記置換後変換規則を入力し、該置換後変換規則にしたがい、その入力した前記置換後構造情報および文字列情報を変換し、変換後構造情報と変換後文字列情報を出力する変換手段とを有することを特徴とする文書変換装置。
Priority Applications (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003332389A JP4177218B2 (ja) | 2003-09-24 | 2003-09-24 | 文書変換装置 |
US10/940,802 US7530017B2 (en) | 2003-09-24 | 2004-09-15 | Document transformation system |
DE602004025888T DE602004025888D1 (de) | 2003-09-24 | 2004-09-22 | Dokumentenumwandlungssystem |
DE602004024260T DE602004024260D1 (de) | 2003-09-24 | 2004-09-22 | Dokumentenumwandlungssystem |
EP04022568A EP1519279B1 (en) | 2003-09-24 | 2004-09-22 | Document transformation system |
EP08015224A EP1990737B1 (en) | 2003-09-24 | 2004-09-22 | Document transformation system |
CNB2004100117331A CN100561464C (zh) | 2003-09-24 | 2004-09-24 | 文档变换系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003332389A JP4177218B2 (ja) | 2003-09-24 | 2003-09-24 | 文書変換装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005100057A true JP2005100057A (ja) | 2005-04-14 |
JP4177218B2 JP4177218B2 (ja) | 2008-11-05 |
Family
ID=34191464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003332389A Expired - Fee Related JP4177218B2 (ja) | 2003-09-24 | 2003-09-24 | 文書変換装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7530017B2 (ja) |
EP (2) | EP1990737B1 (ja) |
JP (1) | JP4177218B2 (ja) |
CN (1) | CN100561464C (ja) |
DE (2) | DE602004025888D1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8185820B1 (en) * | 2005-04-06 | 2012-05-22 | Adobe Systems Incorporated | System and/or method for document generation |
CA2607495A1 (en) * | 2005-04-18 | 2006-10-26 | Research In Motion Limited | System and method for efficient hosting of wireless applications by encoding application component definitions |
US8286075B2 (en) * | 2006-03-07 | 2012-10-09 | Oracle International Corporation | Reducing resource requirements when transforming source data in a source markup language to target data in a target markup language using transformation rules |
JP2007249754A (ja) * | 2006-03-17 | 2007-09-27 | Internatl Business Mach Corp <Ibm> | 情報処理装置、情報処理方法およびプログラム |
GB2443438A (en) * | 2006-10-30 | 2008-05-07 | Hewlett Packard Development Co | Method of constructing and storing a document |
FR2914759B1 (fr) * | 2007-04-03 | 2009-06-05 | Canon Kk | Procede et dispositif de codage d'un document hierarchise |
US7933871B2 (en) * | 2007-12-28 | 2011-04-26 | Microsoft Corporation | Discovering and updating templates |
US8756407B2 (en) | 2008-09-30 | 2014-06-17 | International Business Machines Corporation | Configuration rule prototyping tool |
US8086618B2 (en) * | 2008-09-30 | 2011-12-27 | International Business Machines Corporation | Configuration rule translation mapper |
US8209341B2 (en) * | 2008-09-30 | 2012-06-26 | International Business Machines Corporation | Configurable transformation macro |
JP5440004B2 (ja) * | 2008-10-20 | 2014-03-12 | セイコーエプソン株式会社 | 情報配信システム、情報配信システムのサービス実現方法およびそのプログラム |
JP5293086B2 (ja) * | 2008-10-28 | 2013-09-18 | セイコーエプソン株式会社 | 情報配信システム、情報配信システムのサービス実現方法およびそのプログラム |
CN102103591B (zh) * | 2009-12-18 | 2014-04-16 | 北大方正集团有限公司 | 一种利用结构化数据实现文档内容自动更新的方法及系统 |
US8793273B1 (en) * | 2011-06-29 | 2014-07-29 | Google Inc. | Parsing framework method and device |
FR2977692B1 (fr) * | 2011-07-07 | 2015-09-18 | Aquafadas Sas | Enrichissement de document electronique |
CN103177064B (zh) * | 2012-12-05 | 2016-10-05 | 师建中 | 一种自动取录电子文档中指定内容的方法 |
US20190034392A1 (en) * | 2017-07-31 | 2019-01-31 | Ca, Inc. | Correlation across hierarchical serialization boundaries |
US10783138B2 (en) | 2017-10-23 | 2020-09-22 | Google Llc | Verifying structured data |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6487566B1 (en) * | 1998-10-05 | 2002-11-26 | International Business Machines Corporation | Transforming documents using pattern matching and a replacement language |
US6643652B2 (en) * | 2000-01-14 | 2003-11-04 | Saba Software, Inc. | Method and apparatus for managing data exchange among systems in a network |
JP3368883B2 (ja) | 2000-02-04 | 2003-01-20 | インターナショナル・ビジネス・マシーンズ・コーポレーション | データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置 |
US7111076B2 (en) * | 2000-04-13 | 2006-09-19 | Intel Corporation | System using transform template and XML document type definition for transforming message and its reply |
US20010051962A1 (en) * | 2000-06-08 | 2001-12-13 | Robert Plotkin | Presentation customization |
JP4774145B2 (ja) | 2000-11-24 | 2011-09-14 | 富士通株式会社 | 構造化文書圧縮装置および構造化文書復元装置並びに構造化文書処理システム |
JP4689856B2 (ja) * | 2001-03-30 | 2011-05-25 | 富士通株式会社 | 構造化文書変換装置 |
JP3692054B2 (ja) | 2001-05-21 | 2005-09-07 | 株式会社東芝 | 文書構造変換方法および文書構造変換装置およびプログラム |
JP2003044459A (ja) | 2001-08-02 | 2003-02-14 | Hitachi Software Eng Co Ltd | 構造化データに対するデータ圧縮方法およびデータ交換方法 |
US7284191B2 (en) * | 2001-08-13 | 2007-10-16 | Xerox Corporation | Meta-document management system with document identifiers |
US7133862B2 (en) * | 2001-08-13 | 2006-11-07 | Xerox Corporation | System with user directed enrichment and import/export control |
US7130861B2 (en) * | 2001-08-16 | 2006-10-31 | Sentius International Corporation | Automated creation and delivery of database content |
JP3857663B2 (ja) * | 2002-04-30 | 2006-12-13 | 株式会社東芝 | 構造化文書編集装置、構造化文書編集方法及びプログラム |
WO2004068320A2 (en) * | 2003-01-27 | 2004-08-12 | Vincent Wen-Jeng Lue | Method and apparatus for adapting web contents to different display area dimensions |
-
2003
- 2003-09-24 JP JP2003332389A patent/JP4177218B2/ja not_active Expired - Fee Related
-
2004
- 2004-09-15 US US10/940,802 patent/US7530017B2/en not_active Expired - Fee Related
- 2004-09-22 EP EP08015224A patent/EP1990737B1/en not_active Expired - Fee Related
- 2004-09-22 EP EP04022568A patent/EP1519279B1/en not_active Expired - Fee Related
- 2004-09-22 DE DE602004025888T patent/DE602004025888D1/de active Active
- 2004-09-22 DE DE602004024260T patent/DE602004024260D1/de active Active
- 2004-09-24 CN CNB2004100117331A patent/CN100561464C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP1519279B1 (en) | 2010-03-10 |
DE602004025888D1 (de) | 2010-04-22 |
US7530017B2 (en) | 2009-05-05 |
DE602004024260D1 (de) | 2009-12-31 |
EP1990737B1 (en) | 2009-11-18 |
CN100561464C (zh) | 2009-11-18 |
EP1519279A3 (en) | 2007-12-19 |
CN1601519A (zh) | 2005-03-30 |
US20050097454A1 (en) | 2005-05-05 |
EP1990737A1 (en) | 2008-11-12 |
EP1519279A2 (en) | 2005-03-30 |
JP4177218B2 (ja) | 2008-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4177218B2 (ja) | 文書変換装置 | |
US7593949B2 (en) | Compression of structured documents | |
WO2006043142A1 (en) | Adaptive compression scheme | |
JP5377818B2 (ja) | コンパイル済みスキーマに順次アクセスする方法とシステム | |
JP2006221654A (ja) | デリミタを減少させる方法及びシステム | |
JP5800441B2 (ja) | 文書の圧縮、解凍及び照会のための方法及び装置 | |
JP2006221653A (ja) | 文書分析において受付状態を決定するシステム及び方法 | |
JP5044943B2 (ja) | データ文書の高速符号化方法及びシステム | |
US20050102304A1 (en) | Data compressor, data decompressor, and data management system | |
JP5789236B2 (ja) | 構造化文書分析方法、構造化文書分析プログラム、および構造化文書分析システム | |
US7676742B2 (en) | System and method for processing of markup language information | |
JP4776389B2 (ja) | 符号化文書復号方法及びシステム | |
US20110270862A1 (en) | Information processing apparatus and information processing method | |
US20060212799A1 (en) | Method and system for compiling schema | |
US20110145700A1 (en) | Structured document analysis apparatus and structured document analysis method | |
JP6589317B2 (ja) | 書換装置、処理方法とそのプログラム、および、情報処理装置 | |
JP2008209996A (ja) | 検索索引作成装置・検索索引作成方法及び検索索引作成プログラム | |
JP2008140157A (ja) | 構造化文書処理装置 | |
Böttcher et al. | Searchable compression of office documents by XML schema subtraction | |
KR100902255B1 (ko) | 웹 문서에 대한 유알아이 참조의 압축 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20071018 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20071030 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080401 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080602 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080819 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080821 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110829 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120829 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130829 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |