JP4313698B2 - 電子文書処理装置、電子文書処理方法および電子文書処理プログラム - Google Patents
電子文書処理装置、電子文書処理方法および電子文書処理プログラム Download PDFInfo
- Publication number
- JP4313698B2 JP4313698B2 JP2004054893A JP2004054893A JP4313698B2 JP 4313698 B2 JP4313698 B2 JP 4313698B2 JP 2004054893 A JP2004054893 A JP 2004054893A JP 2004054893 A JP2004054893 A JP 2004054893A JP 4313698 B2 JP4313698 B2 JP 4313698B2
- Authority
- JP
- Japan
- Prior art keywords
- electronic document
- automaton
- template
- value
- character string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012545 processing Methods 0.000 title claims description 86
- 238000003672 processing method Methods 0.000 title claims description 9
- 230000007704 transition Effects 0.000 claims description 35
- 238000000034 method Methods 0.000 claims description 26
- 238000006243 chemical reaction Methods 0.000 claims description 25
- 238000012795 verification Methods 0.000 claims description 22
- 238000000605 extraction Methods 0.000 claims description 7
- 238000002910 structure generation Methods 0.000 claims description 4
- 238000010200 validation analysis Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 101100268516 Mus musculus Serpina1c gene Proteins 0.000 description 2
- 244000205754 Colocasia esculenta Species 0.000 description 1
- 235000006481 Colocasia esculenta Nutrition 0.000 description 1
- 206010048669 Terminal state Diseases 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
(1)XML文書のタブの1つ1つを抽出してから、木構造を作成する(図11参照)。
(2)XMLスキーマを用いて、木構造に対して妥当性の検証を行う。
という手順で行っていた。このように、従来技術では、XML文書のパース処理と妥当性検証とを別々に行うため、効率が悪いという問題があった。
したがって、タグを1つ1つ解析する処理を定型部分をとりまとめて行うことで省力化を図ることができるという効果が得られる。
したがって、タグ定型部の読み込み時点で妥当性検証を行うため、パース処理と妥当性検証とを同時に行うことによる高速化を図ることができるという効果が得られる。
したがって、従来のXMLパーサとのAPI互換性の維持を図ることができるという効果が得られる。
図1は、本発明の実施形態によるXML文書処理装置の構成を示すブロック図である。図において、テンプレート1は、XML文書の中で値が変化する部分だけを抽出するために、処理対象となるXML文書に基づいて予め用意されたものである。なお、テンプレート1の機能については後述する。
コンピュータシステムで利用されるXML文書において、システムが処理に利用する情報は、その一部に過ぎない。前述したように、システムの処理に必要な情報は、ボールドの部分のみである(図8参照)。残りのタグ情報は、この文書構造を表すために利用されているだけであるので、システムには必要ない。
次に、上述した実施形態の動作について説明する。
B−1.初期化処理
ユーザは、テンプレート1を作成し、本XML文書処理装置に登録する。XML文書処理装置では、テンプレートDOM変換処理2により、入力されたテンプレート1を、テンプレート1のDOMツリー3に変換し、オートマトン変換処理部4により、DOMツリー3を介してXML文書7を受け取るためのオートマトン5へ変換する。
(1)テンプレート1の各変数20,21…をオートマトンの各状態q0,q1,q2…に対応させる。
(2)変数と変数との間にあるタグの文字列の不変部分をオートマトン5の遷移条件とする。図3では、例えば、タグ30、タグ31がオートマトン5の遷移条件となる。
上述した処理は、システム起動時の初期化処理として実行する。
次に、上述した処理により作成したオートマトン5を利用してXML文書のパース処理を行う。
2…テンプレートDOM変換処理部(オートマトン変換手段)
3…テンプレートのDOM
4…オートマトン変換処理部(オートマトン変換手段)
5…オートマトン
6…パース処理部(パース処理手段)
7…XML文書(電子文書)
8…値
9…遷移情報
10…遷移条件データ
11…DOM生成処理部(木構造生成手段)
12…DOMツリー
Claims (9)
- タグによりデータの属性情報や論理構造を定義可能に記述された電子文書中、値の変化しない部分を定型化した定型部と、変化する部分を変数とで表したテンプレートと、
前記テンプレートの各変数をオートマトンの各状態に対応させ、前記各変数の間の前記各定型部をオートマトンが次の状態に遷移する遷移条件の文字列とするオートマトン変換手段と、
入力される電子文書の文字列と前記オートマトンの遷移条件の文字列を比較し、当該電子文書において前記遷移条件に一致する文字列の間に挟まれた文字列を、前記オートマトンの各状態に対応する値として、前記入力される電子文書から抽出するパース処理手段と
を具備することを特徴とする電子文書処理装置。 - 前記パース処理手段は、前記テンプレートの定型部との整合性を調べることにより、前記値の抽出と同時に妥当性検証を行うことを特徴とする請求項1記載の電子文書処理装置。
- 前記パース処理手段により抽出された値と、前記オートマトン変換手段により変換されたオートマトンの遷移パスに基づいて、前記パース処理手段により抽出された値の木構造を生成する木構造生成手段を具備することを特徴とする請求項1または2記載の電子文書処理装置。
- タグによりデータの属性情報や論理構造を定義可能に記述された電子文書をコンピュータにより処理する電子文書処理方法であって、
テンプレート作成手段が、
電子文書から値の変化しない部分を定型化し、変化する部分を変数とで表したテンプレートを作成し、
オートマトン変換手段が、
前記テンプレートの各変数をオートマトンの各状態に対応させ、前記各変数の間の前記各定型部をオートマトンが次の状態に遷移する遷移条件の文字列とし、
パース処理手段が、
入力される電子文書の文字列と前記オートマトンの遷移条件の文字列を比較し、当該電子文書において前記遷移条件に一致する文字列の間に挟まれた文字列を、前記オートマトンの各状態に対応する値として、前記入力される電子文書から抽出する
ことを特徴とする電子文書処理方法。 - 前記パース処理手段が、
前記テンプレートの定型部との整合性を調べることにより、前記値の抽出と同時に妥当性検証を行うことを特徴とする請求項4記載の電子文書処理方法。 - 木構造生成処理手段が、
前記パース処理手段により抽出された値と、前記オートマトン変換手段により変換されたオートマトンの遷移パスに基づいて、前記パース処理手段により抽出された値の木構造を生成することを特徴とする請求項4または5記載の電子文書処理方法。 - タグによりデータの属性情報や論理構造を定義可能に記述された電子文書を処理する電子文書処理装置として、コンピュータを動作させるための電子文書処理プログラムであって、
テンプレート作成手段が、
電子文書から値の変化しない部分を定型化し、変化する部分を変数とで表したテンプレートを作成するステップと、
オートマトン変換手段が、
前記テンプレートの各変数をオートマトンの各状態に対応させ、前記各変数の間の前記各定型部をオートマトンが次の状態に遷移する遷移条件の文字列とするステップと、
パース処理手段が、
入力される電子文書の文字列と前記オートマトンの遷移条件の文字列を比較し、当該電子文書において前記遷移条件に一致する文字列の間に挟まれた文字列を、前記オートマトンの各状態に対応する値として、前記入力される電子文書から抽出するステップと
をコンピュータに実行させるための電子文書処理プログラム。 - 前記パース処理手段が、
前記テンプレートの定型部との整合性を調べることにより、前記値の抽出と同時に妥当性検証を行うステップをコンピュータに実行させるための請求項7記載の電子文書処理プログラム。 - 木構造生成処理手段が、
前記パース処理手段により抽出された値と、前記オートマトン変換手段により変換されたオートマトンの遷移パスに基づいて、前記パース処理手段により抽出された値の木構造を生成するステップをコンピュータに実行させるための請求項7または8記載の電子文書処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004054893A JP4313698B2 (ja) | 2004-02-27 | 2004-02-27 | 電子文書処理装置、電子文書処理方法および電子文書処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004054893A JP4313698B2 (ja) | 2004-02-27 | 2004-02-27 | 電子文書処理装置、電子文書処理方法および電子文書処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005242912A JP2005242912A (ja) | 2005-09-08 |
JP4313698B2 true JP4313698B2 (ja) | 2009-08-12 |
Family
ID=35024559
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004054893A Expired - Lifetime JP4313698B2 (ja) | 2004-02-27 | 2004-02-27 | 電子文書処理装置、電子文書処理方法および電子文書処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4313698B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5201808B2 (ja) * | 2006-06-15 | 2013-06-05 | キヤノン株式会社 | 電子文書処理装置及び電子文書処理方法 |
JP5331084B2 (ja) * | 2010-11-01 | 2013-10-30 | 日本電信電話株式会社 | 特定情報抽出装置および特定情報抽出プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11191112A (ja) * | 1997-12-25 | 1999-07-13 | Ebara Corp | テンプレートによる文字抽出方法 |
JP2003084987A (ja) * | 2001-09-11 | 2003-03-20 | Internatl Business Mach Corp <Ibm> | Xml文書の妥当性を検証するためのオートマトンの生成方法、xml文書の妥当性検証方法、xml文書の妥当性を検証するためのオートマトンの生成システム、xml文書の妥当性検証システムおよびプログラム |
-
2004
- 2004-02-27 JP JP2004054893A patent/JP4313698B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2005242912A (ja) | 2005-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7240279B1 (en) | XML patterns language | |
CN104185845B (zh) | 用于提供网页的二进制表示的系统和方法 | |
RU2358311C2 (ru) | Документ текстовой обработки, хранящийся в едином файле xml, которым могут манипулировать приложения, понимающие язык xml | |
KR100483497B1 (ko) | 엘리먼트 기반 웹 문서의 파싱시스템 및 그 방법 | |
US20020038320A1 (en) | Hash compact XML parser | |
JP5325920B2 (ja) | エンコーダコンパイラ、プログラムおよび通信機器 | |
RU2003134278A (ru) | Способ и считываемый компьютером носитель для импорта и экспорта иерархически структурированных данных | |
JP2004030651A (ja) | 外部xml有効性検証装置を利用するxmlパージング装置及び方法 | |
US8849726B2 (en) | Information processing apparatus and control method for the same | |
US20080098029A1 (en) | Method and device for generating reference patterns from a document written in markup language and associated coding and decoding methods and devices | |
US7318194B2 (en) | Methods and apparatus for representing markup language data | |
CN114625349A (zh) | 前端页面生成方法、装置、终端设备及存储介质 | |
US9286272B2 (en) | Method for transformation of an extensible markup language vocabulary to a generic document structure format | |
US20060168511A1 (en) | Method of passing information from a preprocessor to a parser | |
CN116521621A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
US20100049727A1 (en) | Compressing xml documents using statistical trees generated from those documents | |
KR100762712B1 (ko) | 규칙기반의 전자문서 변환방법 및 그 시스템 | |
JP4313698B2 (ja) | 電子文書処理装置、電子文書処理方法および電子文書処理プログラム | |
US20150248500A1 (en) | Documentation parser | |
US20100057704A1 (en) | Automatic Test Map Generation for System Verification Test | |
CN111259634B (zh) | Xsd格式文件的解析方法及生成方法 | |
US8522133B2 (en) | Incrementally tokenizing and/or parsing a style sheet | |
KR101165201B1 (ko) | 컨텐츠 제공 시스템의 변환서버 | |
CN108984676B (zh) | 一种基于xml的电子书跨终端自适应显示系统及方法 | |
CN113672233A (zh) | 一种基于Redfish的服务器带外管理方法、装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20070221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090203 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090402 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20090507 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20090515 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120522 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4313698 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130522 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140522 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |