JP2001067348A - Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program - Google Patents

Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program

Info

Publication number
JP2001067348A
JP2001067348A JP2000098043A JP2000098043A JP2001067348A JP 2001067348 A JP2001067348 A JP 2001067348A JP 2000098043 A JP2000098043 A JP 2000098043A JP 2000098043 A JP2000098043 A JP 2000098043A JP 2001067348 A JP2001067348 A JP 2001067348A
Authority
JP
Japan
Prior art keywords
document
tag
element
string
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000098043A
Other languages
Japanese (ja)
Inventor
Hironori Yahagi
裕紀 矢作
Original Assignee
Fujitsu Ltd
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP11-173468 priority Critical
Priority to JP17346899 priority
Application filed by Fujitsu Ltd, 富士通株式会社 filed Critical Fujitsu Ltd
Priority to JP2000098043A priority patent/JP2001067348A/en
Publication of JP2001067348A publication Critical patent/JP2001067348A/en
Application status is Pending legal-status Critical

Links

Abstract

PROBLEM TO BE SOLVED: To improve compressibility by analyzing the tree structure of an element in a document realizing value and shifting information on a leaf element into a starting tag as the attribute of a master element to maintain the feature of a structured document to make compression of a tag part possible. SOLUTION: A document realizing value analyzing part 20 analyzes a document realizing value forming an XML document and outputs the element list (file) of leaves as the analyzing result of the tree structure (master and slave relation) of an element. At this time, in the list of the elements of the leaves outputted from the part 20, elements arranged as the leaves of the tree structure without having slave elements are detected and a corresponding relation between the element of the leaves and a master element is clearly written. A document realizing value changing part moves information on the leaf element at the document realizing value into the starting tag of the master element as the attribute of the master element of the leaf element in accordance with the analyzing result (the list of the elements of the leaves) by the part 20 so as to simplify the expression of the document realizing value. Then, the XML document is outputted and stored in a document storage part 10, etc., after being changed and compressed.

Description

【発明の詳細な説明】 DETAILED DESCRIPTION OF THE INVENTION

【0001】 [0001]

【発明の属する技術分野】本発明は、HTML(Hyper BACKGROUND OF THE INVENTION The present invention is, HTML (Hyper
Text Markup Language),SGML(Standard Generali Text Markup Language), SGML (Standard Generali
zed Markup Language)やXML(Extensible Markup Lan zed Markup Language) and XML (Extensible Markup Lan
guage)等の構造化文書を圧縮するための、方法および装置、並びに、プログラムを記録したコンピュータ読取可能な記録媒体に関する。 For compressing a structured document guage) such a method and apparatus, and to a computer readable recording medium recording a program.

【0002】 [0002]

【従来の技術】近年、計算機やインターネットやイントラネットの普及に伴い、文書,ソフトウェア,数値,画像データ等の様々な種類のデータを含む電子文書が増加している。 In recent years, with the spread of computers and the Internet or an intranet, documents, software, numerical, electronic documents, including various types of data such as image data is increasing. そして、電子文書のデータ量が大きい場合には、電子文書データから冗長な部分を省いてそのデータを圧縮することにより、メモリに記憶される電子文書のデータ量を減らしたり、電子文書の送信時間を短縮したりしている。 When the data amount of the electronic document is large, by compressing the data by omitting redundant portions from the electronic document data, or reduce the amount of data of the electronic document stored in the memory, the transmission time of the electronic document It is or shortened.

【0003】なお、以下の説明では、情報理論で用いられる呼称を踏襲して、データの1ワード単位を「文字」 [0003] In the following description, followed the designation to be used in information theory, one word unit of data "character"
と呼び、文字が任意数つながったものを「文字列」と呼ぶ。 And it is called, what character led any number referred to as a "string". また、データを文字から成るものとみなして、任意の種類のデータを圧縮することの可能な、いわゆる、ユニバーサル符号化の技術は、広く研究され普及している。 Further, it is assumed that made the data from the character, it possible to compress any type of data, so-called universal coding techniques have been extensively studied spread.

【0004】一方、電子文書においては、タグを付けて構造化した文書が広く用いられている。 On the other hand, in the electronic document, the structured document has been tagged is widely used. このような構造化文書を用いる場合、「文字データ」と「マーク付け」 When using such a structured document, a "character data" "Marking"
(markup)とに分けて処理が行なわれる。 (Markup) and treated in portions is carried out. ここで、「マーク」とは、タグその他の構造化情報の総称であり、具体的には、開始タグ,終了タグ,空要素タグ,実体参照,文字参照,注釈,CDATAセクションの区切り子,文書型宣言,処理命令などを指す。 Here, the "Mark" is a generic name for the tag other structured information, specifically, the start tag and end tag, empty element tags, entity references, character references, annotation, delimiters CDATA section, document type declarations, processing instructions refer to such.

【0005】構造化文書の代表例としては、大規模保存データベース向けのSGML(Standard Generalized M [0005] As a typical example of the structured document, SGML for large-scale storage database (Standard Generalized M
arkup Language)や、WWW(World Wide Web)向けに簡便な構成をもつHTML(Hyper Text Markup Langua arkup Language) and, WWW (HTML with a simple structure to the World Wide Web) for (Hyper Text Markup Langua
ge)や、SGMLをインターネット向けに簡略化したX ge) and, by simplifying the SGML for the Internet X
ML(eXtensible Markup Language)などがある。 ML (eXtensible Markup Language), and the like.

【0006】SGMLは、官公庁,企業等における大規模保存文書データベースのビューアへの適用,データベース検索,製品の開発作業の同時並行化,出版(CA [0006] SGML is, government, applied to the viewer of large-scale storage document database in the company or the like, database search, concurrent of the development work of the product, publishing (CA
D,電子本,データベース)のために利用されるほか、 D, e-book, in addition to be used for the database),
データ交換のための中間言語としても利用される。 Also used as an intermediate language for data interchange. また、HTMLはWWWとともに世界的に普及している。 In addition, HTML is popular in the world along with the WWW.
XMLは、HTMLを補うものとして、最近、特に注目を浴びている。 XML is, as a complement to HTML, recently, in particular, attracted attention. このXMLは、インターネット上で文書を取り扱うためだけでなく、携帯電話,カーナビゲーション等のあらゆる情報機器が交信するための媒介として利用されつつある。 This XML, not only to deal with the document on the Internet, a mobile phone, while all the information devices of car navigation or the like is used as a medium for communicating.

【0007】XML文書は、大きく分けて、XML宣言と、文書型定義(Document Type Definition; DTD) [0007] XML documents is mainly, XML declaration and a document type definition (Document Type Definition; DTD)
と、文書実現値(XMLインスタンス)との3つの部分(構成要素)から成る。 If, consisting document instance three parts of (XML instance) (component). また、処理上の観点から見ると、XML文書は、整形式(well-formed)と検証済み(valid)との2つに分類される。 Further, from the viewpoint of the process, XML documents are classified into two well-formed (well-formed) and validated (valid).

【0008】ここで、XML宣言は、SGML宣言とは全く異なるもので、単にXMLのバージョン宣言,文字コードの宣言などを行なう簡単なものであり、DTD [0008] Here, XML declaration, quite different from the SGML declaration merely simple to perform XML version declaration, the character code declaration etc., DTD
は、SGMLと同じく、タグ付き文書に現れる要素,属性,エンティティの定義を行なう部分であり、XMLインスタンスは、実際のタグ付き文書が書かれる部分である。 Is SGML Like a moiety elements that appear to a tagged document, attributes, definitions of the entity performing, XML instance is a portion actually tagged document is written.

【0009】また、整形式XML文書とは、開始タグと終了タグとの対応がとれており、XMLで規定したタグ付け規則に従ってXMLインスタンスが書かれたものであり、検証済みXML文書とは、DTDの中の要素型宣言,属性リスト宣言によって定義された要素の階層関係,属性の型などに従ってタグ付けが行なわれたものである。 [0009] In addition, the well-formed XML document, correspondence has taken the start and end tags, which XML instance is written in accordance with the tag with the rules as defined in XML, and is validated XML document, DTD element type declaration in the hierarchical relationship of elements defined by the attribute list declaration in which tagging is performed according to such attribute type. この検証済みXML文書は、当然、整形式XML This validated XML document is, of course, well-formed XML
文書としてのタグ付け規則に従っていることが前提条件である。 It is a prerequisite that complies with the tagging convention as documents.

【0010】上記構成要素と上述のごとく分類されたX [0010] were classified as described above with the above-mentioned components X
ML文書との対応関係、並びに、上記構成要素とSGM Correspondence between the ML document, as well as the components and SGM
L文書やHTML文書との対応関係(必須か否か)を、 L documents and correspondence between the HTML document (whether or not required),
表1に示す。 It is shown in Table 1.

【0011】 [0011]

【表1】 [Table 1]

【0012】この表1に示すように、整形式XML文書では、文書実現値のみが必須の構成要素であり、検証済みXML文書では、文書型定義および文書実現値が必須の構成要素である。 [0012] As shown in Table 1, the well-formed XML document, only the document instance is an essential component, a validated XML document, document type definitions and document instance is an essential component. また、SGML文書では、全ての構成要素が必須であり、HTML文書では、HTML宣言以外は必須の構成要素となっている。 In addition, in the SGML document, are all of the components required, in the HTML document, other than the HTML declaration has become an essential component.

【0013】XMLでは、文書を、階層構造をもった要素の集合としてとらえ、各要素を識別するために使用されるマークがタグである。 [0013] In XML, a document, regarded as a set of elements having a hierarchical structure, a mark tag used to identify each element. 文書の要素が始まったことを示すタグは開始タグと呼ばれ、その要素が終わったことを示すタグは終了タグと呼ばれ、これら2つのタグで挟まれた部分が要素の内容となる。 Tag indicating that the element of the document began called start tag, a tag indicating that the element is finished is called a closing tag, these two part sandwiched by the tag is the content of the element.

【0014】要素に対する基本的なタグ付けは、図38 [0014] The basic tagging for the element, as shown in FIG. 38
(A)に示す通りである。 It is as shown in (A). この図38(A)に示す例は、1つの要素を表す際のタグ付けであるが、XMLインスタンスには、実際にはいくつもの要素が存在し、それらの要素が階層構造になっている。 Example shown in FIG. 38 (A) is a tagging when representing one element, the XML instance, actually there are several elements are those elements are in a hierarchy. つまり、ある要素の下に別の要素群が存在することがあり、このような階層構造を表現するためには、図38(B)に示すように、タグを入れ子にする。 In other words, there is the presence of another element groups under a certain element, in order to express such a hierarchical structure, as shown in FIG. 38 (B), the tag nest. 図38(B)に示すように、 As shown in FIG. 38 (B),
要素aの下位にくる要素bと要素cとは、階層構造において同列に位置するもので、“a”という親要素に対して兄弟関係にある。 The element b and element c come to the lower element a, those located on the same level in the hierarchy, sibling to the parent element called "a". このような兄弟関係にある要素は、 Elements in such a sibling,
兄の要素bの終了タグのすぐあとに弟の要素cの開始タグを書くことになる。 Will be writing the start tag of the brother of the elements c immediately after the closing tag of the brother of elements b. また、要素の内容として、平文(テキスト)と混在させる形で下位の要素を書くこともできる。 In addition, as the content of the element, it is also possible to write a subordinate element in the form to be mixed with plain text (text). その場合、図38(C)に示すようなタグ付けを行なう。 In that case, perform tagging as shown in FIG. 38 (C).

【0015】さらに、タグは、要素の構造を表現するだけでなく、要素になんらかの付属情報(属性)を与えることもできる。 [0015] In addition, the tag, not only to represent the structure of the element, it is also possible to give some ancillary information to an element (attribute). つまり、「要素のタイプを区別したい」,「要素に一意な識別子を付けて別の所から参照したい」などの理由から、付属情報としての属性を要素に与える場合がある。 In other words, for reasons such as "I want to distinguish between the type of element", "I want to see from another place with a unique identifier to the element", there is a case to give the attributes of as additional information to the elements. この属性は、図39に示すように、 This attribute, as shown in FIG. 39,
属性名と属性値との対で表され、開始タグの中に書き込まれる。 Represented by a pair of an attribute name and an attribute value are written into the opening tag. XML文書の処理上の区分は、さらに、構成の違いにより、表2のように5通り(パターン〜)に分類される。 Division of the processing of XML documents, further the difference in structure is classified into 5 types as shown in Table 2 (pattern ~).

【0016】 [0016]

【表2】 [Table 2]

【0017】この表2に示すごとく、XML文書は、D [0017] As shown in Table 2, XML document, D
TDをもたないもの(パターン)と、実体宣言(エンティティ宣言)を含むDTDをもつもの(パターン) Those without TD (the pattern), entity declaration shall have the DTD containing (entity declaration) (pattern)
と、外部への実体宣言を含むDTDをもつもの(パターン)と、内部にDTDを記述したもの(パターン; When, as having the DTD containing entity declaration to the outside (pattern), describes the DTD inside (pattern;
SGMLと共通)と、外部ファイルのDTDを利用するもの(パターン;SGML,HTMLと共通)との5 5 with SGML, and HTML common); and the common) SGML, utilizes the DTD for the external file (pattern
通りに分類される。 It is classified as.

【0018】パターン〜に対応するXML文書は、 [0018] The pattern corresponding XML document to ~ is,
「整形式XML文書」と呼ばれ、DTDによる検証を要することなくタグを設定することができる。 Is referred to as a "well-formed XML document", it is possible to set the tag without requiring the verification by the DTD. また、パターン,に対応するXML文書は、「検証済みXML In addition, XML document that corresponds to the pattern, is, "validated XML
文書」と呼ばれる。 It called the document ". パターン〜に対応するXMLやSGMLでは、利用者がタグを自由に設定することができる。 In XML and SGML corresponding to the pattern-, the user can set a tag freely. パターンでは、XMLもSGMLも文書内の自前のDTDでタグを定義することができる。 The pattern can be defined tags in own DTD of XML both document SGML. 一方、パターンだけに対応しているHTMLは、外部ファイルのDTD〔W3C(World Wide Web Consortium)発行〕 On the other hand, HTML is to correspond only to the pattern, DTD external file [W3C (World Wide Web Consortium) issue]
のみに依存し、利用者が自由にタグを設定することはできない。 Depends only on, it is not possible for a user to set a freely tag.

【0019】パターンは、XMLインスタンスのみを有し、検証済みXML文書としてのチェックを行なわないので、DTDを完全に取り払った、最もシンプルな整形式XML文書であり、DTDがなくてもXMLインスタンスの内容を解釈可能なものである。 [0019] The pattern has only XML instance, does not perform the check as a validated XML document, was rid completely of the DTD, is the most simple well-formed XML document, the XML instance even if there is no DTD content and is capable of interpreting.

【0020】パターンは、置換文字列定義(実体宣言)を含むDTDを有し、XMLインスタンス内で短縮文字列を使用するために、DTDにおける実体宣言でそれらの短縮文字列を宣言した整形式XML文書である。 [0020] pattern has a DTD comprising a substitution string definition (entity declaration), in order to use the abbreviated character string in the XML instance, well-formed XML that declared their shortened string entity declaration in DTD it is a document.
このパターンでは、実体参照を用いて、XMLインスタンスの内容中の長い文字列を短い文字列と置き換えるべく、DTDにおいて短い文字列と長い文字列との対応関係が定義される。 In this pattern, using the entity reference, to replace long strings in the contents of the XML instance as short strings, correspondence between the short strings and long strings in DTD is defined.

【0021】パターンは、複数のファイルでXML文書を作成するために、DTDにおける実体宣言で、それらのファイルを宣言した整形式XML文書である。 [0021] pattern, in order to create an XML document in a plurality of files, entity declaration in DTD, a well-formed XML document that declares the files. このパターンでは、外部のファイルをXMLインスタンスの内容中で引用するために実体参照を用いており、DT In this pattern, and using the entity references to quote an external file in the contents of the XML instance, DT
Dにおいて、XMLインスタンス内で用いられる短い短い文字列と、実際のファイルを指定する情報との対応関係が定義される。 In D, a short short strings used in the XML instance is correspondence between the definition of the information specifying the actual file.

【0022】パターンは、XMLインスタンスに添付されたDTD(DOCTYPE宣言)において、検証済みXM [0022] The pattern is, in DTD attached to the XML instance (DOCTYPE declaration), validated XM
L文書としてのチェックに必要な要素型宣言および属性リスト宣言を定義するものである。 It is intended to define the check element type declaration and attribute list declaration necessary as L document. パターンは、外部ファイルに存在するDTDで要素型宣言および属性リスト宣言を定義するものであり、XMLインスタンスに添付されたDTD(DOCTYPE宣言)において、その外部ファイルを指定する情報が記述されている。 Pattern, which defines the element type declaration and attribute list declaration in the DTD present in an external file, the DTD attached to the XML instance (DOCTYPE declaration), information designating the external file is described.

【0023】あるXML文書が、整形式XML文書として解釈されるか、検証済みXML文書として解釈されるかは、XML文書を解釈するソフトウェアであるXML [0023] an XML document, or be interpreted as a well-formed XML document, is either interpreted as a validated XML document, which is a software to interpret the XML document XML
プロセッサ(XMLパーサー)に依存する。 It depends on the processor (XML parser). このXML This XML
プロセッサは、図40に示すごとく、XML文書を解析し、整形式XML文書としてのチェックおよび検証済みXML文書としてのチェックを行なってから、チェックを終えた(木構造として表された)XML文書を、ブラウザなどの他の応用ソフトウェアに渡す機能を果たすものである。 The processor, as shown in FIG. 40, parses the XML document, after performing the check as the check and validated XML documents as well-formed XML document, finished check (represented as a tree structure) the XML document , it is intended to fulfill the function to be passed to the other application software such as a browser.

【0024】そして、上述したような構造化文書を圧縮する際には、前述したように、その構造化文書を文字データの集まりとみなして圧縮を行なうユニバーサル符号化の技術が利用されている。 [0024] Then, when compressing a structured document such as mentioned above, as described above, the universal coding technology for compressing and considers the structured document as a collection of character data is utilized.

【0025】従来の構造化文書の圧縮手法としては、大別して下記2通りの手法(a),(b)がある。 [0025] As the compression method of the conventional structured document, roughly classified into two types of method described below (a), there is (b). (a)タグを元の位置から移動せず、タグによって挟まれた平文の部分のみを圧縮する手法。 Not moved from their original position (a) tag, a technique for compressing only a portion of the plaintext flanked by tags. (b)タグのみを文書実現値(インスタンス)の先頭に移動することにより、タグどうし平文どうしをそれぞれまとめて圧縮する手法。 (B) by moving only the beginning of the document instance (instance) tag, a technique for compressing together tags each other plaintext each other, respectively.

【0026】手法(a)では、タグそのものを圧縮しない。 [0026] In the method (a), it does not compress the tag itself. 通常、タグだけで構造化文書の30%前後の容量を占めるため、タグを圧縮しなければ構造化文書の圧縮率が低下することになる。 Usually, it occupies about 30% of the volume of the structured document by a tag, if compressed tags compressibility of the structured document is reduced. 手法(b)では、圧縮された文書を伸長して復元する際にタグを元の位置に戻すべく、 In Method (b), to return the tag to the original position when restored by decompressing the compressed document,
タグの元の位置に2バイトの識別符号を付しておかなければならず、それだけ圧縮率が低下することになる。 Must be kept attached an identification code of 2 bytes to the original position of the tag, the compression factor is reduced correspondingly.

【0027】また、例えばHTML文書をユニバーサル符号化技術により圧縮する場合、HTML文書の木構造で所定の深さ以下の内容を圧縮する手法や、HTML文書のタグ表現の冗長部分を検出してより簡潔な表現に置換する手法などもあるが、前者の手法では、木構造で所定の深さ以下の文書構造は、伸長・復元しない限り分からないほか、後者の手法では、圧縮対象文書がHTML Further, for example, when an HTML document is compressed by the universal coding technology, and techniques for compressing a predetermined depth content below a tree structure of the HTML document detects the redundant portion of the tag representation of the HTML document more Although some such techniques to substitute the compact representation, in the former method, the document structure of less than a predetermined depth in a tree structure, in addition to not known unless extended and restored, in the latter method, the compression target document HTML
文書であるため、要素名や属性名などを圧縮することができない。 Because it is a document, it is not possible to compress such as element and attribute names.

【0028】 [0028]

【発明が解決しようとする課題】上述した通り、構造化文書においてタグは検索には必要であるが、上記手法(a)のようにタグだけが元のまま保存されると、構造化文書の圧縮率が悪化するし、上記手法(b)のようにタグだけ圧縮すると、圧縮ファイルの検索機能が失われ、圧縮状態において検索することができなくなる。 As described above THE INVENTION An object you try solving], it is necessary to tag search in a structured document, the only tags as above techniques (a) is stored intact, the structured document it compressibility is deteriorated, when compressed by the tag as described above method (b), the search function of the compressed file is lost, it is impossible to find in a compressed state.

【0029】通常、圧縮したファイルは200KB/s [0029] Typically, the compressed file is 200KB / s
程度で伸長することができるため、例えば日本工業規格A4判サイズで1頁分のデータが4〜6KB程度であるSGML/XML文書は、0.02〜0.03秒で伸長され閲覧可能になる。 It is possible to extend the extent, for example, data of one page in Japanese Industrial Standards A4-size is about 4~6KB SGML / XML documents will viewable is extended with 0.02 to 0.03 seconds . 一方、データベース検索方式では0.08秒程度の処理時間で検索を行なっている。 On the other hand, it is subjected to search processing time of about 0.08 seconds in the database search system.

【0030】構造化文書のデータベースに圧縮方式を適用した場合、圧縮する単位の大きさにもよるが、伸長してからの検索を行なうとなると、検索までの時間は0. In the case of applying the compression method in the database of the structured document, depending on the size of the unit to be compressed, when it comes to search from and extends the time until the search is 0.
1秒を超えることもある。 Sometimes more than one second. このため、検索までの時間が0.1秒を超えてよいか否かで圧縮方式の選択が変わってくる。 Therefore, the time until the search is varies the selection of compression method depending on whether it exceeds 0.1 seconds. 上述のように、タグの圧縮を行なわないと、構造化文書の圧縮率が低くなり、文書データの格納効率が低下するので、大規模なデータベースを取り扱うシステムでは好ましくない。 As described above, when not performed compression of the tag, the lower the compression ratio of the structured document, the storage efficiency of the document data is reduced, which is undesirable in a system for handling large databases.

【0031】一方、XMLで記述された部品表や価格表等では、短い語句(内容)を挟んだ開始タグと終了タグとの対のような冗長な表現〔図2(A)および図2 On the other hand, in the parts such as tables and price list written in XML, short phrase redundant expressions like pairs (contents) and start tag sandwiching the end tag [FIG. 2 (A) and FIG. 2
(B)参照〕が頻繁に現われるが、このような場合に、 (B) refer] Although frequently appears, in this case,
検索可能な状態を保持したままタグにかかる部分を圧縮できるようにすることが望まれている。 To be able to compress the portion relating to the tag while maintaining the searchable state is desired.

【0032】実際のXML文書等のデータにおいてタグで挟まれた「内容」のデータ長は短い場合が多い。 The data length of the sandwiched by the tag in the actual data, such as XML document "content" is short in many cases. 具体的には、20バイト、日本語で10文字程度である。 More specifically, 20 bytes, is about 10 characters in Japanese. 通常、短いデータは圧縮し難い。 Usually, short data is hard to compress. しかも、検索のキーワードとして「内容」の一部を残す場合、その「内容」のデータが短いと、「内容」を圧縮することなくそのまま残すことになり、結局、構造化文書の圧縮率が低下してしまう。 Moreover, if you leave a part of the "content" as a search keyword, and data of the "content" is short, will be left as it is without having to compress the "content", after all, it reduced the compression ratio of the structured document Resulting in.

【0033】本発明は、このような課題に鑑み創案されたもので、構造化文書の特徴を損なうことなくタグ部分の圧縮を可能にし、構造化文書の圧縮率の向上をはかった、構造化文書の圧縮方法および圧縮装置並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体を提供することを目的とする。 [0033] The present invention has been in view conceived of these problems, allowing the compression of the tag moiety without impairing the characteristics of the structured document, thereby improving the compression ratio of the structured document, the structured and to provide a computer-readable recording medium recording the compression method and compression apparatus as well as the structured document compression program documents.

【0034】 [0034]

【課題を解決するための手段】上記目的を達成するために、本発明の構造化文書の圧縮方法(請求項1)は、構造化文書を成す文書実現値における要素の木構造を解析する文書実現値解析ステップと、該文書実現値解析ステップでの解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該葉要素の親要素の属性として該親要素の開始タグ内に移す文書実現値構成変更ステップとを有することを特徴としている。 To achieve the above object, according to the Invention The method of compressing a structured document of the present invention (claim 1), the document analyzing the tree structure of the elements in the document instance forming a structured document and realizations analysis step, according to the analysis result in the document realizations analysis step, parent element serving as leaves of the tree structure (hereinafter, referred to as leaf element) information, as an attribute of the parent element of the leaves element It is characterized by having a starting document instance configuration changing step of transferring in the tag.

【0035】上記文書実現値構成変更ステップにおいて、該葉要素についての開始タグ,終了タグおよび内容を該文書実現値から削除し、該葉要素についての情報である要素名および内容を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加してもよく(請求項2)、このとき、該葉要素の開始タグ内に該葉要素についての情報である属性が記述されている場合、該属性にかかる属性名および属性値を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加してもよい(請求項3)。 [0035] In the document instance configuration change step, the start tag for the leaves element, remove the end tag and content from the document realizations, the element name and content which is information about the leaves element, respectively parent may be added to the start tag of the parent element as the attribute names and attribute values ​​of elements (claim 2), this time, is described the attribute is information about the leaves elements within the start tag of the leaves element If it is, the attribute names and attribute values ​​according to the attribute may be added to the start tag of the parent element as the attribute name and attribute value of parent element, respectively (claim 3). また、上記文書実現値構成変更ステップにおいて、該親要素の終了タグを削除するとともに、該親要素の開始タグを空要素タグに変更してもよい(請求項4)。 In the above document instance configuration change step, deletes the end tag of the parent element may be changed start tag of the parent element to the empty element tag (claim 4).

【0036】さらに、該構造化文書を成す文書型定義における要素の木構造を解析する文書型定義解析ステップと、該文書型定義解析ステップでの解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該文書型定義から削除し、該葉要素の親要素の属性として該文書型定義で再定義する文書型定義構成変更ステップとをさらにそなえてもよい(請求項5)。 Furthermore, the document type definition analysis step of analyzing the tree structure of the elements in the document type definition forming the structured document, in accordance with the analysis results for the document type definition analysis step, the leaves of the tree structure elements ( hereinafter, information about that leaf element), and deleted from the document type definition, better be provided with a document type definition structure changing step of redefining in the document type definition as an attribute of the parent element of the leaves elements ( according to claim 5).
このとき、該文書型定義構成変更ステップにおいて、該葉要素の要素型宣言を該文書型定義から削除するとともに該葉要素にかかる記述を該親要素の要素型宣言から削除し、該葉要素の要素型宣言にかかる情報を、該親要素の属性として該親要素の属性リスト宣言で再定義してもよく(請求項6)、さらに、該文書型定義で該葉要素の属性が該葉要素の属性リスト宣言により定義されている場合、該葉要素の属性リスト宣言を該文書型定義から削除し、該葉要素の属性を、該親要素の属性として該親要素の属性リスト宣言で再定義してもよい(請求項7)。 At this time, in the document type definition structure changing step, remove the description relating to the leaves element deletes the element type declaration of the leaves element from the document type definition from element type declaration of parent element of the leaves element such information element type declaration may be redefined attribute list declaration of parent element as an attribute of the parent element (claim 6), further, the attribute is the leaves elements the leaves element the document type definition If the attribute list declaration is defined, delete the attribute list declaration of the leaves element from the document type definition, redefine the attributes of the leaves element, an attribute list declaration of parent element as an attribute of the parent element mAY (claim 7).

【0037】本発明の構造化文書圧縮方法(請求項8) The structured document compressing method of the present invention (Claim 8)
は、構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析ステップと、該文書実現値解析ステップでの解析結果に従って、該文書実現値のタグ内に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成ステップと、該タグ辞書作成ステップで作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換ステップとを有することを特徴としている。 Includes a document instance analyzing step of analyzing the description of the tag of document instance forming a structured document, according to the analysis result in the document realizations analysis step, a character string described in the tag of the document realizations using the tag dictionary generating step of generating a tag dictionary to associate the shortened string and can identify the character string shorter than the string, the tag dictionary created by the tag dictionary generation step, the a character string described in the tag of document instance, is characterized by having a document instance string substitution step of replacing the shortening character string corresponding to the character string.

【0038】本発明の構造化文書圧縮方法(請求項9) The structured document compressing method of the present invention (claim 9)
は、構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析ステップと、該構造化文書を成す文書型定義の記述を解析する文書型定義解析ステップと、 Includes a document instance analyzing step of analyzing the description of the tag of document instance forming a structured document, and the document type definition analysis step of analyzing the description of a document type definition forming the structured document,
該文書実現値解析ステップおよび該文書型定義解析ステップでの解析結果に従って、該文書実現値のタグ内および該文書型定義に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成ステップと、該タグ辞書作成ステップで作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換ステップと、該タグ辞書作成ステップで作成された該タグ辞書を用いて、該文書型定義に記述された文字列を、 According to the analysis result in the document realization analyzing step and the document type definition analysis step, identifying and the character string shorter than the string and the character string described in the tag and in the document type definition of the document realizations tag dictionary generating step of generating a tag dictionary to associate the shortened string that may be, using the tag dictionary created by the tag dictionary creating step, a character string described in the tag of the document realizations a document instance string substitution step of replacing the shortening character string corresponding to the character string, by using the tag dictionary created by the tag dictionary creating step, a character string described in the document type definition,
当該文字列に対応する短縮文字列に置き換える文書型定義文字列置換ステップとを有することを特徴としている。 It is characterized by having a document type definition string substitution step of replacing the shortening character string corresponding to the character string.

【0039】このとき、該タグ内もしくは該文書型定義に記述された要素名および属性名を前記文字列として扱い、該要素名および該属性名を該短縮文字列に置き換えてもよい(請求項10)。 [0039] At this time, treats the element name and attribute name described in the tag or the document type definition as the character string, the element name and the attribute name may be replaced by the abbreviated character string (claim 10). また、単語文字列と該単語文字列よりも短く且つ該単語文字列を特定しうる短縮文字列とを対応させる単語辞書を用いて、該文書実現値の内容に含まれる単語文字列を、当該単語文字列に対応する短縮文字列に置き換える単語文字列置換ステップをそなえてもよく(請求項11)、さらに、該タグ内もしくは該文書型定義に記述された文字列を該短縮文字列に置き換えるとともに該単語文字列を該短縮文字列に置き換えた後に、これらの文字列を可変長符号化により圧縮する可変長符号化ステップをそなえてもよい(請求項1 Further, by using the word dictionary which correspond to the shortened string and can identify a said word string shorter than word string and said word string, the word character string included in the content of the document realizations, the may comprise a word string substitution step of replacing the shortening character string corresponding to a word string (claim 11), further replaces the character string described in the tag or the document type definition to the shortened string the said word string after replacing the said shortened string together, these strings may be provided with a variable length coding step of compressing the variable-length coding (claim 1
2)。 2).

【0040】一方、本発明の構造化文書圧縮装置(請求項13)は、構造化文書を成す文書実現値における要素の木構造を解析する文書実現値解析部と、該文書実現値解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該葉要素の親要素の属性として該親要素の開始タグ内に移す文書実現値構成変更部とをそなえて構成されたことを特徴としている。 On the other hand, the structured document compressing apparatus of the present invention (Claim 13), the document instance analyzer for analyzing the tree structure of the elements in the document instance forming a structured document, by the document realized value analysis unit according analysis results, elements that are the leaves of the tree structure (hereinafter, referred to as leaf element) information, and a document instance configuration changing unit to move in the start tag of the parent element as an attribute of the parent element of the leaves element It is characterized in that it is constructed to include.

【0041】このとき、該文書実現値構成部が、該葉要素についての開始タグ,終了タグおよび内容を該文書実現値から削除し、該葉要素についての情報である要素名および内容を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加してもよく(請求項14)、さらに、該葉要素の開始タグ内に該葉要素についての情報である属性が記述されている場合、該属性にかかる属性名および属性値を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加してもよいし(請求項15)、該親要素の終了タグを削除するとともに、該親要素の開始タグを空要素タグに変更してもよい(請求項16)。 [0041] At this time, the document realization configuration unit, the start tag for the leaves element, remove the end tag and content from the document realizations, the element name and content which is information about the leaves elements, respectively may be added as the attribute name and attribute value of parent element within the start tag of the parent element (claim 14), further description attribute is information about the leaves elements within the start tag of the leaves element If it is, the attribute names and attribute values ​​according to the attribute, each be added to the start tag of the parent element as the attribute name and attribute value of parent element (claim 15), the parent element It deletes the end tag, which may change the start tag of the parent element to the empty element tag (claim 16).

【0042】また、該構造化文書を成す文書型定義における要素の木構造を解析する文書型定義解析部と、該文書型定義解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該文書型定義から削除し、該葉要素の親要素の属性として該文書型定義で再定義する文書型定義構成変更部とをさらにそなえてもよい(請求項17)。 Further, a document type definition analyzer for analyzing the tree structure of the elements in the document type definition forming the structured document, in accordance with the analysis result of the document type definition analyzer, elements (hereinafter to be leaves the tree structure , information about that leaf element), and deleted from the document type definition, better it is provided with a document type definition structure changing unit that redefined in the document type definition as an attribute of the parent element of the leaves elements (according section 17).

【0043】本発明の構造化文書圧縮装置(請求項1 The structured document compressing apparatus of the present invention (claim 1
8)は、構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部と、該文書実現値解析部による解析結果に従って、該文書実現値のタグ内に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部と、該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換部をそなえて構成されたことを特徴としている。 8) includes a document instance analyzing section for analyzing the description in the tag of document instance forming a structured document, according to the analysis result by the document realized value analysis unit, characters written in the tag of the document realizations a tag dictionary creation unit for creating a tag dictionary to associate the shortened string and can identify the character string shorter than the column and the character string, by using the tag dictionary created by said tag dictionary creation unit, a character string described in the tag of the document realization is characterized in that it is configured to include a document instance string substitution unit to substitute the shorter character string corresponding to the character string.

【0044】本発明の構造化文書圧縮装置(請求項1 The structured document compressing apparatus of the present invention (claim 1
9)は、構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部と、該構造化文書を成す文書型定義の記述を解析する文書型定義解析部と、該文書実現値解析部および該文書型定義解析部による解析結果に従って、該文書実現値のタグ内および該文書型定義に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部と、該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換部と、該タグ辞書作成部により作成された該タグ辞書を用いて、該文書型定義に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書型定 9), and document instance analyzing section for analyzing the description in the tag of document instance forming a structured document, and the document type definition analyzer for analyzing the description of a document type definition forming the structured document, the document shortening according to the analysis result of the realized value analysis unit and the document type definition analyzer can identify and said string shorter than the string and the character string described in the tag and in the document type definition of the document realizations a tag dictionary creation unit for creating a tag dictionary to associate the string, by using the tag dictionary created by said tag dictionary preparing unit, a character string described in the tag of the document realizations, the character a document instance string substitution unit to substitute the shorter string corresponding to the column, using the tag dictionary created by said tag dictionary preparing unit, a character string described in the document type definition, to the string document type constant replaced by a corresponding shortening string 文字列置換部とをそなえて構成されたことを特徴としている。 It is characterized in that it is configured to include a character string replacement unit. このとき、該タグ内もしくは該文書型定義に記述された要素名および属性名を前記文字列として扱い、該要素名および該属性名を該短縮文字列に置き換えてもよい(請求項20)。 At this time, treats the element name and attribute name described in the tag or the document type definition as the character string, the element name and the attribute name may be replaced by the abbreviated character string (claim 20).

【0045】さらに、本発明の記録媒体(請求項21) [0045] Further, the recording medium of the present invention (Claim 21)
は、構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能なものであって、該構造化文書圧縮プログラムが、該構造化文書を成す文書実現値における要素の木構造を解析する文書実現値解析部、および、該文書実現値解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該葉要素の親要素の属性として該親要素の開始タグ内に移す文書実現値構成変更部として、該コンピュータを機能させることを特徴としている。 Is, there is a computer readable storing the structured document compressing program for realizing the function of compressing the structured document by a computer, said structured document compression program, document instance forming the structured document document instance analyzer for analyzing the tree structure of the elements in, and, in accordance with the analysis result by the document realized value analysis unit, elements that are the leaves of the tree structure (hereinafter, referred to as leaf element) information, the leaves element as document instance configuration changing unit to move in the start tag of the parent element as an attribute of the parent element, is characterized in that the functioning of the said computer.

【0046】このとき、該構造化文書圧縮プログラムが、該文書実現値構成部により、該葉要素についての開始タグ,終了タグおよび内容を該文書実現値から削除し、該葉要素についての情報である要素名および内容を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加するよう、該コンピュータを機能させてもよいし(請求項22)、さらに、該葉要素の開始タグ内に該葉要素についての情報である属性が記述されている場合、該文書実現値構成変更部により、該属性にかかる属性名および属性値を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加するよう、該コンピュータを機能させてもよいし(請求項23)、該文書実現値構成変更部により、該親要素の終了タグを削除するとと [0046] In this case, the structured document compression program, by the document realizations components, delete start tag for the leaves element, the end tag and content from the document realizations, with information about the leaves element certain element name and contents, so that each added to the start tag of the parent element as the attribute name and attribute value of parent element, may function the computer (claim 22), further, the leaves element If the start tag information a is an attribute of the leaves elements are described by the document realization configuration changing unit, the attribute names and attribute values ​​according to the attribute, each attribute name parent element and attribute as to be added to the start tag of the parent element as the value, it may function the computer (claim 23), by the document realization configuration changing unit, deleting the end tag of the parent element DOO に該親要素の開始タグを空要素タグに変更するよう、該コンピュータを機能させてもよい(請求項24)。 To change the start tag of the parent element to the empty element tag, it may be made to function the computer (claim 24).

【0047】また、該構造化文書圧縮プログラムが、該構造化文書を成す文書型定義における要素の木構造を解析する文書型定義解析部、および、該文書型定義解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該文書型定義から削除し、該葉要素の親要素の属性として該文書型定義で再定義する文書型定義構成変更部として、該コンピュータを機能させてもよい(請求項25)。 Further, the structured document compression program, document type definition analyzer for analyzing the tree structure of the elements in the document type definition forming the structured document, and, in accordance with the analysis result of the document type definition analyzer, the element as a leaf of the tree structure (hereinafter, referred to as leaf element) information, and deleted from the document type definition, document type definition structure changing unit that redefined in the document type definition as an attribute of the parent element of the leaves element as it may be made to function the computer (claim 25).

【0048】本発明の記録媒体(請求項26)は、構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能なものであって、該構造化文書圧縮プログラムが、該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部、該文書実現値解析部による解析結果に従って、該文書実現値のタグ内に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部、および、該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換部として、該コンピュータを機能させることを特徴 The recording medium of the present invention (Claim 26), there is a computer readable storing the structured document compressing program for realizing the function of compressing the structured document by a computer, said structured document compression program, document instance analyzing section for analyzing the description in the tag of document instance forming the structured document, according to the analysis result by the document realized value analysis unit, which is described in the tag of the document realization value character tags dictionary creation unit for creating a tag dictionary to associate the shortened string and can identify the character string shorter than the column and the character string, and, by using the tag dictionary created by said tag dictionary creation unit , characterized in that the character string described in the tag of the document realizations, as document instance string substitution unit to substitute the shorter character string corresponding to the character string, to function the computer している。 It is.

【0049】本発明の記録媒体(請求項27)は、構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能なものであって、該構造化文書圧縮プログラムが、該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部、該構造化文書を成す文書型定義の記述を解析する文書型定義解析部、該文書実現値解析部および該文書型定義解析部による解析結果に従って、該文書実現値のタグ内および該文書型定義に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部、該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に The recording medium of the present invention (Claim 27), there is a computer readable storing the structured document compressing program for realizing the function of compressing the structured document by a computer, said structured document compression program, document instance analyzing section for analyzing the description in the tag of document instance forming the structured document, the document type definition analyzer for analyzing the description of a document type definition forming the structured document, the document realized according to the analysis result by the value analysis unit and the document type definition analyzer, shortened character capable of identifying and the character string shorter than the string and the character string described in the tag and in the document type definition of the document realizations tags dictionary creation unit for creating a tag dictionary to associate the columns, using the tag dictionary created by said tag dictionary preparing unit, a character string described in the tag of the document realizations, to the character string 応する短縮文字列に置き換える文書実現値文字列置換部、および、該タグ辞書作成部により作成された該タグ辞書を用いて、該文書型定義に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書型定義文字列置換部として、該コンピュータを機能させることを特徴としている。 Document instance string substitution unit to substitute the shorter string response, and, using the tag dictionary created by said tag dictionary preparing unit, a character string described in the document type definition, corresponding to the character string as the document type definition string substitution unit to substitute the shorter string, it is characterized by the functioning of the said computer. このとき、該構造化文書圧縮プログラムが、該タグ内もしくは該文書型定義に記述された要素名および属性名を前記文字列として扱い、該コンピュータに、該要素名および該属性名を該短縮文字列に置換させてもよい(請求項28)。 In this case, the structured document compression program treats element names and attribute names described in the tag or the document type definition as the character string, in the computer, the element name and the shortened character the attribute name optionally is substituted on the column (claim 28).

【0050】 [0050]

【発明の実施の形態】以下、図面を参照して本発明の実施の形態を説明する。 BEST MODE FOR CARRYING OUT THE INVENTION Hereinafter, an embodiment of the present invention with reference to the drawings. 〔1〕第1実施形態の説明 まず、図2〜図4を参照しながら、本発明の第1実施形態における構造化文書の圧縮原理について説明する。 [1] Description of First Embodiment First, referring to FIGS, illustrating the compression principle of the structured document in the first embodiment of the present invention. なお、図2(A)〜図2(D)および図3(A)〜図3 Incidentally, FIG. 2 (A) ~ FIG 2 (D) and FIG. 3 (A) ~ FIG. 3
(C)はいずれも第1実施形態における構造化文書(文書実現値)の圧縮原理を説明するための図、図4(A) (C) views for explaining the compression principle of the structured document (document instance) in both the first embodiment, FIG. 4 (A)
および図4(B)はいずれも第1実施形態における構造化文書(DTD)の圧縮原理を説明するための図である。 And FIG. 4 (B) is a diagram for explaining the compression principle of the structured document (DTD) in the first embodiment either. なお、以下、本発明の第1実施形態では、構造化文書がXML文書である場合について説明する。 In the following, the first embodiment of the present invention, will be described structured document is an XML document.

【0051】前述した通り、XMLで記述された部品表や価格表等では、図2(A)および図2(B)に示すごとく、短い語句(平文)を内容として挟んだ開始タグと終了タグとの対のような冗長な表現が頻繁に現われる。 [0051] As described above, in such bill or price list written in XML, as shown in FIG. 2 (A) and FIG. 2 (B), the sandwiched short phrase (the plaintext) as its contents start and end tags redundant representation, such as the pair of frequently appear.
ここで、図2(A)には、ある親要素(要素1)の下に2つの子要素(子要素をもたない要素2および要素3) Here, FIG. 2 (A) is (element 2 and element 3 having no child elements) two child elements under certain parent element (element 1)
が存在する場合の、XMLの一般的な記述例が示されている。 There when present, is shown a general description example of XML. そして、図2(B)には、図2(A)に示した一般的な記述例に対応した具体的な記述例が示されている。 Then, in FIG. 2 (B), specific description example corresponding to the general description example shown in FIG. 2 (A) it is shown. なお、以下、子要素をもたない要素を葉の要素,葉要素もしくは単に葉と呼ぶ場合がある。 Hereinafter, the elements that do not have child elements may be referred leaf element, leaf element, or simply leaves.

【0052】図2(A)に示す一般的な記述例において、要素1は、要素名1を指定されるとともに属性情報(属性名1および属性値1)を指定され、要素1の子要素である要素2は、要素名2を指定されて内容2を有し、要素2と同じく要素1の子要素(要素2と兄弟関係)である要素3は、要素名3を指定されるとともに属性情報(属性名3および属性値3)を指定されて内容3 [0052] In general description example shown in FIG. 2 (A), component 1 is specified attribute information (Attribute Name 1 and the attribute value 1) with which the specified element name 1, the child elements of the element 1 an element 2 has a content 2 are designated the element name 2, element 3 is likewise element 1 child elements as 2 (element 2 and sibling relationships), the attribute information together with the specified element name 3 (attribute name 3 and the attribute value 3) is specified by the contents 3
を有している。 have.

【0053】そして、図2(B)に示す具体的な記述例では、要素名1が「book」、属性名1が「field」、属性値1が「本」、要素名2が「title」、内容2が「X [0053] In the detailed description example shown in FIG. 2 (B), element name 1 "book", the attribute name 1 "field", the attribute value 1 is "present", the element name 2 "title" , the contents 2 "X
ML入門」、要素名3が「author」、属性名3が「yea ML Introduction ", the element name 3." author ", the attribute name 3." yea
r」、属性値3が「1955」、内容3が「佐藤元」となっている。 r ", the attribute value 3 is" 1955 ", the contents 3" Hajime Sato ". これらの図2(A)および図2(B)に示す記述例の木構造を図2(C)に示す。 The tree structure of description example shown in these FIGS. 2 (A) and 2 (B) shown in FIG. 2 (C). また、これらの図2 Further, these figures 2
(A)〜図2(C)に示す例についての、葉の要素一覧表を図2(D)に示す。 (A) for the example shown in to FIG. 2 (C), an element list of leaf shown in FIG. 2 (D).

【0054】なお、図2(B)に示す記述例において、 [0054] Incidentally, in the description example shown in FIG. 2 (B),
1行目の記述<book field="本">が要素「book」の開始タグで、5行目の記述</book>が要素「book」の終了タグであり、これらのタグにより括られた、2〜4行目の記述が要素「book」の内容を示している。 At the start tag of the first line of the description <book field = "book"> elements "book", the fifth line of the description </ book> is the end tag of the element "book", enclosed by these tags , 2-4 line of the description shows the contents of the element "book". 1行目の開始タグ内の記述「field="本"」は、要素「book」の属性情報(属性名が「field」で属性値が「本」)を示している。 The description of the first row of the start tag "field =" book "" the attribute information of the element "book" (the attribute name is the attribute value in the "field" is "book") shows.

【0055】また、2行目において、記述<title>が要素「title」の開始タグで、記述</title>が要素「t [0055] In addition, in the second row, at the start tag of the description <title> elements "title", a description </ title> elements "t
itle」の終了タグであり、これらのタグ間の記述「XM Is the end tag of itle ", written between these tags" XM
L入門」が要素「title」の内容である。 L Getting Started "is the content of the element" title ". 同様に、3行目の記述<author year="1955">が要素「author」の開始タグで、4行目の記述</author>が要素「autho Similarly, at the start tag of the third line of the description <author year = "1955"> elements "author", the fourth line of the description </ author> elements "autho
r」の終了タグであり、これらのタグ間の記述「佐藤元」が要素「author」の内容である。 Is the end tag of r ", written between these tags" Hajime Sato "is the content of the element" author ". 3行目の開始タグ内の記述「year="1955"」は、要素「author」の属性情報(属性名が「year」で属性値が「1955」)を示している。 The third line of the description of the start tag "year =" 1955 "", the attribute information of the element "author" (attribute name attribute value in the "year" is "1955") shows.

【0056】本発明の第1実施形態では、図2(A)〜 [0056] In the first embodiment of the present invention, FIG. 2 (A) ~
図2(D)に示すごとく、子要素をもたず木構造の葉として並んでいる要素(以下、葉の要素,葉要素もしくは単に葉と呼ぶ場合がある)を検出し、図2(D)に示すような葉の要素一覧表についてのファイルを出力する。 As shown in FIG. 2 (D), element are arranged as a leaf of the tree structure no child elements (hereinafter, the elements of leaf, elements or simply referred to as leaves) detects, FIG 2 (D to output the file of the elements list of the leaves, such as shown in).
そして、そのファイルに基づいて、図3(A)および図3(B)に示すように、葉の要素名や内容を上位の要素1(親要素)の属性に置き換えてその葉の要素を削除するとともに、要素1の開始タグを空要素タグに変更する。 Then, based on the file, as shown in FIG. 3 (A) and FIG. 3 (B), the delete elements of the leaves replacing the element names and contents of the leaves on the attributes of the element in the upper one (parent element) as well as, to change the start tag of the element 1 in the empty element tag. このとき、要素3の属性情報(属性名3および属性値3)も、要素3の要素名3や内容3と対等な、要素1 At this time, attribute information (Attribute Name 3 and the attribute value 3) of the element 3 also, the element name 3 or content third element 3 and an equal elements 1
の属性として並べる。 Arranged as an attribute.

【0057】ここで、図3(A)や図3(B)に示すごとく、要素名や属性情報を“<”と“/>”とで囲んで記述されたタグは、内容をもたない空要素タグである。 [0057] Here, as shown in FIG. 3 (A) and FIG. 3 (B), the tags written surround out with the element name and attribute information "<" and "/>" is no content it is an empty element tag.
このとき、属性情報については必ずしも記述・指定しなくてもよい。 In this case, it is not always necessary to describe and specify the attribute information. 図3(A)には、図2(A)に示した一般的な記述例を第1実施形態の圧縮方法により圧縮した結果得られる記述が示され、図3(B)には、図2(B) The FIG. 3 (A), the 2 (A) General description example the compressed resultant described by the compression method of the first embodiment shown is shown in FIG. 3 (B), FIG. 2 (B)
に示した具体的な記述例を第1実施形態の圧縮方法により圧縮した結果得られる記述が示されている。 Detailed description example the description that results from compression by the compression method of the first embodiment is illustrated as shown in.

【0058】これらの図3(A)および図3(B)に示すように、要素1の開始タグ(空要素タグ)においては、要素名1および属性情報(属性名1および属性値1)が指定されるだけでなく、要素名2および内容2がそれぞれ要素1の第2の属性名および属性値として指定され、要素名3および内容3がそれぞれ要素1の第3の属性名および属性値として指定され、属性名3および属性値3がそれぞれ要素1の第4の属性名および属性値として指定されている。 [0058] As shown in these shown in FIG. 3 (A) and FIG. 3 (B), the in the start tag of the element 1 (empty element tag), element name 1 and attribute information (Attribute Name 1 and the attribute value 1) not only is specified, is specified as the second attribute names and attribute values ​​of the element name 2 and content 2 are each element 1, as a third attribute names and attribute values ​​of the element name 3 and the contents 3 are each elements 1 specified, the attribute name 3 and the attribute value 3 is designated as a fourth attribute names and attribute value of each element 1. なお、図3(C)は、図3(A) Incidentally, FIG. 3 (C) FIG. 3 (A)
および図3(B)に示した開始タグ(空要素タグ)をもつ要素1の構造を図式表現したものである。 And it is obtained by graphical representation of the structural elements 1 having a start tag (empty element tag) shown in Figure 3 (B).

【0059】一方、図2や図3を参照しながら上述したごとく圧縮処理を行なった構造化文書がDTDを有している場合には、その圧縮処理に対応して、図4(A)および図4(B)に示すごとくDTDの変更(圧縮)も行なわれる。 Meanwhile, if a reference while structured document was subjected to compression processing as described above to FIGS. 2 and 3 has a DTD, corresponding to the compression process, FIG. 4 (A) and change DTD as shown in FIG. 4 (B) (compression) is also performed. 即ち、図4(A)には、図2(B)に示すX That is, in FIG. 4 (A), X shown in FIG. 2 (B)
ML文書を定義する、変更前(圧縮前)のDTDが示されている。 Defining the ML document, it is shown DTD before change (before compression). この図4(A)に示すDTDにおいて、1行目の記述は文書型宣言(DOCTYPE宣言)であり、 In DTD shown in FIG. 4 (A), 1 line of the description is a document type declaration (DOCTYPE declaration),
ここでは、この文書の文書型名つまり最上位要素の要素名が「book」であることが宣言されている。 Here, it has been declared element name of the document type name that is the most significant element of this document is the "book".

【0060】そして、1行目末尾の“[”と7行目の“] [0060] Then, in the first row at the end "[" and the line 7 "]
>”との間における記述(2〜6行目の記述)が、この文書の構成を定義している。2行目の要素型宣言の要素名と文書型名とは一致する必要があり、ここでは、その規則に従い最上位要素の要素名として「book」が指定されている。 > Description between the "(2-6 line description) is, must match the element name and document type name for this to define the structure of the document is .2 row element type declaration, here, the "book" is designated as an element name of the top-level element in accordance with its rules. また、この親要素「book」の下に要素名「ti In addition, the element name to the bottom of this parent element "book", "ti
tle」および「author」の2つの子要素が並んで存在することが、2行目の要素型宣言内において、内容モデル記述“(title,author)”により宣言されている。 tle "and that there alongside two child elements of the" author "in the second line of the element type declaration, it is declared by the content model description" (title, author) ". つまり、要素「book」は2つの子要素「title」および「aut In other words, the element "book" is two child element "title" and "aut
hor」から構成されることが宣言されている。 It has been declared to be configured from hor ".

【0061】さらに、3行目の要素型宣言により、要素の要素名として「title」が指定されるとともに、この要素「title」の内容が文字データ(#PCDATA) [0061] In addition, the third line of the element type declaration, together with the "title" is specified as an element name of the element, the contents of this element "title" is character data (#PCDATA)
であることが宣言されている。 It has been declared is. 同様に、4行目の要素型宣言により、要素の要素名として「author」が指定されるとともに、この要素「author」の内容が文字データ(#PCDATA)であることが宣言されている。 Similarly, the fourth line of the element type declaration, together with the "author" is designated as an element name of the element, it is declared content of the element "author" is character data (#PCDATA). これらの要素型宣言では、各要素の下における子要素の存在は宣言されていない。 In these element type declaration, the presence of the child elements in the bottom of each element is not declared. つまり、これらの要素を親とする子要素は存在しておらず、これらの要素は、木構造の葉を成す要素である。 That is, these elements child elements whose parent is not present, these elements are elements that form the leaves of the tree structure.

【0062】また、5行目の属性リスト宣言では、要素「book」に伴う属性として、属性名「field」と、属性値ついての3種類の候補「本」,「雑誌」,「小冊子」 [0062] In addition, in the fifth line of the attribute list declaration, as an attribute associated with the element "book", the attribute name "field", the three types of candidates with the attribute value "book", "magazine", "booklet"
と、デフォルト値「本」とが宣言されている。 And, the default value and the "book" is declared. さらに、 further,
6行目の属性リスト宣言では、要素「author」に伴う属性として、著者の生年を示す属性名「year」と、その属性値のデータ型(CDATA)とが宣言されている。 In line 6 of the attribute list declaration, as an attribute associated with the element "author" attribute name indicating the year of birth of the author and "year", the data type of the attribute value and (CDATA) is declared. なお、7行目の記述“]>”は、これで1行目の文書型宣言の内部サブセット記述部分が終了することを示している。 Incidentally, line 7 DESCRIPTION ">" indicates this by internal subset description portion of the first line of the document type declaration is ended.

【0063】そして、図4(B)には、図3(B)に示すXML文書を定義する、変更後(圧縮後)のDTDが示されており、この図4(B)に示すDTDにおいては、図4(A)に示すDTDに存在していた、要素「ti [0063] Then, in FIG. 4 (B), defines the XML document shown in FIG. 3 (B), there is shown a DTD after the change (after compression), the DTD shown in FIG. 4 (B) was present in the DTD shown in FIG. 4 (a), element "ti
tle」および要素「author」についての要素型宣言が消えるとともに、2行目の親要素「book」の要素型宣言内における子要素の定義(内容モデル)が消えている。 Along with the element type declaration disappear for tle "and the element" author ", the definition of the child elements in the second row of the element type in the declaration of the parent element" book "(content model) is off. また、要素「author」に伴う属性「year」も消えている。 In addition, the attribute "year" due to the element "author" also has disappeared.

【0064】代わりに、3〜6行目の属性リスト宣言において、親要素「book」の属性として、新たに属性名「title」,「author」,「year」が付加されている。 [0064] Instead, in the 3-6 line of the attribute list declaration, as an attribute of the parent element "book", a new attribute name "title", "author", "year" is added.
そして、これらの属性名「title」,「author」の属性値の候補として「#PCDATA」が宣言されるとともに、属性名「year」の属性値の候補として「CDAT And, these attributes name "title", together with the "#PCDATA" is declared as a candidate for the attribute values ​​of the "author", as a candidate for the attribute value of the attribute name "year", "CDAT
A」が宣言されている。 A "has been declared.

【0065】ここで、「#PCDATA」としては、文字データのほかに、タグや、実体参照と呼ばれるマークが含まれる。 [0065] Here, as the "# PCDATA", in addition to the character data, tag and includes a mark called the entity reference. なお、実体参照は、構造化文書を記述する際、文字データ中で特定の文字列を所定のマークで表現し、文字データを応用ソフトウェアに渡す際には、マークの部分に元の文字列を代入する機能である。 Incidentally, the entity reference, when describing the structured document, the specific character string in the character data representing a predetermined mark, when passing character data to the application software, the original string in the portion of the mark it is a function assignment to. ただし、 However,
属性値の中で実体参照を行なう場合、その属性値にかかる文書と同じ文書内の文字列を参照することは許されているが、外部ファイルにおける文字列を参照することは許されていない。 When performing the entity reference in an attribute value, although it is allowed to refer to the string in the same document as the document according to the attribute value, it is not allowed to see the string in the external file. また、生年を表わす属性値としては、 Further, as the attribute value representing the year of birth,
純粋の文字データであるCDATAが宣言されている。 Is a pure character data CDATA is declared.

【0066】第1実施形態の構造化文書の圧縮手法では、上述のごとく文書実現値の圧縮処理に合わせてDT [0066] In the compression technique of the structured document of the first embodiment, in accordance with the compression of the document instance as described above DT
Dも変更・圧縮するため、図40で前述したXMLプロセッサは、上述の圧縮に呼応した形で、図3(A)や図3(B)に示すような新しいXML文書を正しく検討することができる。 Since the change-compression D, XML processor described above in FIG. 40, in the form of response to the above-mentioned compression, to consider a new XML document as shown in FIG. 3 (A) and FIG. 3 (B) correctly it can.

【0067】また、上述のごとく、従来、「要素」として表現された情報が親要素の「属性」に変換されるとともに、その変換に伴うXML文書の構造変更に合わせてDTDも変更される。 [0067] Further, as described above, conventionally, information expressed as "element" is with is converted to "attribute" of the parent element, DTD is also changed in accordance with the structure change of the XML document associated with the conversion. これにより、従来、「要素」として表現された情報は、親要素の「属性」として検出されるようになる。 Thus, conventionally, information expressed as "element" will be detected as "attributes" of the parent element. 従って、「要素名のバイト数」+「3バイト」分だけ、XML文書の表現が圧縮・節約されることになる。 Therefore, "the number of bytes in the element name" + "3-byte" worth only, so that the representation of the XML document is compressed and saved.

【0068】以下、図1〜図13を参照しながら、本発明の第1実施形態について、より詳細かつ具体的に説明する。 [0068] Hereinafter, with reference to FIGS. 1 to 13, a first embodiment of the present invention will be described in more detail and specifically. 図1は本発明の第1実施形態としての構造化文書の圧縮装置の機能構成を示すブロック図であり、この図1に示すように、第1実施形態の圧縮装置は、文書記憶部10,文書実現値解析部20,DTD解析部30,文書実現値構成変更部40,DTD構成変更部50,新規DTDファイル作成部60および新旧DTD対応表出力部70を有して構成されている。 Figure 1 is a block diagram showing the functional configuration of the compression apparatus of the structured document according to the first embodiment of the present invention, as shown in FIG. 1, the compressor of the first embodiment, the document storage unit 10, document instance analyzer 20, DTD analyzer 30, document instance configuration changing unit 40, DTD configuration changing unit 50 is configured to have a new DTD file creation unit 60 and the new and old DTD correspondence table output unit 70.

【0069】ここで、本実施形態の圧縮装置は、CP [0069] Here, the compressor of this embodiment, CP
U,RAM,ROMなどをバスラインにより接続して構成される、パソコン等のコンピュータシステムにより実現されるものである。 U, RAM, configured ROM and the like are connected by a bus line, is realized by a computer system such as a personal computer. つまり、RAMやROMが文書記憶部10としての機能を果たすほか、RAMには、文書実現値解析部20,DTD解析部30,文書実現値構成変更部40,DTD構成変更部50,新規DTDファイル作成部60および新旧DTD対応表出力部70を実現するためのアプリケーションプログラムが格納されている。 In other words, in addition to RAM or ROM will serve as a document storage unit 10, the RAM, document instance analyzer 20, DTD analyzer 30, document instance configuration changing unit 40, DTD configuration changing unit 50, a new DTD file creating unit 60 and an application program for realizing the new and old DTD correspondence table output unit 70 is stored.

【0070】そして、CPUが、上記アプリケーションプログラムを実行することにより、文書実現値解析部2 [0070] Then, CPU is by executing the application program, document instance analyzer 2
0,DTD解析部30,文書実現値構成変更部40,D 0, DTD analyzer 30, document instance configuration changing unit 40, D
TD構成変更部50,新規DTDファイル作成部60および新旧DTD対応表出力部70としての機能(その詳細については後述)が実現され、第1実施形態の構造化文書の圧縮装置が実現されるようになっている。 TD configuration changing unit 50, a new DTD file creating unit 60, and functions as new and old DTD correspondence table output unit 70 (described in detail later) is realized, such that the compressor of the structured document of the first embodiment is realized It has become.

【0071】この第1実施形態の圧縮装置を実現するためのプログラムは、例えばフレキシブルディスク,CD [0071] The program for realizing the compression apparatus of the first embodiment, for example, a flexible disk, CD
−ROM等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。 Such -ROM, are provided in a format recorded on a computer-readable recording medium. そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。 Then, the computer uses that program after transferring it to an internal storage device or an external storage device reads the program from the recording medium. また、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供してもよい。 Further, the program may be a magnetic disk, an optical disk, may be recorded in a storage device such as a magneto-optical disk (recording medium) may be provided to the computer via a communication path from the storage device.

【0072】そして、第1実施形態の圧縮装置としての機能をコンピュータにより実現する際には、内部記憶装置(例えばRAM)に格納された上記プログラムがコンピュータのマイクロプロセッサ(例えばCPU)によって実行される。 [0072] Then, when implementing a function as the compression device of the first embodiment by a computer, the program stored in the internal storage device (e.g. RAM) is executed by the microprocessor of the computer (e.g., CPU) . このとき、記録媒体に記録されたプログラムをマイクロプロセッサが直接読み取って実行してもよい。 In this case, the program recorded on the recording medium by the microprocessor may be executed directly read.

【0073】なお、本実施形態において、コンピュータとは、ハードウェアとオペレーティングシステムとを含む概念であり、オペレーティングシステムの制御の下で動作するハードウェアを意味している。 [0073] In the present embodiment, a computer is a concept including hardware and an operating system, and means hardware which operates under control of an operating system. また、オペレーティングシステムが不要でアプリケーションプログラム単独でハードウェアを動作させるような場合には、そのハードウェア自体がコンピュータに相当する。 Further, when the operating system is such as to an application program operates hardware independently of an OS, the hardware corresponds to the computer. ハードウェアは、少なくとも、CPU等のマイクロプロセッサと、記録媒体に記録されたコンピュータプログラムを読み取るための手段とをそなえている。 Hardware includes at least a microprocessor such as a CPU and means for reading a computer program recorded in a recording medium.

【0074】上記アプリケーションプログラムは、このようなコンピュータに、文書実現値解析部20,DTD [0074] The application program, such a computer, document instance analyzer 20, DTD
解析部30,文書実現値構成変更部40,DTD構成変更部50,新規DTDファイル作成部60および新旧D Analysis unit 30, document instance configuration changing unit 40, DTD configuration changing unit 50, a new DTD file creating unit 60 and the old D
TD対応表出力部70としての機能を実現させるプログラムコードを含んでいる。 It includes program code to realize the function of the TD correspondence table output unit 70. また、その機能の一部は、アプリケーションプログラムではなくオペレーティングシステムによって実現されてもよい。 Also, some of the functions may be implemented by the operating system rather than the application program.

【0075】さらに、本実施形態における記録媒体としては、上述したフレキシブルディスク,CD−ROM, [0075] Further, as the recording medium in the present embodiment, the above-mentioned flexible disk, CD-ROM,
磁気ディスク,光ディスク,光磁気ディスクのほか、I Magnetic disk, optical disk, in addition to the magneto-optical disk, I
Cカード,ROMカートリッジ,磁気テープ,パンチカード,コンピュータの内部記憶装置(RAMやROMなどのメモリ),外部記憶装置等や、バーコードなどの符号が印刷された印刷物等の、コンピュータ読取可能な種々の媒体を利用することができる。 C cards, ROM cartridges, magnetic tapes, punch cards, internal storage devices (memories like RAM and ROM), and external storage device or the like, a printed matter which codes are printed, such as a bar code, a computer readable various it is possible to use the media.

【0076】さて、図1に示す第1実施形態の圧縮装置において、文書記憶部10は、構造化文書であるXML [0076] Now, in the compression device of the first embodiment shown in FIG. 1, the document storage unit 10 is a structured document XML
文書を記憶するもので、本実施形態では、圧縮前および圧縮後のいずれのXML文書も記憶するほか、後述する新旧DTD対応表も記憶するものである。 Configured to store a document, in this embodiment, any XML document after compression before and compression also addition to storing is configured to store also old and new DTD correspondence table will be described later.

【0077】文書実現値解析部20は、XML文書を成す文書実現値を解析し、文書実現値における要素の木構造(親子関係)や、文書実現値の記述を解析するもので、その解析手順については、図6に示すフローチャートを参照しながら後述する。 [0077] document instance analyzing unit 20 analyzes the document instance constituting an XML document, the tree structure of the elements in the document instance (parent-child relationship) and, intended to analyze the description of the document instance, steps of the analysis It will be described later with reference to a flow chart shown in FIG. そして、本実施形態の文書実現値解析部20は、要素の木構造(親子関係)の解析結果として、例えば図2(D)に示すような葉の要素一覧表(ファイル)を出力する。 The document instance analyzer 20 of the present embodiment, as an analysis result of the tree structure elements (parent-child relationship), and outputs for example elements list leaf as shown in FIG. 2 (D) (file).

【0078】DTD解析部(文書型定義解析部)30 [0078] DTD analysis section (document type definition analysis unit) 30
は、XML文書が検証済みXML文書である場合(つまりパターンまたはのXML文書である場合)に、そのDTDを解析し、DTDにおける要素の木構造(親子関係)や、DTDの記述を解析するもので、その解析手順については図7に示すフローチャートを参照しながら後述する。 , When an XML document is validated XML document (that is, when a pattern or XML document), analyzes the DTD, the tree structure of the elements in the DTD (parentage) and those for analyzing a DTD description in, for the analysis procedure will be described later with reference to a flowchart shown in FIG. そして、本実施形態のDTD解析部30も、 Then, DTD analyzer 30 of the present embodiment also,
要素の木構造(親子関係)の解析結果として、例えば図2(D)に示すような葉の要素一覧表(ファイル)を出力する。 As an analysis result of the tree structure (parent-child relationship) of the element, and outputs for example elements list leaf as shown in FIG. 2 (D) (file). ただし、XML文書がパターンである場合、 However, if the XML document is a pattern,
DTDは文書記憶部10から読み込まれるが、XML文書がパターンである場合、DTDは外部ファイル10 Although DTD is read from the document storage unit 10, when an XML document is the pattern, the DTD external files 10
0から読み込まれる。 It is read from 0.

【0079】このとき、文書実現値解析部20やDTD [0079] In this case, the document realization value analysis unit 20 and the DTD
解析部30から出力される葉の要素の一覧表は、前述した通り、子要素をもたず木構造の葉として並んでいる要素を検出し、その葉の要素と親要素との対応関係を明記したものである。 List of leaf elements that are output from the analysis unit 30, as described above, to detect the elements are arranged as a leaf of the tree structure no child elements, the correspondence between the element and the parent element of the leaf it is intended as specified. 文書実現値構成変更部40は、文書実現値の表現を簡潔にすべく、文書実現値解析部20による解析結果(葉の要素一覧表)に従って、文書実現値における葉要素についての情報を、その葉要素の親要素の属性として親要素の開始タグ内に移動させるもので、以下のような構成変更処理(a1)〜(a3)を実行するものである。 Document instance configuration changing unit 40, in order to simplify the representation of the document instance, according to the analysis result by the document instance analyzer 20 (elements table leaf), information on the leaf elements in the document instance, the those moving within the start tag of the parent element as an attribute of the parent element of the leaf element, and executes the configuration change processing (a1) ~ (a3) ​​described below.

【0080】(a1)葉要素についての開始タグ,終了タグおよび内容を文書実現値から削除し、葉要素についての情報である要素名および内容を、それぞれ親要素の属性名および属性値として親要素の開始タグ内に付加する。 [0080] (a1) start tag for the leaf element, remove the end tag and content from the document instance, the parent element of the element name and content, which is information about the leaf elements, as the attribute names and values ​​of each of the parent element It is added to the start tag. (a2)葉要素の開始タグ内に葉要素についての情報である属性が記述されている場合、属性にかかる属性名および属性値を、それぞれ親要素の属性名および属性値として親要素の開始タグ内に付加する。 (A2) if the information in a attribute of the leaf elements in the start tag of the leaf elements are described, the attribute names and attribute values ​​according to the attributes, the start tag of the parent element as the attribute name and attribute value of parent element respectively It is added to the inside.

【0081】(a3)親要素の終了タグを削除するとともに、親要素の開始タグを空要素タグに変更する。 [0081] (a3) ​​deletes the end tag of the parent element, to change the start tag of the parent element to the empty element tag. この文書実現値構成変更部40による構成変更手順については、図8に示すフローチャートを参照しながら後述する。 The configuration change procedure according to this document instance configuration changing unit 40 will be described later with reference to the flowchart shown in FIG. また、本実施形態では、文書実現値構成変更部40 Further, in the present embodiment, document instance configuration changing unit 40
による構成変更結果(圧縮後の文書実現値)を、文書記憶部10に出力・格納しているが、その他の記録媒体等に出力・格納してもよい。 The configuration change results of (document instance after compression), but is output to and stored in the document storage section 10 may output, stored, etc. in other recording medium.

【0082】DTD構成変更部(文書型定義構成変更部)50は、XML文書が検証済みXML文書である場合(XML文書がパターンまたはである場合)に、 [0082] DTD configuration changing unit (document type definition configuration changing unit) 50, when an XML document is validated XML document (If the XML document is or pattern),
文書実現値構成変更部40による構成変更に合わせてD D according to the configuration change by document instance configuration changing unit 40
TDの表現を簡潔にすべく、DTD解析部30による解析結果(葉の要素一覧表)に従って、DTDにおける葉要素についての情報を、DTDから削除し、その葉要素の親要素の属性としてDTDで再定義するもので、以下のような構成変更処理(b1)および(b2)を実行するものである。 In order to simplify the TD representation, according to the analysis result by the DTD analyzer 30 (elements table leaf), information on the leaf elements in the DTD, then removed from the DTD, the DTD as attributes of the parent element of the leaf elements It intended to redefine, and executes the following configuration change processing (b1) and (b2).

【0083】(b1)葉要素の要素型宣言をDTDから削除するとともに葉要素にかかる記述(内容モデルの記述)を親要素の要素型宣言から削除し、葉要素の要素型宣言にかかる情報(削除した部分にかかる情報)を、親要素の属性として親要素の属性リスト宣言で再定義する。 [0083] (b1) described it takes the element type declaration of the leaf elements in the leaves element is deleted from the DTD (the description of the content model) was removed from the element type declaration of the parent element, according to the element type declaration of the leaf element information ( such information) to the deleted portion, re-defined in the attribute list declaration of the parent element as an attribute of the parent element. このとき、葉要素の要素名および内容(データ型) In this case, the element name and the contents of the leaf elements (data type)
を、それぞれ親要素の属性名および属性値として宣言・ Declares the, as the attribute name and attribute value of each parent element,
再定義する。 Re-definition.

【0084】(b2)DTDで葉要素の属性が葉要素の属性リスト宣言により定義されている場合、葉要素の属性リスト宣言をDTDから削除し、葉要素の属性を、その葉要素の親要素の属性として親要素の属性リスト宣言で再定義する。 [0084] (b2) if the attribute of the leaf element in the DTD has been defined by the attribute list declaration of leaf elements, remove the attribute list declaration of leaf elements from the DTD, the attribute of the leaf element, the parent element of the leaf elements to redefine the attribute list declaration of the parent element as an attribute. このとき、葉要素についての属性名および属性値を、それぞれ親要素の属性名および属性値として宣言・再定義する。 In this case, the attribute names and values ​​for the leaf element, each declaring and re-defined as the attribute names and values ​​of the parent element.

【0085】このDTD構成変更部50による構成変更手順については、図9に示すフローチャートを参照しながら後述する。 [0085] The configuration change procedure according to this DTD configuration changing unit 50 will be described later with reference to the flowchart shown in FIG. また、本実施形態では、XML文書がパターンである場合、DTD構成変更部50による構成変更結果(圧縮後のDTD)を、文書実現値構成変更部40による構成変更結果(圧縮後の文書実現値)とともに文書記憶部10に出力・格納しているが、圧縮後の文書実現値とともに他の記録媒体等に出力・格納してもよい。 Further, in the present embodiment, if the XML document is the pattern, configuration change results of DTD configuration changing unit 50 (DTD after compression), the configuration change results of document instance configuration changing unit 40 (document instance after compression ), but is output to and stored in the document storage section 10 together, along with the document instance after compression may output to and stored in another recording medium or the like.

【0086】新規DTDファイル作成部60は、DTD [0086] new DTD file creation unit 60, DTD
が外部ファイル100に存在する場合(XML文書がパターンである場合)、DTD構成変更部50により変更処理されたDTDについてのファイル(新規DTDファイル)を作成して外部ファイル100へ出力するものである。 Is but (if an XML document is the pattern) if present in the external file 100, and outputs to an external file 100 to create a file (new DTD file) for the DTD that is changing by the DTD configuration changing unit 50 . 新旧DTD対応表出力部70は、DTDが外部ファイル100に存在する場合(XML文書がパターンである場合)、構成変更前のDTDと構成変更後の新規DTDとの対応関係を明記した新旧DTD対応表を作成して文書記憶部10へ出力するものである。 Old and new DTD correspondence table output unit 70 (if an XML document is pattern) DTD can exist in an external file 100, the old and new DTD corresponds with stated the correspondence between the new DTD after the configuration change and the previous configuration change DTD and outputs it to the document storage section 10 creates a table.

【0087】なお、第1実施形態の圧縮手法(要素から属性への変換)により圧縮されたXML文書は、XML [0087] Incidentally, XML documents are compressed by the compression method of the first embodiment (conversion of elements to attributes), XML
文書としての特徴を全く損なっておらず、圧縮状態のままで(伸長することなく)XML文書としての機能を果たすことができるので、圧縮されたXML文書の伸長について特に議論する必要はない。 Not impair at all the features of the document, it is possible to function as (without extension) XML documents remain in the compressed state, there is no particular need to discuss extension of compressed XML document. 従って、第1実施形態では、圧縮手法についてのみ説明する。 Thus, in the first embodiment, a description will be given only compression technique.

【0088】次に、図5〜図13を参照しながら、第1 [0088] Next, with reference to FIGS. 5 to 13, the first
実施形態の圧縮装置の動作について説明する。 The operation of the compressor of the embodiment will be described. まず、図5に示すフローチャート(ステップS11〜S29)に従って、第1実施形態における構造化文書(XML文書)の圧縮手順について説明する。 First, according to the flowchart (step S11~S29) shown in FIG. 5, a description is given of the procedure of compressing the structured document in the first embodiment (XML document). 第1実施形態の圧縮手法では、前述した通り要素から属性への変換を行なうことにより、葉の要素が消え、その葉の親要素が空要素になる。 The compression method of the first embodiment, by performing the conversion to attribute as elements described above, disappeared element leaves the parent element of the leaf is empty elements.

【0089】なお、第1実施形態の圧縮装置には、図1 [0089] Note that the compression apparatus of the first embodiment, FIG. 1
では図示省略しているが、文書記憶部10に保存されているXML文書がパターン〜(表2参照)のいずれのものであるからを認識するためのパターン認識機能がそなえられている。 In Although not shown, the pattern recognition function for recognizing from XML document is of any pattern - (see Table 2) stored in the document storage section 10 is provided. このパターン認識機能による処理は、図5に示すステップS12〜S14による処理に対応している。 Processing by the pattern recognition corresponds to the processing in step S12~S14 shown in FIG.

【0090】圧縮対象のXML文書が入力され文書記憶部10に格納されると(ステップS11)、そのXML [0090] When the XML document to be compressed are stored in the document storage section 10 is inputted (step S11), and the XML
文書に“<!DOCTYPE”が記述されているか否かを判定し(ステップS12)、記述されていない場合(ステップS12のNOルート)、そのXML文書はD Determines whether "<! DOCTYPE" is described in the document (step S12), the case that is not described (NO route of step S12), the XML document is D
TDをもたない整形式XML文書、つまりパターンのXML文書であると認識され、後述するごとくステップS15,S16およびS29が実行される。 Well-formed XML document without the TD, i.e. is recognized as an XML document of the pattern, steps S15, S16 and S29 are executed as described below.

【0091】XML文書に“<!DOCTYPE”が記述されている場合(ステップS12のYESルート)、 [0091] in the XML document when the "<! DOCTYPE" is described (YES route of step S12), the
その後に“[”が記述されているか否かを判定する(ステップS13)。 Then "[" determines whether it is written (step S13). “<!DOCTYPE”は記述されているが“[”が記述されていない場合(ステップS13 "<! DOCTYPE" If has been described that has not been written is "[" (step S13
のNOルート)、そのXML文書は、DTDを外部ファイル100として有する検証済みXML文書、つまりパターンのXML文書であると認識され、後述するごとくステップS21〜S29が実行される。 NO route), the XML document is validated XML document with DTD as an external file 100, i.e. is recognized as an XML document of the pattern, the step S21~S29 are executed as will be described later.

【0092】“[”が記述されている場合(ステップS [0092] If "the [" have been described (step S
13のYESルート)、“<!ELEMENT”(もしくは“<!ATTLIST”)が記述されているか否かを判定する(ステップS14)。 13 YES route), "<! ELEMENT" (or "<! ATTLIST") determines whether or not described (step S14). “<!DOCTYP "<! DOCTYP
E”および“[”は記述されているが“<!ELEMEN E "and" [ "it has been described, but" <! ELEMEN
T”が記述されていない場合(ステップS14のNOルート)、実体宣言を含むDTDを有する整形式XML文書、つまりパターンのXML文書であると認識され、 If T "is not described (NO route of step S14), and well-formed XML document with DTD containing entity declaration, that is recognized as an XML document of the pattern,
パターンの場合と同様、ステップS15,S16およびS29が実行される。 As with the pattern, steps S15, S16 and S29 are executed.

【0093】“<!DOCTYPE”,“[”および“< [0093] "<! DOCTYPE", "[" and "<
!ELEMENT”がいずれも記述されている場合(ステップS14のYESルート)、XML文書内にDTD ! If ELEMENT "is described neither (YES route in step S14), DTD in XML document
を有する検証済みXML文書、つまりパターンのXM Validated XML document with, in other words pattern XM of
L文書であると認識され、ステップS17〜S20およびS29が実行される。 Is recognized as L is a document, it steps S17~S20 and S29 are executed. 以下、各パターン〜に対する圧縮処理について、図10〜図13に示す具体例(第1例〜第4例)を参照しながら説明する。 Hereinafter, the compression processing for each pattern-is described with reference to specific examples (first to fourth examples) shown in FIGS. 10 to 13.

【0094】図10(A)および図10(B)はいずれも第1実施形態によるXML文書の具体的な圧縮処理(第1例)を説明するための図である。 [0094] FIG. 10 (A) and FIG. 10 (B) is a diagram for explaining a concrete compression processing of XML documents (first example) according to a first embodiment either. 図10(A)に示す圧縮前のXML文書は、前述したパターンのXM XML document before compression shown in FIG. 10 (A), the pattern as described earlier XM
L文書であり、1行目に、この文書がバージョン1.0 L is a document, in the first line, this document is version 1.0
のXML文書であることを示すXML宣言が記述され、 XML declaration that indicates that an XML document is described,
2〜5行目に、文書実現値が記述されている。 The 2-5 line, the document realization value is described. ここに記述された文書実現値は、要素「book」の開始タグ内において属性情報(field="本")が記述されていない点を除けば、図2(B)に示したXML文書の記述例と同一である。 Document instance described herein, except that the attribute information in the start tag of the element "book" (field = "present") has not been described, the description of the XML document shown in FIG. 2 (B) examples and are the same.

【0095】図10(A)に示すXML文書(パターン)には“<!DOCTYPE”が記述されていないので、処理はステップS12のNOルートからステップS [0095] Since the figure is 10 (A) XML document shown in (pattern) "<! DOCTYPE" is not described, the processing from the NO route of step S12 S
15へ移行し、文書実現値解析部20によって文書実現値が解析される。 Proceeds to 15, document instance is analyzed by document instance analyzer 20. これにより、文書実現値中において、 Thus, in a document instance,
葉となる要素がどこに記述されているかが検出され、その葉要素の要素名と、親要素の要素名との対応関係が、 Whether a leaf element is where is described is detected, and the element name of the leaf elements, the corresponding relationship between the element name of the parent element,
葉の要素一覧表として登録・出力される。 It is registered and output as an element list of the leaves. 図10(A) Fig. 10 (A)
に示すXML文書の場合、図2(D)と同様の葉の要素一覧表が得られる。 For XML document shown in element list of similar leaves and FIG 2 (D) is obtained.

【0096】そして、ステップS15で得られた、葉の要素一覧表(解析結果)に従って、文書実現値構成変更部40により、葉の要素についての要素名および内容が、それぞれ、親要素の属性名および属性値に移動・変更されるとともに、親要素の開始タグが空要素タグに変更される(ステップS16)。 [0096] Then, obtained in step S15, in accordance with element list leaf (analysis result), the document instance configuration changing unit 40, the element names and contents of the elements in the leaves, respectively, the attribute name of the parent element and while being moved and changed to the attribute values, the start tag of the parent element is changed to the empty element tag (step S16). このとき、葉の要素「au In this case, the elements of the leaf "au
thor」に付随した属性「year」は、親要素「book」の属性に代わる。 thor attribute "year" was associated with "is, alternative to the attributes of the parent element" book ".

【0097】ステップS15およびS16によって、例えば図10(A)に示すXML文書は、図10(B)に示すようなXML文書に変更・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS29)。 [0097] by steps S15 and S16, the XML document shown in FIG. 10 (A) for example, the output after being changed and compressing the XML document shown in FIG. 10 (B), the document storage section 10 such as a compressed document · is stored (step S29). 図10(B)に示すXML文書において、 In the XML document shown in FIG. 10 (B),
1行目のXML宣言の記述は圧縮前と変わらないが、2 The description of the first line of the XML declaration is not the same as before compression, but 2
行目には、図10(A)における2〜5行目の記述が集約されて記述されている。 Th row, the 2-5 line of description in FIG. 10 (A) is described are aggregated. つまり、図10(B)に示すXML文書では、図3(B)に示した例と同様、2つの子要素「title」および「author」にかかる全ての情報が、親要素「book」の開始タグ(空要素タグ)において、親要素「book」の属性として記述される。 That is, in the XML document shown in FIG. 10 (B), as in the example shown in FIG. 3 (B), all the information relating to two child elements "title" and "author" is, the start of the parent element "book" in the tag (empty element tag), it is described as an attribute of the parent element "book".

【0098】図11(A)および図11(B)はいずれも第1実施形態によるXML文書の具体的な圧縮処理(第2例)を説明するための図である。 [0098] FIG. 11 (A) and FIG. 11 (B) is a diagram for explaining a concrete compression processing of XML document (second example) according to a first embodiment either. 図11(A)に示す圧縮前のXML文書は、前述したパターンのXM XML document before compression shown in FIG. 11 (A), the pattern as described earlier XM
L文書であり、1行目に、この文書がバージョン1.0 L is a document, in the first line, this document is version 1.0
のXML文書であることを示すXML宣言が記述され、 XML declaration that indicates that an XML document is described,
2〜4行目に、置換文字列定義(実体宣言)を含むDT DT, including the 2-4 line, the replacement string definitions (entity declaration)
Dが記述され、5〜8行目に文書実現値が記述されている。 D is described, document instance is described in 5-8 line.

【0099】2〜4行目のDTDでは、文書型宣言に含まれる実体宣言(3行目)により、文書実現値(XML [0099] In 2-4 line DTD, the entity declarations in the document type declaration (line 3), document instance (XML
インスタンス)内で用いられる置換文字列「XML」の実体が「Extensible Markup Language」であることが定義されている。 It has been defined that entities replacement string "XML" used in the instance) is "Extensible Markup Language". また、5〜8行目に記述された文書実現値は、図10(A)に示したXML文書の2〜5行目の記述例とほぼ同一であるが、図11(A)に示す例では、6行目の要素「title」の内容として、「XML Also, the document instance described in 5-8 line is substantially the same as the 2-5 line description example of an XML document shown in FIG. 10 (A), the example shown in FIG. 11 (A) in, as the content of the sixth line element "title", "XML
(&XML;の略称)入門」が記述されている。 (& XML; abbreviation of) Getting Started "is described.

【0100】ここで、「&XML;」は、置換文字列「XML」の実体を参照することを指示する記述であり、実際に表示・印刷等によって出力される文書中では、「Extensible Markup Language」と表記されることになる。 [0100] Here, "& XML;" is a description for instructing to refer to the entity of the replacement string "XML", In fact, in the document output by the display or printing, "Extensible Markup Language" It will be referred to as. 図11(A)に示すXML文書(パターン) XML document shown in FIG. 11 (A) (pattern)
には、“<!DOCTYPE”および“[”がいずれも記述されているが、“<!ELEMENT”や“<!ATT The, "<! DOCTYPE" and "[" Although both have been described, "<! ELEMENT" Ya "<! ATT
LIST”が記述されていないので、処理はステップS Since LIST "is not described, the processing step S
14のNOルートからステップS15へ移行し、前述したパターンのXML文書と同様の処理が実行される。 Transition from 14 NO route to step S15, processing similar to the XML document of the pattern described above is performed.
このとき、文書実現値の内容中における実体参照の記述〔図11(A)では“&XML;”〕は、そのまま、親要素の属性値として取り扱われる。 In this case, description of the entity reference in the content of the document instance [11 In (A) "& XML;"] is directly is treated as an attribute value of the parent element.

【0101】これにより、例えば図11(A)に示すX [0102] Thus, for example, X shown in FIG. 11 (A)
ML文書は、図11(B)に示すようなXML文書に変更・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS29)。 ML document from being changed and compressing the XML document shown in FIG. 11 (B), it is output and stored to the document storage section 10 such as a compressed document (step S29). 図11(B) Figure 11 (B)
に示すXML文書において、1〜4行目の記述は圧縮前と変わらないが、5行目には、図11(A)における5 In the XML document shown in, but 1-4 line description is not the same as before compression, the fifth line, 5 in FIG. 11 (A)
〜8行目の記述が集約されて記述されている。 8 line of the description is described are aggregated. つまり、 That is,
図11(B)に示すXML文書でも、図10(B)に示した例と同様、2つの子要素「title」および「autho Even XML document shown in FIG. 11 (B), like in the example shown in FIG. 10 (B), 2 child element "title" and "autho
r」にかかる全ての情報が、親要素「book」の開始タグ(空要素タグ)において、親要素「book」の属性として記述される。 All of the information related to r "is, at the start tag of the parent element" book "(empty element tag), is described as an attribute of the parent element" book ". ただし、図11(B)では、属性名「titl However, in FIG. 11 (B), the attribute name "titl
e」に対する属性値として、「XML(&XML;の略称)入門」がそのまま記述される。 As an attribute value for the e "," XML (& XML; abbreviation of) Getting Started "is described as it is.

【0102】ところで、パターンのXML文書〔例えば図22(A)参照〕は、前述した通り、外部ファイルを文書実現値(XMLインスタンス)の内容中で引用するために実体参照を用いるものである。 [0102] Incidentally, the XML document of the pattern [for example, see FIG. 22 (A)], is to use entity references to cited in the contents of as described above, document instance an external file (XML instance). 第1実施形態では、文書実現値の内容を親要素の属性値として取り扱っているが、XML文書の仕様上、外部に対する実体参照を属性値で用いることはできないため、パターンのX In the first embodiment, but deals with the content of the document instance as an attribute value of the parent element, the specification of the XML documents, it is not possible to use the entity reference to external attribute values, the pattern X
ML文書に、第1実施形態の圧縮手法は適用されない。 The ML document, the compression technique of the first embodiment is not applied.

【0103】図12(A)および図12(B)はいずれも第1実施形態によるXML文書の具体的な圧縮処理(第3例)を説明するための図である。 [0103] Figure 12 (A) and FIG. 12 (B) is a diagram for explaining a concrete compression processing of XML document (third example) according to a first embodiment either. 図12(A)に示す圧縮前のXML文書は、前述したパターンのXM XML document before compression shown in FIG. 12 (A), the pattern as described earlier XM
L文書であり、1行目に、この文書がバージョン1.0 L is a document, in the first line, this document is version 1.0
のXML文書であることを示すXML宣言が記述され、 XML declaration that indicates that an XML document is described,
2〜8行目にDTDが記述され、9〜12行目に文書実現値が記述されている。 DTD is written in 2-8 line, document instance is described in 9th to 12th rows. ここで、2〜8行目に記述されたDTDは、図4(A)に示したDTDと同一であり、 Here, the DTD described in 2-8 line is identical to the DTD shown in FIG. 4 (A),
9〜12行目に記述された文書実現値は、図2(B)に示した文書実現値の記述例と同一であるので、その説明は省略する。 9-12 line document instance described in are the same as the example of the description of document instance shown in FIG. 2 (B), a description thereof will be omitted.

【0104】図12(A)に示すXML文書(パターン)には、“<!DOCTYPE”および“[”が記述されるとともに“<!ELEMENT”または“<!ATT [0104] FIG. 12 (A) to indicate XML document (pattern), "<! DOCTYPE" and "[" together is described "<! ELEMENT" or "<! ATT
LIST”も記述されているので、処理はステップS1 Since LIST "is also described, the process steps S1
4のYESルートからステップS17へ移行し、文書実現値解析部20によって文書実現値が解析されるとともに、DTD解析部30によってDTDが解析される(ステップS18)。 Transition from 4 YES route to step S17, in conjunction with document instance is analyzed by document instance analyzer 20, DTD is analyzed by the DTD analyzer 30 (step S18). これにより、文書実現値中やDTD中において、葉となる要素がどこに記述されているかが検出され、その葉要素の要素名と、親要素の要素名との対応関係が、葉の要素一覧表として登録・出力される。 As a result, in the document instance in or DTD in, or a leaf element is where is described is detected, and the element name of the leaf elements, the corresponding relationship between the element name of the parent element, the element list of leaf It is registered and output as. 図12(A)に示すXML文書の場合も、図2(D)と同様の葉の要素一覧表が得られる。 In the case of XML document shown in FIG. 12 (A), component list of similar leaves and FIG 2 (D) is obtained.

【0105】そして、ステップS17で得られた、葉の要素一覧表(解析結果)に従って、文書実現値構成変更部40により、葉の要素についての要素名および内容が、それぞれ、親要素の属性名および属性値に移動・変更されるとともに、親要素の開始タグが空要素タグに変更される(ステップS19)。 [0105] Then, obtained in step S17, in accordance with element list leaf (analysis result), the document instance configuration changing unit 40, the element names and contents of the elements in the leaves, respectively, the attribute name of the parent element and while being moved and changed to the attribute values, the start tag of the parent element is changed to the empty element tag (step S19). このとき、葉の要素「au In this case, the elements of the leaf "au
thor」に付随した属性「year」は、親要素「book」の属性に代わる。 thor attribute "year" was associated with "is, alternative to the attributes of the parent element" book ".

【0106】また、図12(A)に示すXML文書はパターン(即ち、その内部にDTDを記述された、検証済みXML文書)であるので、文書実現値構成変更部4 [0106] Further, FIG. 12 XML document shown in (A) the pattern (i.e., written to DTD therein, validated XML documents) because it is, document instance configuration changing unit 4
0による文書実現値の構成変更に合わせて、DTDの構成を、DTD構成変更部50により以下のように変更する(ステップS20)。 0 according to the configuration change of a document instance by, the structure of the DTD, modified as follows by DTD configuration change unit 50 (step S20).

【0107】つまり、構成変更後の文書実現値において、親要素「book」は子要素「title」および「autho [0107] In other words, in the document realization value of after the configuration change, the parent element "book" is a child element "title" and "autho
r」をもたなくなるので、親要素「book」についての要素型宣言内で子要素を宣言していた内容モデル(title, Because will not have a r ", the contents had been declared child elements within the element type declaration for the parent element" book "model (title,
author)は削除される。 author) is deleted. また、構成変更後の文書実現値において、葉の要素「title」および「author」は削除され親要素「book」の属性に変更されるとともに要素「author」の属性「year」も親要素「book」の属性に変更されるので、要素「title」および「author」の要素型宣言や要素「author」の属性リスト宣言も削除される。 Further, the document instance after the configuration change, leaf element "title" and "author" attribute "year" of the element "author" with the change in the attribute of the parent element is deleted "book" is also the parent element "book since the changes to the attributes of the "attribute-list declaration of the element" title "and" element type declarations and elements of the author "," author "is also deleted. 一方、親要素「book」は、新たに「title」,「aut On the other hand, the parent element "book" is a new "title", "aut
hor」および「year」を属性としてもつことになるため、親要素「book」の属性リスト宣言で、新たな属性の属性名および属性値を列挙する。 hor "and order will have a" year "as an attribute, it is listed in the attribute list declaration of the parent element" book ", the attribute names and values ​​of the new attribute.

【0108】上述したステップS17〜S20によって、図12(A)に示すXML文書は、図12(B)に示すようなXML文書に変更・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS29)。 [0108] by the steps S17~S20 described above, XML documents shown in FIG. 12 (A), after being changed and compressing the XML document shown in FIG. 12 (B), the document storage section 10 such as a compressed document outputted and stored (step S29). 図12(B)に示すXML文書において、 In the XML document shown in FIG. 12 (B),
1行目および2行目の記述は圧縮前と変わらないが、3 The first and second rows of the description is not the same as before compression, but 3
行目の要素「book」の要素型宣言からは内容モデルの記述が削除されている。 Description of the content model has been removed from the element type declaration of the row of the element "book". また、4〜7行目の記述は、図1 In addition, the 4-7 line of the description, as shown in FIG. 1
2(A)における4〜7行目の記述を、要素「book」の属性リスト宣言内にまとめたものとなっている。 2 4-7 line of the description in the (A), and has a summarizes the attribute list in the declaration of the element "book".

【0109】さらに、図3(B)に示した例と同様、9 [0109] Further, similarly to the example shown in FIG. 3 (B), 9
行目には、図12(A)における9〜12行目の記述が集約されて記述されている。 Th row, the 9th to 12th rows of the description are described are aggregated in FIG 12 (A). つまり、図12(B)に示すXML文書でも、図3(B)に示した例と同様、2つの子要素(葉要素)「title」および「author」にかかる全ての情報が、親要素「book」の開始タグ(空要素タグ)において、親要素「book」の属性として記述される。 That is, the XML document shown in FIG. 12 (B), as in the example shown in FIG. 3 (B), all the information relating to two child elements (leaf element) "title" and "author" is the parent element " in the book "of the start tag (empty element tag), it is described as an attribute of the parent element" book ".

【0110】図13(A)〜図13(D)はいずれも第1実施形態によるXML文書の具体的な圧縮処理(第4 [0110] Figure 13 (A) ~ FIG 13 (D) Specific compression of XML documents according to a first embodiment either (Fourth
例)を説明するための図である。 Example) is a diagram for explaining the. 図13(A)に示す圧縮前のXML文書は、前述したパターンのXML文書であり、1行目に、この文書がバージョン1.0のXM XML document before compression shown in FIG. 13 (A) is an XML document of the pattern described above, the first line, XM this document is version 1.0
L文書であることを示すXML宣言が記述され、2行目に、外部ファイル100のDTDを指定するための情報(システム識別子)を含むDTDが記述され、3〜6行目に文書実現値が記述されている。 XML declaration that indicates that L is a document is described, the second line, is described a DTD that includes information for specifying the DTD for the external file 100 (system ID), the document instance 3-6 line It has been described. ここで、3〜6行目に記述された文書実現値は、図2(B)に示した文書実現値の記述例と同一であるので、その説明は省略する。 Here, the document instance described in 3-6 line, is identical to the description example of document instance shown in FIG. 2 (B), a description thereof will be omitted.

【0111】2行目のDTDの文書型宣言では、システム識別子“SYSTEM”により、外部ファイル100 [0111] In the document type declaration of the second line of the DTD, by the system identifier "SYSTEM", an external file 100
に保持されたDTD(ファイル名「..\book.dtd」)を用いることが宣言・定義されている。 Has been declared, definition is possible to use a DTD, which is held in (file name ".. \ book.dtd"). そして、ファイル名「..\book.dtd」のDTDは、図13(A)における文書実現値の構成に対応して、図13(B)に示すように記述されている。 Then, DTD file name ".. \ book.dtd", corresponding to the configuration of the document instance in FIG. 13 (A), the are described as shown in FIG. 13 (B). この図13(B)に示すDTD(1 DTD shown in FIG. 13 (B) (1
〜5行目)は、図4(A)に示したDTDにおける2〜 5 line) is 2 in the DTD shown in FIG. 4 (A)
6行目の記述例と同一であるので、その説明は省略する。 It is identical to the description example of line 6, and a description thereof will be omitted.

【0112】図13(A)に示すXML文書(パターン)には、“<!DOCTYPE”は記述されているが、その後には“[”が記述されることなく、外部ファイル100におけるDTDを指定するシステム識別子が記述されているので、処理はステップS13のNOルートからステップS21へ移行し、文書実現値解析部20 [0112] The XML document (pattern) shown in FIG. 13 (A), "<! DOCTYPE" is being written, then the "[" is without being described, specifies the DTD in the external file 100 because the system identifier is written, the process proceeds from NO route of step S13 to step S21, document instance analyzer 20
によって文書実現値が解析されるとともに、DTD解析部30によって、システム識別子に従って外部ファイル100から読み込まれたDTD(ファイル名「..\book. Together with the document realization value is analyzed by, by DTD analysis section 30, DTD (file name that is read from an external file 100 in accordance with the system identifier ".. \ book.
dtd」)が解析される(ステップS22)。 dtd ") is analyzed (step S22). これにより、文書実現値中やDTD中において、葉となる要素がどこに記述されているかが検出され、その葉の要素名と、親要素の要素名との対応関係が、葉の要素一覧表として登録・出力される。 Thus, the document instance in or DTD in either a leaf element where is described is detected, the element name of the leaves, correspondence between the element name of the parent element, as an element table leaf It is registered and output. 図13(A)や図13(B)に示すXML文書の場合も、図2(D)と同様の葉の要素一覧表が得られる。 For XML documents shown in FIG. 13 (A) and FIG. 13 (B) also, the element table of the same leaf as in FIG 2 (D) is obtained.

【0113】このとき、図13(B)に示すDTDを変更・圧縮して得られる新規のDTDのために、元のファイル名とは異なる新規のファイル名(例えば「..\book [0113] In this case, because of the new DTD obtained by change and compressing the DTD shown in FIG. 13 (B), a new file name that is different from the original file name (for example ".. \ book
2.dtd」)を設定して文書実現値に記入することにより、文書実現値における文書型宣言のシステム識別子“SYSTEM”により指定されるファイル名を、旧ファイル名「..\book.dtd」から、新規ファイル名「..\bo By fill in the document realization value by setting the 2.dtd "), the name of the file that is specified by the system identifier" SYSTEM "of the document type declaration in the document instance, the old file name" .. \ book.dtd " from, the new file name ".. \ bo
ok2.dtd」に書き換える。 Rewritten to ok2.dtd ".

【0114】この後、ステップS21で得られた、葉の要素一覧表(解析結果)に従って、文書実現値構成変更部40により、葉の要素についての要素名および内容が、それぞれ、親要素の属性名および属性値に移動・変更されるとともに、親要素の開始タグが空要素タグに変更される(ステップS24)。 [0114] Thereafter, obtained in step S21, in accordance with element list leaf (analysis result), the document instance configuration changing unit 40, the element names and contents of the elements in leaves, respectively, the attribute of the parent element while being moved or changed the name and attribute value, the start tag of the parent element is changed to the empty element tag (step S24). このとき、葉の要素「au In this case, the elements of the leaf "au
thor」に付随した属性「year」は、親要素「book」の属性に代わる。 thor attribute "year" was associated with "is, alternative to the attributes of the parent element" book ".

【0115】これにより、図13(A)に示すXML文書は、図13(C)に示すようなXML文書に変更・圧縮される。 [0115] Accordingly, the XML document shown in FIG. 13 (A) is changed and compressing the XML document shown in FIG. 13 (C). 図13(C)に示すXML文書において、1 In the XML document shown in FIG. 13 (C), 1
行目の記述は圧縮前と変わらないが、2行目のシステム識別子“SYSTEM”により指定されるファイル名が新規ファイル名「..\book2.dtd」となり、3行目には、 Although row of the description is not the same as before compression, the new file name file name that is specified by the second line of the system identifier "SYSTEM" ".. \ book2.dtd" and, in the third row,
図13(A)における3〜6行目の記述が集約されて記述されている。 3-6 line description is described are aggregated in FIG 13 (A). つまり、図13(C)に示すXML文書でも、図3(B)に示した例と同様、2つの子要素(葉要素)「title」および「author」にかかる全ての情報が、親要素「book」の開始タグ(空要素タグ)において、親要素「book」の属性として記述される。 That is, the XML document shown in FIG. 13 (C), similar to the example shown in FIG. 3 (B), all the information relating to two child elements (leaf element) "title" and "author" is the parent element " in the book "of the start tag (empty element tag), it is described as an attribute of the parent element" book ".

【0116】この後、新規DTDファイル作成部60により、新規のDTDファイルを作成し、そのDTDファイルに、外部ファイル100から読み込んだ圧縮前のD [0116] After this, the new DTD file creation section 60, to create a new DTD file, in the DTD file, D before compression read from an external file 100
TDファイルの内容を複写してから(ステップS2 From then copy the contents of the TD file (step S2
5)、文書実現値構成変更部40による文書実現値の構成変更に合わせ、新規ファイルにおけるDTDの構成を、DTD構成変更部50により、前述したステップS 5), according to the configuration change of a document instance by document instance configuration changing unit 40, the DTD of the structure in the new file, the DTD configuration changing unit 50, step S described above
20と同様にして変更する(ステップS26)。 Change in the same manner as 20 (step S26).

【0117】これにより、図13(B)に示すDTD [0117] Thus, DTD shown in FIG. 13 (B)
は、図13(D)に示すようなDTDに変更・圧縮される。 It is changed and compressing the DTD shown in FIG. 13 (D). 図13(D)に示すDTDにおいて、1行目の要素「book」の要素型宣言からは内容モデルの記述が削除されている。 In DTD illustrated in FIG. 13 (D), the description of the content model is removed from the element type declaration of the first row of the element "book". また、2〜5行目の記述は、図13(B)における2〜5行目の記述を、要素「book」の属性リスト宣言内にまとめたものとなっている。 Also, 2-5 line description, the 2-5 line of description in FIG. 13 (B), has become a collection attribute list declaration of the element "book".

【0118】そして、DTD構成変更部50で変更・圧縮されたDTDのファイル(新規DTDファイル)は、 [0118] and, DTD files that have been changed or compression in the DTD configuration changing section 50 (new DTD file),
新規のファイル名「..\book2.dtd」を付与されて、新規DTDファイル作成部60から外部ファイル100へ出力・格納される(ステップS27)。 New file name ".. \ book2.dtd" have been granted, it is output and stored from the new DTD file creation section 60 to an external file 100 (step S27).

【0119】また、新旧DTD対応表出力部70によって、旧DTDと新規DTDとの対応関係(具体的には旧ファイル名と新規ファイル名との対応関係)を明記した新旧DTD対応表が作成されて文書記憶部10等へ出力・格納されるとともに(ステップS28)、ステップS [0119] In addition, by new and old DTD correspondence table output unit 70, new and old DTD corresponding table is created as specified (the association between the old file name and the new file name specifically) association between the old DTD and the new DTD It is outputted and stored to the document storage section 10 such as Te (step S28), step S
24において変更・圧縮されたXML文書は、圧縮文書として文書記憶部10等へ出力・格納される(ステップS29)。 XML documents modified-compressed at 24 is output and stored to the document storage section 10 such as a compressed document (step S29). その際、新旧DTD対応表は、独立したファイルではなく、圧縮文書に注釈の形で付加してもよい。 At that time, the old and new DTD correspondence table is not a separate file, may be added in the form of an annotation to the compressed document.

【0120】なお、第1実施形態では、圧縮したXML [0120] In the first embodiment, compressed XML
文書を元の状態に復元(伸長)する必要はないので、必ずしも、元のDTDの保存や新旧DTD対応表の作成を実行しなくてもよい。 Since there is no need to restore (extension) of the document to the original state, not necessarily have to perform the creation of the storage and the old and new DTD correspondence table of the original DTD. つまり、第1実施形態では、新規DTDファイル作成部60やこの新規DTDファイル作成部60によるステップS25,S27の処理、並びに、新旧DTD対応表出力部70やこの新旧DTD対応表出力部70によるステップS28の処理を省略することも可能である。 That is, in the first embodiment, step by new DTD file creation unit 60 or the processing in step S25, S27 according to the new DTD file creation unit 60, as well as old and new DTD correspondence table output section 70 and the new and old DTD correspondence table output unit 70 it is also possible to omit the processing of S28.

【0121】ただし、元のDTDや新旧DTD対応表は、第2実施形態で後述するごとく圧縮されたXML文書を復元(伸長)する際に必要になるものである。 [0121] However, the original DTD and old DTD correspondence table are those that are required when restoring the compressed XML document as described later in the second embodiment (extension). 第1 First
実施形態の圧縮装置は、上述のような、元のDTDの保存機能や新旧DTD対応表の作成機能をそなえるとともに、図6を参照しながら後述するタグ辞書作成機能をそなえ、後述する第2実施形態の圧縮手法を実現することもできるように構成されている。 The compression apparatus of the embodiment, as described above, provided with a storage function and the ability to create new and old DTD correspondence table of the original DTD, includes a tag dictionary creation function to be described later with reference to FIG. 6, a second embodiment to be described later It is also configured to allow to realize the compression technique forms.

【0122】さて、次に、図6〜図9を参照しながら、 [0122] Now, then, with reference to FIGS. 6 to 9,
第1実施形態の圧縮装置を構成する各部20,30,4 Each unit constituting the compression apparatus of the first embodiment 20,30,4
0および50の動作について説明する。 A description will be given of the operation of the 0 and 50. まず、図6に示すフローチャート(ステップS31〜S43)に従って、第1実施形態の文書実現値解析部20による解析手順について説明すると、文書実現値解析部20は、圧縮対象の文書実現値を最後まで走査したか否かを判断しながら(ステップS31)、文書実現値を走査し(ステップS32)、文書実現値の記述を先頭から順次認識し、 First, according to the flowchart (step S31~S43) shown in FIG. 6, to describe the analysis procedure by document instance analyzer 20 of the first embodiment, the document instance analyzer 20, to the end of the document instance to be compressed while determining whether the scanning (step S31), and scans the document instance (step S32), sequentially recognizing from the beginning a description of the document instance,
“<”が記述されているか否かを調べていく(ステップS33)。 "<" Is to find out whether it is written (step S33). なお、“<”は、XMLの仕様上、文書実現値の内容には記述されない。 It should be noted that, "<" is, on the XML specification, the contents of the document instance not be described.

【0123】文書実現値の記述として“<”が検出された場合(ステップS33のYESルート)、“<”に続く1バイトの記述に基づいて、この“<”で始まるタグが開始タグか終了タグかを判定する(ステップS3 [0123] As described in the document instance "<" If is detected (YES route of step S33), "<" on the basis of a 1-byte description that follows, the "<" or terminated tag start tag starting with determines whether the tag (step S3
4)。 4). その判定は、“<”に続く記述が“/”であるか否かによって行なわれる。 The determination is "<" followed description is made on whether or not a "/". 即ち、“<”に続く記述が“/”である場合、そのタグは終了タグであると判定され、“<”に続く記述が“/”ではない場合、そのタグは開始タグであると判定される。 That is, when a "<" followed description "/", the tag is determined to be an end tag "<" if the subsequent description "/" not, and the tag is a start tag determination It is.

【0124】開始タグの場合(ステップS34のYES [0124] In the case of the start tag (YES in step S34
ルート)、その開始タグ内に記述されている要素名や属性名を検出し、それぞれ、要素名一覧表および属性名一覧表に登録する(ステップS35,S36)。 Route), detects the element name and attribute name described in the start tag, respectively, and registers the element name table and attribute names list (step S35, S36). その際、 that time,
要素名や属性名の出現頻度も集計する。 The frequency of appearance of element and attribute names are also aggregated. この出現頻度は、第2実施形態で必要となるタグ辞書を作成する際に利用されるものである。 This frequency is intended to be utilized in creating a tag dictionary required in the second embodiment. なお、開始タグ内には、属性名が記述されていない場合があるが、その場合、属性名は検出されないので、ステップS36の処理は省略される。 Incidentally, in the start tag, there is a case where the attribute name is not described, in which case, the attribute name is not detected, the process of step S36 is omitted. 一覧表への登録を終了した後は、ステップS31へ戻る。 After completion of the registration to the list, the process returns to step S31.

【0125】一方、終了タグの場合(ステップS34のNOルート)、その終了タグ内に記述されている要素名を検出し(ステップS37)、その要素名が、要素名一覧表において最後に登録された要素名と一致するか否かを判定する(ステップS38)。 [0125] On the other hand, if the end tag (NO route of step S34), detects the element name described in the end tag (step S37), its element name, last registered in the element name table element name to determine whether they match or not (step S38). このとき、その終了タグで括られた要素(以下、注目要素と呼ぶ)の文書実現値の内容に、子要素の記述が存在する場合、終了タグ内の要素名と要素名一覧表の最後の要素名とは一致しない。 In this case, the end tag in the enclosed elements (hereinafter referred to as the element of interest) to the contents of the document realization value of, if there is a description of the child element, the last of the element name and the element name list in the end tag It does not coincide with the element name. また、注目要素の文書実現値の内容に子要素の記述が存在しない場合、即ち、注目要素が葉の要素である場合、終了タグ内の要素名と要素名一覧表の最後の要素名とは一致する。 In addition, if the description of the contents of the child element of the document realization value of the target element does not exist, that is, when the target element is an element of the leaf, and the last element name of the element name and the element name list in the end tag match.

【0126】従って、ステップS38で要素名が一致しないと判定された場合(NOルート)、注目要素は子要素を有するものであって葉の要素ではなく、そのままステップS31へ戻る。 [0126] Therefore, if the element name is determined not to match in step S38 (NO route), the element of interest is not an element of the leaf be one having a child element, it returns to step S31. これに対し、ステップS38で要素名が一致すると判定された場合(YESルート)、注目要素は子要素を有しない葉の要素であると判断することができ、続いて、その注目要素の内容中に外部ファイルに対する実体参照が記述されているか否かを判定する(ステップS39)。 In contrast, if the element name is determined to match in step S38 (YES route), the element of interest can be determined that the element of the leaf having no child elements, subsequently, in the content of the element of interest It determines whether entity references to external files is described in (step S39).

【0127】葉要素の内容は、第1実施形態の圧縮変換により親要素の属性として取り扱われることになるが、 [0127] The contents of the leaf elements, but will be handled as an attribute of the parent element by compression conversion in the first embodiment,
前述した通り、XMLの仕様上、外部ファイルに対する実体参照を属性値において用いることができない。 As described above, it can not be used on the XML specification, the attribute value entity references to external files. そこで、ステップS39で実体参照が記述されていると判定された場合(YESルート)、そのままステップS31 Therefore, if the entity reference in the step S39 is determined to have been described (YES route), as Step S31
へ戻る。 To return. つまり、外部ファイルに対する実体参照をもつ葉の要素は、「葉の要素一覧表」には登録されない。 In other words, the elements of the leaf with the entity references to external files is not registered in the "element list of the leaf".

【0128】一方、ステップS39で注目要素の内容に実体参照が記述されていないことが確認された場合(N [0128] On the other hand, if that entity reference to the content of the element of interest is not described has been confirmed in the step S39 (N
Oルート)には、「葉の要素一覧表」に、注目要素の要素名が葉の要素名として登録・追加されるとともに、その葉の親の要素名も登録・追加される(ステップS4 To O route), the "element list of the leaf", along with the element name of the element of interest is registered or added as an element name of the leaf, the element name of the parent of the leaf are also registered and added (step S4
0)。 0). この後、ステップS31に戻る。 After this, the flow returns to step S31.

【0129】そして、ステップS31において圧縮対象の文書実現値を最後まで走査したと判定された場合(Y [0129] Then, if it is determined that the scanned document instance to be compressed to the end in step S31 (Y
ESルート)、文書実現値の走査中に出現した要素名および属性名の出現頻度に基づいて、出現頻度の高い要素名や属性名を、より短い文字列(例えば1バイト;短縮文字列)に対応させるタグ辞書(図14の符号90参照)を作成・出力するとともに(ステップS41,S4 ES route), based on the appearance frequency of occurrence elements and attribute names in scanning the document instance, a high frequency of appearance element and attribute names, shorter strings (e.g. 1 byte; to shorten strings) tag dictionary to associate (reference numeral 90 in FIG. 14) creates and outputs to with a (step S41, S4
2)、最終的に得られた「葉の要素一覧表」〔例えば図2(D)参照〕を出力して(ステップS43)、処理を終了する。 2), the finally obtained "element list of leaf" [e.g. FIG 2 (D) refer to Fig outputs a (step S43), and ends the process.

【0130】なお、第1実施形態では、文書実現値解析部20によりタグ辞書を作成しているが、このタグ辞書は、第1実施形態の圧縮手法を実行する際には用いられず、後述する第2実施形態において用いられるものである。 [0130] In the first embodiment, but has created a tag dictionary by document instance analyzer 20, the tag dictionary, not used in performing the compression method of the first embodiment, described later and it is used in the second embodiment to be. 従って、第1実施形態では、ステップS41およびS42を省略してもよい。 Thus, in the first embodiment, it may be omitted steps S41 and S42. また、第2実施形態では、ステップS41およびS42の処理は、文書実現値解析部20ではなく、タグ辞書作成部80(図14参照)により実行されるものとして説明される。 In the second embodiment, the processing of steps S41 and S42 are not the document instance analyzer 20 is described as being performed by the tag dictionary creating unit 80 (see FIG. 14).

【0131】次に、図7に示すフローチャート(ステップS51〜S58)に従って、第1実施形態のDTD解析部30による解析手順について説明すると、DTD解析部30は、構成変更対象のDTDを最後まで走査したか否かを判断しながら(ステップS51)、DTDを走査し(ステップS52)、DTDの記述を先頭から順次認識し、“<!ELEMENT”が記述されているか否かを調べていく(ステップS53)。 [0131] Next, according to the flowchart (steps S51 to S58) shown in FIG. 7, when the analysis procedure will be described by DTD analyzer 30 of the first embodiment, DTD analyzing unit 30 scans the DTD configuration change target to the end while it is determined whether or not the (step S51), scans the DTD (step S52), sequentially recognized from the beginning the DTD description, "<! ELEMENT" is to find out whether or not it is described (step S53).

【0132】例えば図4(A)の2行目に示すごとく、 [0132] For example as shown in the second line of FIG. 4 (A),
要素型宣言では、“!<ELEMENT”の後に要素名および内容モデル(子要素の要素名)が記述される。 In the element type declaration, "! <ELEMENT" (element name of the child element) element name and content model after is described. 内容モデル内において、“#PCDATA”のような予約語のみが記述され、独自の子の要素名が登録されていない場合、その要素型宣言は、葉の要素を対象としたものということになる。 In the content model, only a reserved word, such as "# PCDATA" is described, if the element name of your own child is not registered, the element type declaration, it comes to those that target the elements of the leaf .

【0133】そこで、ステップS53でDTDの記述として“!<ELEMENT”が検出された場合(YES [0133] Therefore, as the DTD described in step S53 "! <ELEMENT" If you have been detected (YES
ルート)、“!<ELEMENT”に続く要素文字列(要素名)を検出してから(ステップS54)、さらにその後に続いて記述される内容モデルの記述を調査し(ステップS55)、内容モデル内に子の要素名が記述されているか否かを判定する(ステップS56)。 Route), from the detection of the "! <ELEMENT" element string following the (element name) (step S54), to investigate the description of the content model that is further then followed by a description (step S55), the content model It determines whether the element name of the child is described (step S56).

【0134】内容モデル内に要素名が記述されていない場合(ステップS56のNOルート)、今注目している要素型宣言は、葉の要素にかかるものであると判断され、その要素型宣言内の要素名(ステップS54で検出したもの)を、親の要素名とともに「葉の要素一覧表」 [0134] If the element name in the content model is not described (NO route of step S56), the element type declaration of interest now, is determined that relates to the element of the leaf, in the element type declaration of the element name (which was detected in step S54) and, along with the element name of the parent "element list of the leaf"
に登録してから(ステップS57)、ステップS51に戻る。 From the registration (step S57), the flow returns to step S51.

【0135】ステップS53でDTDの記述として“! [0135] as a DTD description at step S53 "!
<ELEMENT”が検出されなかった場合(NOルート)や、ステップS56で内容モデル内に子の要素名が記述されていると判定された場合(YESルート)には、「葉の要素一覧表」への登録処理を行なうことなく、ステップS51に戻る。 <If the ELEMENT "has not been detected or (NO route), in a case where the element name of a child is determined to be described in the content model in the step S56 (YES route)," element list of the leaf " without performing the process of registration in the, it returns to the step S51. そして、ステップS51において構成変更対象のDTDを最後まで走査したと判定された場合(YESルート)、最終的に得られた「葉の要素一覧表」〔例えば図2(D)参照〕を出力して(ステップS58)、処理を終了する。 The arrangement if the change target DTD is determined that the scan to the end (YES route), "Elements list of leaf" finally obtained output the [e.g. FIG 2 (D) refer] In step S51 Te (step S58), the process is terminated.

【0136】ただし、DTDにおいて内容モデルにより内容の型(例えば#PCDATA)が定義されていても、そのDTDの記述からは、内容に実体参照が含まれるか否かを認識することはできない。 [0136] However, also be defined the type of contents by the content model in DTD (e.g. #PCDATA), from its DTD description, it is not possible to recognize whether or not contain entity references to content. つまり、DTD解析部30は、前述した文書実現値解析部20とは異なり、DTDを解析しただけでは、そのDTDに従って記述される文書実現値の内容に実体参照が含まれるか否かを認識することはできず、当然、その実体参照が文書内を対象とするものか外部ファイルを対象とするものかを区別することはできない。 That, DTD analyzing unit 30, unlike the document instance analyzer 20 described above, only the analysis of the DTD, recognizes whether contain entity references to the contents of the document instance described in accordance with the DTD it is impossible, of course, can not be the entity reference to distinguish or not to target or an external file which covers the document.

【0137】図8に示すフローチャート(ステップS6 [0137] the flow chart shown in FIG. 8 (step S6
1〜S72)に従って、第1実施形態の文書実現値構成変更部40による構成変更手順について説明すると、文書実現値構成変更部40は、まず、文書実現値解析部2 According 1~S72), will be described the configuration change procedure according to document instance configuration changing unit 40 of the first embodiment, document instance configuration changing unit 40 first document instance analyzer 2
0やDTD解析部30で得られた「葉の要素一覧表」を入力してから(ステップS61)、圧縮対象の文書実現値を最後まで走査したか否かを判断しながら(ステップS62)、文書実現値を走査する(ステップS63)。 0 and "element list of leaf" obtained by the DTD analyzer 30 to input from a (step S61), while determining whether the scanned document instance to be compressed to the end (step S62), scanning a document instance (step S63).

【0138】その際、文書実現値の記述を、「葉の要素一覧表」に登録された葉の要素名と比較しながら、先頭から順次認識し、その文書実現値の記述が、「葉の要素一覧表」に登録された葉の要素であるか否かを判断する(ステップS64)。 [0138] At that time, a description of the document instance, in comparison with the element name of the leaf, which is registered in the "element list of the leaf", in order to recognize from the beginning, a description of the document instance, "leaves determines whether a leaf elements registered in the element list "(step S64). 「葉の要素一覧表」に登録された葉の要素を文書実現値中で検出した場合(YESルート)、その葉の要素が属性を有しているか否かを判定し(ステップS65)、属性を有している場合(YESルート)には、その属性、つまり属性名および属性値の文字列をそれぞれ属性名一覧および属性値一覧に登録する(ステップS66)。 When detecting the leaf elements registered in the "Elements list of leaf" in document instance (YES route), and determines whether the elements of the leaves has an attribute (step S65), the attribute when it has the (YES route), the attribute, that is, the registered attribute name and attribute value string to each attribute name list and the attribute value list (step S66).

【0139】属性情報を有していない場合(ステップS [0139] If you do not have the attribute information (step S
65のNOルート)や、ステップS66での登録処理の終了後には、その葉の要素名および内容の文字列をそれぞれ属性名一覧および属性値一覧に登録する(ステップS67)。 65 NO route) or, after completion of the registration process in step S66, the register element name of the leaves and the content of the string to a respective attribute name list and the attribute value list (step S67). そして、ステップS66やS67による登録処理を完了した葉の要素についての、開始タグ,内容および終了タグを、文書実現値から削除してから(ステップS68)、ステップS62へ戻る。 Then, for the leaf element completing the registration processing in step S66 or S67, a start tag, content, and end tag, remove from document instance (step S68), the flow returns to step S62.

【0140】また、ステップS64で葉の要素が検出されなかった場合(NOルート)の場合は、ステップS6 [0140] Also, in the case of when the element of the leaf is not detected in step S64 (NO route), the step S6
5〜S68の処理を行なうことなくステップS62へ戻る。 The processing of 5~S68 returns to the step S62 without performing. ステップS62において圧縮対象の文書実現値を最後まで走査したと判定された場合(YESルート)、 If it is determined that the scanned document instance to be compressed to the end in step S62 (YES route),
「葉の要素一覧表」から葉の親要素を検出し(ステップS69)、その親要素の開始タグに、属性名一覧および属性値一覧にそれぞれ登録されている属性名および属性値を新たに付加する(ステップS70)。 From the "element list of the leaf" to detect the parent element of the leaf (step S69), the start tag of the parent element, newly added the attribute names and attribute values ​​that are respectively registered in the attribute name list and attribute values ​​list (step S70).

【0141】この後、親要素の終了タグ“<親の要素名 [0141] After this, the end tag "<parent of the element name of the parent element
/>”を削除してから(ステップS71)、親の開始タグの最後に記述された“>”の前に、“/”を記入することにより、葉の親要素の開始タグを空要素タグに変更して(ステップS72)、処理を終了する。 /> "Delete the (step S71), the end to the description of the parent of the start tag" "before,"> / "by filling out the, empty element tag the start tag of the parent element of the leaf change to (step S72), the process is terminated.

【0142】図9に示すフローチャート(ステップS8 [0142] the flow chart shown in FIG. 9 (step S8
1〜S90)に従って、第1実施形態のDTD構成変更部50による構成変更手順について説明すると、DTD According 1~S90), it will be described the configuration change procedure by DTD configuration changing unit 50 of the first embodiment, DTD
構成変更部50は、まず、文書実現値解析部20やDT Configuration changing unit 50 first document instance analyzer 20 and DT
D解析部30で得られた「葉の要素一覧表」を入力してから(ステップS81)、構成変更対象のDTDを最後まで走査したか否かを判断しながら(ステップS8 Enter "Factors list of leaf" obtained by the D analyzer 30 (step S81), while it is determined whether scanning the DTD configuration change target to the end (step S8
2)、DTDを走査する(ステップS83)。 2), scans the DTD (step S83).

【0143】その際、「葉の要素一覧表」に登録された葉の要素名を有する要素型宣言、即ち“<!ELEME [0143] In this case, the element type declaration with the element name of the leaf, which is registered in the "element list of the leaf", namely "<! ELEME
NT 葉の要素名”が記述されているか否かを判断する(ステップS84)。そのような葉の要素型宣言が記述されている場合(ステップS84のYESルート)、その葉の要素型宣言をDTDから削除した後(ステップS Element name of NT leaf "to determine whether it is written (step S84). If such leaf element type declaration is described (YES route of step S84), the element type declaration of the leaves after you have removed from the DTD (step S
85)、その葉の要素名を有する属性リスト宣言、つまり“<!ATTLIST 葉の要素名属性名”が記述されているか否かを判断する(ステップS86)。 85), the attribute list declaration having the element name of the leaf, or "<! Element name attribute names of ATTLIST leaf" to determine whether or not it is described (step S86).

【0144】そのような葉の属性リスト宣言が記述されている場合(ステップS86のYESルート)、その葉の属性リスト宣言をDTDから削除した後(ステップS [0144] If such leaves attribute list declaration is written (YES route of step S86), after deleting the attribute list declaration of its leaves from DTD (step S
87)、その葉についての親要素の要素型宣言における内容モデルの記述から葉(子要素)の記述を削除する(ステップS88)。 87), to delete the description of the leaves (child) from the description of the content model of the element type declaration of the parent element of the leaves (step S88).

【0145】そして、葉の親要素についての属性リスト宣言において、ステップS85で削除した葉の要素についての要素名および内容を、それぞれ新たな属性名および属性値として付加するとともに、ステップS87で削除した葉の要素についての属性名および属性値を、それぞれ新たな属性名および属性値として付加してから(ステップS89)、ステップS82へ戻る。 [0145] Then, in the attribute list declaration of parent elements leaf element names and contents of the elements in the leaves deleted in step S85, the addition to added as a new attribute name and attribute value, respectively, it was deleted in step S87 attribute names and attribute values ​​for the elements of the leaf, from each is added as a new attribute name and attribute value (step S89), the flow returns to step S82. このとき、親要素についての属性リスト宣言が、構成変更前に存在していない場合には、新たに属性リスト宣言を作成する。 In this case, an attribute list declaration for the parent element, if that does not exist in the previous configuration changes, to create a new attribute-list declaration.

【0146】なお、ステップS84で葉の要素型宣言が記述されていないと判断された場合(NOルート)、ステップS82へ戻る。 [0146] Incidentally, when an element type declaration leaf is determined not written in the step S84 (NO route), the flow returns to step S82. また、ステップS86で葉の属性リスト宣言が記述されていないと判断された場合(NO Also, if the leaves of the attribute list declaration is determined not to be described in the step S86 (NO
ルート)、ステップS88へ移行する。 Root), the process proceeds to step S88. ステップS86 Step S86
のNOルートもしくはステップS87からステップS8 Step S8 from NO route or step S87
8へ移行した時に、既に内容モデルから葉の記述が削除されている場合には、ステップS88では何ら処理を行なうことなく、ステップS89へ移行する。 When migrating to 8, when the leaves of descriptions have been removed from the already content model, without performing any processing in step S88, the process proceeds to step S89.

【0147】さらに、ステップS86のNOルートを経由してステップS88へ移行した場合には、葉の親要素についての属性リスト宣言において、ステップS85で削除した葉の要素についての要素名および内容を、それぞれ新たな属性名および属性値として付加してから、ステップS82へ戻る。 [0147] Furthermore, in the case of the transition via the NO route to step S88 is the step S86, in the attribute list declaration for the parent element of the leaf, the element name and the contents of the elements of the deleted leaf in step S85, after adding a new attribute name and attribute value, respectively, the flow returns to step S82. このときも、親要素についての属性リスト宣言が、構成変更前に存在していない場合には、新たに属性リスト宣言を作成する。 Also in this case, an attribute list declaration for the parent element, if that does not exist in the previous configuration changes, to create a new attribute-list declaration.

【0148】このように、本発明の第1実施形態によれば、文書実現値における要素の木構造を解析し、その解析結果に従って、葉要素についての開始タグ,終了タグおよび内容を文書実現値から削除し、その葉要素の要素名,内容,属性名および属性値を親要素の属性として親要素の開始タグ内に付加することにより、葉要素にかかる記述を親要素の属性として取り扱うことができ、葉要素の開始タグや終了タグを記述する必要がなくなり、X [0148] Thus, according to the first embodiment of the present invention, analyzes the tree structure of elements in the document instance, according to the analysis result, the start tag for leaf elements, end tags and contents document instance remove from the element name of the leaf elements, contents, by adding to the start tag of the parent element attribute names and attribute values ​​as attribute of the parent element, it is handled described according to the leaf element as an attribute of the parent element It can be, there is no need to describe the start and end tags of the leaf elements, X
ML文書の特徴を損なうことなく、また、検索可能な状態に保持したまま、葉要素にかかるタグの記述が省略・ Without impairing the characteristics of the ML document, also, while holding searchable state, description of such tags leaf elements omission
圧縮される。 It is compressed.

【0149】従って、XML文書の圧縮率を大幅に高めることができ、ひいては、大規模なデータベースを取り扱うシステムにおいて文書データの格納効率を大幅に高めることができる。 [0149] Accordingly, it is possible to greatly increase the compression ratio of the XML document, thus, can greatly increase the storage efficiency of the document data in a system for handling large databases. 特に、多数の短い語句をもつ部品表や価格表等をXML文書で記述するような場合、短い語句(内容)を挟んだ開始タグと終了タグとの対表現を省略することができるので、その圧縮率を大幅に高めることができる。 In particular, when such as described BOM and price list or the like having a large number of short phrases in XML documents, it is possible to omit a short pair representation word (content) and start tag sandwiching the end tag, the it is possible to increase the compression ratio significantly.

【0150】このとき、圧縮後も、データ長の短い内容の平文を検索対象として扱うことが可能であり、検索を行なう際にはXML文書を復元(伸長)する必要がない。 [0150] In this case, after compression also, it is possible to handle plaintext short contents data length as a search target, it is not necessary to restore the XML document (extension) is in performing the search. また、XML文書の特徴を損なわないため、ブラウザなどの応用ソフトウェアとの整合を容易にとることができる。 Also, since not to impair the characteristics of the XML document, it can be taken to facilitate alignment with application software such as a browser. さらに、親要素の終了タグを削除して親要素の開始タグを空要素タグに変更することで、XML文書の圧縮率をより高めることができる。 Moreover, by deleting the end tag of the parent element by changing the start tag of the parent element empty element tag, it is possible to increase the compression ratio of the XML document.

【0151】同様に、DTDにおける要素の木構造を解析し、その解析結果に従って、葉要素の要素型宣言や属性リスト宣言をDTDから削除するとともに葉要素にかかる記述を親要素の要素型宣言(内容モデル)から削除し、その葉要素の要素型宣言や属性リスト宣言にかかる情報を親要素の属性として再定義することにより、文書実現値に対して行なわれた圧縮に対応した圧縮処理がD [0151] Similarly, by analyzing the tree structure of the elements in the DTD, according to the analysis result, the element type declarations and attribute list declares the element type of the parent element such described in the leaf element is deleted from the DTD declaration of the leaf elements ( remove from the content model), by redefining the information relating to the element type declaration or attribute list declaration of its leaves element as an attribute of the parent element, the compression processing corresponding to the compression performed on the document instance is D
TDに対しても行なわれ、葉要素にかかる記述を親要素の属性として取り扱うことができる。 Also made to the TD, it can be handled described according to the leaf element as an attribute of the parent element. 従って、XML文書の特徴を損なうことなく、また、検索可能な状態に保持したまま、葉要素にかかる要素型宣言や属性リスト宣言の記述が省略されてDTDが圧縮されるので、XML Thus, without impairing the characteristics of the XML document, also, while holding searchable state, the description of such elements type declaration or attribute list declaration leaf elements is omitted DTD is compressed, XML
文書の圧縮率をより高めることができる。 It is possible to increase the compression ratio of the document.

【0152】〔2〕第2実施形態の説明 次に、本発明の第2実施形態について説明する。 [0152] [2] Description of Second Embodiment Next, a description of a second embodiment of the present invention. まず、 First of all,
図15(A)〜図15(D)を参照しながら、本発明の第2実施形態における構造化文書の圧縮原理を説明する。 With reference to FIG. 15 (A) ~ FIG 15 (D), illustrating the compression principle of the structured document according to the second embodiment of the present invention. なお、本発明の第2実施形態でも、構造化文書がX Also in the second embodiment of the present invention, the structured document X
ML文書である場合について説明する。 Description will be given of a case is the ML document.

【0153】第2実施形態では、文書実現値のタグ内やDTDにおける要素名および属性名の各文字列を、1または2バイトの文字列に置換し、その対応関係をタグ辞書(図14の符号90参照)に記録する。 [0153] In the second embodiment, each string element names and attribute names in the tag and the DTD document instance, by replacing a string of one or two bytes, the correspondence between the tag dictionary (Fig. 14 Part record to sign 90 reference). 通常、タグ内に記述される文字列(要素名や属性名)は、人が読んで意味が分かるように数バイト以上の長さの文字列を用いて、DTDで定義されている。 Usually, a character string is written in the tag (element name or attribute name), with a string of more than a few bytes length of such means is found by reading people, it is defined in DTD.

【0154】ただし、要素名および属性名の先頭文字は、SGMLでは1バイトの英字(A〜Z,a〜z)に限られる。 [0154] However, the first character of the element and attribute names, limited to the SGML 1 byte letters (A~Z, a~z). 一方、XMLでは、先頭文字は、1バイトの英字,2バイトの平仮名またはカタカナ,1バイトの“#”または“:”のいずれかに限られる。 On the other hand, In XML, the first character is 1 byte of letters, 2 bytes of Hiragana or Katakana, of 1 byte "#" or ":" limited to any one of the. 一般に、文書実現値のタグ部分だけで、すべての文書量の6割から8割が占められる。 Generally, only the tag portion of the document instance, 80% from 60% of all documents amount is occupied. このため、タグ内における文字列の可読性を犠牲にして、その文字列を1または2バイトの文字列に変換するだけで、XML文書の圧縮率を大幅に高めることが可能である。 Therefore, the readability of the character string in the tag sacrificed, simply converts the string to one or two-byte character string, it is possible to significantly increase the compression ratio of the XML document.

【0155】そこで、本発明の第2実施形態では、図1 [0155] Therefore, in the second embodiment of the present invention, FIG. 1
5(A)〜図15(D)に示すように、要素名および属性名の既存の名前と、新たに定義した1または2バイトの短縮文字列との間の対応関係をタグ辞書に記録し、そのタグ辞書に基づいて、文書実現値のタグ内およびDT 5 as shown in (A) ~ FIG 15 (D), the existing name element and attribute names, recorded in the tag dictionary correspondence between the shorter string newly defined one or two bytes , based on the tag dictionary, the tag of the document instance and DT
Dにおける該当する文字列を、より短い短縮文字列に置き換える。 A character string corresponding in D, replaced with a shorter shorter string. この短縮文字列は、当然、既存の名前の文字列よりも短く且つその文字列を特定しうるものでなければならない。 This shortening string is, of course, must be capable to identify the short and the string than the string of the existing name.

【0156】図15(A)はタグの具体的な記述例を示す図で、この図15(A)に示すタグでは、要素名「ti [0156] Figure 15 (A) is a view showing a detailed description example of a tag, the tag shown in FIG. 15 (A), the element name "ti
tle」の要素に対して、属性名「tsprint」および属性値「スクールCAIシリーズNO.563 3(3)」 をもつ属性が付与されている。 For elements of tle ", the attribute name" tsprint "and the attribute value attribute with the" School CAI Series NO.563 3 (3) "has been granted. このとき、図15(B)に示すごとく、要素名「title」の置換文字(短縮文字列)として「a」を予め設定してタグ辞書に登録しておくとともに、図15(C)に示すごとく、属性名「tsprint」の置換文字(短縮文字列)として「A」を予め設定してタグ辞書に登録しておく。 At this time, as shown in FIG. 15 (B), together with the previously registered in the tag dictionary preset "a" as a replacement character element name "title" (abbreviated string), shown in FIG. 15 (C) as, it is registered in the tag dictionary as a replacement character of the attribute name "tsprint" (short string) to set the "a" in advance.

【0157】そして、図15(B)や図15(C)に示すタグ辞書を用いることにより、図15(A)に示すタグにおいて、要素名および属性名の文字列を、図15 [0157] By using the tag dictionary shown in FIG. 15 (B) and FIG. 15 (C), the tag shown in FIG. 15 (A), a string of elements and attribute names, 15
(D)に示すように、1バイトの文字列に置き換える。 As shown in (D), replaced with a 1-byte character string.
このとき、DTDを有する検証済みXML文書(パターン,)においては、そのDTDも、上述した文字列置換に対応して変換される。 At this time, in the validated XML document having a DTD (pattern), the DTD is also converted to correspond to the string substitution described above.

【0158】従って、SGMLパーサーやXMLパーサー(プロセッサ)等では、上述のごとく変換されたDT [0158] Thus, in such SGML parsers and XML parser (processor) was converted as described above DT
Dに基づいて、同じく上述のごとく変換された構造化文書が解析される。 Based on D, likewise converted structured document as described above is analyzed. ただし、応用ソフトウェア側で要素や属性の探索を行なう際には、変換されたDTDから読み取った1または2バイトの短縮文字列を用いて、要素名および属性名を指定しなければならない。 However, when performing a search for elements and attributes in the application software side, using the shortening string 1 or 2 bytes read from the converted DTD, you must specify the element name and attribute name.

【0159】以下、図14および図16〜図24を参照しながら、本発明の第2実施形態について、より詳細かつ具体的に説明する。 [0159] Hereinafter, with reference to FIGS. 14 and FIGS. 16 to 24, a second embodiment of the present invention will be described in more detail and specifically. 図14は本発明の第2実施形態としての構造化文書の圧縮装置の機能構成を示すブロック図であり、この図14に示すように、第2実施形態の圧縮装置は、第1実施形態と同様の文書記憶部10,文書実現値解析部20,DTD解析部30,新規DTDファイル作成部60および新旧DTD対応表出力部70のほかに、タグ辞書作成部80,タグ辞書90,文書実現値文字列置換部41およびDTD文字列置換部51を有して構成されている。 Figure 14 is a block diagram showing the functional configuration of the compression apparatus of the structured document according to the second embodiment of the present invention, as shown in FIG. 14, the compressor of the second embodiment, a first embodiment similar document storage unit 10, document instance analyzer 20, DTD analyzer 30, a new DTD file creating unit 60 and the addition of new and old DTD correspondence table output unit 70, the tag dictionary creation unit 80, the tag dictionary 90, document instance It is constructed with a string substitution unit 41 and the DTD string substitution unit 51.

【0160】ここで、第2実施形態の圧縮装置も、第1 [0160] Here, the compressor of the second embodiment also, the first
実施形態と同様、CPU,RAM,ROMなどをバスラインにより接続して構成される、パソコン等のコンピュータシステムにより実現されるものである。 Similar to the embodiment, CPU, RAM, configured ROM and the like are connected by a bus line, is realized by a computer system such as a personal computer. つまり、R In other words, R
AMやROMが文書記憶部10としての機能を果たすほか、RAMには、文書実現値解析部20,DTD解析部30,新規DTDファイル作成部60,新旧DTD対応表出力部70,タグ辞書作成部80,文書実現値文字列置換部41およびDTD文字列置換部51を実現するためのアプリケーションプログラムが格納されている。 In addition to AM and ROM can serve as a document storage unit 10, to comprise RAM, document instance analyzer 20, DTD analyzer 30, a new DTD file creating unit 60, old and new DTD correspondence table output unit 70, the tag dictionary creation unit 80, an application program for realizing a document instance string substitution unit 41 and the DTD string substitution unit 51 is stored. また、タグ辞書90は、例えばRAM上に記録・保存される。 The tag dictionary 90 is recorded and stored for example on a RAM.

【0161】そして、CPUが、上記アプリケーションプログラムを実行することにより、文書実現値解析部2 [0161] Then, CPU is by executing the application program, document instance analyzer 2
0,DTD解析部30,新規DTDファイル作成部6 0, DTD analysis section 30, a new DTD file creation section 6
0,新旧DTD対応表出力部70,タグ辞書作成部8 0, new and old DTD correspondence table output unit 70, the tag dictionary creation section 8
0,文書実現値文字列置換部41およびDTD文字列置換部51としての機能(その詳細については後述)が実現され、第2実施形態の構造化文書の圧縮装置が実現されるようになっている。 0, the function as document instance string substitution unit 41 and the DTD string replacement section 51 (the details thereof will be described later) is realized, so that the compression device of the structured document of the second embodiment is realized there.

【0162】この第2実施形態の圧縮装置を実現するためのプログラムも、第1実施形態と同様、例えばフレキシブルディスク,CD−ROM等の、コンピュータ読取可能な記録媒体に記録された形態で提供される。 [0162] Also program for realizing the compression apparatus of the second embodiment, like the first embodiment, for example, a flexible disk, such as a CD-ROM, and is provided in a format recorded on a computer-readable recording medium that. そして、コンピュータはその記録媒体からプログラムを読み取って内部記憶装置または外部記憶装置に転送し格納して用いる。 Then, the computer uses that program after transferring it to an internal storage device or an external storage device reads the program from the recording medium. また、そのプログラムを、例えば磁気ディスク,光ディスク,光磁気ディスク等の記憶装置(記録媒体)に記録しておき、その記憶装置から通信経路を介してコンピュータに提供してもよい。 Further, the program may be a magnetic disk, an optical disk, may be recorded in a storage device such as a magneto-optical disk (recording medium) may be provided to the computer via a communication path from the storage device.

【0163】そして、第2実施形態の圧縮装置としての機能をコンピュータにより実現する際には、内部記憶装置(例えばRAM)に格納された上記プログラムがコンピュータのマイクロプロセッサ(例えばCPU)によって実行される。 [0163] Then, when implementing a function as the compression device of the second embodiment by a computer, the program stored in the internal storage device (e.g. RAM) is executed by the microprocessor of the computer (e.g., CPU) . このとき、記録媒体に記録されたプログラムをマイクロプロセッサが直接読み取って実行してもよい。 In this case, the program recorded on the recording medium by the microprocessor may be executed directly read.

【0164】さて、図14に示す第2実施形態の圧縮装置において、文書記憶部10,文書実現値解析部20, [0164] Now, in the compression device of the second embodiment shown in FIG. 14, the document storage unit 10, document instance analyzer 20,
DTD解析部30,新規DTDファイル作成部60および新旧DTD対応表出力部70は、第1実施形態で説明したものとほぼ同様の機能を果たすので、その詳細な説明は省略する。 DTD analyzer 30, a new DTD file creating unit 60 and the new and old DTD correspondence table output unit 70, so fulfill substantially the same function as those described in the first embodiment, a detailed description thereof will be omitted. ただし、第1実施形態の文書実現値解析部20は、第2実施形態のタグ辞書作成部80としての機能を有していたが、第2実施形態では、図6のステップS41,S42に対応した処理を行なう部分を、タグ辞書作成部80として、文書実現値解析部20から機能的に分離して説明する。 However, the document instance analyzer 20 of the first embodiment, had a function as a tag dictionary creation unit 80 of the second embodiment, in the second embodiment, corresponding to step S41, S42 in FIG. 6 the part for the process, as the tag dictionary creation unit 80 will be described with functionally separate from the document instance analyzer 20.

【0165】このタグ辞書作成部80は、文書実現値解析部20やDTD解析部30による解析結果に従い、文書実現値のタグ内およびDTDに記述された文字列(要素名,属性名)とその文字列よりも短く且つその文字列を特定しうる短縮文字列(前述した1または2バイトの文字列)とを対応させるタグ辞書90を作成するものである。 [0165] The tag dictionary creation unit 80, in accordance with the analysis result by the document instance analyzer 20 and the DTD analyzer 30, tag and string (element name, attribute name) described in the DTD of the document instance and its a shortened string that can short and identifies the string than the string (a string of 1 or 2 bytes above) is to create a tag dictionary 90 to correspond.

【0166】なお、本実施形態のタグ辞書作成部80 [0166] In addition, the tag dictionary creation section 80 of the present embodiment
は、図6を参照しながら第1実施形態で説明したごとく、文書実現値解析部20による解析結果のみを用いてタグ辞書90を作成するものとなっているが、文書実現値解析部20による解析結果に代えてDTD解析部30 Is, as described in the first embodiment with reference to FIG. 6, but has assumed to create a tag dictionary 90 by using only the analysis results by the document instance analyzer 20, according to the document instance analyzer 20 DTD analyzer 30 in place of the analysis results
による解析結果を用いてタグ辞書90を作成してもよいし、文書実現値解析部20による解析結果とDTD解析部30による解析結果との両方を用いてタグ辞書90を作成してもよい。 Analysis result may be to create a tag dictionary 90 using by, may create a tag dictionary 90 using both the result of analysis by the analysis result and the DTD analyzer 30 by document instance analyzer 20.

【0167】文書実現値文字列置換部41は、タグ辞書90を用いて、文書実現値のタグ内に記述された文字列(要素名,属性名)を、その文字列に対応する短縮文字列に置き換えるもので、その置換手順については、図1 [0167] document instance string substitution unit 41 uses the tag dictionary 90, the character string (element name, attribute name) described in the tag of document instance the shortened character string corresponding to the character string It replaces the, for the replacement procedure, FIG. 1
7に示すフローチャートを参照しながら後述する。 It is described later with reference to a flowchart shown in 7.

【0168】DTD文字列置換部51は、XML文書が検証済みXML文書である場合(つまりパターンまたはのXML文書である場合)に、DTDの記述を、文書実現値文字列置換部41によって置換された文書実現値の記述に合わせるべく、タグ辞書90を用いて、DT [0168] DTD string substitution unit 51, if the XML document is validated XML document (that is, when a pattern or XML document), a DTD description is replaced by the document instance string replacement section 41 and to match the description of the document instance, using the tag dictionary 90, DT
Dに記述された文字列(要素名,属性名)を、その文字列に対応する短縮文字列に置き換えるもので、その置換手順については、図18に示すフローチャートを参照しながら後述する。 Description string to D (element name, attribute name), replaces the shortening character string corresponding to the character string, for its replacement procedure will be described later with reference to a flow chart shown in FIG. 18.

【0169】なお、DTD文字列置換51において、X [0169] Incidentally, in the DTD string replacement 51, X
ML文書がパターンである場合、DTDは文書記憶部から読み込まれるが、XML文書がパターンである場合、DTDは外部ファイル100から読み込まれる。 If ML document is the pattern, DTD is read from the document storage unit, if the XML document is the pattern, DTD is read from an external file 100. また、第2本実施形態でも、XML文書がパターンである場合、DTD文字列置換部51による置換結果(圧縮後のDTD)を、文書実現値置換部41による置換結果(圧縮後の文書実現値)とともに文書記憶部10に出力・格納しているが、圧縮後の文書実現値とともに他の記録媒体等に出力・格納してもよい。 Also in the two embodiments, when an XML document is the pattern, replacement results of DTD string substitution unit 51 (DTD after compression), substituted results of document instance replacing unit 41 (document instance after compression ), but is output to and stored in the document storage section 10 together, along with the document instance after compression may output to and stored in another recording medium or the like.

【0170】新規DTDファイル作成部60は、DTD [0170] new DTD file creation unit 60, DTD
が外部ファイル100に存在する場合(XML文書がパターンである場合)、DTD文字列置換部51により置換処理されたDTDについてのファイル(新規DTD There (If the XML document is the pattern) if present in the external file 100, the file for the DTD substituted processed by DTD string substitution unit 51 (new DTD
ファイル)を作成して外部ファイル100へ出力するものである。 And outputs it to the external file 100 to create the file). 新旧DTD対応表出力部70は、DTDが外部ファイル100に存在する場合(XML文書がパターンである場合)、置換処理前のDTDと置換処理後の新規DTDとの対応関係を明記した新旧DTD対応表〔例えば図24(G)参照〕を作成して文書記憶部10 Old and new DTD correspondence table output unit 70 (if an XML document is pattern) DTD can exist in an external file 100, the old and new DTD corresponds with stated the correspondence between the new DTD after the replacement processing DTD before substitution treatment Table [for example FIG 24 (G) reference] to create the document storage section 10
へ出力するものである。 And outputs it to.

【0171】上述のごとく第2実施形態の圧縮手法(文字列の置換)により圧縮されたXML文書は、XML文書としての特徴を全く損なっておらず、圧縮状態のままで(伸長することなく)XML文書としての機能を果たすことができる。 [0171] XML documents are compressed by the compression technique (substitution string) of the second embodiment as described above are not at all impair the characteristics as an XML document, it remains in (without extension) in the compressed state it can serve as an XML document. このとき、タグ辞書90を保持しておけば、このタグ辞書90を参照して置換前の文字列と短縮文字列との対応関係を認識することにより、文書実現値やDTDにおいて置換・圧縮された文字列を伸長することなく、XML文書内のデータを検索することができる。 At this time, if holding the tag dictionary 90, by recognizing the correspondence between the strings before replacement with reference to the tag dictionary 90 and the shorter string, it substituted-compressed in document instance and DTD without expanding the character string, it is possible to find the data in the XML document.

【0172】なお、上述のごとく短縮文字列に置換されたXML文書の記述を元の状態に伸長・復元させるために、文書実現値文字列逆置換手段やDTD文字列逆置換手段を含んで構成された伸長装置(図示省略)をそなえておく。 [0172] In order to extend and restored the description of the XML document which is substituted in the shorter string as described above to the original state, it contains the document instance string reverse replacement means or DTD string inverse permutation means configured previously equipped with been extended device (not shown). ここで、文書実現値文字列逆置換手段は、上述した文書実現値文字列置換部41とは逆の置換処理を行なうもので、タグ辞書90を用いて、文書実現値のタグ内に記述された短縮文字列を、元の文字列(要素名,属性名)に置き換えるものであり、DTD文字列逆置換手段は、上述したDTD文字列置換部51とは逆の置換処理を行なうもので、タグ辞書90を用いて、DTDに記述された短縮文字列を、元の文字列(要素名,属性名) Here, document instance string inverse permutation unit, the document instance string substitution unit 41 described above performs a reverse replacement process, using the tag dictionary 90, written in the tag of document instance shortening character string, which replaces the original string (element name, attribute name), DTD string inverse permutation unit, the DTD string substitution unit 51 described above performs a reverse replacement process, by using the tag dictionary 90, a short string, which is described in the DTD, the original string (element name, attribute name)
に置き換えるものである。 It is intended to replace to.

【0173】次に、図16〜図24を参照しながら、第2実施形態について説明する。 [0173] Next, with reference to FIGS. 16 to 24, a second embodiment will be described. まず、図16に示すフローチャート(ステップS111〜S129)に従い、第2実施形態における構造化文書(XML文書)の圧縮手順を説明する。 First, in accordance with the flowchart (step S111~S129) shown in FIG. 16, illustrating the procedure of compression structured document in the second embodiment (XML document). なお、図14では図示省略しているが、 Moreover, although not shown in FIG. 14,
第2実施形態の圧縮装置にも、文書記憶部10に保存されているXML文書がパターン〜(表2参照)のいずれのものであるからを認識するためのパターン認識機能がそなえられている。 Also the compression device of the second embodiment, the pattern recognition function for recognizing from XML document is of any pattern - (see Table 2) stored in the document storage section 10 is provided. このパターン認識機能による処理は、図16に示すステップS112〜S114による処理に対応している。 Processing by the pattern recognition corresponds to the processing in step S112~S114 of FIG. 16.

【0174】圧縮対象のXML文書が入力され文書記憶部10に格納されると(ステップS111)、そのXM [0174] When the XML document to be compressed are stored in the document storage section 10 is input (step S 111), the XM
L文書に“<!DOCTYPE”が記述されているか否かを判定し(ステップS112)、記述されていない場合(ステップS112のNOルート)、そのXML文書はDTDをもたない整形式XML文書、つまりパターンのXML文書であると認識され、後述するごとくステップS115,S116およびS129が実行される。 The L document determines whether "<! DOCTYPE" is written (step S112), if that is not described (NO route of step S112), the XML document is well-formed XML document without a DTD, that is recognized as an XML document of the pattern, the step S115, S116 and S129 are executed as described below.

【0175】XML文書に“<!DOCTYPE”が記述されている場合(ステップS112のYESルート)、その後に“[”が記述されているか否かを判定する(ステップS113)。 [0175] determines whether if the XML document "<! DOCTYPE" is described (YES route of step S112), after which the "[" is described (step S113). “<!DOCTYPE”は記述されているが“[”が記述されていない場合(ステップS113のNOルート)、そのXML文書は、DTD "<! DOCTYPE" case has been described that has not been written is "[" (NO route of step S113), the XML document, DTD
を外部ファイル100として有する検証済みXML文書、つまりパターンのXML文書であると認識され、 Verified XML document having an external file 100, i.e. is recognized as an XML document of the pattern,
後述するごとくステップS121〜S129が実行される。 Step S121~S129 are performed as will be described later.

【0176】“[”が記述されている場合(ステップS [0176] If "the [" have been described (step S
113のYESルート)、“<!ELEMENT”(もしくは“<!ATTLIST”)が記述されているか否かを判定する(ステップS114)。 113 YES route), "<! ELEMENT" (or "<! ATTLIST") determines whether or not described (step S114). “<!DOCTY "<! DOCTY
PE”および“[”は記述されているが“<!ELEME PE "and" [ "it is described" <! ELEME
NT”が記述されていない場合(ステップS114のN If the NT "is not described (N in step S114
Oルート)、内部または外部への実体宣言を含むDTD O root), DTD containing entity declaration to internal or external
を有する整形式XML文書、つまりパターンまたはのXML文書であると認識され、パターンの場合と同様、ステップS115,S116およびS129が実行される。 Well-formed XML document with, i.e. is recognized as a pattern or XML document, as in the case of the pattern, the step S115, S116 and S129 are executed.

【0177】“<!DOCTYPE”,“[”および“< [0177] "<! DOCTYPE", "[" and "<
!ELEMENT”がいずれも記述されている場合(ステップS114のYESルート)、XML文書内にDT ! If ELEMENT "is described neither (YES route of step S114), DT in the XML document
Dを有する検証済みXML文書、つまりパターンのX Validated XML document having a D, i.e. the pattern X of
ML文書であると認識され、ステップS117〜S12 Is recognized as an ML document, step S117~S12
0およびS129が実行される。 0 and S129 is executed. 以下、各パターン〜 Below, each pattern -
に対する圧縮処理について、図20〜図24に示す具体例(第1例〜第5例)を参照しながら説明する。 The compression processing for the will be described with reference to specific examples shown in FIGS. 20 to 24 (first example to fifth example).

【0178】図20(A)〜図20(C)はいずれも第2実施形態によるXML文書の具体的な圧縮処理(第1 [0178] Figure 20 (A) ~ FIG 20 (C) Specific compression of XML documents according to the second embodiment are both (first
例)を説明するための図である。 Example) is a diagram for explaining the. 図20(A)に示す圧縮前のXML文書は、パターンのXML文書であり、 XML document before compression shown in FIG. 20 (A) is an XML document of the pattern,
図10(A)に示したものと同じである。 It is the same as those shown in FIG. 10 (A). この図20 FIG. 20
(A)に示すXML文書(パターン)には“<!DO The XML document (pattern) shown in (A) "<! DO
CTYPE”が記述されていないので、処理はステップS112のNOルートからステップS115へ移行し、 Since CTYPE "is not described, the processing proceeds from NO route of step S112 to step S115,
文書実現値解析部20によって文書実現値のタグ内の記述が解析され、タグ辞書作成部80により、図20 Description of the tag of document instance by document instance analyzer 20 is analyzed by the tag dictionary creation unit 80, FIG. 20
(C)に示すようなタグ辞書90が登録・作成される。 (C) a tag dictionary 90 as shown in the created registered and.

【0179】ここで、図20(A)に示す例では、文書実現値の各タグ内には要素名のみが記述され、どの要素も属性を有していないので、要素名だけが検出され、各要素名に短縮文字列を対応させるタグ辞書90が登録・ [0179] Here, in the example shown in FIG. 20 (A), only the element names within each tag document instance is described, since every element does not have an attribute, only the element name is detected, tag dictionary 90 to correspond to shorten the string to each element name registration and
作成される。 It is created. 図20(C)に示すタグ辞書90は、文書実現値解析部20によって検出・認識された要素名「bo Tag dictionary 90 shown in FIG. 20 (C) Detection and recognition element name by document instance analyzer 20 "bo
ok」,「title」,「author」に、1バイトの短い短縮文字列(以下、置換文字という場合がある)、例えば「a」,「b」,「c」をそれぞれ対応させるものとなっている。 The ok "," title "," author ", 1 byte short truncated string (hereinafter, sometimes referred to substituted characters), for example," a "," b ", so as to correspond respectively to" c " there.

【0180】なお、タグ内に属性名も記述されている場合には、図23(D)や図24(E)を参照しながら後述するごとく、属性名についてのタグ辞書90も登録・ [0180] Incidentally, if the attribute name in the tag are also described in, as will be described later with reference to FIG. 23 (D) and FIG. 24 (E), also tag dictionary 90 for the attribute name registration and
作成される。 It is created. そして、ステップS115で得られたタグ辞書90を用いて、文書実現値文字列置換部41により、文書実現値のタグ内に記述された要素名「book」, Then, using the tag dictionary 90 obtained in step S115, the document instance string substitution unit 41, the described element name in the tag of document instance "book",
「title」,「author」が、それぞれ、1バイトの置換文字「a」,「b」,「c」に置き換えられる(ステップS116)。 "Title", "author", respectively, 1-byte substitution character "a" is replaced by "b", "c" (step S116).

【0181】ステップS115およびS116によって、例えば図20(A)に示すXML文書は、図20 [0181] XML document shown by steps S115 and S116, for example, in FIG. 20 (A) 20
(B)に示すようなXML文書に置換・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS129)。 After being replaced and compressing the XML document (B), the output and stored to the document storage section 10 such as a compressed document (step S129). 図20(B)に示すXML文書において、1行目のXML宣言の記述は圧縮前と変わらないが、2〜5行目においては、開始タグ内および終了タグ内の要素名「book」,「title」,「author」がそれぞれ1バイトの置換文字「a」,「b」,「c」に置換されている。 In the XML document shown in FIG. 20 (B), although the description of the first line of the XML declaration does not change the pre-compression, in the 2-5 line, start tag and the element name in the end tag "book", " title "," author "is one byte substitution character" a "is replaced with" b "," c ".

【0182】図21(A)〜図21(C)はいずれも第2実施形態によるXML文書の具体的な圧縮処理(第2 [0182] Figure 21 (A) ~ FIG 21 (C) Specific compression of XML documents according to the second embodiment are both (second
例)を説明するための図である。 Example) is a diagram for explaining the. 図21(A)に示す圧縮前のXML文書は、パターンのXML文書であり、 XML document before compression shown in FIG. 21 (A) is an XML document of the pattern,
図11(A)に示したものと同じである。 It is the same as those shown in Figure 11 (A). この図21 FIG. 21
(A)に示すXML文書(パターン)には、“<!D The XML document (pattern) shown in (A), "<! D
OCTYPE”および“[”がいずれも記述されているが、“<!ELEMENT”や“<!ATTLIST”が記述されていないので、処理はステップS114のNO OCTYPE "and" [ "it is described both," <! ELEMENT "and" <! Because ATTLIST "is not described, the process is NO in step S114
ルートからステップS115へ移行し、前述したパターンのXML文書と同様の処理が実行される。 Goes from the root to the step S115, the processing similar to XML document patterns described above are executed. このとき、タグ辞書作成部80により、図21(C)に示すごとく、図20(C)に示したものと同じタグ辞書90が登録・作成される。 At this time, by the tag dictionary creation unit 80, as shown in FIG. 21 (C), the same tag dictionary 90 as that shown in FIG. 20 (C) is created registration and.

【0183】これにより、例えば図21(A)に示すX [0183] Thus, for example, X shown in FIG. 21 (A)
ML文書は、図21(B)に示すようなXML文書に置換・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS129)。 ML document, after being replaced and compressing the XML document shown in FIG. 21 (B), is output and stored to the document storage section 10 such as a compressed document (step S129). 図21 Figure 21
(B)に示すXML文書において、1,3および4行目の記述は圧縮前と変わらないが、2,5〜8行目におけるタグ内の要素名「book」,「title」,「author」がそれぞれ1バイトの置換文字「a」,「b」,「c」に置換される。 In XML document (B), the but 1, 3 and 4 line description is not the same as before compression, element name in the tag in 2,5~8 line "book", "title", "author" There is replaced with one byte substitution character "a", "b", "c".

【0184】図22(A)〜図22(C)はいずれも第2実施形態によるXML文書の具体的な圧縮処理(第3 [0184] Figure 22 (A) ~ FIG 22 (C) Specific compression of XML documents according to the second embodiment are both (Third
例)を説明するための図である。 Example) is a diagram for explaining the. 図22(A)に示す圧縮前のXML文書は、前述したパターンのXML文書であり、1行目に、この文書がバージョン1.0のXM XML document before compression shown in FIG. 22 (A) is an XML document of the pattern described above, the first line, XM this document is version 1.0
L文書であることを示すXML宣言が記述され、2〜4 XML declaration that indicates that L is a document is described, 2-4
行目に、外部への実体宣言を含むDTDが記述され、5 Th row, DTD is described containing entity declaration to the outside, 5
〜8行目に文書実現値が記述されている。 Document realization value is described in the 8 line.

【0185】2〜4行目のDTDでは、文書型宣言に含まれる実体宣言(3行目)におけるシステム識別子“S [0185] In 2-4 line DTD, the system identifier in entity declaration (line 3) contained in the document type declaration "S
YSTEM”を用いて、文書実現値(XMLインスタンス)内で用いられる文字列「para」の実体として、 Using ystem ", as an entity of the character string" para "used in the document instance (XML instance),
URL“http://www.xml.co.jp”で指定される外部ファイルを用いることが宣言・定義されている。 The use of the external file that is specified in the URL "http://www.xml.co.jp" is declared-definition. また、5〜 In addition, 5
8行目に記述された文書実現値は、図10(A)に示したXML文書の2〜5行目の記述例とほぼ同一であるが、図22(A)に示す例では、7行目の要素「autho 8 line document instance described in th is substantially identical to 2-5 line description example of an XML document shown in FIG. 10 (A), in the example shown in FIG. 22 (A), 7 lines the eyes of the element "autho
r」の内容として、「佐藤元&para;」が記述されている。 As the content of the r "," Hajime Sato & para; "is described.

【0186】ここで、「&para;」は、文字列「p [0186] In this case, "& para;", the character string "p
ara」の実体を参照することを指示する記述であり、 A description to indicate that the reference to the entity of ara ",
実際に表示・印刷等によって出力される文書中では、U In the document that is actually output by the display or printing, U
RL“http://www.xml.co.jp”で指定される外部ファイルが読み出されて表記されることになる。 So that the external file specified by RL "http://www.xml.co.jp" is marked is read.

【0187】そして、図22(A)に示すXML文書(パターン)には、パターンのXML文書と同様、 [0187] Then, the XML document (pattern) shown in FIG. 22 (A), like the XML document of the pattern,
“<!DOCTYPE”および“[”がいずれも記述されているが、“<!ELEMENT”や“<!ATTLIS "<! DOCTYPE" and "[" it is described both, "<! ELEMENT" Ya "<! ATTLIS
T”が記述されていないので、処理はステップS114 Since T "is not described, the process step S114
のNOルートからステップS115へ移行し、前述したパターンやのXML文書と同様の処理が実行される。 Transition from the NO route to step S115, processing similar to the XML document of the pattern and that described above is executed. このとき、タグ辞書作成部80により、図22 At this time, by the tag dictionary creation unit 80, FIG. 22
(C)に示すごとく、図20(C)に示したものと同じタグ辞書90が登録・作成される。 As (C), the same tag dictionary 90 as that shown in FIG. 20 (C) is created registration and.

【0188】これにより、例えば図22(A)に示すX [0188] Thus, for example, X shown in FIG. 22 (A)
ML文書は、図22(B)に示すようなXML文書に置換・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS129)。 ML document, after being replaced and compressing the XML document shown in FIG. 22 (B), is output and stored to the document storage section 10 such as a compressed document (step S129). 図22 Figure 22
(B)に示すXML文書において、1,3および4行目の記述は圧縮前と変わらないが、2,5〜8行目におけるタグ内の要素名「book」,「title」,「author」がそれぞれ1バイトの置換文字「a」,「b」,「c」に置換される。 In XML document (B), the but 1, 3 and 4 line description is not the same as before compression, element name in the tag in 2,5~8 line "book", "title", "author" There is replaced with one byte substitution character "a", "b", "c".

【0189】図23(A)〜図23(D)はいずれも第2実施形態によるXML文書の具体的な圧縮処理(第4 [0189] Figure 23 (A) ~ FIG 23 (D) Specific compression of XML documents according to the second embodiment are both (Fourth
例)を説明するための図である。 Example) is a diagram for explaining the. 図23(A)に示す圧縮前のXML文書は、パターンのXML文書であり、 XML document before compression shown in FIG. 23 (A) is an XML document of the pattern,
図12(A)に示したものとほぼ同じである。 It is substantially the same as that shown in FIG. 12 (A). ただし、 However,
図23(A)に示すXML文書では、要素「author」の属性「year」についての記述が省略されている。 In the XML document shown in FIG. 23 (A), description of the attribute "year" of the element "author" is omitted. つまり、DTDにおいて、属性「year」についての属性リスト宣言が省略されるとともに、要素「author」の開始タグ内における属性記述が省略されている。 That is, in DTD, together with attribute list declaration for the attribute "year" is omitted, attribute description in the start tag of the element "author" is omitted.

【0190】図23(A)に示すXML文書(パターン)には、“<!DOCTYPE”および“[”が記述されるとともに“<!ELEMENT”または“<!ATT [0190] The XML document shown in FIG. 23 (A) (pattern), "<! DOCTYPE" and "[" together is described "<! ELEMENT" or "<! ATT
LIST”も記述されているので、処理はステップS1 Since LIST "is also described, the process steps S1
14のYESルートからステップS117へ移行し、文書実現値解析部20によって文書実現値のタグ内の記述が解析されるとともに、DTD解析部30によってDT Transition from 14 YES route to step S117, the with the description of the tag of document instance is analyzed by document instance analyzer 20, DT by DTD analyzer 30
Dの記述が解析される(ステップS118)。 D description is analyzed (step S118).

【0191】このとき、タグ辞書作成部80により、図23(C)に示すような、要素名のためのタグ辞書90 [0191] At this time, by the tag dictionary creation unit 80, as shown in FIG. 23 (C), tag dictionaries for element name 90
と、図23(D)に示すような、属性名のためのタグ辞書90とが登録・作成される。 When, as shown in FIG. 23 (D), and the tag dictionary 90 is created registration and for the attribute name. ここで、図23(C)に示すタグ辞書90は、図20(C)に示すものと同じで、文書実現値解析部20やDTD解析部30によって検出・認識された要素名「book」,「title」,「autho Here, the tag dictionary 90 shown in FIG. 23 (C) are the same as those shown in FIG. 20 (C), the detection and recognition element name by document instance analyzer 20 and the DTD analyzer 30 "book", "title", "autho
r」に、1バイトの短縮文字列、例えば「a」, To r ", 1 byte of shortening the string, such as" a ",
「b」,「c」をそれぞれ対応させるものとなっている。 "B" has become a made to correspond respectively to "c". また、図23(D)に示すタグ辞書90は、文書実現値解析部20やDTD解析部30によって検出・認識された属性名「field」に、1バイトの短縮文字列、例えば「A」を対応させるものとなっている。 The tag dictionary 90 shown in FIG. 23 (D), the attribute name is detected and recognized by the document instance analyzer 20 and the DTD analyzer 30 to "field", 1 byte shorter strings, such as "A" It has become a made to correspond.

【0192】そして、図23(C)および図23(D) [0192] Then, FIG. 23 (C) and FIG. 23 (D)
に示すタグ辞書90を用い、文書実現値文字列置換部4 Using a tag dictionary 90 shown in, document instance string replacement section 4
1により、文書実現値のタグ内に記述された要素名「bo The 1, the described element name in the tag of document instance "bo
ok」,「title」,「author」や属性名「field」がそれぞれ1バイトの短縮文字列「a」,「b」,「c」, ok "," title "," author "and the attribute name" field "to shorten the string of each 1-byte" a "," b "," c ",
「A」に置き換えられるとともに(ステップS11 With be replaced with "A" (step S11
9)、文書実現値文字列変換部41による文書実現値の文字列置換に合わせ、DTD文字列置換部51により、 9), fit the string replacement of document instance by document instance string conversion unit 41, the DTD string substitution unit 51,
DTDに記述された要素名「book」,「title」,「autho The described element name in DTD "book", "title", "autho
r」や属性名「field」がそれぞれ1バイトの短縮文字列「a」,「b」,「c」,「A」に置き換えられる(ステップS120)。 r "and the attribute name" field "to shorten the string of each 1-byte" a "is replaced with" b "," c "," A "(step S120).

【0193】これにより、例えば図23(A)に示すX [0193] Thus, for example, X, shown in Fig. 23 (A)
ML文書は、図23(B)に示すようなXML文書に置換・圧縮されてから、圧縮文書として文書記憶部10等へ出力・格納される(ステップS129)。 ML document, after being replaced and compressing the XML document shown in FIG. 23 (B), is output and stored to the document storage section 10 such as a compressed document (step S129). 図23 Figure 23
(B)に示すXML文書において、1および7行目の記述は圧縮前と変わらないが、2〜6および8〜11行目における要素名「book」,「title」,「author」や属性名「field」がそれぞれ1バイトの置換文字「a」, In XML document (B), the but rows 1 and 7 of the description is not the same as before compression, element names in 2-6 and 8-11 line "book", "title", "author" and attribute names "field" is one byte substitution character "a",
「b」,「c」,「A」に置換される。 "B", "c" is replaced with "A".

【0194】図24(A)〜図24(G)はいずれも第2実施形態によるXML文書の具体的な圧縮処理(第5 [0194] Figure 24 (A) ~ FIG 24 (G) concrete compression processing of XML documents according to the second embodiment both (Fifth
例)を説明するための図である。 Example) is a diagram for explaining the. 図24(A)に示す圧縮前のXML文書は、パターンのXML文書であり、 XML document before compression shown in FIG. 24 (A) is an XML document of the pattern,
図13(A)に示したものとほぼ同じである。 It is substantially the same as that shown in FIG. 13 (A). ただし、 However,
図24(A)に示すXML文書では、要素「author」の属性「year」についての記述が省略されている。 In the XML document shown in FIG. 24 (A), description of the attribute "year" of the element "author" is omitted. つまり、DTDにおいて、属性「year」についての属性リスト宣言が省略されるとともに、要素「author」の開始タグ内における属性記述が省略されている。 That is, in DTD, together with attribute list declaration for the attribute "year" is omitted, attribute description in the start tag of the element "author" is omitted.

【0195】2行目のDTDの文書型宣言では、システム識別子“SYSTEM”により、外部ファイル100 [0195] In the document type declaration of the second line of the DTD, by the system identifier "SYSTEM", an external file 100
に保持されたDTD(ファイル名「..\book.dtd」)を用いることが宣言・定義されている。 Has been declared, definition is possible to use a DTD, which is held in (file name ".. \ book.dtd"). そして、ファイル名「..\book.dtd」のDTDは、図24(A)における文書実現値の構成に対応して、図24(B)に示すように記述されている。 Then, DTD file name ".. \ book.dtd", corresponding to the configuration of the document instance in FIG. 24 (A), is described as shown in FIG. 24 (B). この図24(B)に示すDTD(1 DTD shown in FIG. 24 (B) (1
〜4行目)は、図4(A)に示したDTDにおける2〜 To 4 line) is 2 in the DTD shown in FIG. 4 (A)
5行目の記述例と同一であるので、その説明は省略する。 Since 5 line description example and are identical, a description thereof will be omitted.

【0196】図24(A)に示すXML文書(パターン)には、“<!DOCTYPE”は記述されているが、その後には“[”が記述されることなく、外部ファイル100におけるDTDを指定するシステム識別子が記述されているので、処理はステップS113のNOルートからステップS121へ移行し、文書実現値解析部20によって文書実現値のタグ内の記述が解析されるとともに、DTD解析部30によって、システム識別子に従って外部ファイル100から読み込まれたDTD(ファイル名「..\book.dtd」)の記述が解析される(ステップS122)。 [0196] The XML document (pattern) shown in FIG. 24 (A) is, "<! DOCTYPE" is being written, then the "[" is without being described, specifies the DTD in the external file 100 because the system identifier is written, the process proceeds from NO route of step S113 to step S121, along with a description of the tag of document instance is analyzed by document instance analyzer 20, the DTD analyzer 30 , description of the DTD that is loaded from an external file 100 (file name ".. \ book.dtd") is analyzed in accordance with the system identifier (step S122).

【0197】このとき、タグ辞書作成部80により、図24(E)に示すような、要素名のためのタグ辞書90 [0197] At this time, by the tag dictionary creation unit 80, as shown in FIG. 24 (E), tag dictionaries for element name 90
と、図24(F)に示すような、属性名のためのタグ辞書90とが登録・作成される。 When, as shown in FIG. 24 (F), and the tag dictionary 90 is created registration and for the attribute name. ここで、図24(E)に示すタグ辞書90は、図20(C)に示すものと同じであり、図24(F)に示すタグ辞書90は、図23 Here, the tag dictionary 90 shown in FIG. 24 (E) is the same as that shown in FIG. 20 (C), tag dictionary 90 shown in FIG. 24 (F) is 23
(D)に示すものと同じである。 Is the same as that shown in (D).

【0198】この後、図24(B)に示すDTDを変更・圧縮して得られる新規のDTDのために、元のファイル名とは異なる新規のファイル名(例えば「..\book2.d [0198] After this, because of the new DTD obtained by change and compressing the DTD shown in FIG. 24 (B), a new file name that is different from the original file name (for example ".. \ book2.d
td」)を設定して文書実現値に記入することにより、文書実現値における文書型宣言のシステム識別子“SYS By filling in document instance by setting td "), system identifier of the document type declaration in document instance" SYS
TEM”により指定されるファイル名を、旧ファイル名「..\book.dtd」から、新規ファイル名「..\book2.dt The file name that is specified by the TEM ", from the old file name" .. \ book.dtd ", the new file name" .. \ book2.dt
d」に書き換える。 Rewritten to d ".

【0199】そして、図24(E)および図24(F) [0199] Then, as shown in FIG. 24 (E) and FIG. 24 (F)
に示すタグ辞書90を用い、文書実現値文字列置換部4 Using a tag dictionary 90 shown in, document instance string replacement section 4
1により、文書実現値のタグ内に記述された要素名「bo The 1, the described element name in the tag of document instance "bo
ok」,「title」,「author」や属性名「field」がそれぞれ1バイトの短縮文字列「a」,「b」,「c」, ok "," title "," author "and the attribute name" field "to shorten the string of each 1-byte" a "," b "," c ",
「A」に置き換えられる(ステップS124)。 It is replaced with "A" (step S124).

【0200】これにより、図24(A)に示すXML文書は、図24(C)に示すようなXML文書に置換・圧縮される。 [0200] Accordingly, the XML document shown in FIG. 24 (A) is replaced, compressed XML document shown in FIG. 24 (C). 図13(C)に示すXML文書において、1 In the XML document shown in FIG. 13 (C), 1
行目の記述は圧縮前と変わらないが、2行目のシステム識別子“SYSTEM”により指定されるファイル名が新規ファイル名「..\book2.dtd」となるとともに、2〜 Although row of the description is not the same as before compression, along with the file name specified by the system identifier "SYSTEM" on the second line becomes the new file name ".. \ book2.dtd", 2
6行目における要素名「book」,「title」,「author」 Element name in the sixth line "book", "title", "author"
や属性名「field」がそれぞれ1バイトの置換文字「a」,「b」,「c」,「A」に置換される。 And attribute name "field" is one byte substitution character "a" is replaced with "b", "c", "A".

【0201】ついで、新規DTDファイル作成部60により、新規のDTDファイルを作成し、そのDTDファイルに、外部ファイル100から読み込んだ圧縮前のD [0201] Then, the new DTD file creation section 60, to create a new DTD file, in the DTD file, D before compression read from an external file 100
TDファイルの内容を複写してから(ステップS12 From then copy the contents of the TD file (step S12
5)、文書実現値文字列変換部41による文書実現値の文字列置換に合わせ、DTD文字列置換部51により、 5) match the string replacement of document instance by document instance string conversion unit 41, the DTD string substitution unit 51,
DTDに記述された要素名「book」,「title」,「autho The described element name in DTD "book", "title", "autho
r」や属性名「field」がそれぞれ1バイトの短縮文字列「a」,「b」,「c」,「A」に置き換えられる(ステップS126)。 r "and the attribute name" field "to shorten the string of each 1-byte" a "is replaced with" b "," c "," A "(step S126).

【0202】これにより、図24(B)に示すDTD [0202] Thus, DTD that shown in FIG. 24 (B)
は、図24(D)に示すようなDTDに変更・圧縮される。 It is changed and compressing the DTD shown in FIG. 24 (D). 図24(D)に示すDTDでは、1〜4行目における要素名「book」,「title」,「author」や属性名「fie In DTD illustrated in FIG. 24 (D), element name in the fourth row "book", "title", "author" and the attribute name "fie
ld」がそれぞれ1バイトの文字列「a」,「b」, ld "each one-byte character string" a "," b ",
「c」,「A」に置換される。 It is replaced with "c", "A". そして、DTD文字列置換部51で置換・圧縮されたDTDのファイル(新規D Then, DTD files substituted-compressed DTD string substitution unit 51 (New D
TDファイル)は、新規のファイル名「..\book2.dtd」 TD file), the new file name ".. \ book2.dtd"
を付与されて、新規DTDファイル作成部60から外部ファイル100へ出力・格納される(ステップS12 The granted, it is outputted and stored from the new DTD file creation unit 60 to an external file 100 (step S12
7)。 7).

【0203】また、新旧DTD対応表出力部70によって、旧DTDと新規DTDとの対応関係(具体的には旧ファイル名と新規ファイル名との対応関係)を明記した新旧DTD対応表が、図24(G)に示すように作成されて、文書記憶部10等へ出力・格納されるとともに(ステップS128)、ステップS124において置換・圧縮されたXML文書は、圧縮文書として文書記憶部10等へ出力・格納される(ステップS129)。 [0203] Further, the new and old DTD correspondence table output unit 70, old and new DTD correspondence table as specified the association between the old DTD and the new DTD (specifically, association between the old file name and a new file name), Fig. 24 is created as shown in (G), (step S128) is outputted and stored to the document storage section 10 or the like, XML documents substituted-compressed in step S124 is the document memory unit 10 such as a compressed document outputted and stored (step S129). その際、タグ辞書90や新旧DTD対応表は、独立したファイルではなく、圧縮文書に注釈の形で付加してもよい。 At that time, the tag dictionary 90 and new and old DTD correspondence table is not a separate file, may be added in the form of an annotation to the compressed document.

【0204】さて、次に、図17および図18を参照しながら、第2実施形態の圧縮装置を構成する文書実現値文字列置換部41およびDTD文字列置換部51の動作について説明する。 [0204] Now, then, with reference to FIGS. 17 and 18, the operation of the document instance string substitution unit 41 and the DTD string substitution unit 51 constituting the compression apparatus of the second embodiment. まず、図17に示すフローチャート(ステップS151〜S158)に従って、第2実施形態の文書実現値文字列置換部41による置換手順について説明すると、文書実現値文字列置換部41は、まず、 First, according to the flowchart (step S151~S158) shown in FIG. 17, to explain substitution procedure by document instance string substitution unit 41 of the second embodiment, document instance string substitution unit 41 first
タグ辞書作成部80で得られたタグ辞書90を入力してから(ステップS151)、第1実施形態の文書実現値解析部20と同様にして(図6のステップS31〜S3 Enter the tag dictionary 90 obtained in the tag dictionary creating unit 80 (step S151), similarly to document instance analyzer 20 of the first embodiment (step of FIG. 6 S31~S3
4参照)、文書実現値における開始タグおよび終了タグを判別し(ステップS152〜S155)、それらのタグ中の要素名,属性名を、タグ辞書90を用いて置換する(ステップS156〜S158)。 4 reference), to determine the start and end tags in document instance (step S152~S155), element name in those tags, the attribute name is replaced with a tag dictionary 90 (step S156~S158).

【0205】つまり、圧縮対象の文書実現値を最後まで走査したか否かを判断しながら(ステップS152)、 [0205] That is, while determining whether the scanned document instance to be compressed to the end (step S152),
文書実現値を走査し(ステップS153)、文書実現値の記述を先頭から順次認識し、“<”が記述されているか否かを調べていく(ステップS154)。 Scanning a document instance (step S153), sequentially recognizing from the beginning a description of the document instance, "<" is to find out whether it is written (step S154). なお、 It should be noted that,
“<”は、XMLの仕様上、文書実現値の内容には記述されない。 "<" Is, on the XML specification, the contents of the document instance not be described.

【0206】文書実現値の記述として“<”が検出された場合(ステップS154のYESルート)、“<”に続く1バイトの記述に基づいて、この“<”で始まるタグが開始タグか終了タグかを判定する(ステップS15 [0206] As described in the document instance "<" If is detected (YES route of step S154), "<" on the basis of a 1-byte description that follows, the "<" or terminated tag start tag starting with determines whether the tag (step S15
5)。 5). その判定は、“<”に続く記述が“/”であるか否かによって行なわれる。 The determination is "<" followed description is made on whether or not a "/". 即ち、“<”に続く記述が“/”である場合、そのタグは終了タグであると判定され、“<”に続く記述が“/”ではない場合、そのタグは開始タグであると判定される。 That is, when a "<" followed description "/", the tag is determined to be an end tag "<" if the subsequent description "/" not, and the tag is a start tag determination It is.

【0207】開始タグの場合(ステップS155のYE [0207] In the case of the start tag (step S155 YE
Sルート)、タグ辞書90を参照して、その開始タグ内に記述されている要素名を、対応する短縮文字列に置き換える(ステップS156)。 S route), with reference to the tag dictionary 90, replaces the element name described in the start tag, the corresponding abbreviated character string (step S156). また、その開始タグ内に属性名が記述されている場合には、その属性名についても、タグ辞書90を参照して、対応する短縮文字列に置き換える(ステップS157)。 Also, if the attribute name is described includes within its start tag, also the attribute name, with reference to the tag dictionary 90 is replaced with a corresponding shortened string (step S157). なお、開始タグ内には、属性名が記述されていない場合には、ステップS1 Incidentally, in the start tag, if the attribute name is not described, step S1
57の処理は省略される。 Processing of 57 is omitted. このような置換処理をを終了した後は、ステップS152へ戻る。 After completion of such a replacement process returns to step S152.

【0208】一方、終了タグの場合(ステップS155 [0208] On the other hand, in the case of the end tag (step S155
のNOルート)、タグ辞書90を参照して、その終了タグ内に記述されている要素名を、対応する短縮文字列に置き換えてから(ステップS158)、ステップS15 NO route) of, referring to the tag dictionary 90, the element name described in the end tag, after substituting the corresponding shortened string (step S158), step S15
2へ戻る。 Back to 2. そして、ステップS152において、圧縮対象の文書実現値を最後まで走査したと判定された場合(YESルート)、処理を終了する。 Then, in step S152, if it is determined that the scanned document instance to be compressed to the end (YES route), the processing ends.

【0209】図18に示すフローチャート(ステップS [0209] the flow chart shown in FIG. 18 (step S
161〜S170)に従って、第2実施形態のDTD文字列置換部51による置換手順について説明すると、D According 161~S170), will be described. Replacement procedure by DTD string substitution unit 51 of the second embodiment, D
TD文字列置換部51は、まず、タグ辞書作成部80で得られたタグ辞書90を入力してから(ステップS16 TD string substitution unit 51 first, enter the tag dictionary 90 obtained in the tag dictionary creating unit 80 (step S16
1)、圧縮対象のDTDを最後まで走査したか否かを判断しながら(ステップS162)、DTDを走査し(ステップS163)、要素型宣言、即ち“<!ELEME 1), while it is determined whether scanning the DTD to be compressed to the end (step S162), it scans the DTD (step S163), the element type declaration, namely "<! ELEME
NT”が記述されているか否かを調べていく(ステップS164)。 NT "is to find out whether it is written (step S164).

【0210】ステップS164で“<!ELEMEN [0210] In step S164 "<! ELEMEN
T”が検出された場合(YESルート)、タグ辞書90 If T "is detected (YES route), the tag dictionary 90
を参照して、その要素型宣言内の要素名を、対応する短縮文字列に置き換えてから(ステップS165)、その要素型宣言内に記述された内容モデルを検出し(ステップS166)、その内容モデルに子の要素名が記述されている場合には、タグ辞書90を参照してその要素名についても、対応する短縮文字列に置き換える(ステップS167)。 See, the element names within the element type declaration, the corresponding abbreviated character (step S165) after substituting the column, detects the content model described in the element type declaration (step S166), the contents of If the element name of the child model is described, with reference to the tag dictionary 90 for even the element name is replaced with the corresponding shortened string (step S167). なお、内容モデルの記述が無い場合や、内容モデルに子の要素名が記述されていない場合には、ステップS167の処理は省略される。 Incidentally, and if the description of the content model is not, if the element name of the child to the content model is not described, the processing of step S167 is omitted.

【0211】この後、属性リスト宣言、つまり“<!A [0211] After this, attribute list declaration, ie "<! A
TTLIST”が記述されているか否かを調べる(ステップS168)。ステップS168で“<!ATTLI TTLIST "to examine whether or not it is described in (step S168). Step S168" <! ATTLI
ST”が検出された場合(YESルート)、タグ辞書9 If the ST "is detected (YES route), the tag dictionary 9
0を参照して、その属性リスト宣言内の要素名を、対応する短縮文字列に置き換えるとともに(ステップS16 0 See, the element name of the attribute list declaration is replaced with the corresponding shortened string (step S16
9)、その属性リスト宣言内の属性名を、対応する短縮文字列に置き換えてから(ステップS170)、ステップS162へ戻る。 9), the attribute name of the attribute list in the declaration, since replaced by the corresponding reduced character string (step S170), the flow returns to step S162.

【0212】なお、ステップS164で要素型宣言が記述されていないと判断された場合(NOルート)や、ステップS168で属性リスト宣言が記述されていないと判断された場合(NOルート)には、ステップS162 [0212] Incidentally, when an element type declaration is determined not to be written in step S164 (NO route), or if the attribute list declaration is determined not to be written in step S168 (NO route), step S162
へ戻る。 To return. そして、ステップS152において、圧縮対象の文書実現値を最後まで走査したと判定された場合(Y Then, in step S152, if the document instance to be compressed is determined that the scan to the end (Y
ESルート)、処理を終了する。 ES root), the process is terminated.

【0213】ところで、前述したように、第2実施形態では、短縮文字列に置換されたXML文書の記述を元の状態に伸長・復元させるための伸長装置(図示省略)がそなえられている。 [0213] Incidentally, as described above, in the second embodiment, extension device for extending and restored the description of the XML document which is substituted in the shorter string to the original state (not shown) are provided. この伸長装置を構成する前記文字実現値文字列逆置換手段および前記DTD文字列逆置換手段は、それぞれ、文字実現値文字列置換部41やDTD The character realization string reverse replacement section and the DTD string reverse replacement section constituting the extension device, respectively, and character realization string substitution unit 41 DTD
文字列置換部51と同様、図17および図18に示すフローチャートに従って逆置換処理を行なうものである。 Similarly the string substitution unit 51, and performs the inverse substitution process according to the flowchart shown in FIGS. 17 and 18.
ただし、その逆置換処理では、図17のステップS15 However, in the reverse replacement process, step S15 in FIG. 17
6〜S158および図18のステップS165,S16 Step S165 of 6~S158 and FIG 18, S16
7,S169およびS170における文字列変換方向が逆方向になる。 7, the string conversion direction is in the opposite direction in S169 and S170.

【0214】次に、図19に示すフローチャート(ステップS131〜S142)に従って、第2実施形態における構造化文書の伸長手順、つまり上述した伸長装置による逆置換手順について説明する。 [0214] Next, according to the flowchart (step S131~S142) shown in FIG. 19, the procedure of extending the structured document in the second embodiment, that is, the reverse replacement procedure by the above-described decompression apparatus. なお、第2実施形態の伸長装置にも、伸長すべき圧縮文書がパターン〜 Even in the extended device of the second embodiment, the compressed document to be extended pattern -
のいずれのものであるからを認識するためのパターン認識機能がそなえられている。 Pattern recognition function for recognizing since it is one of the ones are provided. このパターン認識機能による処理は、図19に示すステップS133〜S135による処理に対応している。 Processing by the pattern recognition corresponds to the processing in step S133~S135 of FIG. 19.

【0215】まず、伸長対象の圧縮文書が入力されるとともに(ステップS131)、圧縮処理時に作成されたタグ辞書90が入力されると(ステップS132)、その圧縮文書に“<!DOCTYPE”が記述されているか否かを判定し(ステップS133)、記述されていない場合(ステップS133のNOルート)、その圧縮文書はDTDをもたない整形式XML文書、つまりパターンのXML文書であると認識され、後述するごとくステップS136およびS142が実行される。 [0215] First of all, together with the compressed document of expansion target is input (step S131), the tag dictionary 90 that was created during the compression process is input (step S132), in the compressed document "<! DOCTYPE" is a description It determines whether it is (step S133), if that is not described (nO route of step S133), the compressed document is recognized well-formed XML document without a DTD, i.e. as a pattern XML document , step S136 and S142 are executed as described below.

【0216】圧縮文書に“<!DOCTYPE”が記述されている場合(ステップS133のYESルート)、 [0216] in the compressed document when the "<! DOCTYPE" is described (YES route of step S133),
その後に“[”が記述されているか否かを判定する(ステップS134)。 Then "[" determines whether it is written (step S134). “<!DOCTYPE”は記述されているが“[”が記述されていない場合(ステップS1 If "<! DOCTYPE" but has been described that has not been written is "[" (step S1
34のNOルート)、その圧縮文書は、DTDを外部ファイル100として有する検証済みXML文書、つまりパターンのXML文書であると認識され、後述するごとくステップS139〜S142が実行される。 34 NO route), the compressed document, validated XML document with DTD as an external file 100, i.e. is recognized as an XML document of the pattern, the step S139~S142 are performed as will be described later.

【0217】“[”が記述されている場合(ステップS [0217] If "the [" have been described (step S
134のYESルート)、“<!ELEMENT”(もしくは“<!ATTLIST”)が記述されているか否かを判定する(ステップS135)。 134 YES route), "<! ELEMENT" (or "<! ATTLIST") determines whether or not described (step S135). “<!DOCTY "<! DOCTY
PE”および“[”は記述されているが“<!ELEME PE "and" [ "it is described" <! ELEME
NT”が記述されていない場合(ステップS135のN If the NT "is not described (N in step S135
Oルート)、その圧縮文書は、内部または外部への実体宣言を含むDTDを有する整形式XML文書、つまりパターンまたはのXML文書であると認識され、パターンの場合と同様、ステップS136およびS142 O route), the compressed document, well-formed XML document with DTD containing entity declaration to internal or external, is recognized as an That pattern or XML document, as in the case of the pattern, the step S136 and S142
が実行される。 There is executed.

【0218】“<!DOCTYPE”,“[”および“< [0218] "<! DOCTYPE", "[" and "<
!ELEMENT”がいずれも記述されている場合(ステップS135のYESルート)、その圧縮文書は、X ! If ELEMENT "is described neither (YES route of step S135), the compressed document, X
ML文書内にDTDを有する検証済みXML文書、つまりパターンのXML文書であると認識され、ステップS137,S138およびS142が実行される。 Validated XML document having a DTD into ML document, i.e. is recognized as an XML document of the pattern, the step S137, S138 and S142 are executed. 以下、各パターン〜に対する伸長処理について、図2 Hereinafter, the decompression processing for each pattern ~ 2
0〜図24に示す具体例(第1例〜第5例)を参照しながら説明する。 With reference to a specific example shown in 0 Figure 24 (first example to fifth example) will be described.

【0219】伸長対象の圧縮文書が図20(B)に示すようなパターンの圧縮XML文書である場合、その文書には“<!DOCTYPE”が記述されていないので、処理はステップS133のNOルートからステップS136へ移行し、図20(C)に示すタグ辞書90を用いて、前記文書実現値文字列逆置換手段により、文書実現値のタグ内に記述された1バイトの短縮文字列「a」,「b」,「c」が、それぞれ元の要素名「boo [0219] When compressed document extension subject is the pattern compression XML document shown in FIG. 20 (B), so that the document "<! DOCTYPE" is not described, the process NO route of step S133 proceeds from to step S136, by using the tag dictionary 90 shown in FIG. 20 (C), by the document instance string inverse permutation unit, shortening the string of 1 byte written into the tag of the document instance "a "," b "," c ", each source of the element name" boo
k」,「title」,「author」に逆置換される。 k ", is reverse replacement to the" title "," author ". これにより、例えば図20(B)に示す圧縮XML文書は、図2 Thus, for example, compressed XML document shown in FIG. 20 (B) 2
0(A)に示すようなXML文書に逆置換・伸長され、 0 is reverse replacement and expansion in the XML document as (A), the
伸長文書として文書記憶部10等へ出力・格納される(ステップS142)。 It is output and stored to the document storage section 10 such as elongation document (step S142).

【0220】伸長対象の圧縮文書が図21(B)に示すようなパターンの圧縮XML文書である場合、その文書には、“<!DOCTYPE”および“[”がいずれも記述されているが、“<!ELEMENT”や“<!AT [0220] When compressed document extension object is a compressed XML document pattern as shown in FIG. 21 (B), the document, "<! DOCTYPE" and "[" but is described either, "<! ELEMENT" Ya "<! AT
TLIST”が記述されていないので、処理はステップS135のNOルートからステップS136へ移行し、 Since TLIST "is not described, the processing proceeds from NO route of step S135 to step S136,
図21(C)に示すタグ辞書90を用いて、前記文書実現値文字列逆置換手段により、文書実現値のタグ内に記述された1バイトの短縮文字列「a」,「b」,「c」 Using tag dictionary 90 shown in FIG. 21 (C), by the document instance string inverse permutation unit, shortening the string of 1 byte written into the tag of the document instance "a", "b", " c "
が、それぞれ元の要素名「book」,「title」,「autho There, each source of the element name "book", "title", "autho
r」に逆置換される。 Is reverse replacement to r ". これにより、例えば図21(B) Thus, for example, FIG. 21 (B)
に示す圧縮XML文書は、図21(A)に示すようなX Compressed XML document shown in the, X as shown in FIG. 21 (A)
ML文書に逆置換・伸長され、伸長文書として文書記憶部10等へ出力・格納される(ステップS142)。 Is reverse replacement and expansion in the ML document is output and stored to the document storage section 10 such as elongation document (step S142).

【0221】伸長対象の圧縮文書が図22(B)に示すようなパターンの圧縮XML文書である場合、その文書には、パターンと同様、“<!DOCTYPE”および“[”がいずれも記述されているが、“<!ELEM [0221] When compressed document extension object is a compressed XML document pattern as shown in FIG. 22 (B), in that document the same as the pattern, "<! DOCTYPE" and "[" are both written and that but, "<! ELEM
ENT”や“<!ATTLIST”が記述されていないので、処理はステップS135のNOルートからステップS136へ移行し、前述したパターンやの圧縮X Since ENT "Ya" <! ATTLIST "is not described, the process proceeds from the NO route of step S135 to step S136, compression X of the pattern and the above-mentioned
ML文書と同様の処理が実行される。 Same processing as ML document is executed.

【0222】つまり、図22(C)に示すタグ辞書90 [0222] That is, the tag dictionary 90 shown in FIG. 22 (C)
を用いて、前記文書実現値文字列逆置換手段により、文書実現値のタグ内に記述された1バイトの短縮文字列「a」,「b」,「c」が、それぞれ元の要素名「boo Using, by the document instance string inverse permutation unit, shortening the string of 1 byte written into the tag of the document instance "a", "b", "c", respectively original element name " boo
k」,「title」,「author」に逆置換される。 k ", is reverse replacement to the" title "," author ". これにより、例えば図22(B)に示す圧縮XML文書は、図2 Thus, for example, compressed XML document shown in FIG. 22 (B) 2
2(A)に示すようなXML文書に逆置換・伸長され、 Is reverse replacement and expansion in the XML document shown in 2 (A),
伸長文書として文書記憶部10等へ出力・格納される(ステップS142)。 It is output and stored to the document storage section 10 such as elongation document (step S142).

【0223】伸長対象の圧縮文書が図23(B)に示すようなパターンの圧縮XML文書である場合、その文書には、 “<!DOCTYPE”および“[”が記述されるとともに“<!ELEMENT”または“<!ATT [0223] When compressed document extension subject is the pattern compression XML document shown in FIG. 23 (B), the document, "<! DOCTYPE" and "[" "together is described <! ELEMENT "or" <! ATT
LIST”も記述されているので、処理はステップS1 Since LIST "is also described, the process steps S1
35のYESルートからステップS137へ移行し、図23(C)および図23(D)に示すタグ辞書90を用いて、前記文書実現値文字列逆置換手段により、文書実現値のタグ内に記述された1バイトの短縮文字列「a」,「b」,「c」や「A」が、それぞれ元の要素名「book」,「title」,「author」や属性名「field」に逆置換される。 Transition from 35 YES route to step S137, by using the tag dictionary 90 shown in FIG. 23 (C) and FIG. 23 (D), by the document instance string inverse permutation unit, described in the tag of document instance 1 byte shorter character string "a" that is, "b", "c" and "a", each source element name "book", "title", reverse replacement to the "author" and the attribute name "field" It is.

【0224】さらに、図23(C)および図23(D) [0224] Further, FIG. 23 (C) and FIG. 23 (D)
に示すタグ辞書90を用いて、前記DTD文字列逆置換手段により、DTDに記述された1バイトの短縮文字列「a」,「b」,「c」や「A」が、それぞれ元の要素名「book」,「title」,「author」や属性名「field」に逆置換される(ステップS138)。 Using tag dictionary 90 shown in, the by DTD string inverse permutation unit, shortening the string of 1 byte which is described in a DTD "a", "b", "c" and "A", each source element the name "book", "title", is reverse replacement to the "author" and the attribute name "field" (step S138). これにより、例えば図23(B)に示す圧縮XML文書は、図23(A) Thus, compression XML document shown in FIG. 23 (B) for example, FIG. 23 (A)
に示すようなXML文書に逆置換・伸長され、伸長文書として文書記憶部10等へ出力・格納される(ステップS142)。 Is reverse replacement and expansion in the XML document shown in, is output and stored to the document storage section 10 such as elongation document (step S142).

【0225】伸長対象の圧縮文書が図24(C)に示すようなパターンの圧縮XML文書である場合、その文書には、“<!DOCTYPE”は記述されているが、 [0225] When compressed document extension subject is the pattern compression XML document shown in FIG. 24 (C), the document, the "<! DOCTYPE" is described,
その後には“[”が記述されることなく、外部ファイル100におけるDTDを指定するシステム識別子が記述されているので、処理はステップS134のNOルートからステップS139へ移行し、図24(G)に示す新旧DTD表を入力してから、その新旧DTD表に従って、文書実現値における文書型宣言のシステム識別子“SYSTEM”により指定されるファイル名を、「.. Then the "[" without being description, because the system identifier that specifies a DTD is written in the external file 100, the process proceeds from NO route of step S134 to step S139, in FIG. 24 (G) enter the old and new DTD tables showing, according to the old and new DTD table, the file name specified by the system identifier "sYSTEM" document type declaration in document instance, "..
\book2.dtd」から元のファイル名「..\book.dtd」に書き換える(ステップS140)。 \ Book2.dtd "rewrite the original file name" .. \ book.dtd "from (step S140).

【0226】そして、図24(E)および図24(F) [0226] Then, as shown in FIG. 24 (E) and FIG. 24 (F)
に示すタグ辞書90を用いて、前記文書実現値文字列逆置換手段により、文書実現値のタグ内に記述された1バイトの短縮文字列「a」,「b」,「c」や「A」が、 Using tag dictionary 90 shown in, by the document instance string inverse permutation unit, shortening the string of 1 byte written into the tag of the document instance "a", "b", "c" and "A "But,
それぞれ元の要素名「book」,「title」,「author」や属性名「field」に逆置換される。 Each source of the element name "book", "title", is reverse replacement to the "author" and the attribute name "field". これにより、例えば図24(C)に示す圧縮XML文書は、図24(A)に示すようなXML文書に逆置換・伸長され、伸長文書として文書記憶部10等へ出力・格納される(ステップS Thus, compression XML document shown in FIG. 24 (C) for example, is reverse replacement and expansion in the XML document shown in FIG. 24 (A), (step output and stored to the document storage section 10 such as elongation document S
142)。 142).

【0227】このとき、ファイル名「..\book.dtd」のDTD、つまり図24(B)に示すDTDは外部ファイル100に保存されているので、図24(D)に示す圧縮DTDを前記DTD文字列逆置換手段により逆置換・ [0227] At this time, since the DTD of the file name ".. \ book.dtd", the DTD shown in other words Fig. 24 (B) are stored in an external file 100, the compression DTD shown in Fig. 24 (D) Conversely replaced by a DTD string inverse permutation means -
伸長して、図24(B)に示すDTDを得る必要はない。 Elongating is not necessary to obtain the DTD shown in FIG. 24 (B).

【0228】このように、本発明の第2実施形態によれば、文書実現値のタグ内やDTDの記述を解析し、その解析結果に従ってタグ辞書90を作成し、そのタグ辞書90を用いて、文書実現値のタグ内やDTDに記述された文字列を短縮文字列(1または2バイトの置換文字) [0228] Thus, according to the second embodiment of the present invention, analyzes the tag or DTD DESCRIPTION document instance, to create a tag dictionary 90 in accordance with the analysis result, using the tag dictionary 90 , shorten the character string described in tag or DTD of document instance string (1 or 2-byte substitution character)
に置き換えることにより、XML文書の特徴や構造を損なうことなくタグ内やDTDの文字列が圧縮されるので、XML文書の圧縮率を大幅に高めることができ、ひいては、大規模なデータベースを取り扱うシステムにおいて文書データの格納効率を大幅に高めることができる。 By replacing, because tag or DTD string is compressed without impairing the characteristics and structure of XML documents, it is possible to greatly increase the compression ratio of the XML document, thus, handling large database system it can greatly increase the storage efficiency of the document data in.

【0229】このとき、タグ内やDTDに記述された要素名および属性名を短縮文字列に置き換えることにより、検索可能な状態に保持したままタグ部分やDTDを圧縮することができる。 [0229] In this case, by replacing described tag and DTD element names and attribute names in the shortened character string, it is possible to compress the tag portion and DTD while holding searchable state. つまり、要素名および属性名について置換を行なうとともにタグ辞書90を保持し、属性値は元の形のまま保持することで、文書データを伸長することなく圧縮した状態のままで検索や文書構造の把握を行なえるようになっている。 That, along with the replacement for the element names and attribute names holds tag dictionary 90, the value of the attribute that holds its original form, search and document structure remains compressed state without extending the document data It has become so perform a grasp.

【0230】従って、圧縮後にXML文書の構造を解析して検索を行なう際に、圧縮されたXML文書の伸長を行なう必要がなく、大規模なデータベースにおいて文書データを圧縮格納しても、その文書データの検索処理等を短時間で行なうことができる。 [0230] Therefore, when performing a search by analyzing the structure of an XML document after compression, decompression is not necessary to perform the compressed XML document, be compressed storing document data in a large database, the document Search processing of data can be performed in a short time.

【0231】属性名と属性値とはそれぞれ検索の対象となり得るため、属性名と属性値との両方を一体的に圧縮している場合、伸長・復元を行なわない限り検索を行なうことができなくなる。 [0231] Since the attribute names and values ​​obtained respectively included in the search, if compressed integrally both the attribute name and attribute value, it is impossible to search unless the extension and restoration . そこで、第2実施形態では、属性名のみを短縮文字列に置換して圧縮を行ない、属性値は元の形のままとしておくことにより、ブラウザなどの応用ソフトウェアにおいては、圧縮文書の伸長処理を行なうことなく、タグ辞書90を参照しながら圧縮文書内のデータの検索を行なうことができる。 Therefore, in the second embodiment performs compression by replacing only the attribute name to shorten strings by the attribute value to keep the intact form, in the application software such as a browser, the decompression process of the compressed document without performing, with reference to the tag dictionary 90 can perform a search for data in the compressed document.

【0232】〔3〕第3実施形態の説明 次に、本発明の第3実施形態について説明する。 [0232] [3] Description of Third Embodiment Next, a description of a third embodiment of the present invention. 本発明の第3実施形態では、第2実施形態と同様、図30 In the third embodiment of the present invention, similarly to the second embodiment, FIG. 30
(A)に示すごとく、圧縮前のXML文書において、 As (A), in the XML document before compression,
“<”と“>”とで囲まれた領域(DTDの宣言文や、 "<" And ">" and the area (DTD of the declaration and that was surrounded by the,
文書実現値における開始タグおよび終了タグ)に記述された文字列を、図30(C)に示すようなタグ辞書を使用して、短縮文字列(置換文字)に変換して圧縮する。 A character string described in the start tag and end tag) at document instance, using the tag dictionary as shown in FIG. 30 (C), is compressed by converting the shortened string (replacement character).
このような圧縮を行なった場合、圧縮後のXML文書には、“<”および“>”を用いた記述形式は保存されたままであり、圧縮後も、XML文書としての特徴や構造は損なわれることはない。 If you make such a compression, the XML document after compression, description format using "<" and ">" remains stored, after compression also features and structure of the XML document is compromised it is not.

【0233】また、第3実施形態では、平文の記述に用いられる言語の種類を識別した上で、該当する言語の辞書(単語辞書)、例えば図30(D)に示すような日本語辞書を選択し、平文を成す単語を、最長一致法(long [0233] In the third embodiment, after identifying the type of language used to describe the plaintext, the appropriate language dictionary (word dictionary), such as Japanese dictionary as shown in FIG. 30 (D) selected, the words constituting the plaintext, the longest match method (long
est match)で固定バイト長の短縮文字列(単語番号) est match) at a fixed byte length of the shortened string (word number)
に変換する。 To convert to. ここで、平文とは、開始タグと終了タグとの間に記述された内容のことをいう。 Here, plaintext refers to a content described in between the start and end tags.

【0234】このようにして、例えば図30(A)に示すような圧縮前のXML文書を、図30(B)に示すようなXML文書に変換・圧縮することができる。 [0234] Thus, for example, the XML document before compression as shown in FIG. 30 (A), can be converted, compressed XML document shown in FIG. 30 (B). なお、 It should be noted that,
第3,4実施形態では、言語の種別は、例えば日本語, In third and fourth embodiments, the type of language, such as Japanese,
英語,中国語の3種類の中から識別される。 English, is identified from among the three types of Chinese.

【0235】また、DTDをもたない整形式XML文書(パターン)の場合は、文書実現値におけるタグ内の記述を調べてから、タグ辞書を用いて、タグ内における要素名等の文字列と短縮文字列(置換文字)との対応付けを行なった上で、XML仕様では言語識別用の属性(xml:lang)を見て平文(内容)の言語を識別してその言語に応じた辞書(単語辞書)を選択し、上述と同様の圧縮を行なう。 [0235] Also, if well-formed XML document with no DTD of (patterns), after examining the description of the tag in the document instance, using a tag dictionary, a character string of element names or the like in the tag after having carried out the association between shortened string (replacement character), attributes for language identification in the XML specification (xml: lang) to identify the language of plain text (content) look at the dictionary in accordance with the language ( word dictionary) is selected, performs the similar to the above compression. 第3実施形態の圧縮手法を、DTDをもたない整形式XML文書に適用した場合の具体例については、図32(A)〜図32(D)を参照しながら後述する。 The compression techniques of the third embodiment, the specific example of application to a well-formed XML document with no DTD, described later with reference to FIG. 32 (A) ~ FIG 32 (D).

【0236】以下、図25〜図33を参照しながら、本発明の第3実施形態について説明する。 [0236] Hereinafter, with reference to FIGS. 25 to 33, a description of a third embodiment of the present invention. まず、図30〜 First, as shown in FIG. 30
図33により圧縮前のXML文書が圧縮後にどのようになるのかについて説明する。 XML document before compression will be described how would look like after compression by Figure 33.

【0237】図30(A)〜図30(D)はいずれも第3実施形態によるXML文書(パターン:DTDを内部に記述した検証済みXML文書)の具体的な圧縮処理を説明するための図で、図30(A)はDTDを内蔵記述したXML文書の圧縮前記述例を示し、図30(B) [0237] Figure 30 (A) ~ FIG 30 (D) is also an XML document according to the third embodiment either the: diagram for explaining a specific compression process (pattern describing DTD within validated XML document) in FIG. 30 (a) shows pre-compression description example of an XML document that incorporates describing DTD, FIG 30 (B)
はその圧縮後記述例を示し、図30(C)はその圧縮処理に使用したタグ辞書の登録内容例を示し、図30 Indicates that the compressed description example, FIG. 30 (C) shows an example of the contents registered in the tag dictionary used for the compression process, FIG. 30
(D)はその圧縮処理に使用した日本語辞書の登録内容例を示している。 (D) shows an example of registration content of a Japanese dictionary used for the compression process.

【0238】図31(A)〜図31(G)はいずれも第3実施形態によるXML文書(パターン:別ファイルのDTDを指定して利用するXML文書)の具体的な圧縮処理を説明するための図で、図31(A)は別ファイルに格納されたDTDを参照・利用するXML文書の圧縮前記述例を示し、図31(B)はその別ファイルに格納されたDTDの圧縮前記述例を示し、図31(C)はそのXML文書の圧縮後記述例を示し、図31(D)はそのDTDの圧縮後記述例(新規ファイルのDTD)を示し、図31(E)はその圧縮処理に使用したタグ辞書の登録内容例を示し、図31(F)はその圧縮処理に使用した日本語辞書の登録内容例を示し、図31(G)は新旧DTDの対応関係を保持する対応表の登録内容例を示している。 [0238] Figure 31 (A) ~ FIG 31 (G) XML documents both according to the third embodiment: for describing a specific compression processing (pattern XML documents utilizing specify another file DTD) in the figure, FIG. 31 (a) shows pre-compression description example of an XML document to refer to and use the DTD stored in a separate file, FIG. 31 (B) is compressed prior description of the DTD stored in the separate file an example, FIG. 31 (C) shows a compressed example of description of the XML document, FIG. 31 (D) shows a compressed description example of DTD (DTD new file), FIG. 31 (E) thereof shows an example of registration content of a tag dictionaries used in the compression process, FIG. 31 (F) shows an example of registration content of a Japanese dictionary used for the compression process, FIG. 31 (G) holds the correspondence between the old and new DTD It shows an example of what is registered in the correspondence table.

【0239】図32(A)〜図32(D)はいずれも第3実施形態によるXML文書(パターン:DTDをもたない整形式XML文書)の具体的な圧縮処理を説明するための図で、図32(A)はDTDをもたない整形式XML文書の圧縮前記述例を示し、図32(B)はその圧縮後記述例を示し、図32(C)はその圧縮処理に使用したタグ辞書の登録内容例を示し、図32(D)はその圧縮処理に使用した日本語辞書の登録内容例を示している。 [0239] Figure 32 (A) ~ FIG 32 (D) Any XML document according to the third embodiment: a diagram for explaining a concrete compression processing (pattern no DTD well-formed XML document) FIG 32 (a) shows pre-compression description example of well-formed XML document without a DTD, FIG 32 (B) shows the compressed description example, FIG. 32 (C) was used in the compression process shows an example of registration content of the tag dictionary, FIG. 32 (D) shows an example of registration content of a Japanese dictionary used for the compression process.

【0240】図33は第3実施形態でのXML文書の圧縮手法を説明するための図で、この図33は、XML文書において“<”と“>”とで囲まれた領域に記述された文字列中に、空白(スペース)が存在する場合の、置換文字への変換手法を説明するためのものである。 [0240] Figure 33 is a diagram for explaining a compression technique for XML documents in the third embodiment, FIG. 33 is described in the area surrounded by the a "<" and ">" in the XML document in the string, when the blank (space) are present, it is intended for explaining the transformation approach to replacement character.

【0241】まず、図30(A)〜図30(D)により、DTDを内蔵記述するXML文書に対する圧縮処理について説明する。 [0241] First, FIG. 30 (A) ~ FIG 30 (D), described compression process for the internal describing XML document DTD. 図30(A)に示すごとく、圧縮前のXML文書には、1行目に示すXML宣言、2〜7行目に示すDTD、8〜12行目に示す平文の内容等が種々の記号とともに記入されている。 As shown in FIG. 30 (A), the XML document before compression, XML declaration that indicates the first line, DTD illustrated in 2-7 line, like the contents of the plaintext shown in 8-12 row with a variety of symbols It is entered.

【0242】図30(A)において、1行目には、この文書がバージョン1.0のXML文書であることを示すXML宣言が記述され、2行目には、この文書の文書型名(DOCTYPEの名前)が「book」であることが記述され、その直後の“[”と7行目の“]”との間の記述が、この文書の構成を定義するものである。 [0242] In FIG. 30 (A), the first line, the document is written XML declaration that indicates that an XML document version 1.0, the second line, the document type name of the document ( it is described DOCTYPE name) is "book", written between the "[" and the line 7 "]" following it, is to define the configuration of this document.

【0243】また、3行目の最上位要素名の名前「boo [0243] In addition, the top-level element name of the third row the name "boo
k」と文書型名「book」とは一致することが必要である。 k "and the document type name" book "is the need to be consistent. そして、3行目には、要素「book」が子要素「chap Then, in the third row, the element "book" child element "chap
ter」を有して構成されることが内容モデルとして記述され、4〜6行目には、要素「chapter」が、さらに、 Be configured with a ter "is described as the content model, the 4-6 line, element" chapter "further,
2つの子要素「title」および「paragraph」で構成されることが記述され、7行目の“]>”により、2行目から始まった文書型宣言(DOCTYPE宣言,DTD記述)の内部サブセット記述が終了することが示されている。 It is composed of two child elements "title" and "paragraph" are described by the seventh line ">", the internal subset description of a document type declaration, which began the second row (DOCTYPE declaration, DTD description) There has been shown to end.

【0244】続く8行目の“<book>”は要素「book」 [0244] followed by the eighth line "<book>" elements "book"
の開始タグであり、12行目の“</book>”は要素「b Is the start tag, the line 12 "</ book>" elements "b
ook」の終了タグである。 It is an end tag of ook ". そして、これらのタグ間(9 And, between these tags (9
〜12行目)の記述が、要素「book」の内容であり、9 12 line) of the description, is the contents of the element "book", 9
行目の記述は、要素「chapter」の子要素「title」の内容が「XMLの概要」であることを示し、10行目の記述は、要素「chapter」の子要素「paragraph」の内容が「XMLとは…」であることを示す。 Line of the description indicates that the contents of the child element "title" of the element "chapter" is "Introduction to XML", line 10 of the description, the contents of the child element "paragraph" of the element "chapter" indicating that it is a "What is a XML ...". また、9行目において、“<title>”は要素「title」の始まりを示す開始タグであり、“</title>”は要素「title」の終了を示す終了タグである。 In addition, in line 9, "<title>" is the start tag that indicates the beginning of the element "title", "</ title>" is the end tag indicating the end of the element "title". 11行目の“</chapter>”は要素「chapter」の終了を示す終了タグである。 Line 11 "</ chapter>" is the end tag indicating the end of the element "chapter".

【0245】図30(A)に示す圧縮前のXML文書における文字列を、図30(C)に示すタグ辞書と、図3 [0245] The character string in the XML document before compression shown in FIG. 30 (A), a tag dictionary shown in FIG. 30 (C), FIG. 3
0(D)に示す日本語辞書とを使用して、置換文字や単語番号に変換することにより、そのXML文書を、図3 0 using a Japanese dictionary shown in (D), by converting the substituted characters or words numbers, the XML document, Figure 3
0(B)に示すように圧縮する。 Compressed as shown in 0 (B). ここで、図30(C) Here, FIG. 30 (C)
に示すタグ辞書は、図29を参照しながら後述する手法により作成され、また、図30(D)に示す日本語辞書は、予め作成された静的な辞書である。 Tag dictionary shown in is created by a method to be described later with reference to FIG. 29, also, Japanese dictionary shown in FIG. 30 (D) is a static dictionary created in advance.

【0246】図30(A)の例では、上述したタグ辞書により、“chapter”,“title”,“paragraph”が、 [0246] In the example of FIG. 30 (A), by the tag dictionary mentioned above, "chapter", the "title", "paragraph",
それぞれ固定長の置換文字“b”,“c”,“d”に置換・圧縮され、また、上述した日本語辞書により、平文の部分の「XML」,「の」,「概要」,“とは”が、 Replacement character "b" of the fixed-length, "c", is substituted-compressed "d", also by Japanese dictionary as described above, part of the plaintext "XML", "no", the "overview", " it is ",
それぞれ固定長の単語番号“α”,“β”,“γ”, Each fixed-length word number of "α", "β", "γ",
“δ”等に置換・圧縮され、図30(B)に示すような圧縮後のXML文書が得られる。 Substituted-compressed "[delta]" and the like, an XML document after compression as shown in FIG. 30 (B) is obtained.

【0247】次に、図31(A)〜図31(G)により、XML文書とは別のファイルに格納されたDTDを参照する場合の圧縮手法について説明する。 [0247] Next, referring to FIG. 31 (A) ~ FIG 31 (G), will be described compression method when referencing the DTD stored in a separate file from the XML document. 図31 Figure 31
(A)に示す圧縮前のXML文書では、2行目の下線を付した部分、つまりシステム識別子「SYSTEM“.. The XML document before compression (A), the portions denoted the two rows under the eyes line, i.e. a system identifier "SYSTEM" ..
/book.dtd”」により、ファイル名「book.dtd」をもつ別ファイルのDTDが指定されている。 By /book.dtd "", it has been designated a separate file of DTD with the file name "book.dtd". この別ファイルのDTDは、図31(B)に示すように記述されている。 DTD for the separate files is described as shown in FIG. 31 (B).

【0248】図31(A)に示す圧縮前のXML文書における文字列を、図31(E)に示すタグ辞書と、図3 [0248] The character string in the XML document before compression shown in FIG. 31 (A), a tag dictionary shown in FIG. 31 (E), 3
1(F)に示す日本語辞書とを使用して、置換文字や単語番号に変換することにより、そのXML文書を、図3 Using a Japanese dictionary shown in 1 (F), by converting the substituted characters or words numbers, the XML document, Figure 3
1(C)に示すように圧縮する。 Compressed as shown in 1 (C).

【0249】また、図31(B)に示すDTDにおける文字列を、図31(E)に示すタグ辞書を使用して置換文字に変換することにより、そのDTDを、図31 [0249] Also, the character string in the DTD shown in FIG. 31 (B), by conversion to replacement character using tags dictionary shown in FIG. 31 (E), the DTD, FIG. 31
(D)に示すような新規ファイルのDTDとして圧縮・ Compression as a DTD for the new file as shown in (D) ·
作成する。 create. この新規ファイルのファイル名としては、例えば“book2.dtd”が付与される。 The file name of the new file, for example "book2.dtd" is given.

【0250】なお、図31(C)に示すように、圧縮後のXML文書の2行目には、新規ファイルのDTDを指定すべく、そのファイル名“book2.dtd”が、旧ファイルのファイル名“book.dtd”に代えて記入される。 [0250] In addition, as shown in FIG. 31 (C), the second line of the XML document after compression, in order to specify the DTD for the new file, and the file name "book2.dtd", the old file file It is entered in place of the name "book.dtd". そして、これら新規のDTDのファイル名と圧縮前の旧DT Then, the old DT before compression and file names for these new DTD
Dのファイル名とが、図31(G)に示すごとく、新旧DTD対応表に記入される。 D and file names, as shown in FIG. 31 (G), is entered in the new and old DTD correspondence table. ここで、図31(E)に示すタグ辞書も、図30(C)に示すタグ辞書と同様、図29を参照しながら後述する手法により作成され、また、図31(F)に示す日本語辞書は、予め作成された静的な辞書である。 Here, even the tag dictionary shown in FIG. 31 (E), similarly to the tag dictionary shown in FIG. 30 (C), is created by a method to be described later with reference to FIG. 29, also, Japanese shown in FIG. 31 (F) dictionary is a static dictionary that have been created in advance.

【0251】図31(A)の例でも、上述したタグ辞書により、“chapter”,“title”,“paragraph”が、 [0251] Also in the example of FIG. 31 (A), by the tag dictionary mentioned above, "chapter", "title", the "paragraph",
それぞれ固定長の置換文字“b”,“c”,“d”に置換・圧縮され、また、上述した日本語辞書により、平文の部分の「XML」,「の」,「概要」,“とは”が、 Replacement character "b" of the fixed-length, "c", is substituted-compressed "d", also by Japanese dictionary as described above, part of the plaintext "XML", "no", the "overview", " it is ",
それぞれ固定長の単語番号“α”,“β”,“γ”, Each fixed-length word number of "α", "β", "γ",
“δ”等に置換・圧縮され、図31(C)に示すような圧縮後のXML文書が得られる。 Substituted-compressed "[delta]" and the like, an XML document after compression as shown in FIG. 31 (C) is obtained.

【0252】また、図31(C)に示すDTDは、上述したタグ辞書により、“chapter”,“title”,“para [0252] Also, DTD shown in FIG. 31 (C) is a tag dictionary mentioned above, "chapter", "title", "para
graph”が、それぞれ固定長の置換文字“b”, graph "is the fixed-length replacement character" b ",
“c”,“d”に置換・圧縮され、ファイル名“book2. "C", is replaced and compression to "d", file name "book2.
dtd”の新規ファイルに、新たなDTDとして格納される。 To a new file of dtd ", it is stored as a new DTD.

【0253】次に、図32(A)〜図32(D)により、DTDをもたない整形式XML文書に対する圧縮処理について説明する。 [0253] Next, referring to FIG. 32 (A) ~ FIG 32 (D), described compression processing for well-formed XML document without a DTD. 図32(A)に示す圧縮前のXM XM before compression shown in FIG. 32 (A)
L文書では、1行目のXML宣言に続いてDOCTYP In the L document, followed by the first line of the XML declaration DOCTYP
E宣言で開始されるDTD文書型定義が記述されていない。 DTD document type definition begins with E declaration is not described. このような場合も、図32(A)に示す圧縮前のX In such a case also, X before compression shown in FIG. 32 (A)
ML文書における文字列は、図32(C)に示すタグ辞書と図32(D)に示す日本語辞書とを使用して、置換文字や単語番号に変換され、そのXML文書は、図32 String in ML document uses a Japanese dictionary shown in tag dictionary and 32 shown in FIG. 32 (C) (D), is converted to a replacement character and word number, the XML document, Figure 32
(B)に示すように圧縮される。 It is compressed as shown in (B).

【0254】ここで、図32(C)に示すタグ辞書も、 [0254] Here, even tag dictionary shown in FIG 32 (C),
図30(C)や図31(E)に示すタグ辞書と同様、図29を参照しながら後述する手法により作成され、また、図32(D)に示す日本語辞書は、予め作成された静的な辞書である。 As with the tag dictionary shown in FIG. 30 (C) and FIG. 31 (E), is created by a method to be described later with reference to FIG. 29, also, Japanese dictionary shown in FIG. 32 (D), the static created previously it is a specific dictionary. 図32(A)の例でも、上述したタグ辞書により、“chapter”,“title”,“paragrap Also in the example of FIG. 32 (A), by the tag dictionary mentioned above, "chapter", "title", "paragrap
h”が、それぞれ固定長の置換文字“b”,“c”, h "is, the fixed-length replacement character" b "," c ",
“d”に置換・圧縮され、また、上述した日本語辞書により、平文の部分の「XML」,「の」,「概要」, Is replaced and compression to "d", also, by the Japanese dictionary as described above, "XML" of part of the plaintext, "the", "Overview",
“とは”が、それぞれ固定長の単語番号“α”, "A" is, each fixed-length word number of "α",
“β”,“γ”,“δ”等に置換・圧縮され、図32 "Β", "γ", is substituted-compressed "[delta]" and the like, FIG. 32
(C)に示すような圧縮後のXML文書が得られる。 XML document after compression as shown in (C) is obtained.

【0255】また、本実施形態では、図33に示すように、XML文書において“<”と“>”とで囲まれた領域の文字列中に、空白(スペース)が存在する場合、その文字列を空白部分で区切る。 [0255] Further, in this embodiment, as shown in FIG. 33, "<" and ">" in the region surrounded by the string out with the XML document, if the blank (space) are present, the character separate columns in the blank space. このようにして区切って得られた文字列部分のそれぞれに、置換文字(短縮文字列)に対応させる。 Each of the thus obtained separated by the character string part, to correspond to the substitution character (shortened character string).

【0256】即ち、図33に示す例では、まず、“<” [0256] That is, in the example shown in FIG. 33, first, "<"
と“>”とで囲まれた「table orient="PORT" tocentry When the ">" and de surrounded by the "table orient =" PORT "tocentry
="1"」という開始タグが存在するが、これ全体を1つのタグとして登録せずに、この文字列内に存在する空白部分で区切ることにより、この文字列を、「table」,「o = "1", "but the start tag exists that, without registering the whole this as one of the tags, by separating them with a blank space that exists in this string, the string," table "," o
rient="PORT"」,「tocentry="1"」という3つの部分に区分けする。 rient = "PORT" ", is divided into three parts:" tocentry = "1" ".

【0257】そして、区分けされた各部分に対して、図33に示すごとく置換文字(短縮文字列)“e”, [0257] Then, the divided each part was, substitution character (shortened character string) as shown in FIG. 33 "e",
“f”,“g”を付加する。 Adding "f", "g". このようにして登録内容を短くすることにより、タグ辞書のサイズを小型化することができ、検索対象も小さくすることができ、ひいては、検索手段のハード量も小さくすることができる。 By shortening the registration contents this way, the size of the tag dictionary can be miniaturized, the search target can also be reduced, thus, can be smaller hardware amount of the search means.

【0258】なお、図33に示す例では、置換文字“e”,“f”,“g”に置き換えられた部分と、置換文字“h”および“j”に置き換えられた部分とがタグである。 [0258] In the example shown in FIG. 33, a replacement character "e", in "f", "g" and the portion that was replaced, the replacement character "h" and "j" in the replaced parts and Tags is there. そして、置換文字“h”に置き換えられたタグがタイトルの始まりを示し、置換文字“j”に置き換えられたタグがタイトルの終わりを示している。 Then, the tag that has been replaced by a replacement character "h" indicates the beginning of the title, tag, which is replaced by the replacement character "j" indicates the end of the title. また、置換文字“i”に置き換えられた部分が、タイトルの内容を示す平文「機能一覧」である。 In addition, the part that has been replaced with a replacement character "i" is a plain text "function list", which indicates the contents of the title. また、置換文字“e”,“f”,“g”に置き換えられた部分は、それぞれ、<table orient="PORT" tocentry="1">というタグの要素名,第1属性(属性名=属性値)および第2属性(属性名=属性値)である。 Further, substitution character "e", "f", "g" portion that is replaced in each, <table orient = "PORT" tocentry = "1"> element name tag that, the first attribute (attribute name = which is an attribute value) and a second attribute (attribute name = attribute value).

【0259】次に、上述した圧縮処理に関連する第3実施形態の圧縮装置および伸長装置の構成および動作について、図25〜図29を参照しながら説明する。 [0259] Next, the configuration and operation of the compression device and the decompression device of the third embodiment related to the above-described compression processing will be described with reference to FIGS. 25 to 29. ここで、図25は本発明の第3実施形態としての構造化文書の圧縮装置の機能構成を示すブロック図、図26は本発明の第3実施形態としての構造化文書の伸長装置の機能構成を示すブロック図、図27は図25に示す圧縮装置でのタグ辞書作成手順(タグ辞書登録手順)を説明するためのフローチャート、図28は図25に示す圧縮装置による圧縮手順を説明するためのフローチャート、図2 Here, FIG. 25 is a functional configuration of a third block diagram showing the functional configuration of the compression apparatus of the structured document according to an embodiment, FIG. 26 is expanding device of the structured document according to a third embodiment of the present invention of the present invention block diagram illustrating, FIG. 27 is a flowchart for illustrating the tag dictionary creation process in the compression device (tag dictionary registration procedure) shown in FIG. 25, FIG. 28 for explaining the compression procedure by the compression apparatus shown in FIG. 25 flowchart, Fig. 2
9は図26に示す伸長装置による伸長手順を説明するためのフローチャートである。 9 is a flowchart illustrating a decompression procedure by decompression apparatus shown in FIG. 26.

【0260】まず、図25を参照しながら、第3実施形態の圧縮装置について説明すると、この図25において、101は文書記憶部、102はDTD条件調査部、 [0260] First, referring to FIG. 25, to describe the compressor of the third embodiment, in FIG. 25, 101 document storage unit, 102 DTD condition examining unit,
103はタグ平文識別部、104はタグ文字列登録部、 103 tag plaintext identification unit, 104 tag string registration unit,
105はタグ辞書、106は文字列比較部、107は言語識別部、108は日本語辞書、109は中国語辞書、 105 tag dictionaries, 106 string comparison unit, 107 language identification unit, 108 Japanese dictionary, 109 Chinese dictionary,
110は英語辞書、111はタグ文字列変換部、112 110 English, 111 tag string conversion unit, 112
は単語番号変換部、113は単語番号ファイル、114 Word number conversion unit, 113 words number file, 114
はDTD記入部である。 Is a DTD entering section.

【0261】文書記憶部101は、圧縮すべきXML文書を入力保持するもので、例えば図30(A)に示すような圧縮前のXML文書が保持されるメモリである。 [0261] document storage unit 101 is for inputting hold XML document to be compressed, a memory, for example an XML document before compression as shown in FIG. 30 (A) is held. D
TD条件調査部102は、圧縮すべきXML文書が、図30(A)に示すごとくDTDを内蔵しているか、図3 Or TD condition check unit 102, XML document to be compressed, has a built-in DTD as shown in FIG. 30 (A), FIG. 3
1(A)に示すごとく別ファイルのDTDを参照するものか、図32(A)に示すごとくDTDなしのものかの3通りのいずれであるかを識別するもので、第1および第2実施形態のパターン認識機能を実現するものである。 1 or which refers to another file of DTD as (A), the one that identifies which one of three ways or one without DTD as shown in FIG. 32 (A), the first and second embodiment It realizes the form pattern recognition functions.

【0262】より具体的に、DTD条件調査部102 [0262] More specifically, DTD conditions survey unit 102
は、圧縮対象のXML文書の2行目に“<!DOCTY It is, in the second line of the XML document to be compressed "<! DOCTY
PE”が記述されていればDTDを有するものと識別し、文書型名(ここでは「book」)つまり文書型宣言の後に“[”が記述されていればDTDを内蔵したXML "If it is described to identify as having a DTD, Document Type name (" book "in this case) that is after the document type declaration" PE XML incorporating a DTD if it is described that [ "
文書であると識別し、“[”が記述されていなければ外部ファイルのDTDを参照するXML文書であると識別する。 Was identified as a document, "[" it identifies that it is an XML document that references the DTD for the external file if it is not described. そして、XML文書の2行目に“<!DOCTY Then, in the second line of the XML document "<! DOCTY
PE”が記述されていなければ、DTDなしのXML文書であると識別する。 If PE "has not been described, to identify that the XML document without DTD.

【0263】タグ平文識別部103は、XML文書の注目文字列がタグか平文かを識別するものであり、その注目文字列が“<”および“>”により前後から囲まれていれば、その注目文字列をタグ内の記述であると識別する一方、囲まれていなければ、その注目文字列を平文内の記述であると識別する。 [0263] tag plaintext identification unit 103, which noted a string of XML document is to identify whether tags or plain text, if it is surrounded from the front and back by the attention string "<" and ">", the while identifying the target string to be written in the tag, if not surrounded, it identifies the target character string to be written in plaintext. 例えば、図30(A)の9行目の「XMLの概要」や10行目の「XMLとは…」、 For example, as shown in FIG. 30 (A) 9 line of the "Introduction to XML" and line 10 of "What is a XML ...",
あるいは、図30(B)の9行目の「αβγ」や10行目の「αδ…」は、“<”および“>”により囲まれていないので、平文であると識別される。 Alternatively, "Arufaderuta ..." in the ninth line "αβγ" and line 10 in FIG. 30 (B), since the "<" and ">" is not surrounded by, is identified as a plain text.

【0264】タグ文字列登録部104は、例えば図30 [0264] Tag String registration unit 104, for example, FIG. 30
(C)に示すようなタグ辞書105を登録・作成するものであり、そのタグ辞書105は、タグ内において例えば図33に示すごとく区分された文字列(すなわち「要素名」や「属性名=“属性値”」等)を、それぞれ短縮文字列(置換文字)に対応させるためのものである。 It is intended to register and create a tag dictionary 105 such as shown in (C), the tag dictionary 105, segmented string as shown in the tag in FIG. 33 for example (i.e., "element name" and "attribute name = the "attribute value" "etc.) is intended to correspond to the respective shorter string (replacement character). 上述したタグ平文識別部103やタグ文字列登録部104 Tags plaintext identification unit 103 described above and tag string registration unit 104
は、第2実施形態における文書実現値解析部20,DT It is document instance analyzer 20 in the second embodiment, DT
D解析部30やタグ辞書作成部80に対応した機能を果たすものである。 It is intended to fulfill the function corresponding to the D analyzer 30 and the tag dictionary creating unit 80.

【0265】ここで、タグ文字列登録部104は、図2 [0265] Here, the tag character string registration unit 104, FIG. 2
7に示すフローチャート(ステップS241〜S25 Flowchart shown in 7 (step S241~S25
1)に従って、上述のようなタグ辞書105を作成するようになっており、図27を参照しながら、タグ文字列登録部104によるタグ辞書作成手順(タグ辞書登録手順)について説明する。 In accordance with one), and so as to create a tag dictionary 105 as described above with reference to FIG. 27, a description will be given tag string registration unit 104 by the tag dictionary generation procedure (tag dictionary registration procedure).

【0266】まず、タグ文字列登録部104に文字を順次入力し(ステップS241)、入力された文字がEO [0266] First, the tag string registration unit 104 inputs the character sequence (step S241), the input character is EO
F(End Of File)か否かを判別し(ステップS24 F (End Of File) decides whether or not the (step S24
2)、EOFであれば(YESルート)、タグ辞書作成動作を終了する。 2) If the EOF (YES route), and terminates the tag dictionary creation operation. ステップS242において入力文字がEOFでないと判別した場合(NOルート)には、その入力文字が“<”か否かを判別し(ステップS24 In the case where the input character in step S242 is not determined EOF (NO route), it is determined whether or not the input character is "<" or (Step S24
3)、“<”でなければ(NOルート)、ステップS2 3), "<" unless (NO route), the step S2
41に戻って次の文字を入力する。 Back to 41 to enter the next character.

【0267】ステップS243において入力文字が“<”であると判別した場合(YESルート)には、メモリの文字列を空(♯)にしてから(ステップS24 [0267] In the case where the input character in step S243 is determined to be a "<" (YES route), after a string of memory empty (♯) (step S24
4)、“<”以降の文字(タグ内の文字)を順次入力する(ステップS245)。 4), sequentially inputs the "<" and subsequent characters (characters in the tag) (step S245). なお、ステップS241によって入力されてからステップS244でメモリから消された文字列は、“<”の前に記述された平文である。 The character string deleted from the memory in step S244 from the input of the step S241 is "<" is a plaintext described before.

【0268】ステップS245で入力された文字が空白か否かを判別し(ステップS246)、空白である場合(YESルート)、その空白が認識されるまでにメモリに蓄積された文字列に対して適当な置換文字(例えば“b”)を決め、その置換文字と文字列とを対応させてタグ辞書105に登録する(ステップS247)。 [0268] Character input in step S245, it is determined whether or not the blank (step S246), if it is blank (YES route), for the character string stored in the memory until the blank is recognized determine the appropriate replacement character (e.g. "b"), the a-substituted a character and a character string in association with registering the tag dictionary 105 (step S247). この後、ステップS244に戻り、同様の処理を繰り返し実行する。 Thereafter, the flow returns to step S244, and the same procedure is repeated.

【0269】ステップS246において空白ではないと判別した場合(NOルート)には、ステップS245で入力された文字が“!”か否か判別し(ステップS24 [0269] In a case where it is determined that not the blank in step S246 (NO route), the character input in step S245 "!" Decides whether or not (step S24
8)、“!”であれば(YESルート)、この“!”に続く文字列はタグではなくコメントなので、ステップS 8), if the "!" (YES route), because this "!" Character string following the comments rather than the tag, step S
241に戻る。 Back to 241.

【0270】ステップS248において“!”ではないと判別した場合(NOルート)には、ステップS245 [0270] In the case it is determined that it is not in the "!" In step S248 (NO route), step S245
で入力された文字が“>”か否かを判別し(ステップS In character entered is determined whether or not the ">" (step S
249)、“>”であれば(YESルート)、その“>”が認識されるまでにメモリに蓄積された文字列に対して適当な置換文字を決め、その置換文字と文字列とを対応させてタグ辞書105に登録する(ステップS2 249), ">", then (YES route), determine the appropriate replacement character for the character string stored in memory before the ">" is recognized, corresponding to its replacement character and string is not registered in the tag dictionary 105 (step S2
50)。 50).

【0271】そして、ステップS249において“>” [0271] Then, in step S249 ">"
を認識したということは、タグの記述が終わったことを意味するので、ステップS241に戻り、同様の処理を繰り返し実行する。 That was recognized, it means that the description of the tag is finished, the process returns to step S241, and the same procedure is repeated. また、ステップS249において“>”ではないと判別した場合(NOルート)には、今回、ステップS245で入力された文字を、メモリに蓄積されている文字列に加えて新文字列としてから(ステップS251)、ステップS245に戻る。 Further, when it is determined not to be ">" in step S249 (NO route), this time the letter entered in step S245, in addition to the character string stored in the memory after the new string (step S251), the flow returns to step S245.

【0272】従って、図33に示すような文字列が入力された場合、空白毎に文字列が区切られ、区切られた文字列「table」,「orient="PORT"」,「tocentry="1"」 [0272] Therefore, when a character string as shown in Figure 33 is entered, a character string divided every blank, delimited string "table", "orient =" PORT "", "tocentry =" 1 ""
に対しそれぞれ置換文字e,f,gが決められ、これらの文字列と置換文字との対応関係が、順次、タグ辞書1 Each replacement character e, f, g are determined to correspondence between the these strings with replacement characters sequentially tag dictionary 1
05に登録される。 05 is registered to. また、図30(A)の9行目に記述された文字列が入力された場合、“<”および“>”が認識される都度、その文字列が区切られ、区切られた文字列「chapter」,「title」に対しそれぞれ置換文字b,cが決められ、これらの文字列と置換文字との対応関係が、順次、タグ辞書105に登録される。 Also, if the character string described in the ninth line of FIG. 30 (A) is entered, "<" and ">" each time is recognized, the character string is separated, delimited string "chapter "," title ", respectively replacement characters to b, c are determined, the correspondence relationship between these strings with replacement character is successively registered in the tag dictionary 105.

【0273】さて、図25に示す圧縮装置において、タグ辞書105は、タグ文字列登録部104により前述のごとく登録・作成されたもので、例えば図30(C), [0273] Now, the compression apparatus shown in FIG. 25, the tag dictionary 105, the tag string registration unit 104 which has been registered and created as described above, for example, FIG. 30 (C),
図31(E)や図32(C)に示すような、置換文字とタグ内の文字列との対照表であり、メモリに保持される。 Figure 31 (E) and, as shown in FIG. 32 (C), a contrast table string replacement character and tag, stored in the memory.

【0274】文字列比較部106は、文書記憶部101 [0274] string comparison unit 106, a document storage unit 101
に保持された文字列と、辞書105,108〜110の登録文字列または単語文字列とを比較し、その文字列が登録文字列または単語文字列と一致した場合には、その文字列に対して置換文字を出力するものである。 A character string held in, compared with the registered character string or word string in the dictionary 105,108~110, if the character string matches the registered character string or word string, to the string and it outputs a replacement character Te. このとき、タグ内の文字列はタグ辞書105の登録文字列と比較され、平文部分の文字列は、後述する単語辞書108 At this time, the character string in the tag are compared with the registered character string of a tag dictionary 105, a word dictionary 108 strings of the plaintext part, to be described later
〜110のいずれかにおける単語文字列と比較される。 It is compared with the word string in any of the 110.
文字列を、文字列比較部106によって出力された置換文字(短縮文字列)へ変換することにより、XML文書が圧縮されることになる。 A string, by converting into output substitution character by string comparison unit 106 (abbreviated string), so that the XML document is compressed.

【0275】言語識別部107は、圧縮対象のXML文書の内容(平文)において記述される言語が何語であるかを、XML宣言におけるエンコーディング宣言(図示省略)に記述された文字コード名、並びに、任意のタグにおける言語識別用の属性(xml:lang)の値を解読することによって識別するものである。 [0275] language identification unit 107, whether the language described in the context of an XML document to be compressed (plain text) is what words, the character code name described in the encoding declaration in XML declaration (not shown), and attribute for language identification in any tag: is to identify by decrypting the value of (xml lang). そして、本実施例の言語識別部107は、その言語が例えば日本語,中国語,英語の3つのうちのいずれであるかを識別し、その識別結果に対応して、日本語辞書108,中国語辞書1 The language identification portion 107 of this embodiment, the language, for example Japanese, Chinese, and identifies which one of the three English, in response to the identification result, Japanese dictionary 108, China word dictionary 1
09,英語辞書110のうちのいずれか一つを平文用の単語辞書として選択するものである。 09, is intended to be selected as the word dictionary for the plaintext any one of the English dictionary 110.

【0276】日本語辞書108は、XML文書の平文において記述される言語が日本語の場合に、例えば図30 [0276] Japanese dictionary 108, if the language described in plain text XML document of Japanese, for example, FIG. 30
(D)に示すように、平文を構成する日本語の単語文字列とそれに対応する単語番号(短縮文字列,置換文字) (D), the word character string in Japanese constituting the plaintext and word numbers corresponding thereto (abbreviated string replacement character)
との対応をとるための対照表であり、事前に構成された既知のものである。 A comparative table for establishing the correspondence between, those prior known that is configured. ここで、単語番号は、平文内の実際の単語文字列よりも短く、且つ、その単語文字列を特定しうる、固定バイト長の短縮文字列(置換文字)である。 Here, the word number is shorter than the actual word string in plaintext, and can identify the word string is shorter string of fixed byte length (replacement character). 同様に、中国語辞書109や英語辞書110のいずれも、平文を構成する各国語の単語文字列と単語番号(短縮文字列,置換文字)との対応をとるための対照表である。 Similarly, none of the Chinese dictionary 109 and English 110, a contrast table to take national word character string and words numbers constituting the plaintext (abbreviated string replacement character) the correspondence between.

【0277】タグ文字列変換部111は、タグの文字列を、文字列比較部106からの一致信号に応じて、この文字列比較部106で付与された置換文字(短縮文字列)に変換する、変換処理を行なうものである。 [0277] Tag string conversion unit 111, a character string of a tag, in response to the coincidence signal from the string comparison unit 106, converts this string comparison unit 106 granted substituted characters (shortened character string) , and it performs the conversion process. そして、このタグ文字列変換部111と上述した文字列比較部106とが、第2実施形態の文書実現値文字列置換部41やDTD文字列置換部51に対応した機能を果たすものである。 Then, a string comparison unit 106 described above with the tag string conversion unit 111, is intended to fulfill the function corresponding to the document instance string substitution unit 41 and the DTD string substitution unit 51 of the second embodiment.

【0278】同様に、単語番号変換部112は、平文の文字列を、文字列比較部106からの一致信号に応じて、この文字列比較部106で付与された単語番号(置換文字,短縮文字列)に変換するものであり、最長一致法により単語を固定バイトの単語番号に変換するものである。 [0278] Similarly, the word number conversion unit 112, a character string of the plaintext, in response to the coincidence signal from the string comparison unit 106, the string granted word number comparing section 106 (replacement character, shortened character it is intended to convert the column), and converts the word to number of fixed byte by longest matching method.

【0279】単語番号ファイル113は、タグ文字列変換部111からの置換文字変換出力と、単語番号変換部112からの単語番号変換出力とにより得られた、例えば図30(B)に示すようなXML文書の圧縮データを保持するものである。 [0279] word number file 113, a substitution character conversion output from the tag string conversion unit 111, obtained by the word number conversion output from the word number conversion unit 112, for example, as shown in FIG. 30 (B) it is intended to hold the compressed data of the XML document. DTD記入部114は、図31 DTD entering section 114, FIG. 31
(A)に示すごとき、別ファイルのDTDを参照するX Such as shown in (A), referring to the DTD of another file X
ML文書に対して、新規ファイル名を記入するものである。 Against ML document, it is intended to fill a new file name.

【0280】次に、図26を参照しながら、第3実施形態の伸長装置について説明する。 [0280] Next, referring to FIG. 26, a description will be given extension device according to a third embodiment. なお、図中、既述の符号と同一の符号は同一もしくはほぼ同一の部分を示しているので、その説明は省略する。 In the drawings, the same symbols as the symbols already described denote the same or substantially the same portions, description thereof will be omitted. 図26において、12 26, 12
0は単語番号ファイル記憶部、121は置換文字比較部、122はタグ文字列逆変換部、123は単語番号逆変換部、124は文書記憶部、125は旧DTD記入部である。 0 word number file storage unit, 121 is a substituted character comparison unit, 122 tag string inverse conversion unit 123 words number inverse conversion section, 124 a document storage unit, 125 is a former DTD entering section.

【0281】単語番号ファイル記憶部120は、伸長対象である、例えば図30(C)に示すような圧縮後のX [0281] word number file storage unit 120 is a elongated object, e.g., FIG. 30 X after compression as shown in (C)
ML文書を保持するものである。 It is to hold the ML document. 置換文字比較部121 Replacement character comparison unit 121
は、単語番号ファイル記憶部120に保持された置換文字(単語番号)と、辞書105,108〜110の置換文字(単語番号)とを比較し、これらの置換文字が一致した場合には、その置換文字に対して文字列(単語文字列)を出力するものである。 Compares the word number file storage unit 120 in the held replacement character (word number), and a replacement character dictionary 105,108~110 (word number), if these replacement character matches, the and it outputs a string (word string) to the replacement character. このとき、タグ内の置換文字はタグ辞書105に登録された置換文字と比較され、 In this case, replacement character in the tag are compared with the replacement character registered in the tag dictionary 105,
平文部分の単語番号(置換文字)は、単語辞書108〜 Plaintext partial word number of (replacement character), the word dictionary 108 to
110のいずれかにおける単語文字列と比較される。 It is compared with the word string in 110 either.

【0282】タグ文字列逆変換部122は、圧縮後のX [0282] Tag String inverse transform unit 122, X after compression
ML文書における置換文字を、置換文字比較部121からの信号に基づき、その置換文字に対応した文字列に逆変換するものである。 The replacement character in ML document on the basis of a signal from the replacement character comparison unit 121 is for inverse conversion to a string corresponding to the replacement character. 同様に、単語番号逆変換部123 Similarly, the word number inverse conversion unit 123
は、圧縮後のXML文書における単語番号(置換文字) The word number in the XML document after compression (replacement character)
を、番号比較部121からの信号に基づき、その単語番号に対応した単語文字列に逆変換するものである。 And based on a signal from the number comparing portion 121 is for inverse transformation to the word string corresponding to the word number.

【0283】文書記憶部124は、タグ文字列逆変換部122から出力された、置換文字に対応したタグ文字列と、単語番号逆変換部123から出力された、単語番号に対応した単語文字列とを記述されたXML文書(復元された文書)を保持するものである。 [0283] document storage unit 124, output from the tag string inverse conversion unit 122, and a tag string corresponding to a replacement character, is output from the word number inverse conversion unit 123, the word string corresponding to the word number it is to hold the door XML document described the (restored document). 旧DTD記入部1 Old DTD entering section 1
25は、XML文書において、前記圧縮時に記入された新DTDを旧DTDに復元するものである。 25 is to restore the XML document, a new DTD that was entered during the compression old DTD.

【0284】次に、図25にて説明した第3実施形態の圧縮装置の動作について、図30〜図32を参照しながら、図28に示すフローチャート(ステップS201〜 [0284] Next, the operation of the compressor of the third embodiment described above with reference to FIG. 25, with reference to FIGS. 30 32, the flowchart shown in FIG. 28 (step S201~
S217)に従って説明する。 It will be described with reference to S217). まず、文書記憶部101 First, the document storage unit 101
に、例えばオペレータが作成済みの図30(A)に示すようなXML文書を保持させる。 To, for example, an operator to hold the XML document shown in prefabricated FIG 30 (A). DTD条件調査部10 DTD conditions survey unit 10
2は、文書記憶部101に格納された、圧縮対象のXM 2, stored in the document storage unit 101, the compressed XM
L文書を参照して、そのXML文書中に“<!DOCT See L document, "<! DOCT in its XML document
YPE”が記述されているか否かをチェックし(ステップS201)、“<! YPE "it is checked whether or not it is described (step S201)," <! DOCTYPE”が記述されている場合(YESルート)には、そのXML文書はDTD In the case (YES route) the DOCTYPE "is described, the XML document DTD
を有するものと判別する。 Determine shall have. なお、DTDがないと判別された場合(NOルート)、ステップS203へ移行する。 When it is determined that there is no DTD (NO route), the process proceeds to step S203.

【0285】続いて、DTD条件調査部102は、DT [0285] Subsequently, DTD conditions survey unit 102, DT
Dを有するXML文書に“[”が記述されているか否かを判別する(ステップS202)。 An XML document having a D "[" it is determined whether it is written (step S202). そして、“[”が記述されている場合(YESルート)、DTDがXML文書中に内蔵されているものと判別してステップS203 When (YES route) "where [" is described, step S203 and it determined that the DTD is built in the XML document
へ移行する一方、“[”が記述されていない場合(NO The program shifts to "[" If is not described (NO
ルート)、そのXML文書についてのDTDは外部ファイルに格納されているものと判別してステップS209 Route), the step to determine the DTD for the XML document and is stored in an external file S209
へ移行する。 To be migrated.

【0286】DTDを内蔵したXML文書に対しては、 [0286] for the XML document with a built-in DTD is,
以下のステップS203〜S208の処理を施して圧縮を行なう。 It performs compression by performing the following processing steps S203~S208. まず、タグ文字列登録部104により、図2 First, the tag string registration unit 104, FIG. 2
7に示すフローチャートに従ってタグ文字列の置換文字登録(タグ辞書作成)処理を行ない、図30(C)に示すようなタグ辞書105を作成する(ステップS20 Replacement character registration tag string according to the flow chart shown in 7 performs (tag dictionary creation) process, to create a tag dictionary 105 shown in FIG. 30 (C) (step S20
3)。 3).

【0287】続いて、タグ平文識別部103が、文書記憶部101に保持されたXML文書から平文を識別して言語識別部107に送出する。 [0287] Subsequently, the tag plaintext identification unit 103 identifies the plaintext from retained XML document in the document storage unit 101 sends to the language identification portion 107. このとき、言語識別部1 At this time, the language identification section 1
07は、タグ平文識別部103からのXML文書のエンコーディング宣言において記述された文字コード名(図示省略)、並びに、任意のタグにおける言語識別用の属性(xml:lang)の値を解読することにより、平文の言語が何語であるかを識別し、その言語に応じた単語辞書、例えば日本語の場合は日本語辞書108を選択する(ステップS204)。 07, the character code name described in the encoding declaration of the XML document from the tag plaintext identification unit 103 (not shown), as well as attributes for language identification in any tag: by decoding the value of (xml lang) identifies whether the language of the plain text is what words, word dictionary corresponding to the language, for example in the case of Japanese selecting Japanese dictionary 108 (step S204).

【0288】そして、文字列比較部106は、タグ辞書105の登録文字列と、圧縮対象のXML文書におけるタグ内の文字列とを比較し、これらの文字列が一致した場合、その登録文字列に対応した置換文字(短縮文字列)をタグ辞書105から読み出し、タグ文字列変換部111にて、タグ内の文字列を置換文字に変換する(ステップS205)。 [0288] Then, a string comparison unit 106 compares the registered character string of a tag dictionary 105, a string in the tag in the XML document to be compressed, if these strings match, the registered character string replacement characters (shortened character string) corresponding to the read from the tag dictionary 105 at the tag character string converter 111 converts the character string in the tag replacement character (step S205).

【0289】ついで、文字列比較部106は、図30 [0289] Then, a string comparison unit 106, FIG. 30
(D)に示すような日本語辞書108の登録単語文字列と、圧縮対象のXML文書における平文内の単語文字列とを比較し、これらの単語文字列が一致した場合、その登録単語文字列に対応した単語番号(置換文字,短縮文字列)を日本語辞書108から読み出し、単語番号変換部112にて、平文内の単語文字列を単語番号に変換する(ステップS206)。 A registered word string Japanese dictionary 108 such (D), the comparing and word strings in plain text in XML documents to be compressed, if these word string matches, the registered word string word number (substitution characters, shortened character string) corresponding to reading from Japanese dictionary 108, in word number conversion unit 112 converts the word strings in plaintext word number (step S206).

【0290】この後、タグ辞書105は、後述する逆変換処理つまり伸長・復元の際に必要になるため、図示省略のファイルに出力される(ステップS207)。 [0290] After this, the tag dictionary 105, to become necessary when the inversion processing that is extended and restored to be described later, is outputted to an unillustrated file (step S207). また、ステップS205において置換文字に変換されたタグと、ステップS206において単語番号に変換された平文とは、図30(B)に示すように圧縮されたXML Further, a tag that is converted to a replacement character in step S205, the converted plaintext word number at step S206, compressed as shown in FIG. 30 (B) XML
文書として、単語番号ファイル113に出力され、その単語番号ファイル113は、図示省略の記憶装置等で保持される(ステップS208)。 As documents are output to the word number file 113, the word number file 113 is held in an unillustrated storage device (step S208).

【0291】一方、外部ファイルに格納されたDTDを用いるXML文書に対しては、以下のステップS209 [0291] On the other hand, for an XML document using a DTD that is stored in an external file, the following steps S209
〜S217の処理を施して圧縮を行なう。 Subjected to a treatment of ~S217 perform compression. ステップS2 Step S2
02において“[”が記述されていないと判別された場合、DTD条件調査部102は、圧縮対象のXML文書についてのDTDを外部参照により認識する必要があると判別し、例えば図31(A)の2行目に示すごとくシステム識別子によって指定されたファイル名“book.dt If "the [" is judged to be not described in 02, DTD condition check unit 102, DTD determines that it is necessary to recognize an external reference to about XML document to be compressed, for example, FIG. 31 (A) file name is specified by the system identifier as shown in the second line of the "book.dt
d”に基づいて、別ファイルのDTD〔例えば図31 Based on the d ", another file DTD [example 31
(B)参照〕が認識・参照される。 (B) see] is recognized and referred. そして、そのDTD Then, the DTD
に対してタグ文字列登録部104がタグ文字列登録処理を行ない、図31(E)に示すようなタグ辞書105が作成される(ステップS209)。 Tag string registration unit 104 performs tag string registration process, a tag dictionary 105 is created as shown in FIG. 31 (E) with respect to (step S209).

【0292】続いて、ステップS204と同様、タグ平文識別部103が、文書記憶部101に保持されたXM [0292] Subsequently, as in step S204, the tag plaintext identification unit 103, it is held in the document storage unit 101 XM
L文書から平文を識別して言語識別部107に送出する。 Identify the plaintext from L document is sent to the language identification portion 107. このとき、言語識別部107は、タグ平文識別部1 In this case, language identification unit 107, the tag plaintext identification section 1
03からのXML文書のエンコーディング宣言において記述された文字コード名(図示省略)を解読することにより、平文で記述される言語が何語であるかを識別し、 By decoding the character code name described in the encoding declaration of the XML document from 03 (not shown), the language described in the clear identifies how many words,
その言語に応じた単語辞書、例えば日本語の場合は日本語辞書108を選択する(ステップS210)。 Word dictionary corresponding to the language, for example in the case of Japanese selecting Japanese dictionary 108 (step S210).

【0293】また、DTD条件調査部102は、DTD [0293] In addition, DTD conditions survey unit 102, DTD
記入部114を制御して、例えば図31(G)に示すごとく新旧DTD表に新規ファイルのDTD名「book2.dt And controls the entering section 114, for example, DTD name of the new file to the old and new DTD table as shown in FIG. 31 (G) "book2.dt
d」を記入させるとともに、単語番号変換部112による処理に際して、圧縮前の旧DTD名「book.dtd」を新規ファイルのDTD名「book2.dtd」に書換・記入させる(ステップS211)。 Together to fill d ", upon treatment with the word number conversion unit 112, rewritable-to fill old DTD name before compressing" book.dtd "the DTD name for the new file" book2.dtd "(step S211).

【0294】そして、文字列比較部106は、タグ辞書105の登録文字列と、図31(B)に示すような別ファイルのDTDにおけるタグ内の文字列とを比較し、これらの文字列が一致した場合、その登録文字列に対応した置換文字(短縮文字列)をタグ辞書105から読み出し、タグ文字列変換部111にてタグ内の文字列を置換文字に変換することにより、図31(D)に示すような新規ファイルのDTDを圧縮作成する(ステップS21 [0294] Then, a string comparison unit 106, a registered character string of a tag dictionary 105, compares the character string in the tag in DTD separate file as shown in FIG. 31 (B), these strings If there is a match, by converting the substitution character (shortened character string) corresponding to the registered character string read from the tag dictionary 105 at the tag character string converter 111 a string in the tag to a replacement character, 31 ( the DTD for the new file as shown in D) to create compressed (step S21
2)。 2).

【0295】また、ステップS205と同様、文字列比較部106は、タグ辞書105の登録文字列と、文書記憶部101に格納された圧縮対象のXML文書におけるタグ内の文字列とを比較し、これらの文字列が一致した場合、その登録文字列に対応した置換文字(短縮文字列)をタグ辞書105から読み出し、タグ文字列変換部111にて、タグ内の文字列を置換文字に変換する。 [0295] Further, as in step S205, the character string comparison unit 106 compares the registered character string of a tag dictionary 105, a string in the tag in the XML document to be compressed that is stored in the document storage unit 101, If these strings match, converts the read replacement character corresponding to the registered character string (abbreviated string) from the tag dictionary 105 at the tag character string converter 111, a character string in the tag replacement character . そして、タグ文字列変換部111は、上述のごとくタグ内の文字列を置換文字に変換・圧縮したXML文書を単語番号変換部112に送出する(ステップS212)。 Then, the tag string conversion unit 111 transmits the XML document conversion and compression to the replacement character strings in as described above tag word number conversion unit 112 (step S212).

【0296】ついで、文字列比較部106は、図31 [0296] Then, a string comparison unit 106, FIG. 31
(F)に示すような日本語辞書108の登録単語文字列と、タグ文字列変換部111からのXML文書(タグ内文字列が置換文字に変換された文書)における平文内の単語文字列とを比較し、これらの単語文字列が一致した場合、その登録単語文字列に対応した単語番号(置換文字,短縮文字列)を日本語辞書108から読み出し、単語番号変換部112にて平文内の単語文字列を単語番号に変換する。 A registered word string Japanese dictionary 108, as shown in (F), and a word string in plaintext in an XML document from the tag string conversion section 111 (document-tag character string is converted to a replacement character) comparing, if these word string matches, the registered word string word number corresponding (replacement character, shortened character string) reads from Japanese dictionary 108, in word number conversion unit 112 in the plaintext to convert a word string to a word number. このとき、DTD記入部114により、X In this case, the DTD entering section 114, X
ML文書中において旧DTD名「book.dtd」が新しいD Old DTD name in ML in the document "book.dtd" is a new D
TD名「book2.dtd」に書き換えられる。 It is rewritten to TD name "book2.dtd". このようにして、図31(A)に示すような圧縮前のXML文書は図31(C)に示すようなXML文書に圧縮される(ステップS213)。 In this manner, XML document before compression as shown in FIG. 31 (A) is compressed XML document shown in FIG. 31 (C) (step S213).

【0297】この後、タグ辞書105は、ステップS2 [0297] After this, tag dictionary 105, step S2
07と同様、後述する逆変換処理つまり伸長・復元の際に必要になるため、図示省略のファイルに出力される(ステップS214)。 Similar to 07, to become necessary during the inversion processing that is extended and restored to be described later, is outputted to an unillustrated file (step S214). また、ステップS213において変換された、図31(C)に示すような圧縮後のXM Further, it converted at step S213, after compression, as shown in FIG. 31 (C) XM
L文書は、単語番号変換部112から単語番号ファイル113に出力される(ステップS215)。 L document is output from the word number conversion unit 112 to the word number file 113 (step S215).

【0298】さらに、ステップS212で圧縮作成された新規ファイルDTDは図示省略のファイルに出力されるとともに(ステップS216)、ステップS211で作成した、図31(G)に示すような新旧DTD対応表も、後述する逆変換処理つまり伸長・復元の際に必要になるため、図示省略のファイルに出力される。 [0298] Furthermore, the compression new file DTD that was created in step S212 is output to the not shown in the file (step S216), created in step S211, also old and new DTD correspondence table as shown in FIG. 31 (G) , to become necessary when the inversion processing that is extended and restored to be described later, it is outputted to an unillustrated file. なお、D In addition, D
TDをもたないXML文書に対しても、前述したステップS203〜S208の処理が施され、例えば図32 Even for XML documents with no TD, is performed the processing of step S203~S208 described above, for example, FIG. 32
(A)に示すXML文書が図32(B)に示すごとく圧縮される。 XML document shown in (A) is compressed as shown in FIG. 32 (B).

【0299】次に、図26にて説明した第3実施形態の伸長装置の動作について、図30〜図32を参照しながら、図29に示すフローチャート(ステップS221〜 [0299] Next, the operation of the decompression device of the third embodiment described above with reference to FIG. 26, with reference to FIGS. 30 32, the flowchart shown in FIG. 29 (step S221~
S232)に従って説明する。 It will be described with reference to S232). まず、図示省略のファイルからタグ辞書105を取り出し、そのタグ辞書105 First, retrieve the tag dictionary 105 from an unillustrated file, the tag dictionary 105
を図示省略のメモリに格納する(ステップS221)。 Storing not shown in the memory (step S221).

【0300】そして、そのタグ辞書105に対応する、 [0300] and, corresponding to the tag dictionary 105,
圧縮XML文書の単語番号ファイル113を記憶部12 Storing the word number file 113 of the compressed XML document 12
0に格納する(ステップS222)。 0 To store (step S222). ステップS221 Step S221
およびS222の処理により、図30(C)に示すタグ辞書に対しては図30(B)に示すごとく圧縮されたX And the processing of S222, with respect to the tag dictionary shown in FIG. 30 (C) are compressed as shown in FIG. 30 (B) X
ML文書が記憶部120に格納され、図31(E)に示すタグ辞書に対しては図31(C)に示すごとく圧縮されたXML文書が記憶部120に格納され、図32 ML document is stored in the storage unit 120, the compressed XML document as shown in FIG. 31 (C) is the tag dictionary shown in FIG. 31 (E) are stored in the storage unit 120, FIG. 32
(C)に示すタグ辞書に対しては図32(B)に示すごとく圧縮されたXML文書が記憶部120格納される。 For tag dictionary shown in (C) compressed XML document as shown in FIG. 32 (B) is stored the storage unit 120.

【0301】この後、DTD条件調査部102は、記憶部120から伸長復元対象のXML文書を読み出し、まず、そのXML文書に“<!DOCTYPE”が記述されているか否かをチェックする(ステップS223)。 [0301] After this, DTD condition check unit 102 reads the XML document stretch and recovery from the storage unit 120, first checks whether the XML documents "<! DOCTYPE" is written (step S223 ).
“<!DOCTYPE”が記述されている場合(YES If "the <! DOCTYPE" is described (YES
ルート)、DTD条件調査部102は、さらに“[”が記述されているか否かをチェックし(ステップS22 Root), DTD condition check unit 102 further "[" is checked whether it is written (step S22
4)、“[”が記述されている場合(YESルート)、 4), "[" If is described (YES route),
伸長復元対象のXML文書にはDTDが内蔵されているものと判断する。 The XML document extension restore is judged that a built-in DTD.

【0302】このように伸長復元対象のXML文書がD [0302] Thus an XML document of stretch and recovery target D
TDを内蔵している場合、言語識別部107は、任意のタグ中の言語識別用の属性(xml:lang)の値からそのXML文書の平文の言語を識別し、予め作成されている単語辞書群の中から、その識別結果に応じた単語辞書、 If a built-in TD, language identification unit 107, the attribute for language identification in any tag (xml: lang) of identifying the language of the plaintext of the XML document from the value, a word dictionary that is prepared in advance from the group, the word dictionary in accordance with the identification result,
例えば図31(D)に示すような日本語辞書108を選択する(ステップS225)。 For example selecting a Japanese dictionary 108 shown in FIG. 31 (D) (step S225).

【0303】そして、タグ平文識別部103は、圧縮されたXML文書のタグ部分を識別し、タグ辞書105の置換文字と記憶部120から出力したタグ部分の置換文字とを置換文字比較部121で比較・照合させ、これらの置換文字が一致した場合、その置換文字に対応するタグ内文字列をタグ辞書105から読み出してタグ文字列逆変換部122に送出し、このタグ文字列変換部122 [0303] Then, the tag plaintext identification unit 103 identifies the tag portion of the compressed XML document, and replacement characters of a tag portion output from the replacement character and the storage unit 120 of the tag dictionary 105 in replacement character comparison unit 121 It is comparing and collating, when these substitution character matches, and sends the tag string inverse conversion unit 122 reads a tag in the string corresponding to the replacement character from the tag dictionary 105, the tag character string converter 122
において、圧縮されたXML文書の置換文字をタグ内文字列に変換する、タグ文字列逆変換処理が行なわれる(ステップS226)。 In converts replacement characters of compressed XML document tag string, tag string inverse conversion processing is performed (step S226). これにより、例えば図30 Thus, for example, FIG. 30
(B)の置換文字b,c,dが、図30(A)に示すごとく、それぞれ“chapter”,“title”,“paragrap Replacement character b in (B), c, d are, as shown in FIG. 30 (A), each "chapter", "title", "paragrap
h”に変換される。 It is converted to h ".

【0304】ついで、タグ平文識別部103は、圧縮されたXML文書の平文部分を識別し、その平文部分の単語番号(置換文字)を、置換文字比較部121において、日本語辞書108の登録単語番号(登録置換番号) [0304] Then, the tag plaintext identification unit 103 identifies the plaintext portion of the compressed XML document, the word number (replacement character) of the plaintext part, in a substitution character comparison unit 121, registered Japanese word dictionary 108 number (registration replacer number)
と比較し、これらの単語番号が一致した場合、その単語番号に対応する単語文字列を日本語辞書108から読み出して単語番号逆変換部123に送出し、この単語番号逆変換部123において、圧縮されたXML文書の単語番号を単語文字列に変換する、単語番号逆変換処理が行なわれる(ステップS227)。 Compared with the case where these words numbers match, then sent to the word number inverse conversion unit 123 words string is read from the Japanese dictionary 108 corresponding to the word number, in this word number inverse conversion unit 123, the compression word number of XML documents into a word string, the word number reverse conversion process is performed (step S227). これにより、例えば図30(B)の単語番号α,β,γ,δが、図30(A) Thus, for example, FIG. 30 words number α of (B), β, γ, δ are 30 (A)
に示すごとく、それぞれ“XML”,“の”,“概要”,“とは”に変換される。 As shown in, respectively "XML", "for", "outline", "is" is converted to.

【0305】ステップS226およびS227でそれぞれ逆変換されたタグ文字列や平文は、例えば図30 [0305] tag string and plaintext inverse transformed at steps S226 and S227, for example 30
(A)に示すような圧縮前のXML文書、即ち復元文書となり、文書記憶部124に保持される。 (A) XML document before compression as shown in, i.e. becomes restored document is held in the document storage unit 124. 一方、ステップS224で伸長復元対象のXML文書に“[”が記述されていないと判別された場合(NOルート)、DTD On the other hand, if the "[" is judged to have not been described in the stretch and recovery target XML document in step S224 (NO route), DTD
条件調査部102は、そのXML文書についてのDTD Conditions survey unit 102, DTD for the XML document
は外部ファイルに格納されているものと判別し、そのX Was determined that the stored in the external file, the X
ML文書の圧縮処理時に作成・保存された、例えば図3 Was created and saved during compression of the ML document, for example, FIG. 3
2(G)に示すような新旧DTD対応表を入力する(ステップS228)。 Enter the old and new DTD correspondence table as shown in 2 (G) (step S228).

【0306】また、言語識別部107は、ステップS2 [0306] Also, the language identification portion 107, the step S2
25と同様、タグ中の言語識別用の属性(xml:lang) 25 the same, attributes for language identification in the tag (xml: lang)
の値からそのXML文書の平文の言語を識別し、予め作成されている単語辞書群の中から、その識別結果に応じた単語辞書、例えば図32(F)に示すような日本語辞書108を選択する(ステップS229)。 Of identifying the language of the plaintext of the XML document from the value, from the word dictionary group that is created in advance, a word dictionary in accordance with the identification result, for example, a Japanese dictionary 108 shown in FIG. 32 (F) is selected (step S229).

【0307】さらに、DTD条件調査部102は、旧D [0307] In addition, DTD conditions survey unit 102, the old D
TD記入部125を制御して、S228で読み出した新旧DTD対応表から、DTDの元のファイル名が“boo And it controls the TD entering section 125, the old and new DTD correspondence table read in S228, the original file name of the DTD "boo
k.dtd”であることを認識させるとともに、例えば図3 Together to recognize that it is a k.dtd ", for example, FIG. 3
1(C)に示すような伸長復元対象のXML文書において、“book2.dtd”と記述されているDTD名を旧DT 1 In the XML document extension restored as shown in (C), "book2.dtd" The DTD name described as the old DT
D名“book.dtd”に書換・記入させる(ステップS23 D name "book.dtd" to be rewritten, fill out (step S23
0)。 0).

【0308】そして、ステップS226と同様に、タグ平文識別部103は、圧縮されたXML文書のタグ部分を識別し、タグ辞書105の置換文字と記憶部120から出力したタグ部分の置換文字とを置換文字比較部12 [0308] Then, as in step S226, the tag plaintext identification unit 103 identifies the tag portion of the compressed XML document, and replacement characters of a tag portion output from the replacement character and the storage unit 120 of the tag dictionary 105 replacement character comparison section 12
1で比較・照合させ、これらの置換文字が一致した場合、その置換文字に対応するタグ内文字列をタグ辞書1 It is compared and collated with 1, if these replacement character matches, the tag dictionary 1 tag in the string corresponding to the replacement character
05から読み出してタグ文字列逆変換部122に送出し、このタグ文字列変換部122において、圧縮されたXML文書の置換文字をタグ内文字列に変換する、タグ文字列逆変換処理が行なわれる(ステップS231)。 Is read from the 05 sent to tag string inverse conversion unit 122, in the tag string conversion unit 122 converts the replacement character of compressed XML document tag string, tag string inverse conversion processing is performed (step S231).

【0309】これにより、例えば図31(C)の置換文字b,c,dが、図31(A)に示すごとく、それぞれ“chapter”,“title”,“paragraph”に変換され、 [0309] Thus, for example, replacement character b in FIG. 31 (C), c, d are, as shown in FIG. 31 (A), is converted to the respective "chapter", "title", "paragraph",
その変換結果は、単語番号変換部123に出力される。 As a conversion result is output to the word number conversion unit 123.
なお、このとき、ステップS230の処理により、XM At this time, the processing of step S230, XM
L文書中に記述されたDTD名は、ファイル名“book2. L document DTD name described in the file name "book2.
dtd”から旧ファイル名“book.dtd”に変換されている。 It has been converted to book.dtd "" the old file name from the "dtd.

【0310】ついで、ステップS227と同様に、タグ平文識別部103は、圧縮されたXML文書の平文部分を識別し、その平文部分の単語番号(置換文字)を、置換文字比較部121において、日本語辞書108の登録単語番号(登録置換番号)と比較し、これらの単語番号が一致した場合、その単語番号に対応する単語文字列を日本語辞書108から読み出して単語番号逆変換部12 [0310] Then, as in step S227, the tag plaintext identification unit 103 identifies the plaintext portion of the compressed XML document, the word number (replacement character) of the plaintext part, in a substitution character comparison unit 121, Japan compared with registered word number of the word dictionary 108 (registered substituted number), if these words numbers match, the word number inverse conversion section 12 reads the word string corresponding to the word number from Japanese dictionary 108
3に送出し、単語番号逆変換部123において、圧縮されたXML文書の単語番号を単語文字列に変換する、単語番号逆変換処理が行なわれる(ステップS232)。 Sent to 3, in word number inverse conversion unit 123 converts the word number of the compressed XML document in a word string, the word number reverse conversion process is performed (step S232).

【0311】これにより、例えば図31(C)の単語番号α,β,γ,δが、図31(A)に示すごとく、それぞれ“XML”,“の”,“概要”,“とは”に変換される。 [0311] Thus, for example, a word number α of FIG. 31 (C), β, γ, δ is, as shown in FIG. 31 (A), respectively "XML", "for", "outline", "The" It is converted to. このようにして逆変換されたタグ文字列や平文は、 Such inverse transformed tag string and the plaintext and the,
例えば図31(A)に示すような圧縮前のXML文書、 For example XML document before compression as shown in FIG. 31 (A),
即ち復元文書となり、文書記憶部124に保持される。 That becomes restored document is held in the document storage unit 124.

【0312】なお、ステップS223において伸長復元対象のXML文書に“<!DOCTYPE”が記述されていないと判別された場合(NOルート)、そのXML [0312] Note that the XML document extension restored in step S223 if the "<! DOCTYPE" is judged not to have been described (NO route), the XML
文書はDTDをもたないものと判別され、ステップS2 Document are judged to be no DTD, step S2
25へ移行し、そのXML文書に対しても、前述したステップS223〜S227の処理が施され、例えば図3 Proceeds to 25, also with respect to the XML document, is performed the processing of step S223~S227 described above, for example, FIG. 3
2(A)に示すXML文書が図32(B)に示すごとく伸長・復元されて文書記憶部124に保持される。 XML document shown in 2 (A) is held in the document storage unit 124 is extended and restored as shown in FIG. 32 (B).

【0313】このように、上述した本発明の第3実施形態では、つまり文字列の置換文字(短縮文字列)への変換処理を行なうことによりXML文書の圧縮を行ない、 [0313] Thus, in the third embodiment of the present invention described above, i.e. performs compression of XML documents by performing the conversion processing to the substitution character string (abbreviated string)
その際に用いられたタグ辞書105や各国語毎の単語辞書108〜110は、いずれも圧縮されることなく保存されるので、XML文書を、伸長することなく圧縮した状態のままで検索することができ、例えば検索時間が0.1秒を超えてはいけない場合(システム)に用いて好適である。 Word dictionary 108 - 110 of the tag dictionary 105 and each language used in that case, since both of which are stored without being compressed, to find in the state compressed without the XML document, extended can be, for example, the search time is suitably used in the case should not exceed 0.1 seconds (system).

【0314】次に、本発明の第3実施形態の変形例としての圧縮装置および伸長装置の構成および動作について、図34〜図37を参照しながら説明する。 [0314] Next, the configuration and operation of the compression device and the decompression device as a modification of the third embodiment of the present invention will be described with reference to FIGS. 34 to 37. ここで、 here,
図34は本発明の第3実施形態の変形例としての構造化文書の圧縮装置の機能構成を示すブロック図、図35は本発明の第3実施形態の変形例としての構造化文書の伸長装置の機能構成を示すブロック図、図36は第3実施形態の変形例における構造化文書の圧縮手順を説明するためのフローチャート、図37は第4実施形態の変形例における構造化文書の伸長手順を説明するためのフローチャートである。 Figure 34 is a block diagram showing the functional configuration of the compression apparatus structured document as a modification of the third embodiment of the present invention, Figure 35 is elongated device structured document as a modification of the third embodiment of the present invention block diagram showing the functional configuration of a flow chart for FIG. 36 is for explaining the procedure of the compression structured document according to a modification of the third embodiment, FIG. 37 is a procedure for extension structured document according to a modification of the fourth embodiment description is a flowchart for.

【0315】まず、図34を参照しながら、第3実施形態の変形例としての圧縮装置について説明すると、この図34において、131は文書記憶部、132はタグ平文識別部、133はタグ文字列登録部、134はタグ辞書、135は文字列比較部、136は言語識別部、13 [0315] First, referring to FIG. 34, to describe the compressing device as a modification of the third embodiment, in FIG. 34, 131 document storage unit, 132 tag plaintext identification unit, 133 tag string registration unit, 134 tag dictionaries, 135 string comparison unit, 136 language identification section, 13
7は日本語辞書、138は中国語辞書、139は英語辞書、140はタグ文字列変換部、141は単語番号変換部、142は可変長符号化部、143は圧縮ファイル記憶部である。 7 Japanese dictionary, 138 Chinese dictionary, 139 English, 140 tag string conversion unit, 141 the word number conversion unit, 142 variable-length coding unit, 143 is a compressed file storage unit.

【0316】文書記憶部131は、圧縮すべきXML文書を入力保持するもので、例えば図30(A)に示すような圧縮前のXML文書が保持されるメモリであり、図25に示す文書記憶部101に対応するものである。 [0316] document storage unit 131 is for inputting hold XML document to be compressed, a memory, for example an XML document before compression as shown in FIG. 30 (A) is held, document storage shown in FIG. 25 which corresponds to the section 101. タグ平文識別部132は、XML文書の注目文字列がタグが平文かを識別するものであり、図25におけるタグ平文識別部103に対応するものであり、このタグ平文識別部103と同様に動作する。 Tags plaintext identification unit 132 is intended target string XML document that tag to identify the plaintext, which corresponds to the tag plaintext identifying unit 103 in FIG. 25, it operates in the same manner as the tag plaintext discriminator 103 to.

【0317】タグ平文列登録部133は、タグ内の文字列を置換文字(短縮文字列)に変換するためのタグ辞書134を作成するものであり、図25におけるタグ文字列登録部104に対応するもので、図27により前述した手順に従ってタグ辞書登録動作を行なう。 [0317] Tag plaintext string registration unit 133 is for creating a tag dictionary 134 to convert the string in the tag replacement character (shortened character string), corresponding to the tag string registration unit 104 in FIG. 25 It intended to, performing a tag dictionary registration operation according to the procedure described above with reference to FIG 27. タグ辞書1 Tag dictionary 1
34は、タグ平文列登録部133により作成されたもので、例えば図30(C),図31(E)や図32(C) 34 has been created by the tag plaintext string registration unit 133, for example, FIG. 30 (C), FIG. 31 (E) and FIG. 32 (C)
に示すような、置換文字とタグ内の文字列との対照表であり、メモリに保持される。 As it is shown in a comparative table between the character string replacement character and tag, stored in the memory. このタグ辞書134は、図25におけるタグ辞書105に対応するものである。 The tag dictionary 134, which corresponds to the tag dictionary 105 in FIG. 25.

【0318】文字列比較部135は、文書記憶部131 [0318] string comparison unit 135, the document storage unit 131
に保持された文字列と、辞書134,137〜139の登録文字列または単語文字列とを比較し、その文字列が登録文字列または単語文字列と一致した場合には、その文字列に対して置換文字を出力するものである。 A character string held in, compared with the registered character string or word string in the dictionary 134,137~139, if the character string matches the registered character string or word string, to the string and it outputs a replacement character Te. このとき、タグ内の文字列はタグ辞書134の登録文字列と比較され、平文部分の文字列は、後述する単語辞書137 At this time, the character string in the tag are compared with the registered character string of a tag dictionary 134, a word dictionary 137 strings of the plaintext part, to be described later
〜139のいずれかにおける単語文字列と比較される。 It is compared with the word string in any of to 139.
文字列を、文字列比較部135から出力された置換文字(短縮文字列)へ変換することにより、XML文書が圧縮されることになる。 A string, by converting from a string comparison unit 135 to output the substituted character (shortened character string), so that the XML document is compressed. この文字列比較部135は、図2 The string comparison unit 135, FIG. 2
5における文字列比較部106に対応するものである。 It corresponds to the string comparison unit 106 in 5.

【0319】言語識別部136は、圧縮対象のXML文書の内容(平文)において記述される言語が何語であるかを、XML宣言におけるエンコーディング宣言(図示省略)に記述された文字コード名、あるいは、任意のタグにおける言語識別用の属性(xml:lang)の値を解読することによって識別するものである。 [0319] language identification unit 136, whether the language described in the context of an XML document to be compressed (plain text) is what words, the character code name written in encoding declaration in XML declaration (not shown), or attribute for language identification in any tag: is to identify by decrypting the value of (xml lang). 図34に示す言語識別部136も、その言語が例えば日本語,中国語, Language identification unit 136 shown in FIG. 34, the language, for example Japanese, Chinese,
英語の3つのうちのいずれであるかを識別し、その識別結果に対応して、日本語辞書137,中国語辞書13 To identify which one of the three English, in response to the identification result, Japanese dictionary 137, Chinese dictionary 13
8,英語辞書139のうちのいずれか一つを平文用の単語辞書として選択するもので、図25における言語識別部107に対応するものである。 8, those selected as a word dictionary for plaintext any one of English 139, which corresponds to the language identification unit 107 in FIG. 25.

【0320】日本語辞書137は、XML文書の平文において記述される言語が日本語の場合に、例えば図30 [0320] Japanese dictionary 137, if the language described in plain text XML document of Japanese, for example, FIG. 30
(D)に示すように、平文を構成する日本語の単語文字列とそれに対応する単語番号(短縮文字列,置換文字) (D), the word character string in Japanese constituting the plaintext and word numbers corresponding thereto (abbreviated string replacement character)
との対応をとるための対照表であり、事前に構成された既知のもので、図25における日本語辞書108に対応するものである。 A comparative table for establishing the correspondence between, those prior known that are configured, which corresponds to Japanese dictionary 108 in FIG. 25.

【0321】同様に、中国語辞書109や英語辞書11 [0321] Similarly, Chinese dictionary 109 and the English dictionary 11
0のいずれも、平文を構成する各国語の単語文字列と単語番号(短縮文字列,置換文字)との対応をとるための対照表であり、事前に構成された既知のもので、図25 Any zero, a comparative table for taking national word character string and words numbers (abbreviated string replacement character) of which constitutes the plaintext correspondence with, those prior known that are configured, Figure 25
における中国語辞書109や英語辞書110に対応するものである。 Which corresponds to the Chinese dictionary 109 and the English dictionary 110 in. タグ文字列変換部140は、タグの文字列を、文字列比較部135からの一致信号に応じて、この文字列比較部106で付与された置換文字(短縮文字列)に変換する、変換処理を行なうもので、図25におけるタグ文字列変換部111に対応するものである。 Tag string conversion unit 140 converts a character string of a tag, in response to the coincidence signal from the string comparison unit 135, a string comparison unit 106 granted substituted characters (shortened character string), the conversion process and it performs, which corresponds to the tag string conversion section 111 in FIG. 25.

【0322】同様に、単語番号変換部141は、平文の文字列を、文字列比較部135からの一致信号に応じて、この文字列比較部106で付与された単語番号(置換文字,短縮文字列)に変換するものであり、最長一致法により単語を固定バイトの単語番号に変換するもので、図25における単語番号変換部112に対応するものである。 [0322] Similarly, the word number conversion unit 141, a character string of the plaintext, in response to the coincidence signal from the string comparison unit 135, the string granted word number comparing section 106 (replacement character, shortened character is intended to convert the column), it converts the word to number of fixed byte by longest matching method, which corresponds to the word number conversion unit 112 in FIG. 25.

【0323】可変長符号化部142は、タグ文字列変換部140や単語番号変換部141による変換結果(タグ内やDTDに記述された文字列を置換文字に置き換え且つ平文内の単語文字列を単語番号に置き換えて得られた文字列)、つまり圧縮ファイルを、周知の手法で可変長符号化し、可変長符号化された圧縮ファイルを、タグ辞書とともに出力するものである。 [0323] the variable length coding unit 142, a word string of a tag character string converter 140 and word number conversion unit 141 converts the result by (in and plaintext replace the string written in the tag or DTD to replacement character character string obtained by replacing the word number), that is, the compressed file, and variable-length coding in a known manner, the variable-length coded compressed file, and outputs with the tag dictionary. 圧縮ファイル記憶部1 Compressed file storage unit 1
43は、可変長符号化部142から出力された、タグ辞書と可変長符号化された圧縮ファイルとを保持するものである。 43 is to hold output from the variable length coding unit 142, a tag dictionary and the variable-length coded compressed file.

【0324】次に、図35を参照しながら、第3実施形態の変形例としての伸長装置について説明する。 [0324] Next, referring to FIG. 35, described decompression apparatus as a variation of the third embodiment. なお、 It should be noted that,
図中、既述の符号と同一の符号は同一もしくはほぼ同一の部分を示しているので、その説明は省略する。 In the figure, the reference numerals as described above and the same reference numerals denote the same or substantially the same portions, description thereof will be omitted. 図35 Figure 35
において、151は圧縮ファイル記憶部、152は可変長復号化部、153は置換文字比較部、154はタグ文字列逆変換部、155は単語番号逆変換部、156は文書記憶部である。 In, the compressed file storage unit 151, 152 is a variable length decoding unit, 153 is a substituted character comparison unit, 154 tag string inverse conversion unit 155 words number inverse conversion unit, 156 is a document storage unit.

【0325】圧縮ファイル記憶部151は、図34に示す圧縮装置により可変長符号化された圧縮ファイルを入力されるものであり、図34に示す圧縮ファイル記憶部143そのものであってもよく、あるいは、この圧縮ファイル記憶部143から出力された圧縮ファイルを保持するものとして構成してもよい。 [0325] compressed file storage unit 151, which is input to the variable-length coded compressed file by the compression apparatus shown in FIG. 34 may be one that compressed file storage unit 143 shown in FIG. 34, or it may be configured as holding a compressed file output from the compressed file storage unit 143. 可変長復号化部152 Variable length decoding unit 152
は、圧縮ファイル記憶部151から読み出された圧縮ファイルを、可変長符号化された状態から、例えば図30 The compressed file read from the compressed file storage unit 151, a variable length coding state, for example, FIG. 30
(B)に示すような圧縮ファイルに復号化するものである。 It is intended to decode the compressed file as shown in (B).

【0326】置換文字比較部153は、可変長復号化部152により復号化された圧縮ファイルの置換文字(単語番号)と、辞書134,137〜139の置換文字(単語番号)とを比較し、これらの置換文字が一致した場合には、その置換文字に対して文字列(単語文字列) [0326] replacement character comparison unit 153 compares the decoded replacement characters of the compressed file (word number) by the variable length decoding unit 152, and a replacement character dictionary 134,137~139 (word number), If these replacement character matches the character string for the replacement character (word string)
を出力するものである。 And it outputs a. このとき、タグ内の置換文字はタグ辞書134に登録された置換文字と比較され、平文部分の単語番号(置換文字)は、単語辞書137〜13 In this case, replacement character in the tag are compared with the replacement character registered in the tag dictionary 134, the plaintext partial word number (replacement character), the word dictionary 137-13
9のいずれかにおける単語文字列と比較される。 It is compared with the word string in 9 either. この置換文字比較部153は、図26における置換文字比較部121に対応するものである。 The replacement character comparison unit 153 corresponds to the replacement character comparison unit 121 in FIG. 26.

【0327】タグ文字列逆変換部154は、可変長復号化部152により復号化された圧縮ファイル(圧縮後のXML文書)における置換文字を、置換文字比較部15 [0327] Tag String inverse transform unit 154, a replacement character in decoded compressed file by the variable length decoding unit 152 (XML document after compression), the substitution character comparison section 15
3からの信号に基づき、その置換文字に対応した文字列に逆変換するもので、図26におけるタグ文字列逆変換部122に対応するものである。 Based on a signal from the 3, but inversely converted into a character string corresponding to the replacement character, which corresponds to the tag string inverse conversion unit 122 in FIG. 26. 同様に、単語番号逆変換部155は、可変長復号化部152により復号化された圧縮ファイル(圧縮後のXML文書)における単語番号を、置換文字比較部153からの信号に基づき、その単語番号に対応した単語文字列に逆変換するもので、図26における単語番号逆変換部123に対応するものである。 Similarly, the word number inverse conversion unit 155, the word number in the decoded compressed file by the variable length decoding unit 152 (XML document after compression), based on a signal from the replacement character comparison section 153, the word number It intended to inverse transform the word string corresponding to, which corresponds to the word number inverse conversion unit 123 in FIG. 26.

【0328】文書記憶部156は、タグ文字列逆変換部154から出力された、置換文字に対応したタグ文字列と、単語番号逆変換部155から出力された、単語番号に対応した単語文字列とを記述されたXML文書(復元された文書)を保持するもので、図26における文書記憶部124に対応するものである。 [0328] document storage unit 156, output from the tag string inverse conversion unit 154, and a tag string corresponding to a replacement character, is output from the word number inverse conversion unit 155, the word string corresponding to the word number It holds the bets XML document described the (restored document), which corresponds to the document storage unit 124 in FIG. 26.

【0329】次に、図34にて説明した圧縮装置の動作について、図30を参照しながら図36に示すフローチャート(ステップS261〜S267)に従って説明する。 [0329] Next, the operation of the compression device described in FIG. 34 will be described with reference to the flowchart (step S261~S267) shown in FIG. 36 with reference to FIG. 30. まず、文書記憶部101に、例えばオペレータが作成済みの図30(A)に示すようなXML文書を保持させる。 First, the document storage unit 101, for example, an operator to hold the XML document shown in prefabricated FIG 30 (A). そして、タグ平文識別部132は、文書記憶部1 Then, the tag plaintext identification unit 132, a document storage unit 1
31に保持されたXML文書からタグ部分を抽出し、そのタグ部分に基づいて、タグ文字列登録部133は、図27に示すフローチャートに従ってタグ文字列の置換文字登録(タグ辞書作成)処理を行ない、図30(C)に示すようなタグ辞書134を作成する(ステップS26 The tag portion is extracted from the XML document held in 31, on the basis of the tag part, tag string registration unit 133, a replacement character registration tag string in accordance with the flow chart shown in FIG. 27 (tag dictionary creation) performs processing , to create a tag dictionary 134 shown in FIG. 30 (C) (step S26
1)。 1).

【0330】続いて、タグ平文識別部132が、文書記憶部131に保持されたXML文書から平文を識別して言語識別部136に送出する。 [0330] Subsequently, the tag plaintext identification unit 132 identifies the plaintext from an XML document held in the document storage unit 131 sends to the language identification portion 136. このとき、言語識別部1 At this time, the language identification section 1
07は、タグ平文識別部132からのXML文書のエンコーディング宣言において記述された文字コード名(図示省略)、あるいは、任意のタグでの言語識別用の属性(xml:lang)の値を解読することにより、平文の言語が何語であるかを識別し、その言語に応じた単語辞書、 07, the character code name described in XML document encoding declaration from the tag plaintext identification unit 132 (not shown), or attribute for language identification in any tag: decrypting the value of (xml lang) by, word dictionary language of the plaintext is to identify how many words, in accordance with the language,
例えば日本語の場合は日本語辞書137を選択する(ステップS262)。 For example, in the case of Japanese to select a Japanese dictionary 137 (step S262).

【0331】そして、文字列比較部135は、タグ辞書134の登録文字列と、圧縮対象のXML文書におけるタグ内の文字列とを比較し、これらの文字列が一致した場合、その登録文字列に対応した置換文字(短縮文字列)をタグ辞書134から読み出し、タグ文字列変換部140にて、タグ内の文字列を置換文字に変換する(ステップS263)。 [0331] Then, a string comparison unit 135 compares the registered character string of a tag dictionary 134, a string in the tag in the XML document to be compressed, if these strings match, the registered character string read from the tag dictionary 134 replacement characters (shortened character string) corresponding to at tag string conversion unit 140 converts the character string in the tag replacement character (step S263).

【0332】ついで、文字列比較部135は、図30 [0332] Then, a string comparison unit 135, FIG. 30
(D)に示すような日本語辞書137の登録単語文字列と、圧縮対象のXML文書における平文内の単語文字列とを比較し、これらの単語文字列が一致した場合、その登録単語文字列に対応した単語番号(置換文字,短縮文字列)を日本語辞書137から読み出し、単語番号変換部141において、平文内の単語文字列を単語番号に変換する(ステップS264)。 A registered word string Japanese dictionary 137 such (D), the comparing and word strings in plain text in XML documents to be compressed, if these word string matches, the registered word string word number (substitution characters, shortened character string) corresponding to reading from Japanese dictionary 137, the word number conversion unit 141 converts the word strings in plaintext word number (step S264).

【0333】この後、タグ文字列変換部140や単語番号変換部141による変換結果〔圧縮ファイル:図30 [0333] After this, the conversion by the tag string conversion unit 140 and the word number conversion unit 141 results [archives: 30
(B)に示すようなXML文書〕は、可変長符号化部1 XML document shown in (B)] of the variable length coding unit 1
42において、周知の手法で可変長符号化される(ステップS265)。 In 42, the variable-length coding in a known manner (step S265). また、タグ辞書134は、後述する逆変換処理つまり伸長・復元の際に必要になるため、図示省略のファイルに出力される(ステップS266)。 The tag dictionary 134, to become necessary when the inversion processing that is extended and restored to be described later, is outputted to an unillustrated file (step S266). さらに、可変長符号化部142は、S265にて可変長符号化した圧縮ファイルを、圧縮ファイル記憶部143に出力する(ステップS267)。 Further, the variable length coding unit 142, a compressed file that variable-length coding at S265, and outputs the compressed file storage unit 143 (step S 267).

【0334】次に、図35にて説明した伸長装置の動作について、図30を参照しながら図37に示すフローチャート(ステップS271〜S276)に従って説明する。 [0334] Next, the operation of the decompression device described in FIG. 35 will be described with reference to the flowchart (step S271~S276) shown in FIG. 37 with reference to FIG. 30. まず、図示省略のファイルからタグ辞書134を取り出し、そのタグ辞書134を図示省略のメモリに格納する(ステップS271)。 First, retrieve the tag dictionary 134 from an unillustrated file, and stores the tag dictionary 134 not shown in the memory (step S271). そして、そのタグ辞書13 Then, the tag dictionary 13
4に対応する、図34における可変長符号化部142により符号化された圧縮ファイルを、圧縮ファイル記憶部51に入力・格納する(ステップS272)。 Corresponding to 4, the encoded compressed file by variable-length coding unit 142 in FIG. 34, inputs to and stored in the compressed file storage unit 51 (step S272).

【0335】この後、可変長符号化部152により、圧縮ファイル記憶部151に入力された圧縮ファイルを復号して、例えば図30(B)に示すようなXML文書に復元する(ステップS273)。 [0335] Thereafter, the variable length coding unit 152, the compressed file by decoding the compressed file input to the storage unit 151, for example, to restore the XML document shown in FIG. 30 (B) (step S273). また、言語識別部13 In addition, language identification unit 13
6は、言語識別用タグ(図示省略)からそのXML文書の平文の言語を識別し、予め作成されている単語辞書群の中から、その識別結果に応じた単語辞書、例えば図3 6 identifies the language of the plain text of the XML document from a language identification tag (not shown), from the word dictionaries that are created in advance, a word dictionary in accordance with the discrimination result, for example, FIG. 3
0(D)に示すような日本語辞書137を選択する(ステップS274)。 0 selects the Japanese dictionary 137, as shown in (D) (step S274).

【0336】そして、タグ平文識別部132は、圧縮されたXML文書の平文部分を識別し、その平文部分の単語番号(置換文字)を、置換文字比較部153において、日本語辞書137の登録単語番号(登録置換番号) [0336] Then, the tag plaintext identification unit 132 identifies the plaintext portion of the compressed XML document, the word number (replacement character) of the plaintext part, in a substitution character comparison unit 153, registered Japanese word dictionary 137 number (registration replacer number)
と比較し、これらの単語番号が一致した場合、その単語番号に対応する単語文字列を日本語辞書137から読み出して単語番号逆変換部155に送出し、この単語番号逆変換部155にて、圧縮されたXML文書の単語番号を単語文字列に変換する(ステップS275)。 Compared with the case where these words numbers match, then sent to the word number inverse conversion unit 155 words string is read from the Japanese dictionary 137 corresponding to the word number at the word number inverse conversion unit 155, converting the word number of the compressed XML document in a word string (step S275).

【0337】ついで、タグ平文識別部132は、圧縮されたXML文書のタグ部分を識別し、タグ辞書134の置換文字とタグ部分の置換文字とを置換文字比較部15 [0337] Then, the tag plaintext identification unit 132 identifies the tag portion of the compressed XML document, replacing character comparison unit 15 and the replacement character replacement character and tag portion of the tag dictionary 134
3で比較・照合させ、これらの置換文字が一致した場合、その置換文字に対応するタグ内文字列をタグ辞書1 3 is compared and collated with, if these replacement character matches, the tag dictionary 1 tag in the string corresponding to the replacement character
34から読み出してタグ文字列逆変換部154に送出し、このタグ文字列変換部154において、圧縮されたXML文書の置換文字をタグ内文字列に変換する(ステップS276)。 Is read from the 34 sent to tag string inverse conversion unit 154 converts in this tag string conversion unit 154, a replacement character of compressed XML document-tag character string (step S276). このようにして、図30(A)に示すようにXML文書が復元され、文書記憶部156に保持される。 In this manner, XML documents are restored as shown in FIG. 30 (A), is held in the document storage unit 156.

【0338】本発明の第3実施形態によれば、圧縮率および検索速度は下記のようになる。 According to the third embodiment of the [0338] present invention, compressibility and search speed is as follows. (i)伸長せずに検索する方式つまり検索時間が0.1秒を超えてはいけない場合、タグの圧縮率および平文の圧縮率は下記のようになる。 (I) if system clogging search time to search without extension should not exceed 0.1 seconds, compressibility and plain compression ratio of the tags is as follows. タグの圧縮率は、タグ内の文字列の長さをnバイトとすると、タグの元の長さは(n Compressibility of the tag, and the length of the string in the tag is n bytes, the original length of the tag (n
+2)バイトであり、圧縮したタグの長さは3(=1+ +2) is a byte, the length of the compressed tag 3 (= 1 +
2)バイトであり、圧縮率は3/(n+2)となる。 2) a byte, compression rate is 3 / (n + 2). n
=3とすると、0.6程度となる。 = 3 and when, it is about 0.6. また、平文の圧縮率は、大半の単語は4バイトか6バイトのため、0.3程度となる。 In addition, the compression ratio of the plaintext, for 4 bytes or 6 bytes most of the words, is about 0.3. 検索速度としては、元の検索システムの検索速度(例えば、平均0.08秒)が保たれる。 The search speed, search speed of the original search system (e.g., average 0.08 seconds) is maintained.

【0339】(ii)伸長して検索する方式つまり検索時間が0.1秒を超えてもよい場合、タグの圧縮率および平文の圧縮率は下記のようになる。 [0339] (ii) if system clogging search time extending to search may exceed 0.1 seconds, compressibility and plain compression ratio of the tags is as follows. タグの圧縮率は、タグ内の文字列の長さをnバイトとすると、タグの元の長さは(n+2)バイトであり、圧縮したタグの長さは2バイト(固定バイト符号)であり、圧縮率は2/(n+ Compressibility of the tag, and the length of the string in the tag is n bytes, the original length of the tag is (n + 2) bytes, the length of the compressed tag is 2 bytes (fixed byte code) , the compression ratio is 2 / (n +
2)となる。 2) to become. n=3とすると、0.4程度となる。 When n = 3, is about 0.4. 可変長符号化により0次文脈で圧縮しても圧縮率は同等である。 The compression ratio by compressing at 0 order context by the variable-length coding is equivalent. また、平文の圧縮率は、静的辞書で単語番号変換し、0次文脈で圧縮した場合0.4程度である。 The compression ratio of the plaintext, and the word number conversion in a static dictionary, is about 0.4 when compressed by the zero-order context. 検索速度は、検索システムの検索速度(例:平均0.08秒) Search speed, search speed of the search system (eg average 0.08 seconds)
に対して0.02秒から0.03秒だけ速くなる。 Faster only 0.03 seconds from 0.02 seconds for.

【0340】ところで、特開平11−53349号公報に開示された技術では、タグ記号“<”および“>” [0340] In the disclosed in Japanese Patent Laid-Open No. 11-53349 art, tag symbol "<" and ">"
と、これらに挟まれた文字列とを一緒にして符号化しているので、第3実施形態のごとく文字列を符号化するものとは異なり、図30(A)の3〜6行目に示す“(ch If, because a character string sandwiched between the were combined being coded, unlike to encode a string as in the third embodiment, shown in 3-6 line in FIG. 30 (A) "(ch
apter)”,“chapter”等は符号化することができないので、第3実施形態に比較して圧縮量が小さい。 apter) "," chapter ", etc. can not be encoded, the amount of compression in comparison to the third embodiment is small.

【0341】本発明の第3実施形態によれば、下記のような利点が得られる。 According to the third embodiment of the 0341 present invention, the following advantages are obtained. A. A. タグ文字列登録部114や133によりタグ辞書1 Tags dictionary by tag string registration unit 114 or 133 1
05,134を作成し、そのタグ辞書105,134に基づいてタグ文字列を圧縮変換してタグを圧縮することにより、XML文書を圧縮するので、圧縮率を高めることができるのみならず、このタグを圧縮した状態で検索可能にすることができる。 Create a 05,134, by compressing the tags compression conversion tag strings based on the tag dictionary 105,134, not only because it compresses the XML document, thereby increasing the compression ratio, the tags can be made searchable in a compressed state.

【0342】B. [0342] B. 図27や図33を参照しながら説明したごとく、タグ文字列をタグ辞書に登録する際に、 As described with reference to FIGS. 27 and 33, when registering a tag string tag dictionary,
“<”と“>”とに囲まれたタグ領域内(ただし“< "<" And ">" and surrounded by tags in the area (where "<
! ”と“>”とにより囲まれたコメント領域を除く)において、空白文字が出現する度に文字列を区切って置換文字に対応させているので、タグ部分を正確に圧縮しながら圧縮率を高くすることができるほか、長いタグを短い文字で区切ることができ、タグ辞書のサイズを小形化し、タグ辞書を検索し易いものとして構成することができ、しかもタグを圧縮した状態で検索可能にすることができる。 "And"> "and in excluding) the comment area surrounded by, since in correspondence with the replacement character separated strings every time the space character appears, higher compression ratio while the tag portion accurately compress Guests can be, can separate long tag in a short text, the size of the tag dictionaries miniaturization, can be configured as easily find a tag dictionaries, yet to be searchable in a compressed state tag be able to.

【0343】C. [0343] C. 長いタグ部分を短い文字で区切ることができ検索し易くすることができるのみならず、さらにこれを圧縮して、圧縮率をより高くすることができる。 Not only can facilitate the search can separate long tag portion in short character, it can be further compressed this, a higher compression ratio. D. D. XML文書中の文字コード名、あるいは、任意のタグでの言語識別用の属性の値により平文の言語を認識し、その言語に応じた単語辞書を決定するので、例えば日本語,中国語,英語等の様々な言語により記述されたXML文書にも正確に対応することができる。 Character code name in the XML document, or to recognize the language of the plaintext by the value of the attribute for language identification in any of the tag, because it determines the word dictionary in accordance with the language, for example, Japanese, Chinese, English in XML documents described in various languages ​​etc. it can respond accurately.

【0344】E. [0344] E. 平文の部分を各言語の単語辞書に登録された単語文字列と比較し、単語番号変換部112,1 The portion of the plaintext compared to word strings registered in the word dictionary of each language, word number converter 112,
41において、登録単語文字列と一致した部分を固定長バイト番号(置換文字,短縮文字列)に変換するので、 In 41, a fixed length byte number portion that matches the registered word string (replacement character, shortening the string) so to convert,
平文部分を大きく圧縮することができる。 It can be increased compressing the plaintext portions. F. F. タグの部分をタグ辞書105,134の登録文字列と比較し、タグ文字列変換部111,140において登録文字列と一致した部分を固定長バイトの置換文字(短縮文字列)に変換するので、タグ部分を大きく圧縮することができる。 The portion of the tag comparison with the registered character string of a tag dictionaries 105,134, so transforming the portion that matches the registered character string in the tag string conversion unit 111,140 fixed length byte substitution character (shortened character string), it can be a tag portion greater compression.

【0345】G. [0345] G. XML文書の言語識別記号により、該当する言語の種別に応じた単語辞書を決定するので、多言語に対応しながらXML文書の復元が可能となる。 The language identification symbol of an XML document, because it determines the word dictionary according to the type of the relevant language, it is possible to restore the XML document with multi-lingual. H. H. 伸長復元処理時には、置換文字比較部121,15 During stretch and recovery process, a replacement character comparison unit 121,15
3においてタグ内の置換文字をタグ辞書105,134 Tag dictionary replacement characters in the tag in 3 105,134
の登録置換文字と比較し、タグ文字列逆変換部122, Compared with the registration replacement character, tag string inverse conversion unit 122,
154において、登録置換文字と一致した置換文字をタグ内文字列に逆変換するので、タグを正確に復元することができる。 In 154, the inverse transform replacement characters matched with the registered replacement characters in the tag in the string, it is possible to accurately restore the tag.

【0346】I. [0346] I. 伸長復元処理時には、置換文字比較部121,153において平文内の単語番号(置換文字) During stretch and recovery process, the word number in plaintext in a substitution character comparison unit 121,153 (replacement character)
を各言語の登録単語番号と比較し、単語番号逆変換部1 It is compared with registered word number of each language, word number inverse conversion unit 1
23,155において、登録単語番号と一致した単語番号を単語文字列に逆変換するので、平文の単語番号を各言語に正確に復元することができる。 In 23,155, since the inverse transform words numbers matching the registered word number in the word string, plaintext word number can be accurately restored to each language. J. J. 可変長符号化部142により置換処理後の文字列(置換文字や単語番号)をさらに可変長符号化することで、XML文書の圧縮率をより高めることができる。 By further variable length coding a character string after substitution processing (replacement character or word number) by the variable length coding unit 142, it is possible to further increase the compression ratio of the XML document.

【0347】〔4〕その他 なお、本発明は上述した実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で種々変形して実施することができる。 [0347] [4] Others The present invention is not limited to the above embodiments and may be modified in various ways without departing from the scope of the present invention. 例えば、上述した実施形態では、 For example, in the embodiment described above,
構造化文書がXML文書である場合について説明したが、本発明は、これに限定されるものではなく、他の構造化文書、例えばHTML文書やSGML文書などにも同様に適用され、上述した実施形態と同様の作用効果を得ることができる。 Exemplary structured document has been described as an XML document, the present invention is not limited to this, other structured document, is applied for example, to a likewise HTML documents and SGML documents, described above it is possible to obtain the same effect as embodiment.

【0348】 [0348]

【発明の効果】以上詳述したように、本発明の構造化文書の圧縮方法(請求項1〜12)および圧縮装置(請求項13〜20)並びに構造化文書圧縮プログラムを記録したコンピュータ読取可能な記録媒体(請求項21〜2 As described in detail above, compression method (claims 1-12) of the structured document of the present invention and the compression apparatus (claim 13-20) as well as the structured document compression program recorded computer-readable The Do recording medium (claim 21-2
8)によれば、以下のような効果ないし利点が得られる。 According to 8), effects are obtained through the following advantages.

【0349】(1)文書実現値における要素の木構造を解析し、その解析結果に従って、文書実現値における葉要素についての情報を、親要素の属性としてこの親要素の開始タグ内に移すことで(請求項1,13,21)、 [0349] (1) analyzes the tree structure of elements in the document instance, according to the analysis result, information about the leaf elements in the document instance, by transferring in the start tag of the parent element as an attribute of the parent element (claim 1,13,21),
より具体的には、葉要素についての開始タグ,終了タグおよび内容を文書実現値から削除し、葉要素についての情報である要素名および内容を、それぞれ親要素の属性名および属性値として親要素の開始タグ内に付加することで(請求項2,14,22)、葉要素にかかる記述を親要素の属性として取り扱うことができ、葉要素の開始タグや終了タグを記述する必要がなくなり、構造化文書の特徴を損なうことなく、また、検索可能な状態に保持したまま、葉要素にかかるタグの記述が省略・圧縮される。 More specifically, the start tag for leaf elements, remove the end tag and content from document instance, the parent element information in which the element name and content of the leaf elements, the attribute names and values ​​of the parent element by adding to the start tag (claim 2,14,22), described according to the leaf element can be handled as an attribute of the parent element, it is not necessary to describe the start and end tags of the leaf elements, without compromising the characteristics of the structured document, also, while holding searchable state, description of the tag is omitted and compression according to the leaf element.

【0350】従って、構造化文書の圧縮率を大幅に高めることができ、ひいては、大規模なデータベースを取り扱うシステムにおいて文書データの格納効率を大幅に高めることができる。 [0350] Accordingly, it is possible to increase the compression ratio of the structured document significantly, hence, can greatly increase the storage efficiency of the document data in a system for handling large databases. 特に、多数の短い語句をもつ部品表や価格表等を構造化文書で記述するような場合、短い語句(内容)を挟んだ開始タグと終了タグとの対表現を省略することができるので、その圧縮率を大幅に高めることができる。 In particular, when as described in a structured document BOM and price list or the like having a large number of short phrases, it is possible to omit a short pair representation word (content) and start tag sandwiching the end tag, it is possible to increase the compression ratio significantly.

【0351】(2)葉要素の開始タグ内に属性が記述されている場合、属性にかかる属性名および属性値を、それぞれ親要素の属性名および属性値として親要素の開始タグ内に付加することで(請求項3,15,23)、葉要素の属性にかかる記述も親要素の属性として取り扱われ、構造化文書の圧縮率をより高めることができる。 [0351] (2) If an attribute in the start tag of the leaf elements are described, the attribute names and attribute values ​​according to the attributes is added to each the start tag of the parent element as the attribute name and attribute value of parent element (claim 3,15,23) by, described according to the attribute of the leaf element is also treated as an attribute of the parent element, it is possible to increase the compression ratio of the structured document. (3)親要素の終了タグを削除するとともに親要素の開始タグを空要素タグに変更することにより(請求項4, (3) by changing the start tag of the parent element empty element tag deletes the end tag of the parent element (claim 4,
16,24)、さらに親要素の終了タグを構造化文書の記述から削除することができ、構造化文書の圧縮率をより高めることができる。 16, 24), it is possible to remove further the end tag of the parent element from the description of the structured document, it is possible to increase the compression ratio of the structured document.

【0352】(4)文書型定義における要素の木構造を解析し、その解析結果に従って、葉要素についての情報を、文書型定義から削除し親要素の属性として文書型定義で再定義することで(請求項5,17,25)、より具体的には、葉要素の要素型宣言を文書型定義から削除するとともに葉要素にかかる記述を親要素の要素型宣言から削除し、その葉要素の要素型宣言にかかる情報を親要素の属性として再定義することで(請求項6)、文書実現値に対して行なわれた圧縮に対応した圧縮処理が文書型定義に対しても行なわれ、葉要素にかかる記述を親要素の属性として取り扱うことができる。 [0352] (4) analyzes the tree structure of the elements in the document type definition, according to the analysis result, information about the leaf elements, remove from the document type definition by redefining the document type definition as an attribute of the parent element (claim 5,17,25), and more specifically, described according to the leaf element deletes the element type declaration leaf elements from the document type definition was removed from the element type declaration of the parent element, the leaf elements such information element type declaration by redefining as an attribute of the parent element (claim 6), the compression processing corresponding to the compression performed on the document instance is performed with respect to the document type definition, leaves it can be handled description applied to the element as an attribute of the parent element. 従って、構造化文書の特徴を損なうことなく、また、検索可能な状態に保持したまま、葉要素にかかる要素型宣言の記述が省略されて文書型定義が圧縮され、構造化文書の圧縮率をより高めることができる。 Thus, without impairing the characteristics of the structured document, also, while holding searchable state, description of such elements type declaration leaf elements is omitted document type definition is compressed, the compression ratio of the structured document it can be further enhanced.

【0353】(5)文書型定義で葉要素の属性が葉要素の属性リスト宣言により定義されている場合、葉要素の属性リスト宣言を文書型定義から削除し、その葉要素の属性を親要素の属性として再定義することで(請求項7)、葉要素の属性にかかる記述も親要素の属性として取り扱うことができる。 [0353] (5) If the attribute of the leaf element in the document type definition is defined by the attribute list declaration of leaf elements, remove the attribute list declaration of leaf elements from the document type definition, the parent element the attributes of the leaf elements by redefining as attributes (claim 7), described according to the attribute of the leaf element can also be handled as an attribute of the parent element. 従って、構造化文書の特徴を損なうことなく、また、検索可能な状態に保持したまま、 Thus, without impairing the characteristics of the structured document, also, while holding searchable state,
葉要素にかかる属性リスト宣言の記述が省略されて文書型定義がより圧縮され、構造化文書の圧縮率をより高めることができる。 Description of such attribute list declaration leaf elements is omitted document type definition is more compressed, it is possible to increase the compression ratio of the structured document.

【0354】(6)文書実現値のタグ内の記述を解析し、その解析結果に従ってタグ辞書を作成し、そのタグ辞書を用いて、文書実現値のタグ内に記述された文字列を、その文字列よりも短く且つその文字を特定しうる短縮文字列に置き換えることにより(請求項8,18,2 [0354] (6) analyzes the description in the tag document instance, to create a tag dictionary in accordance with the analysis result, using the tag dictionary, a character string described in the tag of document instance, the by replacing the shortening string capable of identifying short and that character than a string (claim 8,18,2
6)、構造化文書の特徴や構造を損なうことなくタグ内の文字列が圧縮されるので、構造化文書の圧縮率を大幅に高めることができ、ひいては、大規模なデータベースを取り扱うシステムにおいて文書データの格納効率を大幅に高めることができる。 6), because the character string in the tag is compressed without impairing the characteristics and structure of the structured document, it is possible to increase the compression ratio of the structured document greatly, therefore, the document in a system for handling large databases the data storage efficiency can be greatly enhanced.

【0355】(7)文書実現値のタグ内や文書型定義の記述を解析し、その解析結果に従ってタグ辞書を作成し、そのタグ辞書を用いて、文書実現値のタグ内や文書型定義に記述された文字列を、その文字列よりも短く且つその文字を特定しうる短縮文字列に置き換えることにより(請求項9,19,27)、構造化文書が文書型定義を有している場合であっても、構造化文書の特徴や構造を損なうことなく文書型定義の文字列が圧縮されるので、構造化文書の圧縮率を大幅に高めることができ、ひいては、大規模なデータベースを取り扱うシステムにおいて文書データの格納効率を大幅に高めることができる。 [0355] (7) analyzes the description tag and the document type definition of the document instance, to create a tag dictionary in accordance with the analysis result, using the tag dictionary, the tag or document type definition document instance a description string, (claim 9,19,27) by replacing the shortening string capable of identifying short and that character than the string, if the structured document has a document type definition even so the string of the document type definition is compressed without impairing the characteristics and structure of the structured document, it is possible to increase the compression ratio of the structured document significantly, thus, handling large databases it can greatly increase the storage efficiency of the document data in the system.

【0356】(8)タグ内や文書型定義に記述された要素名および属性名を短縮文字列に置き換えることにより(請求項10,20,28)、検索可能な状態に保持したままタグ部分や文書型定義を圧縮することができる。 [0356] (8) (Claim 10,20,28) by replacing tag and document type descriptor element name defined and the attribute name to shorten string, the tag portion Ya while holding searchable state it is possible to compress the document type definition.
つまり、要素名および属性名について置換を行ない、属性値は元の形のまま保持することで、文書データを伸長することなく圧縮した状態のままで検索や文書構造の把握を行なえるようになっている。 That performs substituted for elements and attribute names, attribute values ​​that hold their original shape, become so performed to grasp the retrieval and document structure remains compressed state without extending the document data ing. 従って、文書圧縮後に文書の構造を解析して検索を行なう際に、圧縮された文書の伸長を行なう必要がなく、大規模なデータベースにおいて文書データを圧縮格納しても、その文書データの検索処理等を短時間で行なうことができる。 Therefore, when performing a search by analyzing the structure of the document after document compression, it is not necessary to perform decompression of the compressed document, be compressed storing document data in a large database, the search processing of the document data etc. can be performed in a short time.

【0357】(9)単語辞書を用いて、文書実現値の内容に含まれる単語文字列を、その単語文字列よりも短く且つその単語文字列を特定しうる短縮文字列に置き換えることにより(請求項11)、構造化文書の平文部分(文書実現値の内容)が圧縮されるので、構造化文書の圧縮率をさらに高めることができる。 [0357] (9) by using the word dictionary, the word character string included in the content of the document instance, by replacing the shortening string capable of identifying short and the word string than the word string (according 11.), the plaintext portion of the structured document (contents of the document instance) is compressed, it is possible to further increase the compression ratio of the structured document. (10)置換処理後の文字列をさらに可変長符号化により圧縮することで(請求項12)、構造化文書の圧縮率をより高めることができる。 (10) the Replace process by compressing the further variable-length encoding (claim 12), it is possible to increase the compression ratio of the structured document.

【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS

【図1】本発明の第1実施形態としての構造化文書の圧縮装置の機能構成を示すブロック図である。 1 is a block diagram showing the functional configuration of the compression apparatus of the structured document according to the first embodiment of the present invention.

【図2】(A)〜(D)はいずれも第1実施形態における構造化文書(文書実現値)の圧縮原理を説明するための図である。 [2] (A) ~ (D) are views for explaining the compression principle of both the structured document in the first embodiment (document instance).

【図3】(A)〜(C)はいずれも第1実施形態における構造化文書(文書実現値)の圧縮原理を説明するための図である。 [3] (A) ~ (C) are diagrams for explaining the compression principle of both the structured document in the first embodiment (document instance).

【図4】(A)および(B)はいずれも第1実施形態における構造化文書(DTD)の圧縮原理を説明するための図である。 [4] (A) and (B) are diagrams for explaining the compression principle of the structured document (DTD) in the first embodiment either.

【図5】第1実施形態における構造化文書の圧縮手順を説明するためのフローチャートである。 5 is a flowchart illustrating the compression procedure of the structured document in the first embodiment.

【図6】第1実施形態における文書実現値解析手順を説明するためのフローチャートである。 6 is a flowchart for explaining a document instance analysis procedure in the first embodiment.

【図7】第1実施形態における文書型定義解析手順を説明するためのフローチャートである。 7 is a flowchart for explaining a document type definition analysis procedure in the first embodiment.

【図8】第1実施形態における文書実現値構成変更手順を説明するためのフローチャートである。 8 is a flowchart for explaining a document instance configuration change procedure in the first embodiment.

【図9】第1実施形態における文書型定義構成変更手順を説明するためのフローチャートである。 9 is a flowchart for explaining a document type definition configuration change procedure in the first embodiment.

【図10】(A)および(B)はいずれも第1実施形態による構造化文書(XML文書)の具体的な圧縮処理(第1例)を説明するための図である。 [10] (A) and (B) are diagrams for explaining concrete compression process (first example) of either structured document according to the first embodiment (XML document).

【図11】(A)および(B)はいずれも第1実施形態による構造化文書(XML文書)の具体的な圧縮処理(第2例)を説明するための図である。 11 (A) and (B) is a diagram for explaining the both structured document according to the first embodiment concrete compression processing (XML document) (second example).

【図12】(A)および(B)はいずれも第1実施形態による構造化文書(XML文書)の具体的な圧縮処理(第3例)を説明するための図である。 [12] (A) and (B) are diagrams for explaining concrete compression processing (third example) of either structured document according to the first embodiment (XML document).

【図13】(A)〜(D)はいずれも第1実施形態による構造化文書(XML文書)の具体的な圧縮処理(第4 13 (A) ~ (D) Any specific compression of the structured document according to the first embodiment (XML document) (Fourth
例)を説明するための図である。 Example) is a diagram for explaining the.

【図14】本発明の第2実施形態としての構造化文書の圧縮装置の機能構成を示すブロック図である。 14 is a block diagram showing the functional configuration of the compression apparatus of the structured document according to the second embodiment of the present invention.

【図15】(A)〜(D)はいずれも第2実施形態における構造化文書の圧縮原理を説明するための図である。 [15] (A) ~ (D) are views for explaining the compression principle of the structured document in the second embodiment either.

【図16】第2実施形態における構造化文書の圧縮手順を説明するためのフローチャートである。 16 is a flowchart for explaining the compression procedure of the structured document in the second embodiment.

【図17】第2実施形態における文書実現値文字列置換手順を説明するためのフローチャートである。 17 is a flowchart for explaining a document instance string replacement procedure according to the second embodiment.

【図18】第2実施形態における文書型定義文字列置換手順を説明するためのフローチャートである。 18 is a flowchart for explaining a document type definition string replacement procedure according to the second embodiment.

【図19】第2実施形態における構造化文書の伸長手順を説明するためのフローチャートである。 19 is a flowchart for explaining the procedure of extension structured document in the second embodiment.

【図20】(A)〜(C)はいずれも第2実施形態による構造化文書(XML文書)の具体的な圧縮処理(第1 [20] (A) ~ (C) Specific compression of the structured document according to any second embodiment (XML document) (first
例)を説明するための図である。 Example) is a diagram for explaining the.

【図21】(A)〜(C)はいずれも第2実施形態による構造化文書(XML文書)の具体的な圧縮処理(第2 [21] (A) a specific compression of ~ (C) are both structured document according to the second embodiment (XML document) (second
例)を説明するための図である。 Example) is a diagram for explaining the.

【図22】(A)〜(C)はいずれも第2実施形態による構造化文書(XML文書)の具体的な圧縮処理(第3 [22] (A) ~ (C) Specific compression of the structured document according to any second embodiment (XML document) (Third
例)を説明するための図である。 Example) is a diagram for explaining the.

【図23】(A)〜(D)はいずれも第2実施形態による構造化文書(XML文書)の具体的な圧縮処理(第4 [23] (A) ~ (D) Any specific compression of the structured document according to the second embodiment (XML document) (Fourth
例)を説明するための図である。 Example) is a diagram for explaining the.

【図24】(A)〜(G)はいずれも第2実施形態による構造化文書(XML文書)の具体的な圧縮処理(第5 [24] (A) a specific compression of ~ (G) Any structured document according to the second embodiment (XML document) (5
例)を説明するための図である。 Example) is a diagram for explaining the.

【図25】本発明の第3実施形態としての構造化文書の圧縮装置の機能構成を示すブロック図である。 FIG. 25 is a block diagram showing the functional configuration of the compression apparatus of the structured document of the third embodiment of the present invention.

【図26】本発明の第3実施形態としての構造化文書の伸長装置の機能構成を示すブロック図である。 FIG. 26 is a block diagram showing a functional configuration of a decompression device of the structured document of the third embodiment of the present invention.

【図27】第3実施形態におけるタグ辞書作成手順(タグ辞書登録手順)を説明するためのフローチャートである。 27 is a flowchart for explaining a tag dictionary generation procedure (tag dictionary registration procedure) in the third embodiment.

【図28】第3実施形態における構造化文書の圧縮手順を説明するためのフローチャートである。 FIG. 28 is a flowchart for explaining a procedure of compression structured document according to the third embodiment.

【図29】第3実施形態における構造化文書の伸長手順を説明するためのフローチャートである。 29 is a flowchart for explaining the procedure of extension structured document according to the third embodiment.

【図30】(A)〜(D)はいずれも第3実施形態による構造化文書(XML文書)の具体的な圧縮処理(第1 [Figure 30] (A) ~ (D) Specific compression of the structured document according to any third embodiment (XML document) (first
例)を説明するための図である。 Example) is a diagram for explaining the.

【図31】(A)〜(G)はいずれも第3実施形態による構造化文書(XML文書)の具体的な圧縮処理(第2 [31] (A) a specific compression of ~ (G) Any structured document according to the third embodiment (XML document) (second
例)を説明するための図である。 Example) is a diagram for explaining the.

【図32】(A)〜(D)はいずれも第3実施形態による構造化文書(XML文書)の具体的な圧縮処理(第3 [Figure 32] (A) a specific compression of ~ (D) are both structured document according to the third embodiment (XML document) (Third
例)を説明するための図である。 Example) is a diagram for explaining the.

【図33】第3実施形態での構造化文書の圧縮手法を説明するための図である。 33 is a diagram for explaining the compression technique of the structured document in the third embodiment.

【図34】本発明の第3実施形態の変形例としての構造化文書の圧縮装置の機能構成を示すブロック図である。 FIG. 34 is a block diagram showing the functional configuration of the compression apparatus structured document as a modification of the third embodiment of the present invention.

【図35】本発明の第3実施形態の変形例としての構造化文書の伸長装置の機能構成を示すブロック図である。 Is a block diagram showing a functional configuration of a decompression device of the structured document as a modification of the third embodiment of FIG. 35 the present invention.

【図36】第3実施形態の変形例における構造化文書の圧縮手順を説明するためのフローチャートである。 36 is a flowchart for explaining the procedure of compression structured document according to a modification of the third embodiment.

【図37】第4実施形態の変形例における構造化文書の伸長手順を説明するためのフローチャートである。 37 is a flowchart for explaining the procedure of extension structured document according to a modification of the fourth embodiment.

【図38】(A)〜(C)はいずれも構造化文書(XM [38] (A) ~ (C) are both structured document (XM
L文書)における一般的なタグの書き方を説明するための図である。 It is a diagram for explaining how to write a common tag in the L document).

【図39】構造化文書(XML文書)のタグにおける一般的な属性の書き方を説明するための図である。 [39] The structured document is a diagram for explaining how to write a common attribute in the tag (XML document).

【図40】一般的なXMLプロセッサの処理について説明するための図である。 FIG. 40 is a diagram for explaining the processing of a general XML processors.

【符号の説明】 DESCRIPTION OF SYMBOLS

10 文書記憶部 20 文書実現値解析部 30 DTD解析部(文書型定義解析部) 40 文書実現値構成変更部 41 文書実現値文字列置換部 50 DTD構成変更部(文書型定義構成変更部) 51 DTD文字列置換部(文書型定義文字列置換部) 60 新規DTDファイル作成部 70 新旧DTD対応表出力部 80 タグ辞書作成部 90 タグ辞書 100 外部ファイル 101,124,131,156 文書記憶部 102 DTD条件調査部 103,132 タグ平文識別部(文書実現値解析部) 104,133 タグ文字列登録部(文書実現値解析部,文書型定義解析部,タグ辞書作成部) 105,134 タグ辞書 106,135 文字列比較部(文書実現値文字列置換部,文書型定義文字列置換部) 107,136 言語識別部 108,1 10 document storage unit 20 document instance analyzer 30 DTD analyzer (document type definition analyzer) 40 document instance configuration changing unit 41 document instance string substitution unit 50 DTD configuration changing unit (document type definition configuration changing unit) 51 DTD string substitution unit (document type definition string substitution unit) 60 new DTD file creation unit 70 old DTD corresponding table output unit 80 tag dictionary creating unit 90 tag dictionary 100 external file 101,124,131,156 document storage unit 102 DTD condition survey unit 103,132 tag plaintext identification unit (document instance analyzer) 104,133 tag string registration unit (document instance analyzer, the document type definition analyzer, the tag dictionary preparing unit) 105,134 tag dictionary 106, 135 string comparison unit (document instance string replacement unit, the document type definition string substitution unit) 107,136 language identification unit 108, 7 日本語辞書(単語辞書) 109,138 中国語辞書(単語辞書) 110,139 英語辞書(単語辞書) 111,140 タグ文字列変換部(文書実現値文字列置換部,文書型定義文字列置換部) 112,141 単語番号変換部(単語文字列置換部) 113 単語番号ファイル 114 DTD記入部 120 単語番号ファイル記憶部 121,153 置換文字比較部 122,154 タグ文字列逆変換部 123,155 単語番号逆変換部 125 旧DTD記入部 142 可変長符号化部 143,151 圧縮ファイル記憶部 152 可変長復号化部 7 Japanese dictionary (word dictionary) 109,138 Chinese dictionary (word dictionary) 110,139 English dictionary (word dictionary) 111,140 tag string conversion unit (document instance string replacement part, document type definition string replacement part) 112,141 word number conversion unit (a word string substitution unit) 113 word number file 114 DTD entering section 120 words number file storage unit 121,153 replacement character comparison unit 122,154 tag string inverse conversion unit 123,155 words number inverse transformer 125 old DTD entering section 142 variable length coding unit 143,151 compressed file storage unit 152 variable length decoding unit

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl. 7識別記号 FI テーマコート゛(参考) H03M 7/30 H03M 7/30 Z Fターム(参考) 5B009 SA08 5B075 NR02 NR16 5B082 AA11 AA13 BA05 BA09 EA09 GA01 GC04 5J064 BA09 BA11 BA15 BC01 BC29 BD03 ────────────────────────────────────────────────── ─── of the front page continued (51) Int.Cl. 7 identification mark FI theme Court Bu (reference) H03M 7/30 H03M 7/30 Z F-term (reference) 5B009 SA08 5B075 NR02 NR16 5B082 AA11 AA13 BA05 BA09 EA09 GA01 GC04 5J064 BA09 BA11 BA15 BC01 BC29 BD03

Claims (28)

    【特許請求の範囲】 [The claims]
  1. 【請求項1】 構造化文書を圧縮する方法であって、 該構造化文書を成す文書実現値における要素の木構造を解析する文書実現値解析ステップと、 該文書実現値解析ステップでの解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該葉要素の親要素の属性として該親要素の開始タグ内に移す文書実現値構成変更ステップとを有することを特徴とする、構造化文書の圧縮方法。 1. A method of compressing a structured document, and document instance analyzing step of analyzing the tree structure of the elements in the document instance forming the structured document, the analysis results for the document realized value analysis step according, elements that are the leaves of the tree structure (hereinafter, referred to as leaf element) information, to have the document instance configuration change step of transferring the attribute of the parent element in the start tag of the parent element of the leaves element wherein the method of compression structured document.
  2. 【請求項2】 該文書実現値構成変更ステップにおいて、該葉要素についての開始タグ,終了タグおよび内容を該文書実現値から削除し、該葉要素についての情報である要素名および内容を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加することを特徴とする、請求項1記載の構造化文書の圧縮方法。 2. A said document realization structure changing step, the start tag for the leaves element, remove the end tag and content from the document realizations, the element name and content which is information about the leaves elements, respectively characterized in that added to the start tag of the parent element as the attribute name and attribute value of parent element, a method of compressing a structured document according to claim 1, wherein.
  3. 【請求項3】 該葉要素の開始タグ内に該葉要素についての情報である属性が記述されている場合、該文書実現値構成変更ステップにおいて、該属性にかかる属性名および属性値を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加することを特徴とする、請求項2記載の構造化文書の圧縮方法。 Wherein if in the start tag of the leaves element attribute is information about the leaves elements are described in the document realization structure changing step, the attribute names and attribute values ​​according to the attribute, respectively characterized in that added to the start tag of the parent element as the attribute name and attribute value of parent element, a method of compressing a structured document according to claim 2, wherein.
  4. 【請求項4】 該文書実現値構成変更ステップにおいて、該親要素の終了タグを削除するとともに、該親要素の開始タグを空要素タグに変更することを特徴とする、 4. A said document realization structure changing step, deletes the end tag of the parent element, and changes the start tag of the parent element to the empty element tag,
    請求項1〜請求項3のいずれか1項に記載の構造化文書の圧縮方法。 The method of compressing a structured document according to any one of claims 1 to 3.
  5. 【請求項5】 該構造化文書を成す文書型定義における要素の木構造を解析する文書型定義解析ステップと、 該文書型定義解析ステップでの解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該文書型定義から削除し、該葉要素の親要素の属性として該文書型定義で再定義する文書型定義構成変更ステップとをさらに有することを特徴とする、請求項1 5. A document type definition analysis step of analyzing the tree structure of the elements in the document type definition forming the structured document, in accordance with the analysis results for the document type definition analysis step, the leaves of the tree structure elements ( hereinafter, information about that leaf element), and deleted from the document type definition, and further comprising a document type definition structure changing step of redefining in the document type definition as an attribute of the parent element of the leaves element to claim 1
    〜請求項4のいずれか1項に記載の構造化文書の圧縮方法。 The method of compressing a structured document according to any one of-claims 4.
  6. 【請求項6】 該文書型定義構成変更ステップにおいて、該葉要素の要素型宣言を該文書型定義から削除するとともに該葉要素にかかる記述を該親要素の要素型宣言から削除し、該葉要素の要素型宣言にかかる情報を、該親要素の属性として該親要素の属性リスト宣言で再定義することを特徴とする、請求項5記載の構造化文書の圧縮方法。 6. The said document type definition structure changing step, remove the description relating to the leaves element deletes the element type declaration of the leaves element from the document type definition from element type declaration of the parent element, the leaves such information element type declaration element, characterized by redefining the attribute list declaration of parent element as an attribute of the parent element, the method of compressing a structured document according to claim 5, wherein.
  7. 【請求項7】 該文書型定義で該葉要素の属性が該葉要素の属性リスト宣言により定義されている場合、該文書型定義構成変更ステップにおいて、該葉要素の属性リスト宣言を該文書型定義から削除し、該葉要素の属性を、 7. If the document type attribute of the leaves element definition is defined by the attribute list declaration of the leaves element, in the document type definition structure changing step, the document type attribute list declaration of the leaves element remove from the definition, the attributes of the leaves element,
    該親要素の属性として該親要素の属性リスト宣言で再定義することを特徴とする、請求項6記載の構造化文書の圧縮方法。 Wherein the as an attribute of the parent element redefined attribute list declaration of parent elements, the method of compressing a structured document according to claim 6, wherein.
  8. 【請求項8】 構造化文書を圧縮する方法であって、 該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析ステップと、 該文書実現値解析ステップでの解析結果に従って、該文書実現値のタグ内に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成ステップと、 該タグ辞書作成ステップで作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換ステップとを有することを特徴とする、構造化文書の圧縮方法。 8. A method of compressing a structured document, and document instance analyzing step of analyzing the description of the tag of document instance forming the structured document, the analysis results for the document realized value analysis step accordingly the tag dictionary generating step of generating a tag dictionary to associate the shortened string that can identify the short and the string than string and the character string described in the tag of the document realizations, the tag by using the tag dictionary created in the dictionary generating step, a character string described in the tag of the document realizations, and a document instance string substitution step of replacing the shortening character string corresponding to the character string wherein the method of compression structured document.
  9. 【請求項9】 構造化文書を圧縮する方法であって、 該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析ステップと、 該構造化文書を成す文書型定義の記述を解析する文書型定義解析ステップと、 該文書実現値解析ステップおよび該文書型定義解析ステップでの解析結果に従って、該文書実現値のタグ内および該文書型定義に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成ステップと、 該タグ辞書作成ステップで作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換ステップと、 該タグ辞書作成ステップで作成された該タグ辞書を用いて、該 9. A method of compressing a structured document, and document instance analyzing step of analyzing the description of the tag of document instance forming the structured document, the document type definition forming the structured document a document type definition analysis step of analyzing the description, according to the analysis result in the document realization analyzing step and the document type definition analysis step, string and the described in the tag and the document type definition of the document realizations tag dictionary generating step of generating a tag dictionary and in matching shortened string that can identify the character string shorter than the string, by using the tag dictionary created by the tag dictionary generation step, the document realized a character string described in the tag value, using the document instance string substitution step of replacing the shortening character string corresponding to the character string, the tag dictionary created by the tag dictionary generation step, the 書型定義に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書型定義文字列置換ステップとを有することを特徴とする、構造化文書の圧縮方法。 A character string described in the book-type definition, and having a document type definition string substitution step of replacing the shortening character string corresponding to the character string, a method of compressing a structured document.
  10. 【請求項10】 該タグ内もしくは該文書型定義に記述された要素名および属性名を前記文字列として扱い、該要素名および該属性名を該短縮文字列に置き換えることを特徴とする、請求項8または請求項9に記載の構造化文書の圧縮方法。 10. treats element names and attribute names written in the tag or the document type definition as the character string, and replaces the element name and the attribute name to the shorter string, wherein the method of compressing a structured document according to claim 8 or claim 9.
  11. 【請求項11】 単語文字列と該単語文字列よりも短く且つ該単語文字列を特定しうる短縮文字列とを対応させる単語辞書を用いて、該文書実現値の内容に含まれる単語文字列を、当該単語文字列に対応する短縮文字列に置き換える単語文字列置換ステップを有することを特徴とする、請求項8〜請求項10のいずれか1項に記載の構造化文書の圧縮方法。 11. Using the word string and said word character word dictionary to associate the shortened string that can identify and said word string shorter than the column, the word character string included in the content of the document realizations and characterized by having a word string substitution step of replacing the shortening character string corresponding to the word string, the method of compressing a structured document according to any one of claims 8 to claim 10.
  12. 【請求項12】 該タグ内もしくは該文書型定義に記述された文字列を該短縮文字列に置き換えるとともに該単語文字列を該短縮文字列に置き換えた後に、これらの文字列を可変長符号化により圧縮する可変長符号化ステップを有することを特徴とする、請求項11記載の構造化文書の圧縮方法。 12. The said word string is replaced with a character string described in the tag or in the document type definition to the shorter string after replacing the said shortened string, variable length coding these strings characterized by having a variable length coding step of compressing, the compression method a structured document according to claim 11, wherein.
  13. 【請求項13】 構造化文書を圧縮する装置であって、 該構造化文書を成す文書実現値における要素の木構造を解析する文書実現値解析部と、 該文書実現値解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該葉要素の親要素の属性として該親要素の開始タグ内に移す文書実現値構成変更部とをそなえて構成されたことを特徴とする、構造化文書の圧縮装置。 13. An apparatus for compressing a structured document, and document instance analyzer for analyzing the tree structure of the elements in the document instance forming the structured document, in accordance with the analysis result by the document realized value analysis unit , elements that are the leaves of the tree structure (hereinafter, referred to as leaf element) information, and a document instance configuration changing unit to move in the start tag of the parent element as an attribute of the parent element of the leaves component configuration It is characterized in that the compression device of the structured document.
  14. 【請求項14】 該文書実現値構成部が、該葉要素についての開始タグ,終了タグおよび内容を該文書実現値から削除し、該葉要素についての情報である要素名および内容を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加することを特徴とする、請求項13記載の構造化文書の圧縮装置。 14. the document realization configuration unit, the start tag for the leaves element, remove the end tag and content from the document realizations, the information in which the element name and the contents of the leaves element, respectively the characterized in that added to the start tag of the parent element as the attribute name and attribute value of parent element, the compressor of the structured document according to claim 13, wherein.
  15. 【請求項15】 該葉要素の開始タグ内に該葉要素についての情報である属性が記述されている場合、該文書実現値構成変更部が、該属性にかかる属性名および属性値を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加することを特徴とする、請求項14記載の構造化文書の圧縮装置。 15. If in the start tag of the leaves element information in which attributes of the leaves elements are described, the document realizations configuration changing unit, the attribute names and attribute values ​​according to the attribute, respectively characterized in that added to the start tag of the parent element as the attribute name and attribute value of parent element, the compressor of the structured document according to claim 14, wherein.
  16. 【請求項16】 該文書実現値構成変更部が、該親要素の終了タグを削除するとともに、該親要素の開始タグを空要素タグに変更することを特徴とする、請求項13〜 16. the document realization configuration changing unit, deletes the end tag of the parent element, and changes the start tag of the parent element to the empty element tag, claim 13
    請求項15のいずれか1項に記載の構造化文書の圧縮装置。 Compression apparatus structured document according to any one of claims 15.
  17. 【請求項17】 該構造化文書を成す文書型定義における要素の木構造を解析する文書型定義解析部と、 該文書型定義解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該文書型定義から削除し、該葉要素の親要素の属性として該文書型定義で再定義する文書型定義構成変更部とをさらにそなえたことを特徴とする、請求項13〜請求項16のいずれか1項に記載の構造化文書の圧縮装置。 17. A said structured document document type definition analyzer for analyzing the tree structure of the elements in the document type definition that form a, in accordance with the analysis result of the document type definition analyzer, elements that are the leaves of the tree structure (hereinafter , information about that leaf element), and characterized in that removed from the document type definition, and further includes a document type definition structure changing unit that redefined in the document type definition as an attribute of the parent element of the leaves element to, the compressor of the structured document according to any one of claims 13 16.
  18. 【請求項18】 構造化文書を圧縮する装置であって、 該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部と、 該文書実現値解析部による解析結果に従って、該文書実現値のタグ内に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部と、 該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換部をそなえて構成されたことを特徴とする、構造化文書の圧縮装置。 18. An apparatus for compressing a structured document, and document instance analyzing section for analyzing the description in the tag of document instance forming the structured document, according to the analysis result by the document realized value analysis unit , a tag dictionary creation unit for creating a tag dictionary to associate the shortened string that can identify the short and the string than string and the character string described in the tag of the document realizations, the tag dictionary constructed using the tag dictionary created by the creation unit, a character string described in the tag of the document realizations, equipped with a document instance string substitution unit to substitute the shorter character string corresponding to the character string It is characterized in that the compression device of the structured document.
  19. 【請求項19】 構造化文書を圧縮する装置であって、 該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部と、 該構造化文書を成す文書型定義の記述を解析する文書型定義解析部と、 該文書実現値解析部および該文書型定義解析部による解析結果に従って、該文書実現値のタグ内および該文書型定義に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部と、 該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換部と、 該タグ辞書作成部により作成された該タグ辞書を用いて、該文書型定義に記述された文字列を、当該 19. An apparatus for compressing a structured document, and document instance analyzing section for analyzing the description in the tag of document instance forming the structured document, the document type definition forming the structured document a document type definition analyzer for analyzing the description, according to the analysis result by the document realized value analysis unit and the document type definition analyzer, a character string described in the tag and in the document type definition of the document realization and the character a tag dictionary creation unit for creating a tag dictionary to associate the shortened string that can identify and said string shorter than the column, with the tag dictionary created by said tag dictionary creation unit, the document realizations of a character string described in the tag, using a document instance string substitution unit to substitute the shorter character string corresponding to the character string, the tag dictionary created by said tag dictionary creation unit, the document type a character string described in the definition, the 字列に対応する短縮文字列に置き換える文書型定義文字列置換部とをそなえて構成されたことを特徴とする、構造化文書の圧縮装置。 Characterized in that it is configured to include a document type definition string substitution unit to substitute the shorter character string corresponding to the string, the compressor of the structured document.
  20. 【請求項20】 該タグ内もしくは該文書型定義に記述された要素名および属性名を前記文字列として扱い、該要素名および該属性名を該短縮文字列に置き換えることを特徴とする、請求項18または請求項19に記載の構造化文書の圧縮装置。 20. treats element names and attribute names written in the tag or the document type definition as the character string, and replaces the element name and the attribute name to the shorter string, wherein compression apparatus structured document according to claim 18 or claim 19.
  21. 【請求項21】 構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体であって、 該構造化文書圧縮プログラムが、 該構造化文書を成す文書実現値における要素の木構造を解析する文書実現値解析部、および、 該文書実現値解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該葉要素の親要素の属性として該親要素の開始タグ内に移す文書実現値構成変更部として、該コンピュータを機能させることを特徴とする、構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 21. A computer-readable recording medium storing a structured document compression program for the function of compressing the structured document realized by a computer, said structured document compression program, the structured document document instance analyzer for analyzing the tree structure of the elements in the document instance forming, and, in accordance with the analysis result by the document realized value analysis unit, elements that are the leaves of the tree structure (hereinafter, referred to as leaf element) information about as document instance configuration changing unit to move in the start tag of the parent element as an attribute of the parent element of the leaves element, characterized in that to function the computer, computer-readable storing a structured document compressor recoding media.
  22. 【請求項22】 該構造化文書圧縮プログラムが、該文書実現値構成部により、該葉要素についての開始タグ, 22. The structured document compressing program, by the document realizations components, the start tag for the leaves element,
    終了タグおよび内容を該文書実現値から削除し、該葉要素についての情報である要素名および内容を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加するよう、該コンピュータを機能させることを特徴とする、請求項21記載の構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 Ends tags and contents were removed from the document realizations, the information in which the element name and the contents of the leaves element, so to be added to the start tag of the parent element as attribute names and values ​​of the parent element, characterized in that to function the computer, computer-readable recording medium storing a structured document compression program according to claim 21, wherein.
  23. 【請求項23】 該構造化文書圧縮プログラムが、該葉要素の開始タグ内に該葉要素についての情報である属性が記述されている場合、該文書実現値構成変更部により、該属性にかかる属性名および属性値を、それぞれ該親要素の属性名および属性値として該親要素の開始タグ内に付加するよう、該コンピュータを機能させることを特徴とする、請求項22記載の構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 23. The structured document compressing program, if the information in a attribute of the leaves element start tag of the leaves elements are described by the document realization configuration changing unit, according to the attribute the attribute name and attribute value, such that each added to the start tag of the parent element as the attribute name and attribute value of parent element, characterized in that to function the computer, the structured document compressing of claim 22, wherein a computer-readable recording medium storing a program.
  24. 【請求項24】 該構造化文書圧縮プログラムが、該文書実現値構成変更部により、該親要素の終了タグを削除するとともに該親要素の開始タグを空要素タグに変更するよう、該コンピュータを機能させることを特徴とする、請求項21〜請求項23のいずれか1項に記載の構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 24. The structured document compressing program, by the document realization configuration changing unit, to change the start tag of the parent element deletes the end tag of the parent element to the empty element tag, the computer characterized in that to function, it claims 21 to computer-readable recording medium storing a structured document compression program according to any one of claims 23.
  25. 【請求項25】 該構造化文書圧縮プログラムが、さらに、 該構造化文書を成す文書型定義における要素の木構造を解析する文書型定義解析部、および、 該文書型定義解析部による解析結果に従い、該木構造の葉となる要素(以下、葉要素という)についての情報を、該文書型定義から削除し、該は要素の親要素の属性として該文書型定義で再定義する文書型定義構成変更部として、該コンピュータを機能させることを特徴とする、請求項21〜請求項24のいずれか1項に記載の構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 25. The structured document compressor further, document type definition analyzer for analyzing the tree structure of the elements in the document type definition forming the structured document, and, in accordance with the analysis result of the document type definition analyzer , elements that are the leaves of the tree structure (hereinafter, referred to as leaf element) information, and deleted from the document type definition, the document type definition structure redefined in the document type definition as an attribute of the parent element of the element as a change unit, characterized in that to function the computer, according to claim 21 to a computer-readable recording medium storing a structured document compression program according to any one of claims 24.
  26. 【請求項26】 構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体であって、 該構造化文書圧縮プログラムが、 該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部、 該文書実現値解析部による解析結果に従って、該文書実現値のタグ内に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部、および、 該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書実現値文字列置換部として、該コンピュータを機能させることを特徴とする、構造化文書圧縮プ 26. A computer-readable recording medium storing a structured document compression program for the function of compressing the structured document realized by a computer, said structured document compression program, the structured document document instance analyzing section for analyzing the description in the tag of document instance forming, according to the analysis result by the document realized value analysis unit, and shorter than the string and the character string described in the tag of the document realizations tags dictionary creation unit for creating a tag dictionary to associate the shortened string that can identify the character string, and, by using the tag dictionary created by said tag dictionary creation unit, into the tag of the document realizations a description string, as document instance string substitution unit to substitute the shorter character string corresponding to the character string, characterized in that to function the computer, the structured document compressing flop グラムを格納したコンピュータ読取可能な記録媒体。 A computer-readable recording medium storing grams.
  27. 【請求項27】 構造化文書を圧縮する機能をコンピュータにより実現するための構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体であって、 該構造化文書圧縮プログラムが、 該構造化文書を成す文書実現値のタグ内の記述を解析する文書実現値解析部、 該構造化文書を成す文書型定義の記述を解析する文書型定義解析部、 該文書実現値解析部および該文書型定義解析部による解析結果に従って、該文書実現値のタグ内および該文書型定義に記述された文字列と該文字列よりも短く且つ該文字列を特定しうる短縮文字列とを対応させるタグ辞書を作成するタグ辞書作成部、 該タグ辞書作成部により作成された該タグ辞書を用いて、該文書実現値のタグ内に記述された文字列を、当該文字列に対応する短縮文字列に置き 27. A computer-readable recording medium storing a structured document compression program for the function of compressing the structured document realized by a computer, said structured document compression program, the structured document document instance analyzing section for analyzing the description in the tag of document instance forming, document type definition analyzer for analyzing the description of a document type definition forming the structured document, the document realized value analysis unit and the document type definition analyzer according to the analysis result of the part, creating a tag dictionary to associate the shortened string that can identify and said string shorter than the string and the character string described in the tag and in the document type definition of the document realizations tags dictionary creation unit which, by using the tag dictionary created by said tag dictionary preparing unit, a character string described in the tag of the document realizations, placed shortened character string corresponding to the character string える文書実現値文字列置換部、および、 該タグ辞書作成部により作成された該タグ辞書を用いて、該文書型定義に記述された文字列を、当該文字列に対応する短縮文字列に置き換える文書型定義文字列置換部として、該コンピュータを機能させることを特徴とする、構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 Document instance string substitution unit to obtain, and replace with the tag dictionary created by said tag dictionary preparing unit, a character string described in the document type definition, the shortened character string corresponding to the character string the document type definition as a string replacement part, characterized in that to function the computer, computer-readable recording medium storing a structured document compressor.
  28. 【請求項28】 該構造化文書圧縮プログラムが、該タグ内もしくは該文書型定義に記述された要素名および属性名を前記文字列として扱い、該コンピュータに、該要素名および該属性名を該短縮文字列に置換させることを特徴とする、請求項26または請求項27に記載の構造化文書圧縮プログラムを格納したコンピュータ読取可能な記録媒体。 28. The structured document compressing program treats element names and attribute names described in the tag or the document type definition as the character string, in the computer, the element name and the attribute name the and characterized in that substituted shortened string, computer-readable recording medium storing a structured document compression program according to claim 26 or claim 27.
JP2000098043A 1999-06-21 2000-03-31 Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program Pending JP2001067348A (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP11-173468 1999-06-21
JP17346899 1999-06-21
JP2000098043A JP2001067348A (en) 1999-06-21 2000-03-31 Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000098043A JP2001067348A (en) 1999-06-21 2000-03-31 Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program

Publications (1)

Publication Number Publication Date
JP2001067348A true JP2001067348A (en) 2001-03-16

Family

ID=26495434

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000098043A Pending JP2001067348A (en) 1999-06-21 2000-03-31 Method and device for compressing structured documents and computer-readable recording medium recording structured document compressing program

Country Status (1)

Country Link
JP (1) JP2001067348A (en)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297569A (en) * 2001-03-30 2002-10-11 Fujitsu Ltd Conversion apparatus for structured document and conversion apparatus for query
WO2004061713A1 (en) * 2002-12-27 2004-07-22 Fujitsu Limited Device for converting structure of structured document, structure conversing method, and recording medium
WO2004079586A1 (en) * 2003-03-07 2004-09-16 Sharp Kabushiki Kaisha Data conversion method capable of optimally performing mark-up language processing
WO2006137412A1 (en) * 2005-06-20 2006-12-28 National Institute Of Information And Communications Technology, Incorporated Administrative Agency Data display device and method
JP2007241482A (en) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology Data display device and method
JP2007293874A (en) * 2007-05-18 2007-11-08 Degital Works Kk Method and apparatus for compressed storage of document
WO2008102947A1 (en) * 2007-02-22 2008-08-28 Samsung Electronics Co, . Ltd. Method and apparatus for managing files and information storage medium storing the files
JP2008217809A (en) * 2008-04-02 2008-09-18 Fujitsu Ltd Structured document converting device
JP2008219264A (en) * 2007-03-01 2008-09-18 Ntt Communications Kk Data compression and transfer device, data compression and transfer system, data compressing and transferring method, and data compression and transfer program
US7437374B2 (en) 2004-02-10 2008-10-14 International Business Machines Corporation Efficient XML schema validation of XML fragments using annotated automaton encoding
US7493603B2 (en) 2002-10-15 2009-02-17 International Business Machines Corporation Annotated automaton encoding of XML schema for high performance schema validation
JP2009518755A (en) * 2005-12-08 2009-05-07 グッド テクノロジー インコーポレイテッド Method and apparatus for compressing / decompressing data for communication with the wireless device
JP2009123019A (en) * 2007-11-15 2009-06-04 Canon Inc Data compression device, data expansion device, and data compression method
US7559019B2 (en) 2003-05-19 2009-07-07 Hitachi, Ltd. Document structure inspection method and apparatus
JP2013045208A (en) * 2011-08-23 2013-03-04 Fujitsu Ltd Data generation method, device and program, retrieval processing method, and device and program
US8413041B2 (en) 2002-06-26 2013-04-02 Samsung Electronics Co., Ltd. Apparatus and method for parsing XML document by using external XML validator
JP2016139309A (en) * 2015-01-28 2016-08-04 富士通株式会社 Character data conversion program, character data conversion device and character data conversion method

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297569A (en) * 2001-03-30 2002-10-11 Fujitsu Ltd Conversion apparatus for structured document and conversion apparatus for query
JP4689856B2 (en) * 2001-03-30 2011-05-25 富士通株式会社 Structured document conversion device
US8413041B2 (en) 2002-06-26 2013-04-02 Samsung Electronics Co., Ltd. Apparatus and method for parsing XML document by using external XML validator
US7493603B2 (en) 2002-10-15 2009-02-17 International Business Machines Corporation Annotated automaton encoding of XML schema for high performance schema validation
WO2004061713A1 (en) * 2002-12-27 2004-07-22 Fujitsu Limited Device for converting structure of structured document, structure conversing method, and recording medium
WO2004079586A1 (en) * 2003-03-07 2004-09-16 Sharp Kabushiki Kaisha Data conversion method capable of optimally performing mark-up language processing
EP1610228A1 (en) * 2003-03-07 2005-12-28 Sharp Kabushiki Kaisha Data conversion method capable of optimally performing mark-up language processing
EP1610228A4 (en) * 2003-03-07 2009-07-29 Sharp Kk Data conversion method capable of optimally performing mark-up language processing
US7559019B2 (en) 2003-05-19 2009-07-07 Hitachi, Ltd. Document structure inspection method and apparatus
US7437374B2 (en) 2004-02-10 2008-10-14 International Business Machines Corporation Efficient XML schema validation of XML fragments using annotated automaton encoding
US7890479B2 (en) 2004-02-10 2011-02-15 International Business Machines Corporation Efficient XML schema validation of XML fragments using annotated automaton encoding
WO2006137412A1 (en) * 2005-06-20 2006-12-28 National Institute Of Information And Communications Technology, Incorporated Administrative Agency Data display device and method
JP2009518755A (en) * 2005-12-08 2009-05-07 グッド テクノロジー インコーポレイテッド Method and apparatus for compressing / decompressing data for communication with the wireless device
JP2007241482A (en) * 2006-03-06 2007-09-20 National Institute Of Information & Communication Technology Data display device and method
WO2008102947A1 (en) * 2007-02-22 2008-08-28 Samsung Electronics Co, . Ltd. Method and apparatus for managing files and information storage medium storing the files
JP2008219264A (en) * 2007-03-01 2008-09-18 Ntt Communications Kk Data compression and transfer device, data compression and transfer system, data compressing and transferring method, and data compression and transfer program
JP2007293874A (en) * 2007-05-18 2007-11-08 Degital Works Kk Method and apparatus for compressed storage of document
JP4562749B2 (en) * 2007-05-18 2010-10-13 ディジタル・ワークス株式会社 Compression storage method and apparatus of the document
JP2009123019A (en) * 2007-11-15 2009-06-04 Canon Inc Data compression device, data expansion device, and data compression method
JP4571991B2 (en) * 2008-04-02 2010-10-27 富士通株式会社 Structured document conversion device
JP2008217809A (en) * 2008-04-02 2008-09-18 Fujitsu Ltd Structured document converting device
JP2013045208A (en) * 2011-08-23 2013-03-04 Fujitsu Ltd Data generation method, device and program, retrieval processing method, and device and program
US9183320B2 (en) 2011-08-23 2015-11-10 Fujitsu Limited Data managing method, apparatus, and recording medium of program, and searching method, apparatus, and medium of program
JP2016139309A (en) * 2015-01-28 2016-08-04 富士通株式会社 Character data conversion program, character data conversion device and character data conversion method

Similar Documents

Publication Publication Date Title
JP4926004B2 (en) Document processing apparatus, a document processing method and a document processing program
Bradley The XML companion
JP4404211B2 (en) Multilingual translation memory, translation methods and translation program
US7269548B2 (en) System and method of creating and using compact linguistic data
JP2783558B2 (en) Summarization method and summary generator
US6826576B2 (en) Very-large-scale automatic categorizer for web content
JP3292388B2 (en) Method and apparatus for summarizing a document without decoding the document image
US5628003A (en) Document storage and retrieval system for storing and retrieving document image and full text data
Bray et al. Extensible markup language (XML)
US6560772B1 (en) Method, system, and program for accessing data in different environments
US6539116B2 (en) Information processing apparatus and method, and computer readable memory therefor
US4985863A (en) Document storage and retrieval system
US7669120B2 (en) Method and system for encoding a mark-up language document
JP3427692B2 (en) Character recognition method and character recognition device
US20020118379A1 (en) System and user interface supporting user navigation of multimedia data file content
JP2618832B2 (en) Analysis methods and systems of the logical structure of the document
JP3640972B2 (en) Apparatus for performing decoding or interpretation of the document
US20020065822A1 (en) Structured document compressing apparatus and method, record medium in which a structured document compressing program is stored, structured document decompressing apparatus and method, record medium in which a structured document decompressing program is stored, and structured document processing system
US5553216A (en) Structured database system together with structure definition frame storing document body data
EP0439743A2 (en) Constraint driven on-line recognition of handwritten characters and symbols
Mao et al. Document structure analysis algorithms: a literature survey
JP3445394B2 (en) Method of comparing at least two image section
AU773723B2 (en) System and method for language extraction and encoding
JP5144940B2 (en) Robustness improvement in the table of contents extraction
US7516401B2 (en) Function-based object model for analyzing a web page table in a mobile device by identifying table objects similarity in function

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060612

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20070921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071002

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080527