JP2005284903A - Document encoding system, document decoding system, method for encoding document, and method for decoding document - Google Patents

Document encoding system, document decoding system, method for encoding document, and method for decoding document Download PDF

Info

Publication number
JP2005284903A
JP2005284903A JP2004100243A JP2004100243A JP2005284903A JP 2005284903 A JP2005284903 A JP 2005284903A JP 2004100243 A JP2004100243 A JP 2004100243A JP 2004100243 A JP2004100243 A JP 2004100243A JP 2005284903 A JP2005284903 A JP 2005284903A
Authority
JP
Japan
Prior art keywords
document
decoding
encoding
encoded
difference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004100243A
Other languages
Japanese (ja)
Inventor
Kazuhiro Machida
和弘 町田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2004100243A priority Critical patent/JP2005284903A/en
Publication of JP2005284903A publication Critical patent/JP2005284903A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To enable receiving side to accumulate distribution data more efficiently while improving a compression rate of document data and reducing load of distribution system concerning distribution of document data. <P>SOLUTION: An interpretation part 201 interprets metadata of XML format generated by a metadata control part 102, and generates an analysis table so that it can be used in a difference calculation part 202 and a pattern detection part 204 thereafter. The pattern detection part 204 detects the same elements on XML syntax in metadata referring to the analysis table, and performs marking using the element which appears first as template. The difference calculation part 202 calculates the difference between detected template and each element which continues thereafter, and records attribute and value in each pattern. A compression encoding part 203 encodes by element unit based on the source, the template and the difference information, and generates XML binary data. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、文書の符号化及び復号化技術に関し、XML(Extensible Markup Language)やHTML(Hyper Text Markup Language)等のタグベースの文書の符号化における圧縮率の向上に好適な文書符号化装置、文書復号化装置、文書符号化方法及び文書復号化方法に関する。   The present invention relates to a document encoding and decoding technique, a document encoding apparatus suitable for improving a compression rate in encoding of a tag-based document such as XML (Extensible Markup Language) or HTML (Hyper Text Markup Language), The present invention relates to a document decoding apparatus, a document encoding method, and a document decoding method.

近年、放送番組などのコンテンツの検索などに用いるメタデータの表現の手段として、XMLが注目されている。XMLは拡張可能なメタ言語であり、利用者が独自に文書の構造を規定することができる。なお、XMLについては、非特許文献1に詳細が記述されている。   In recent years, XML has attracted attention as a means for expressing metadata used for searching content such as broadcast programs. XML is an extensible meta language, and a user can uniquely define a document structure. Details of XML are described in Non-Patent Document 1.

XMLのデータは、人間が読むことができるテキスト形式で記述されている。その反面、冗長性が高く、XMLデータ全体の情報量(文字数)が多くなる傾向にある。文字数が多くなれば、例えば、ストレージに格納したり、またはネットワークで転送する際に、記録容量あるいは転送量が増大し、物理的、時間的コストが上昇する。このため、XMLデータを短い符号に符号化(または圧縮)する必要がある。   XML data is described in a text format that can be read by humans. On the other hand, redundancy is high and the amount of information (number of characters) of the entire XML data tends to increase. If the number of characters increases, for example, when stored in storage or transferred over a network, the recording capacity or transfer amount increases, and physical and time costs increase. For this reason, it is necessary to encode (or compress) the XML data into a short code.

データの圧縮法には各種方法が知られている。例えば、ランレングス符号、Huffman符号、算術符号等である。これら符号化の手法については、たとえば、非特許文献2、非特許文献3、非特許文献4に詳細が記述されている。しかしながら、これら符号化方法はXMLに特化されたものではないため、必ずしも高い圧縮効率が得られるわけではない。   Various data compression methods are known. For example, a run length code, a Huffman code, an arithmetic code, and the like. Details of these encoding methods are described in Non-Patent Document 2, Non-Patent Document 3, and Non-Patent Document 4, for example. However, since these encoding methods are not specialized for XML, high compression efficiency is not always obtained.

XMLデータに特化した圧縮手法には、例えば、非特許文献5に記載のXMill、あるいは非特許文献6に記載のXCompなどがある。XMillは、XMLデータから要素ごとのコンテンツ(テキスト)部分を抽出する。この抽出された部分をコンテナと呼ぶ。そして構造部分を数字で符号化し、テキスト部分はコンテナ毎にLZ77などの方法で圧縮する。基本的にはパラメータ等の情報を必要とせず、アプリケーションのみで圧縮が可能である。必要であればパラメータ等を指定してコンテナごとの圧縮方法を指定し、圧縮効率を高めることが可能である。また、Cで実装されるため圧縮速度が速いという特徴をもつ。   Examples of compression methods specialized in XML data include XMill described in Non-Patent Document 5, or XComp described in Non-Patent Document 6. XMill extracts a content (text) portion for each element from the XML data. This extracted part is called a container. The structure portion is encoded with a number, and the text portion is compressed for each container by a method such as LZ77. Basically, information such as parameters is not required, and compression is possible only by an application. If necessary, it is possible to specify the compression method for each container and specify the compression method for each container, thereby increasing the compression efficiency. Also, since it is implemented in C, it has a feature that the compression speed is fast.

XCompは、XMLデータの構造部分のうち、DTD(Document Type Definition)から一意に決定される部分は符号化せず、一意に決定できない部分についての構造部分のみを圧縮する。テキスト部分はXMillと同じ方法で圧縮する。すなわち、以下の手順で圧縮を行う。(1)構造とコンテンツを分離する。(2)DTDからプッシュダウンオートマトン(PDA)を生成する。(3)生成されたPDAを用いて構造部分を符号化する符号化トランスデューサを生成する。(4)符号化トランスデューサの各ノードに割り振られた数字をオートマトンを連鎖的に遷移することにより出力し、構造を符号化する。(5)得られた構造符号と要素ごとのコンテンツをLZ77等で圧縮し、圧縮されたXML文書を出力する。上記XML文書に特化された圧縮手法のうち、XCompは構造部分の一部を符号化しないので、かなりよい圧縮効率を達成する。
W3C. Extensible Markup Language (XML) 1.0, 1998. http://www.w3.org/TR/REC-xml Huffman, D.A. “A method for the construction of minimum-redundancy codes” Proc. of the IRE September,1952 Mark Nelsonand Jean Loup Gailly “The Data Compression Book”, Second Edition. M&TBooks 1996 Jacob Ziv and Abraham Lempel. “A universal algorithm for sequential data compression” IEEE Transactions on Information TheoryMay, 1977 D. Suciu and H. Liefke. XMill: an Efficient Compressor for XML Data, 1999. http://www.research.att.com./sw/tools/xmill/ 井川甲作著、東京工業大学工学部情報工学科卒業論文「DTDを用いたXML文書圧縮アルゴリズムに関する研究」、平成12年2月
XComp does not encode the part uniquely determined from DTD (Document Type Definition) in the structure part of the XML data, and compresses only the structure part of the part that cannot be uniquely determined. The text part is compressed in the same way as XMill. That is, compression is performed according to the following procedure. (1) Separate structure and content. (2) Generate a push-down automaton (PDA) from the DTD. (3) Generate an encoding transducer that encodes the structural portion using the generated PDA. (4) The number assigned to each node of the encoding transducer is output by chain transition of the automaton, and the structure is encoded. (5) The obtained structure code and content for each element are compressed with LZ77 or the like, and a compressed XML document is output. Among the compression methods specialized for the XML document, XComp does not encode a part of the structural portion, and thus achieves a considerably good compression efficiency.
W3C.Extensible Markup Language (XML) 1.0, 1998.http: //www.w3.org/TR/REC-xml Huffman, DA “A method for the construction of minimum-redundancy codes” Proc. Of the IRE September, 1952 Mark Nelsonand Jean Loup Gailly “The Data Compression Book”, Second Edition. M & TBooks 1996 Jacob Ziv and Abraham Lempel. “A universal algorithm for sequential data compression” IEEE Transactions on Information TheoryMay, 1977 D. Suciu and H. Liefke. XMill: an Efficient Compressor for XML Data, 1999. http://www.research.att.com./sw/tools/xmill/ Igawa Kosaku, Tokyo Institute of Technology, Department of Information Engineering, Graduation thesis “Study on XML Document Compression Algorithm Using DTD”, February 2000

上記従来のXCompは、XMLデータの構造を解釈するためのオートマトンが受信側に実装されるため、受信装置に負担がかかる、受信データを蓄積する処理の効率を高め難い等の問題があった。オートマトンが必要なのは受信機で検証する場合で、多くの場合、基本的には送出時に検証することによって、受信機の検証は必要なく、オートマトンは必須ではない。   The conventional XComp has a problem that an automaton for interpreting the structure of XML data is mounted on the receiving side, which places a burden on the receiving device and makes it difficult to increase the efficiency of the process of storing received data. The automaton is necessary when the receiver verifies. In many cases, the receiver is not basically verified by verifying at the time of transmission, and the automaton is not essential.

また、オートマトンを用いると、メタデータの追加や更新には、オートマトンの更新の必要があり負荷が高い。また、オートマトンによる従来の方法では、圧縮が要素毎に行われるので、同一要素が繰り返し出現するような場合は総じて圧縮率は高くならない。なお、多くの場合は、要素が増えるのではなく(多種の要素が存在するのではなく)、同じ要素が増加することが一般的である(番組数が増える=番組と言う同じ要素が増える)。   In addition, when an automaton is used, it is necessary to update the automaton to add or update metadata, and the load is high. Further, in the conventional method using the automaton, the compression is performed for each element, and therefore the compression rate does not generally increase when the same element repeatedly appears. In many cases, the number of elements is not increased (there are not many elements), but the same element is generally increased (the number of programs increases = the same element called a program increases) .

本発明は、上記課題に鑑みてなされたものであり、文書データの圧縮率を向上し、文書データの配信に係る配信装置の負荷を低減し、また、受信側で配信データをより効率的に蓄積することが可能な文書符号化装置、文書復号化装置、文書符号化方法及び文書復号化方法を提供することを目的とする。   The present invention has been made in view of the above problems, and improves the compression rate of document data, reduces the load on the distribution apparatus related to the distribution of document data, and more efficiently distributes distribution data on the receiving side. An object of the present invention is to provide a document encoding device, a document decoding device, a document encoding method, and a document decoding method that can be stored.

本発明の文書符号化装置は、文書を解釈する解釈手段と、前記解釈した文書中に同一要素が存在するか否かを検知する検知手段と、前記検知結果により同一要素が存在する場合、同一要素間の差分を計算する差分計算手段と、前記計算した差分情報に基づいて個々の要素を圧縮して符号化する圧縮符号化手段と、を具備する構成を採る。   The document encoding apparatus of the present invention is the same when the interpretation means for interpreting the document, the detection means for detecting whether or not the same element exists in the interpreted document, and the same element exists according to the detection result. It adopts a configuration comprising difference calculating means for calculating a difference between elements and compression encoding means for compressing and encoding each element based on the calculated difference information.

この構成によれば、文書データの圧縮率を向上することができ、文書データの配信に係る配信装置の負荷を低減することができる。   According to this configuration, the compression rate of the document data can be improved, and the load on the distribution apparatus related to the distribution of the document data can be reduced.

本発明の文書符号化装置は、請求項1記載の文書符号化装置において、前記圧縮符号化手段は、前記検知結果により同一要素が存在しかつ連続する場合、連続する個々の要素を1つの要素として結合する構成を採る。   The document encoding apparatus according to the present invention is the document encoding apparatus according to claim 1, wherein when the same element exists and continues according to the detection result, the compression encoding means converts each continuous element into one element. As a combination,

この構成によれば、文書データに含まれる同一要素が連続する場合に、文書データの圧縮率を向上することができる。   According to this configuration, when the same elements included in the document data are continuous, the compression rate of the document data can be improved.

本発明の文書符号化装置は、請求項1又は2記載の文書符号化装置において、前記要素は、複数の省略可能な属性名と属性値の対からなる属性情報を含み、前記差分計算手段は、前記属性値の差を差分として計算するとともに、前記属性情報全体が省略された場合、属性値のみが省略されたと仮定して差分として計算する構成を採る。   The document encoding apparatus according to the present invention is the document encoding apparatus according to claim 1 or 2, wherein the element includes attribute information including a plurality of pairs of attribute names and attribute values that can be omitted, and the difference calculating unit includes: The difference between the attribute values is calculated as a difference, and when the entire attribute information is omitted, the difference is calculated assuming that only the attribute value is omitted.

この構成によれば、文書データに含まれる要素の属性情報及び属性値に基づいて文書データの圧縮率を向上することができる。   According to this configuration, the compression rate of the document data can be improved based on the attribute information and attribute values of the elements included in the document data.

本発明の文書符号化装置は、請求項3記載の文書符号化装置において、符号化の対象となる文書が、文書の構造を規定するスキーマ文書と、スキーマ文書から派生するインスタンス文書からなる構造化文書である場合、前記検知手段は、前記属性情報の省略を、スキーマ文書を解析することによって検知する構成を採る。   The document encoding apparatus according to the present invention is the document encoding apparatus according to claim 3, wherein the document to be encoded includes a schema document that defines the structure of the document and an instance document derived from the schema document. In the case of a document, the detection means detects an omission of the attribute information by analyzing a schema document.

この構成によれば、XML形式の文書データの文書構造に即して圧縮率を向上することができる。   According to this configuration, the compression rate can be improved in accordance with the document structure of the XML format document data.

本発明の文書符号化装置は、文書を解釈する解釈手段と、前記解釈した文書中の要素の構造を検知する構造検知手段と、前記検知結果により文書中に出現する同様の構造間の差分を計算する差分計算手段と、前記計算した差分情報に基づいて個々の構造を圧縮して符号化する圧縮符号化手段と、を具備する構成を採る。   The document encoding apparatus according to the present invention includes a difference between an interpretation unit that interprets a document, a structure detection unit that detects a structure of an element in the interpreted document, and a similar structure that appears in the document based on the detection result. It adopts a configuration comprising difference calculating means for calculating and compression encoding means for compressing and encoding each structure based on the calculated difference information.

この構成によれば、文書データに含まれる同様の構造間の差分に基づいて、個々の構造を圧縮することができ、文書データ全体の圧縮率を向上することができる。   According to this configuration, individual structures can be compressed based on differences between similar structures included in the document data, and the compression ratio of the entire document data can be improved.

本発明の文書符号化装置は、請求項5記載の文書符号化装置において、前記構造検知手段は、検知した構造の構造情報を、符号化文書中に出力する構成を採る。   The document encoding apparatus according to the present invention is the document encoding apparatus according to claim 5, wherein the structure detection unit outputs the structure information of the detected structure in the encoded document.

この構成によれば、符号化文書中に含まれる構造情報により受信装置側の復号処理を容易にすることができる。   According to this configuration, the decoding process on the receiving device side can be facilitated by the structure information included in the encoded document.

本発明の文書符号化装置は、請求項5又は6記載の文書符号化装置において、符号化の対象となる文書が、文書の構造を規定するスキーマ文書と、スキーマ文書から派生するインスタンス文書からなる構造化文書である場合、前記構造検知手段は、スキーマ文書を解析することによって構造を検知する構成を採る。   The document encoding apparatus according to the present invention is the document encoding apparatus according to claim 5 or 6, wherein the document to be encoded includes a schema document that defines the structure of the document and an instance document derived from the schema document. In the case of a structured document, the structure detecting means adopts a configuration for detecting the structure by analyzing the schema document.

この構成によれば、XML形式の文書データの文書構造の検知を容易にすることができる。   According to this configuration, it is possible to easily detect the document structure of XML-format document data.

本発明の文書符号化装置は、請求項7記載の文書符号化装置において、符号化の対象となる文書が、文書の構造を規定するスキーマ文書と、スキーマ文書から派生するインスタンス文書からなる構造化文書である場合、前記構造検知手段は、スキーマ文書を解析し、構造を構成する要素の出現可能性に関する情報に基づいて構造の検知を、スキーマ文書の解析からインスタンス文書の解析に切り替える構成を採る。   The document encoding apparatus according to the present invention is the document encoding apparatus according to claim 7, wherein the document to be encoded includes a schema document that defines the structure of the document and an instance document derived from the schema document. In the case of a document, the structure detection unit analyzes the schema document and switches the structure detection from the analysis of the schema document to the analysis of the instance document based on the information on the appearance possibility of the elements constituting the structure. .

この構成によれば、XML形式の文書データの文書構造に応じて、構造解析処理を効率よく実行することができる。   According to this configuration, the structure analysis process can be efficiently executed in accordance with the document structure of the XML format document data.

本発明の文書復号化装置は、同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化する文書復号化装置であって、要素が差分圧縮されていることを検知する圧縮検知手段と、前記差分情報に基づいて圧縮されている要素を復号する復号手段と、を具備する構成を採る。   The document decoding apparatus according to the present invention is a document decoding apparatus that decodes an encoded document in which the same elements are individually compressed and encoded based on difference information between elements, and the elements are differentially compressed. It adopts a configuration comprising compression detection means for detecting the fact that it is being performed, and decoding means for decoding the element compressed based on the difference information.

この構成によれば、符号化文書を復号処理する際に同一要素の差分情報に基づいて復号することができ、その処理負担を低減することができる。   According to this configuration, when the encoded document is decoded, it can be decoded based on the difference information of the same element, and the processing load can be reduced.

本発明の文書復号化装置は、請求項9記載の文書復号化装置において、連続する同一要素が1つの要素として結合され、符号化されている符号化文書を復号化する際に、前記圧縮検知手段は、要素の圧縮を検知すると伴に、要素の結合を検知し、前記復号化手段は、結合された要素を分離すると伴に、前記差分情報に基づいて圧縮された要素を復号する構成を採る。   The document decryption apparatus according to the present invention is the document decryption apparatus according to claim 9, wherein the compression detection is performed when an encoded document in which consecutive identical elements are combined as one element and is encoded is decoded. The means detects the compression of the elements and detects the combination of the elements, and the decoding means separates the combined elements and decodes the compressed elements based on the difference information. take.

この構成によれば、符号化文書を復号処理する際に要素毎に復号化することができ、その処理負担を低減することができる。   According to this configuration, when the encoded document is decoded, it can be decoded element by element, and the processing load can be reduced.

本発明の文書復号化装置は、同様の構造が、構造間の差分情報に基づき、個々に圧縮して符号化されている符号化文書を復号化する文書復号化装置であって、構造が差分圧縮されていることを検知する圧縮検知手段と、前記差分情報に基づき圧縮されている構造を復号する構造復号化手段と、を具備する構成を採る。   The document decoding apparatus of the present invention is a document decoding apparatus that decodes an encoded document in which a similar structure is individually compressed and encoded based on difference information between structures, and the structure is a difference. It adopts a configuration comprising compression detection means for detecting the compression, and structure decoding means for decoding the structure compressed based on the difference information.

この構成によれば、符号化文書を復号処理する際に構造間の差分情報に基づいて復号することができ、その処理負担を低減することができる。   According to this configuration, when the encoded document is decoded, it can be decoded based on the difference information between the structures, and the processing load can be reduced.

本発明の文書復号化装置は、請求項11記載の文書復号化装置において、前記構造復号化手段は、前記符号化文書中に出力された符号化された最初の構造を解析することで、圧縮前の構造を認識する構成を採る。   The document decoding apparatus according to the present invention is the document decoding apparatus according to claim 11, wherein the structure decoding unit analyzes the first encoded structure output in the encoded document, thereby compressing the document decoding apparatus. A configuration that recognizes the previous structure is adopted.

この構成によれば、符号化文書の圧縮前の構造を認識してから復号処理を実行することができ、復号処理の処理負担を低減することができる。   According to this configuration, the decoding process can be executed after the structure before compression of the encoded document is recognized, and the processing load of the decoding process can be reduced.

本発明の文書復号化装置は、請求項11記載の文書復号化装置において、前記構造復号化手段は、符号化時に前記符号化文書中に出力された構造情報を解析することで、圧縮前の構造を認識する構成を採る。   The document decoding apparatus according to the present invention is the document decoding apparatus according to claim 11, wherein the structure decoding unit analyzes the structure information output in the encoded document at the time of encoding, thereby A structure that recognizes the structure is adopted.

この構成によれば、符号化文書の圧縮前の構造を認識してから復号処理を実行することができ、復号処理の処理負担を低減することができる。   According to this configuration, the decoding process can be executed after the structure before compression of the encoded document is recognized, and the processing load of the decoding process can be reduced.

本発明の文書復号化装置は、請求項11記載の文書復号化装置において、前記構造復号化手段は、符号化されたインスタンス文書のスキーマ文書を解析することで、圧縮前の構造を認識する構成を採る。   The document decryption apparatus according to the present invention is the document decryption apparatus according to claim 11, wherein the structure decryption unit recognizes the structure before compression by analyzing the schema document of the encoded instance document. Take.

この構成によれば、符号化文書の圧縮前の構造を認識してから復号処理を実行することができ、復号処理の処理負担を低減することができる。   According to this configuration, the decoding process can be executed after the structure before compression of the encoded document is recognized, and the processing load of the decoding process can be reduced.

本発明の文書符号化方法は、文書を解釈する解釈工程と、前記解釈した文書中に同一要素が存在するか否かを検知する検知工程と、前記検知結果により同一要素が存在する場合、同一要素間の差分を計算する差分計算工程と、前記計算した差分情報に基づいて個々の要素を圧縮して符号化する圧縮符号化工程と、を具備するようにした。   The document encoding method of the present invention is the same when an interpretation process for interpreting a document, a detection process for detecting whether or not the same element exists in the interpreted document, and the same element exists according to the detection result. A difference calculating step for calculating a difference between elements, and a compression encoding step for compressing and encoding each element based on the calculated difference information are provided.

この方法によれば、文書データに含まれる同一要素に基づいて圧縮率を向上することができ、文書データの配信に係る配信装置の負荷を低減する文書符号化方法を提供することができる。   According to this method, it is possible to provide a document encoding method that can improve the compression rate based on the same element included in the document data and reduce the load on the distribution apparatus related to the distribution of the document data.

本発明の文書符号化方法は、文書を解釈する解釈工程と、前記解釈した文書中の要素の構造を検知する構造検知工程と、前記検知結果により文書中に出現する同様の構造間の差分を計算する差分計算工程と、前記計算した差分情報に基づいて個々の構造を圧縮して符号化する圧縮符号化工程と、を具備するようにした。   The document encoding method according to the present invention includes a difference between an interpretation step of interpreting a document, a structure detection step of detecting a structure of an element in the interpreted document, and a similar structure appearing in the document according to the detection result. A difference calculation step for calculating and a compression encoding step for compressing and encoding each structure based on the calculated difference information are provided.

この方法によれば、文書データに含まれる構造の差分情報に基づいて圧縮率を向上することができ、文書データの配信に係る配信装置の負荷を低減する文書符号化方法を提供することができる。   According to this method, it is possible to provide a document encoding method that can improve the compression rate based on the difference information of the structure included in the document data and reduce the load on the distribution apparatus related to the distribution of the document data. .

本発明の文書復号化方法は、同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化する文書復号化方法であって、前記要素が差分圧縮されていることを検知する圧縮検知工程と、前記差分情報に基づいて圧縮されている要素を復号する復号工程と、を具備するようにした。   The document decoding method of the present invention is a document decoding method for decoding an encoded document in which the same element is individually compressed and encoded based on difference information between elements, and the element is a difference. A compression detection step for detecting that the compression is performed, and a decoding step for decoding the element compressed based on the difference information are provided.

この方法によれば、符号化文書を復号処理する際に同一要素の差分情報に基づいて復号することができ、その処理負担を低減する文書復号化方法を提供することができる。   According to this method, it is possible to provide a document decoding method capable of decoding based on difference information of the same element when decoding an encoded document, and reducing the processing load.

本発明の文書復号化方法は、同様の構造が、構造間の差分情報に基づき、個々に圧縮して符号化されている符号化文書を復号化する符号化文書復号化方法であって、前記構造が差分圧縮されていることを検知する圧縮検知工程と、前記差分情報に基づき圧縮されている構造を復号する構造復号化工程と、を具備するようにした。   The document decoding method of the present invention is an encoded document decoding method for decoding an encoded document in which a similar structure is individually compressed and encoded based on difference information between the structures. A compression detection step for detecting that the structure is differentially compressed and a structure decoding step for decoding the structure compressed based on the difference information are provided.

この方法によれば、符号化文書を復号処理する際に文書構造の差分情報に基づいて復号することができ、その処理負担を低減する文書復号化方法を提供することができる。   According to this method, it is possible to provide a document decoding method capable of decoding based on the difference information of the document structure when decoding the encoded document and reducing the processing load.

本発明の文書符号化プログラムは、文書を符号化するための文書符号化プログラムであって、文書を解釈する解釈ステップと、前記解釈した文書中に同一要素が存在するか否かを検知する検知ステップと、前記検知結果により同一要素が存在する場合、同一要素間の差分を計算する差分計算ステップと、前記計算した差分情報に基づいて個々の要素を圧縮して符号化する圧縮符号化ステップと、を有するようにした。   The document encoding program of the present invention is a document encoding program for encoding a document, and includes an interpretation step for interpreting the document and detection for detecting whether or not the same element exists in the interpreted document. A difference calculating step for calculating a difference between the same elements when the same element exists according to the detection result, and a compression encoding step for compressing and encoding each element based on the calculated difference information; , To have.

このプログラムによれば、文書データに含まれる同一要素に基づいて圧縮率を向上することができ、文書データの配信に係る配信装置の負荷を低減する文書符号化プログラムを提供することができる。   According to this program, it is possible to provide a document encoding program that can improve the compression rate based on the same element included in the document data and reduce the load on the distribution apparatus related to the distribution of the document data.

本発明の文書符号化プログラムは、文書を符号化するための文書符号化プログラムであって、文書を解釈する解釈ステップと、前記解釈した文書中の要素の構造を検知する構造検知ステップと、前記検知結果により文書中に出現する同様の構造間の差分を計算する差分計算ステップと、前記計算した差分情報に基づいて個々の構造を圧縮して符号化する圧縮符号化ステップと、を有すようにした。   A document encoding program according to the present invention is a document encoding program for encoding a document, the interpretation step for interpreting the document, the structure detection step for detecting the structure of the element in the interpreted document, A difference calculating step for calculating a difference between similar structures appearing in the document according to a detection result, and a compression encoding step for compressing and encoding each structure based on the calculated difference information I made it.

このプログラムによれば、符号化文書を復号処理する際に文書構造の差分情報に基づいて復号することができ、その処理負担を低減する文書符号化プログラムを提供することができる。   According to this program, it is possible to provide a document encoding program that can decode the encoded document based on the difference information of the document structure when decoding the encoded document, and reduce the processing load.

本発明の文書復号化プログラムは、同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化するための文書復号化プログラムであって、前記要素が差分圧縮されていることを検知する圧縮検知ステップと、前記差分情報に基づいて圧縮されている要素を復号する復号ステップと、を有するようにした。   The document decoding program of the present invention is a document decoding program for decoding an encoded document in which the same elements are individually compressed and encoded based on difference information between the elements. A compression detecting step for detecting that the difference is compressed, and a decoding step for decoding the element compressed based on the difference information.

このプログラムによれば、符号化文書を復号処理する際に同一要素の差分情報に基づいて復号することができ、その処理負担を低減する文書復号化プログラムを提供することができる。   According to this program, it is possible to provide a document decoding program that can decode an encoded document based on difference information of the same element when decoding the encoded document and reduce the processing load.

本発明の文書復号化プログラムは、同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化するための文書復号化プログラムであって、前記構造が差分圧縮されていることを検知する圧縮検知ステップと、前記差分情報に基づき圧縮されている構造を復号する構造復号化ステップと、を有するようにした。   The document decoding program of the present invention is a document decoding program for decoding an encoded document in which the same element is individually compressed and encoded based on difference information between elements, A compression detection step for detecting that the data is differentially compressed, and a structure decoding step for decoding the structure compressed based on the difference information.

このプログラムによれば、符号化文書を復号処理する際に文書構造の差分情報に基づいて復号することができ、その処理負担を低減する文書復号化プログラムを提供することができる。   According to this program, it is possible to provide a document decoding program that can decode the encoded document based on the difference information of the document structure when decoding the encoded document, and reduce the processing load.

本発明によれば、文書データの圧縮率を向上し、文書データの配信に係る配信装置の負荷を低減し、また、受信側で配信データをより効率的に蓄積することができる。   ADVANTAGE OF THE INVENTION According to this invention, the compression rate of document data can be improved, the load of the delivery apparatus which concerns on delivery of document data can be reduced, and delivery data can be more efficiently accumulate | stored on the receiving side.

本発明の骨子は、文書データの圧縮率を向上し、文書データの配信に係る受信装置の負荷を低減し、また、受信側で配信データをより効率的に蓄積することを可能にすることである。   The essence of the present invention is to improve the compression ratio of document data, reduce the load on the receiving device related to the distribution of document data, and enable the receiving side to accumulate the distribution data more efficiently. is there.

以下、本発明の一実施の形態について図面を参照して詳細に説明する。   Hereinafter, an embodiment of the present invention will be described in detail with reference to the drawings.

図1は、本実施の形態のコンテンツ配信システムの構成を示すブロック図である。この図において、コンテンツ配信システムは、配信装置100と受信装置110とがネットワーク109を介して接続されている。このコンテンツ配信システムによって配信されるコンテンツは、事前にマルチメディア符号化され、配信可能な形式で、配信装置100のコンテンツ管理部101に管理されている。   FIG. 1 is a block diagram showing a configuration of a content distribution system according to the present embodiment. In this figure, in the content distribution system, a distribution device 100 and a reception device 110 are connected via a network 109. The content distributed by the content distribution system is multimedia-coded in advance and managed by the content management unit 101 of the distribution apparatus 100 in a distributable format.

配信装置100は、コンテンツを配信する装置であり、コンテンツ管理部101、メタデータ制御部102、メタデータ符号化部103、配信制御部104及び送出部105を備えている。   The distribution device 100 is a device that distributes content, and includes a content management unit 101, a metadata control unit 102, a metadata encoding unit 103, a distribution control unit 104, and a transmission unit 105.

コンテンツ管理部101は、配信用のコンテンツを事前にマルチメディア符号化して配信可能な形式にした配信用データを管理する。メタデータ制御部102は、配信するコンテンツのタイトル、出演者名等のコンテンツの属性情報を入力することによって、XML形式のメタデータを生成する。   The content management unit 101 manages distribution data in which a distribution content is encoded in advance in a multimedia-ready format. The metadata control unit 102 generates XML format metadata by inputting content attribute information such as a title of a content to be distributed and a performer name.

メタデータ符号化部103は、メタデータ制御部102によって生成されたXML形式のメタデータをバイナリ形式に符号化するとともに、配信コンテンツが管理されているコンテンツ管理部101に登録する。配信制御部104は、事前に設定されているコンテンツ及びメタデータの配信スケジュール情報に基づいて、コンテンツ及びメタデータの送出を送出部105に対して指示する。送出部105は、配信制御部104からの送出指示に基づいて、コンテンツ及びメタデータをネットワーク109を介して受信装置110に送出する。   The metadata encoding unit 103 encodes the XML format metadata generated by the metadata control unit 102 into a binary format, and registers it in the content management unit 101 that manages the distribution content. The distribution control unit 104 instructs the transmission unit 105 to transmit the content and metadata based on the content and metadata distribution schedule information set in advance. The sending unit 105 sends the content and metadata to the receiving device 110 via the network 109 based on the sending instruction from the distribution control unit 104.

受信装置110は、コンテンツを受信する装置であり、受信部111、メタデータ処理部112、メタデータ復号部113、ECG処理部114、蓄積制御部115、蓄積部116及び再生部117を備えている。   The reception device 110 is a device that receives content, and includes a reception unit 111, a metadata processing unit 112, a metadata decoding unit 113, an ECG processing unit 114, an accumulation control unit 115, an accumulation unit 116, and a reproduction unit 117. .

受信部111は、ネットワーク109を介して配信装置100からコンテンツとメタデータを受信する。メタデータ処理部112は、受信部111によって受信されたバイナリ形式のメタデータを、メタデータ復号部113を介してXML形式のメタデータへ復号するとともに復号したメタデータを管理する。   The receiving unit 111 receives content and metadata from the distribution apparatus 100 via the network 109. The metadata processing unit 112 decodes the metadata in the binary format received by the receiving unit 111 into the metadata in the XML format via the metadata decoding unit 113 and manages the decoded metadata.

ECG(Electric Contents Guide )部114は、利用者からの指示に基づき、メタデータ処理部112が管理しているメタデータからECGを生成し、利用者に提示するとともに、利用者からのコンテンツの蓄積予約を受け付ける。ECG部114は、利用者からのコンテンツの蓄積予約を受け付けると、蓄積制御部115に対してコンテンツの蓄積予約を指示する。蓄積制御部115は、蓄積予約されたコンテンツが受信可能になった時点で、受信部111を介して蓄積部116へコンテンツを蓄積する。   An ECG (Electric Contents Guide) unit 114 generates an ECG from the metadata managed by the metadata processing unit 112 based on an instruction from the user, presents it to the user, and accumulates content from the user. Accept reservations. When the ECG unit 114 receives a content reservation from the user, the ECG unit 114 instructs the storage control unit 115 to reserve the content. The accumulation control unit 115 accumulates the content in the accumulation unit 116 via the reception unit 111 when the content reserved for accumulation can be received.

ECG部114は、蓄積制御部115を介して蓄積コンテンツの一覧を提示するとともに、利用者からの指示に基づいて、再生部117に対して蓄積コンテンツの再生を指示する。再生部117は、ECG部114からの指示に基づいて、蓄積部制御部115を介して蓄積部116に蓄積されているコンテンツを再生する。   The ECG unit 114 presents a list of stored content via the storage control unit 115 and instructs the playback unit 117 to play back the stored content based on an instruction from the user. The playback unit 117 plays back the content stored in the storage unit 116 via the storage unit control unit 115 based on an instruction from the ECG unit 114.

次に、メタデータ符号化部103の詳細について説明する。メタデータ制御部102によって生成されたメタデータは、XML形式のメタデータとして生成される。XML形式のメタデータは、XMLの文法記述言語(DTDやXML Schema 等の)によってメタデータの構造が定義されており、XML形式のメタデータをバイナリ符号化するメタデータ符号化部103と、符号化したバイナリ形式のXML形式のメタデータに復号するメタデータ復号部113で共有される。   Next, details of the metadata encoding unit 103 will be described. The metadata generated by the metadata control unit 102 is generated as XML format metadata. The XML format metadata has a metadata structure defined by an XML grammar description language (DTD, XML Schema, etc.), a metadata encoding unit 103 that binary-encodes the XML format metadata, It is shared by the metadata decoding unit 113 that decodes the converted binary XML-format metadata.

次に、メタデータ符号化部103の内部構成について図2を用いて説明する。   Next, the internal configuration of the metadata encoding unit 103 will be described with reference to FIG.

解釈部201は、メタデータ制御部102によって生成されたXML形式のメタデータを解釈し、以後の差分計算部202、パターン検知部204で利用できるように、解析テーブルを生成する。パターン検知部204は、解析テーブルを参照して、メタデータ内のXML文法上の同じ要素(element)を検出し、最初に現れたパターンをテンプレートとしてマーキングする。   The interpretation unit 201 interprets the XML format metadata generated by the metadata control unit 102 and generates an analysis table so that it can be used by the difference calculation unit 202 and the pattern detection unit 204 thereafter. The pattern detection unit 204 refers to the analysis table, detects the same element in the XML grammar in the metadata, and marks the first appearing pattern as a template.

差分計算部202は、パターン検知部204によって検知されたテンプレートと、それ以後に連続する各パターンとの差分を計算し、各パターン内の属性及び値を出現場所とともに記録する。圧縮符号化部203は、ソース、テンプレート、差分情報に基づいて、要素単位で符号化してXMLバイナリデータを生成する。   The difference calculation unit 202 calculates the difference between the template detected by the pattern detection unit 204 and each subsequent pattern and records the attribute and value in each pattern together with the appearance location. The compression encoding unit 203 generates XML binary data by encoding on an element basis based on the source, the template, and the difference information.

次に、図2のメタデータ符号化部103におけるXML形式のメタデータの符号化処理について、図3に示すXML形式メタデータの一例を参照して説明する。   Next, XML format metadata encoding processing in the metadata encoding unit 103 in FIG. 2 will be described with reference to an example of XML format metadata shown in FIG.

図3は、同一要素が連続する場合の符号化の例を示す図である。図3(a)では、XMLテキストデータとして(1)(1行目)に「<AAA a=“W”b=“X”d=“Y”> DATA1 </AAA>」が記述され、(2)(2行目)に「<AAA a=“W”c=“X”d=“Z”> DATA2 </AAA>」が記述されていることを示している。同図(b)では、(a)のメタデータを符号化した例を示し、同図(c)では、同図(b)の属性マップと値マップを示している。   FIG. 3 is a diagram illustrating an example of encoding in a case where the same element is continuous. In FIG. 3A, “<AAA a =“ W ”b =“ X ”d =“ Y ”> DATA1 </ AAA>” ”is described as XML text data (1) (line 1), 2) It is shown that “<AAA a =“ W ”c =“ X ”d =“ Z ”> DATA2 </ AAA>” ”is described in the (second line). FIG. 4B shows an example in which the metadata of FIG. 4A is encoded, and FIG. 4C shows the attribute map and value map of FIG.

解析部201は、図3(a)のメタデータを解釈して解析テーブルを生成する。次いで、パターン検知部204は、解析部201で生成された解析テーブルを参照して、メタデータ内のXML文法上の同じ要素を検出する。図3(a)のメタデータの場合は、(1)で示す1行目と、(2)で示す2行目には、それぞれ最初に要素「AAA 」が記述されているため、この要素「AAA 」が検出される。そして、パターン検知部204は、最初に現れた要素をテンプレートとしてマーキングする。   The analysis unit 201 interprets the metadata in FIG. 3A and generates an analysis table. Next, the pattern detection unit 204 refers to the analysis table generated by the analysis unit 201 and detects the same element in the XML grammar in the metadata. In the case of the metadata in FIG. 3A, the element “AAA” is first described in the first line indicated by (1) and the second line indicated by (2). AAA "is detected. And the pattern detection part 204 marks the element which appeared first as a template.

次いで、差分計算部202は、パターン検知部204で検知された要素「AAA 」と、それ以降に連続する各要素との差分を計算し、各要素内の属性及び値を属性マップ及び値マップとして記録する。図3(a)のメタデータの場合は、1行目では要素「AAA 」以降に連続する要素として「a=“W”b=“X”d=“Y”> DATA1 」が記述され、2行目では要素「AAA 」以降に連続する要素として「a=“W”c=“X”d=“Z”> DATA2 」が記述されているおり、これら要素の差分が計算される。   Next, the difference calculation unit 202 calculates the difference between the element “AAA” detected by the pattern detection unit 204 and each subsequent element, and sets the attribute and value in each element as an attribute map and a value map. Record. In the case of the metadata shown in FIG. 3A, “a =“ W ”b =“ X ”d =“ Y ”> DATA1” ”is described as the element that continues after the element“ AAA ”in the first line. In the line, “a =“ W ”c =“ X ”d =“ Z ”> DATA2” ”is described as a continuous element after the element“ AAA ”, and the difference between these elements is calculated.

そして、差分計算結果として、図3(b)に記述された属性「a,b,c,d 」と、その値「W,X,Y,X,Z 」の各出現の有無を示す図3(c)に示す属性マップと値マップが記録される。属性マップでは、1行目の属性の記述から属性「a,b,d 」の各出現の有無と、2行目の属性の記述から属性名「a,c,d 」の各出現の有無が、属性名「a,b,c,d 」に対応付けてマッピングされている。この場合、属性が存在していれば「1」が設定され、属性が存在していなければ「0」が設定されている。   FIG. 3 shows the presence / absence of each occurrence of the attribute “a, b, c, d” and its value “W, X, Y, X, Z” described in FIG. The attribute map and value map shown in (c) are recorded. In the attribute map, the presence or absence of each occurrence of the attribute “a, b, d” from the description of the attribute on the first line and the presence or absence of each occurrence of the attribute name “a, c, d” from the description of the attribute on the second line , Mapped in association with the attribute name “a, b, c, d”. In this case, “1” is set if the attribute exists, and “0” is set if the attribute does not exist.

また、この値マップは、属性値リストの要素である属性値と属性名の対応を表している。値マップでは、1行目の値の記述から「“W”,“X”,“Y”」と、2行目の値の記述から「“W”,“X”,“Z”」が、属性名「a,b,c,d 」に対応付けてマッピングされている。この場合、1行目の同じ属性名で値が存在している場合には「1」が設定され、2行目では、1行目と同じ属性名で同じ値が存在している場合には「0」が設定され、1行目と同じ属性名で異なる値が存在している場合には「1」が設定されている。   In addition, this value map represents a correspondence between an attribute value that is an element of the attribute value list and an attribute name. In the value map, “W”, “X”, “Y” ”from the value description on the first line and“ W ”,“ X ”,“ Z ”from the value description on the second line, Mapping is performed in association with the attribute name “a, b, c, d”. In this case, if a value exists with the same attribute name on the first line, “1” is set. On the second line, if the same value exists with the same attribute name as the first line, If “0” is set and a different value exists with the same attribute name as the first line, “1” is set.

次いで、圧縮符号化部203は、ソース、テンプレート、差分情報に基づいて、要素単位で符号化して、図3(b)に示すXMLバイナリデータを生成する。図3(b)では、その先頭部分に図3(a)のメタデータを連続符号化したことを示すマーク「1」を記述し、次の部分にパターンを検出した要素「AAA 」の連続数を示す「2」を記述し、次の部分に要素「AAA 」のidを示す「2」を記述し、次の部分に属性「a,b,c,d」の数を示す「4」を記述している。   Next, the compression encoding unit 203 performs encoding in element units based on the source, template, and difference information, and generates XML binary data shown in FIG. In FIG. 3B, the mark “1” indicating that the metadata of FIG. 3A is continuously encoded is described at the head part, and the number of consecutive elements “AAA” whose pattern is detected in the next part. “2” indicating the element “AAA” is described in the next part, “2” indicating the id of the element “AAA”, and “4” indicating the number of the attributes “a, b, c, d” in the next part. It is described.

次いで、図3(b)において、属性の数の次の部分に属性マップ「a-map(属性マップ)」と「v-map(値マップ)」として同図(c)に示す内容を記述し、続いて、属性マップに対応する属性名リスト「a,b,c,d」と属性値リスト「W,X,Y,X,Z 」を設定し、最後にデータ「DATA1,DATA2 」を設定している。   Next, in FIG. 3B, the contents shown in FIG. 3C are described as attribute maps “a-map (attribute map)” and “v-map (value map)” in the next part of the number of attributes. Next, set the attribute name list “a, b, c, d” and attribute value list “W, X, Y, X, Z” corresponding to the attribute map, and finally set the data “DATA1, DATA2” doing.

図3(b)に示したXMLバイナリデータは、図4に示すデータフォーマットでコンテンツ管理部101から送出部105によりネットワーク109を介して受信装置110に送信される。図4のデータフォーマットにおいて、「要素名リスト」部分には、図3(b)の連続符号化マーク、要素連続数、要素id及び属性の数が設定される。「属性名リスト」部分には、図3(b)の属性名リストが設定される。「ストリングプール」部分には、「データ用ストリングプール」と「要素名、属性名用ストリングプール」が含まれ、図3(b)の属性マップと値マップが設定される。「要素データ」部分には、図3(b)のデータが設定される。   The XML binary data shown in FIG. 3B is transmitted from the content management unit 101 to the receiving device 110 via the network 109 from the content management unit 101 in the data format shown in FIG. In the data format of FIG. 4, in the “element name list” portion, the continuous encoding mark, the number of consecutive elements, the element id, and the number of attributes shown in FIG. In the “attribute name list” part, the attribute name list of FIG. 3B is set. The “string pool” portion includes “data string pool” and “element name / attribute name string pool”, and the attribute map and value map of FIG. 3B are set. In the “element data” portion, data shown in FIG. 3B is set.

次に、図3(b)のXMLバイナリデータが、受信装置110内のメタデータ復号部113において復号化される場合について説明する。   Next, the case where the XML binary data in FIG. 3B is decoded by the metadata decoding unit 113 in the receiving apparatus 110 will be described.

メタデータ復号部113の詳細について、図5に示すブロック図を参照して説明する。圧縮検知部301は、メタデータ処理部112から入力されたXMLバイナリデータ(図3(b)参照)の符号化マークの設定内容に基づいて、XMLバイナリデータの符号化形式を検知し、その検知結果とXMLバイナリデータを構造復号部302に出力する。図3(b)のXMLバイナリデータの場合は、符号化マークとして連続符号化マーク「1」が設定されているため、圧縮検知部301では、「連続符号化」形式であることを示す検知結果が構造復号部302に出力される。   Details of the metadata decoding unit 113 will be described with reference to a block diagram shown in FIG. The compression detection unit 301 detects the encoding format of the XML binary data based on the setting contents of the encoding mark of the XML binary data (see FIG. 3B) input from the metadata processing unit 112, and detects the detection. The result and XML binary data are output to the structure decoding unit 302. In the case of the XML binary data in FIG. 3B, since the continuous encoding mark “1” is set as the encoding mark, the compression detection unit 301 detects that it is in the “continuous encoding” format. Is output to the structure decoding unit 302.

構造復号部302は、圧縮検知部301から入力された検知結果とXMLバイナリデータとに基づいて、XMLバイナリデータの符号化形式を識別するとともに、XMLバイナリデータの符号化構造を識別し、その識別結果とXMLバイナリデータを復号部303に出力する。図3(b)のXMLバイナリデータの場合は、要素の連続数「2」、要素id「2=“AAA”」、属性の数「4」及び属性マップが設定されているため、構造復号部302では、図3(a)の符号化構造が識別され、その識別結果が復号部303に出力される。   The structure decoding unit 302 identifies the encoding format of the XML binary data based on the detection result input from the compression detection unit 301 and the XML binary data, and also identifies the encoding structure of the XML binary data, and the identification. The result and XML binary data are output to the decoding unit 303. In the case of the XML binary data in FIG. 3B, since the number of consecutive elements “2”, the element id “2 =“ AAA ”, the number of attributes“ 4 ”, and the attribute map are set, the structure decoding unit In 302, the coding structure in FIG. 3A is identified, and the identification result is output to the decoding unit 303.

復号部303は、構造復号部302から入力された文書構造の識別結果とXMLバイナリデータに基づいて、XMLバイナリデータを復号処理する。このXMLバイナリデータ内の属性及び属性値の復号処理について図6を参照して説明する。図6(a)は図3(a)と同一のXMLテキストデータを示し、図6(b)は図3(b)と同一のXMLバイナリデータを示し、図6(c)はXMLバイナリデータ内の属性及び属性値の復号過程を示している。   The decryption unit 303 decrypts the XML binary data based on the document structure identification result and the XML binary data input from the structure decryption unit 302. Decoding processing of attributes and attribute values in the XML binary data will be described with reference to FIG. 6 (a) shows the same XML text data as FIG. 3 (a), FIG. 6 (b) shows the same XML binary data as FIG. 3 (b), and FIG. 6 (c) shows the XML binary data. The decoding process of the attribute and attribute value is shown.

図6(c)に示す属性及び属性値の復号過程について説明する。まず、属性マップの設定内容のうち、1行目の設定内容「1101」に基づいて、属性「a,b,d」が記述されていることが識別される。次いで、属性値マップの設定内容のうち、1行目の設定内容に基づいて、属性値の記述内容を識別する。   The process of decoding the attributes and attribute values shown in FIG. First, it is identified that the attribute “a, b, d” is described based on the setting content “1101” on the first line among the setting content of the attribute map. Next, the description contents of the attribute value are identified based on the setting contents of the first line among the setting contents of the attribute value map.

しかし、この場合、前回のXMLバイナリデータの属性値の復号処理により、図中に示すように属性値マップに相当する設定が初期状態「1011」に設定されていたことを示している。この初期状態「1101」が、属性値マップの設定内容のうち、1行目の設定内容「1101」により変更されて、属性値の記述内容が識別される。以上の復号処理により、1行目の各属性及び各属性値の記述内容の識別が完了し、図中に示す属性値「W,X,Y」が、先に識別した属性「a,b,d」と対応付けて識別されたことになる。   However, in this case, it is indicated that the setting corresponding to the attribute value map has been set to the initial state “1011” as shown in the figure by the decoding process of the attribute value of the previous XML binary data. This initial state “1101” is changed by the setting content “1101” in the first line of the setting contents of the attribute value map, and the description contents of the attribute value are identified. Through the above decoding process, the identification contents of each attribute and each attribute value on the first line are identified, and the attribute values “W, X, Y” shown in the figure are the attributes “a, b, It is identified in association with “d”.

そして、1行目で識別された属性値マップ(1)の内容は、次の2行目の属性値マップの設定内容を識別するため情報として反映される。図中では、属性値マップの設定内容が反映される様子を矢印で示している。   The contents of the attribute value map (1) identified in the first line are reflected as information for identifying the setting contents of the attribute value map in the next second line. In the figure, the state in which the setting contents of the attribute value map are reflected is indicated by arrows.

次いで、属性マップの2行目の設定内容「1011」に基づいて、属性「a,c,d」が記述されていることが識別される。次いで、1行目の識別結果から引き継いだ属性値マップ(1)「1101」が、2行目の属性値マップの設定内容「0011」により変更される。この場合、属性「a」の属性値は、1行目の属性「a」に対応する属性値と同一であるため、属性値「0」が設定され、直前の属性値「W」で復号される。以上の復号処理により、1行目の各属性及び各属性値の記述内容の識別が完了し、図中に示す属性値「W,X,Z」が、先に識別した属性「a,c,d」と対応付けて識別されたことになる。   Next, it is identified that the attribute “a, c, d” is described based on the setting content “1011” on the second line of the attribute map. Next, the attribute value map (1) “1101” inherited from the identification result of the first row is changed according to the setting content “0011” of the attribute value map of the second row. In this case, since the attribute value of the attribute “a” is the same as the attribute value corresponding to the attribute “a” in the first row, the attribute value “0” is set and decoded with the previous attribute value “W”. The Through the above decryption processing, identification of the description contents of each attribute and each attribute value on the first line is completed, and the attribute values “W, X, Z” shown in the figure are the attributes “a, c, It is identified in association with “d”.

そして、復号部303は、先に識別された符号化構造とともに、復号された属性及び属性値の記述内容に基づいてXMLテキストデータを複合する。その結果、図6(a)に示す元のテキストデータが復号されることになる。   Then, the decoding unit 303 combines the XML text data based on the description contents of the decoded attribute and attribute value together with the previously identified coding structure. As a result, the original text data shown in FIG. 6A is decoded.

以上のように、複数行に記述されたXMLテキストデータからXML文法上の同じ要素を検知し、その各行の要素毎に属性及び属性値を検知して、その記述内容も含めた属性マップ及び属性値マップ、符号化種類、要素の連続数、要素id、属性数、属性名リスト、属性値リスト、データを含むXMLバイナリデータに符号化することにより、文書データの圧縮率を向上することができ、文書データの配信に係る配信装置の負荷を低減することができる。また、受信装置側で文書データをより効率的に蓄積することが可能になる。   As described above, the same element in the XML grammar is detected from the XML text data described in a plurality of lines, the attribute and the attribute value are detected for each element in each line, and the attribute map and attribute including the description contents Encoding to XML binary data including value map, encoding type, number of consecutive elements, element id, number of attributes, attribute name list, attribute value list, and data can improve the compression rate of document data Thus, it is possible to reduce the load on the distribution apparatus related to the distribution of the document data. In addition, document data can be more efficiently stored on the receiving device side.

本発明の文書符号化装置、文書復号化装置、文書符号化方法及び文書復号化方法は、文書データの圧縮率を向上し、文書データの配信に係る受信装置の負荷を低減できるため、文書データの配信システムに適用することが可能である。   The document encoding apparatus, document decoding apparatus, document encoding method, and document decoding method of the present invention can improve the compression rate of document data and reduce the load on the receiving apparatus related to the distribution of document data. It is possible to apply to the distribution system.

本発明の実施の形態に係るコンテンツ配信システムの構成を示すブロック図The block diagram which shows the structure of the content delivery system which concerns on embodiment of this invention 図1のメタデータ符号化部の内部構成を示すブロック図The block diagram which shows the internal structure of the metadata encoding part of FIG. (a)は、同一要素が連続するXML形式メタデータの一例を示す図、(b)は、(a)のメタデータを符号化したXMLバイナリデータの構成を示す図、(c)は、(b)の属性マップと値マップの各構成を示す図(A) is a diagram showing an example of XML format metadata in which the same elements are continuous, (b) is a diagram showing a configuration of XML binary data obtained by encoding the metadata of (a), and (c) is ( The figure which shows each structure of the attribute map and value map of b) XMLバイナリデータが配信される際のデータフォーマットを示す図The figure which shows the data format at the time of XML binary data delivery 図1のメタデータ復号部の内部構成を示すブロック図The block diagram which shows the internal structure of the metadata decoding part of FIG. (a)は、同一要素が連続するXML形式メタデータの一例を示す図、(b)は、(a)のメタデータを符号化したXMLバイナリデータの構成を示す図、(c)は、(b)の属性マップと値マップに基づく復号過程を示す図(A) is a diagram showing an example of XML format metadata in which the same elements are continuous, (b) is a diagram showing a configuration of XML binary data obtained by encoding the metadata of (a), and (c) is ( The figure which shows the decoding process based on the attribute map and value map of b)

符号の説明Explanation of symbols

100 配信装置
101 コンテンツ管理部
102 メタデータ制御部
103 メタデータ符号化部
104 配信制御部
105 送出部
110 受信装置
111 受信部
112 メタデータ処理部
113 メタデータ復号部
114 ECG処理部
115 蓄積制御部
116 蓄積部
117 再生部
201 解釈部
202 差分計算部
203 圧縮符号化部
204 パターン検知部
301 圧縮検知部
302 構造復号部
303 復号部
DESCRIPTION OF SYMBOLS 100 Distribution apparatus 101 Content management part 102 Metadata control part 103 Metadata encoding part 104 Distribution control part 105 Transmission part 110 Receiving apparatus 111 Reception part 112 Metadata processing part 113 Metadata decoding part 114 ECG processing part 115 Accumulation control part 116 Accumulation unit 117 Playback unit 201 Interpretation unit 202 Difference calculation unit 203 Compression encoding unit 204 Pattern detection unit 301 Compression detection unit 302 Structure decoding unit 303 Decoding unit

Claims (22)

文書を解釈する解釈手段と、
前記解釈した文書中に同一要素が存在するか否かを検知する検知手段と、
前記検知結果により同一要素が存在する場合、同一要素間の差分を計算する差分計算手段と、
前記計算した差分情報に基づいて個々の要素を圧縮して符号化する圧縮符号化手段と、
を具備することを特徴とする文書符号化装置。
Interpretation means for interpreting the document;
Detecting means for detecting whether or not the same element exists in the interpreted document;
If the same element exists according to the detection result, a difference calculation means for calculating a difference between the same elements;
Compression encoding means for compressing and encoding individual elements based on the calculated difference information;
A document encoding apparatus comprising:
前記圧縮符号化手段は、前記検知結果により同一要素が存在しかつ連続する場合、連続する個々の要素を1つの要素として結合することを特徴とする請求項1記載の文書符号化装置。   2. The document encoding apparatus according to claim 1, wherein when the same element exists and is continuous according to the detection result, the compression encoding unit combines the continuous individual elements as one element. 前記要素は、複数の省略可能な属性名と属性値の対からなる属性情報を含み、
前記差分計算手段は、前記属性値の差を差分として計算するとともに、前記属性情報全体が省略された場合、属性値のみが省略されたと仮定して差分として計算することを特徴とする請求項1又は2記載の文書符号化装置。
The element includes attribute information including a plurality of optional attribute name and attribute value pairs,
The difference calculation means calculates the difference between the attribute values as a difference, and calculates the difference assuming that only the attribute value is omitted when the entire attribute information is omitted. Or the document encoding apparatus of 2 description.
符号化の対象となる文書が、文書の構造を規定するスキーマ文書と、スキーマ文書から派生するインスタンス文書からなる構造化文書である場合、前記検知手段は、前記属性情報の省略を、スキーマ文書を解析することによって検知することを特徴とする請求項3記載の文書符号化装置。   When the document to be encoded is a structured document including a schema document that defines the structure of the document and an instance document derived from the schema document, the detecting means omits the attribute information from the schema document. The document encoding apparatus according to claim 3, wherein the detection is performed by analysis. 文書を解釈する解釈手段と、
前記解釈した文書中の要素の構造を検知する構造検知手段と、
前記検知結果により文書中に出現する同様の構造間の差分を計算する差分計算手段と、
前記計算した差分情報に基づいて個々の構造を圧縮して符号化する圧縮符号化手段と、
を具備することを特徴とする文書符号化装置。
Interpretation means for interpreting the document;
Structure detection means for detecting the structure of the element in the interpreted document;
A difference calculating means for calculating a difference between similar structures appearing in the document according to the detection result;
Compression encoding means for compressing and encoding individual structures based on the calculated difference information;
A document encoding apparatus comprising:
前記構造検知手段は、検知した構造の構造情報を、符号化文書中に出力することを特徴とする請求項5記載の文書符号化装置。   6. The document encoding apparatus according to claim 5, wherein the structure detection unit outputs structure information of the detected structure in an encoded document. 符号化の対象となる文書が、文書の構造を規定するスキーマ文書と、スキーマ文書から派生するインスタンス文書からなる構造化文書である場合、前記構造検知手段は、スキーマ文書を解析することによって構造を検知することを特徴とする請求項5又は6記載の文書符号化装置。   When the document to be encoded is a structured document consisting of a schema document that defines the structure of the document and an instance document derived from the schema document, the structure detection unit analyzes the schema document to analyze the structure. The document encoding apparatus according to claim 5 or 6, wherein the document encoding apparatus is detected. 符号化の対象となる文書が、文書の構造を規定するスキーマ文書と、スキーマ文書から派生するインスタンス文書からなる構造化文書である場合、前記構造検知手段は、スキーマ文書を解析し、構造を構成する要素の出現可能性に関する情報に基づいて構造の検知を、スキーマ文書の解析からインスタンス文書の解析に切り替えることを特徴とする請求項7記載の文書符号化装置。   When the document to be encoded is a structured document consisting of a schema document that defines the structure of the document and an instance document derived from the schema document, the structure detection means analyzes the schema document to construct the structure. 8. The document encoding apparatus according to claim 7, wherein the detection of the structure is switched from the analysis of the schema document to the analysis of the instance document based on the information on the appearance possibility of the element to be performed. 同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化する符号化文書復号化装置であって、
要素が差分圧縮されていることを検知する圧縮検知手段と、
前記差分情報に基づいて圧縮されている要素を復号する復号手段と、
を具備することを特徴とする文書復号化装置。
An encoded document decoding apparatus that decodes an encoded document in which the same element is individually compressed and encoded based on difference information between elements,
Compression detection means for detecting that the element is differentially compressed;
Decoding means for decoding an element compressed based on the difference information;
A document decryption apparatus comprising:
連続する同一要素が1つの要素として結合され、符号化されている符号化文書を復号化する際に、
前記圧縮検知手段は、要素の圧縮を検知すると伴に、要素の結合を検知し、
前記復号化手段は、結合された要素を分離すると伴に、前記差分情報に基づいて圧縮された要素を復号することを特徴とする請求項9記載の文書復号化装置。
When decoding an encoded document in which consecutive identical elements are combined as one element and encoded,
The compression detecting means detects the compression of the elements and detects the coupling of the elements,
10. The document decoding apparatus according to claim 9, wherein the decoding means separates the combined elements and decodes the compressed elements based on the difference information.
同様の構造が、構造間の差分情報に基づき、個々に圧縮して符号化されている符号化文書を復号化する符号化文書復号化装置であって、
前記構造が差分圧縮されていることを検知する圧縮検知手段と、
前記差分情報に基づき圧縮されている構造を復号する構造復号化手段と、
を具備することを特徴とする文書復号化装置。
A similar structure is an encoded document decoding apparatus that decodes encoded documents that are individually compressed and encoded based on difference information between structures,
Compression detection means for detecting that the structure is differentially compressed;
Structure decoding means for decoding a structure compressed based on the difference information;
A document decryption apparatus comprising:
前記構造復号化手段は、前記符号化文書中に出力された符号化された最初の構造を解析することで、圧縮前の構造を認識することを特徴とする請求項11記載の文書復号化装置。   12. The document decoding apparatus according to claim 11, wherein the structure decoding unit recognizes a structure before compression by analyzing a first encoded structure output in the encoded document. . 前記構造復号化手段は、符号化時に前記符号化文書中に出力された構造情報を解析することで、圧縮前の構造を認識することを特徴とする請求項11記載の文書復号化装置。   12. The document decoding apparatus according to claim 11, wherein the structure decoding unit recognizes a structure before compression by analyzing structure information output in the encoded document at the time of encoding. 前記構造復号化手段は、符号化されたインスタンス文書のスキーマ文書を解析することで、圧縮前の構造を認識することを特徴とする請求項11記載の文書復号化装置。   12. The document decoding apparatus according to claim 11, wherein the structure decoding unit recognizes a structure before compression by analyzing a schema document of an encoded instance document. 文書を解釈する解釈工程と、
前記解釈した文書中に同一要素が存在するか否かを検知する検知工程と、
前記検知結果により同一要素が存在する場合、同一要素間の差分を計算する差分計算工程と、
前記計算した差分情報に基づいて個々の要素を圧縮して符号化する圧縮符号化工程と、
を具備することを特徴とする文書符号化方法。
An interpretation process for interpreting the document;
A detecting step of detecting whether or not the same element exists in the interpreted document;
When the same element exists according to the detection result, a difference calculation step for calculating a difference between the same elements;
A compression encoding step of compressing and encoding individual elements based on the calculated difference information;
A document encoding method comprising:
文書を解釈する解釈工程と、
前記解釈した文書中の要素の構造を検知する構造検知工程と、
前記検知結果により文書中に出現する同様の構造間の差分を計算する差分計算工程と、
前記計算した差分情報に基づいて個々の構造を圧縮して符号化する圧縮符号化工程と、
を具備することを特徴とする文書符号化方法。
An interpretation process for interpreting the document;
A structure detection step for detecting a structure of an element in the interpreted document;
A difference calculation step of calculating a difference between similar structures appearing in the document according to the detection result;
A compression encoding step of compressing and encoding individual structures based on the calculated difference information;
A document encoding method comprising:
同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化する符号化文書復号化方法であって、
前記要素が差分圧縮されていることを検知する圧縮検知工程と、
前記差分情報に基づいて圧縮されている要素を復号する復号工程と、
を具備することを特徴とする文書復号化方法。
An encoded document decoding method for decoding an encoded document in which the same element is individually compressed and encoded based on difference information between elements,
A compression detection step of detecting that the element is differentially compressed;
A decoding step of decoding an element compressed based on the difference information;
A document decrypting method comprising:
同様の構造が、構造間の差分情報に基づき、個々に圧縮して符号化されている符号化文書を復号化する符号化文書復号化方法であって、
前記構造が差分圧縮されていることを検知する圧縮検知工程と、
前記差分情報に基づき圧縮されている構造を復号する構造復号化工程と、
を具備することを特徴とする文書復号化方法。
A similar structure is an encoded document decoding method for decoding encoded documents that are individually compressed and encoded based on difference information between structures,
A compression detection step of detecting that the structure is differentially compressed;
A structure decoding step of decoding a structure compressed based on the difference information;
A document decrypting method comprising:
文書を符号化するための文書符号化プログラムであって、
文書を解釈する解釈ステップと、
前記解釈した文書中に同一要素が存在するか否かを検知する検知ステップと、
前記検知結果により同一要素が存在する場合、同一要素間の差分を計算する差分計算ステップと、
前記計算した差分情報に基づいて個々の要素を圧縮して符号化する圧縮符号化ステップと、
を有することを特徴とする文書符号化プログラム。
A document encoding program for encoding a document,
An interpretation step to interpret the document;
A detecting step for detecting whether or not the same element exists in the interpreted document;
If the same element exists according to the detection result, a difference calculating step for calculating a difference between the same elements;
A compression encoding step of compressing and encoding individual elements based on the calculated difference information;
A document encoding program characterized by comprising:
文書を符号化するための文書符号化プログラムであって、
文書を解釈する解釈ステップと、
前記解釈した文書中の要素の構造を検知する構造検知ステップと、
前記検知結果により文書中に出現する同様の構造間の差分を計算する差分計算ステップと、
前記計算した差分情報に基づいて個々の構造を圧縮して符号化する圧縮符号化ステップと、
を有することを特徴とする文書符号化プログラム。
A document encoding program for encoding a document,
An interpretation step to interpret the document;
A structure detection step for detecting a structure of an element in the interpreted document;
A difference calculating step for calculating a difference between similar structures appearing in the document according to the detection result;
A compression encoding step of compressing and encoding each structure based on the calculated difference information;
A document encoding program characterized by comprising:
同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化するための文書復号化プログラムであって、
前記要素が差分圧縮されていることを検知する圧縮検知ステップと、
前記差分情報に基づいて圧縮されている要素を復号する復号ステップと、
を有することを特徴とする文書復号化プログラム。
A document decoding program for decoding an encoded document in which the same element is individually compressed and encoded based on difference information between elements,
A compression detection step for detecting that the element is differentially compressed;
A decoding step of decoding an element compressed based on the difference information;
A document decryption program characterized by comprising:
同一要素が、要素間の差分情報に基づいて個々に圧縮されて符号化されている符号化文書を復号化するための文書復号化プログラムであって、
前記構造が差分圧縮されていることを検知する圧縮検知ステップと、
前記差分情報に基づき圧縮されている構造を復号する構造復号化ステップと、
を有することを特徴とする文書復号化プログラム。
A document decoding program for decoding an encoded document in which the same element is individually compressed and encoded based on difference information between elements,
A compression detection step for detecting that the structure is differentially compressed;
A structure decoding step of decoding a structure compressed based on the difference information;
A document decryption program characterized by comprising:
JP2004100243A 2004-03-30 2004-03-30 Document encoding system, document decoding system, method for encoding document, and method for decoding document Pending JP2005284903A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004100243A JP2005284903A (en) 2004-03-30 2004-03-30 Document encoding system, document decoding system, method for encoding document, and method for decoding document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004100243A JP2005284903A (en) 2004-03-30 2004-03-30 Document encoding system, document decoding system, method for encoding document, and method for decoding document

Publications (1)

Publication Number Publication Date
JP2005284903A true JP2005284903A (en) 2005-10-13

Family

ID=35183195

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004100243A Pending JP2005284903A (en) 2004-03-30 2004-03-30 Document encoding system, document decoding system, method for encoding document, and method for decoding document

Country Status (1)

Country Link
JP (1) JP2005284903A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100653189B1 (en) 2005-12-06 2006-12-04 한국전자통신연구원 Apparatus and method for xml document transformming
JP2011512730A (en) * 2008-01-31 2011-04-21 マイクロソフト コーポレーション Message encoding and decoding using template expression parameters
JP2012502337A (en) * 2008-09-08 2012-01-26 トムソン ライセンシング Element encoding method and apparatus
JP2013538469A (en) * 2010-04-12 2013-10-10 サムスン エレクトロニクス カンパニー リミテッド Realistic effect processing system and method
JP2015509293A (en) * 2011-12-02 2015-03-26 キヤノン株式会社 Method and device for encoding and decoding messages

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100653189B1 (en) 2005-12-06 2006-12-04 한국전자통신연구원 Apparatus and method for xml document transformming
JP2011512730A (en) * 2008-01-31 2011-04-21 マイクロソフト コーポレーション Message encoding and decoding using template expression parameters
JP2012502337A (en) * 2008-09-08 2012-01-26 トムソン ライセンシング Element encoding method and apparatus
JP2013538469A (en) * 2010-04-12 2013-10-10 サムスン エレクトロニクス カンパニー リミテッド Realistic effect processing system and method
JP2015509293A (en) * 2011-12-02 2015-03-26 キヤノン株式会社 Method and device for encoding and decoding messages
JP2016201847A (en) * 2011-12-02 2016-12-01 キヤノン株式会社 Communication apparatus, its control method and program

Similar Documents

Publication Publication Date Title
KR100424130B1 (en) Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus
JP3894280B2 (en) Encoding method of XML data, decoding method of encoded XML data, encoding system of XML data, decoding system of encoded XML data, program, and recording medium
US7013425B2 (en) Data processing method, and encoder, decoder and XML parser for encoding and decoding an XML document
US8346737B2 (en) Encoding of hierarchically organized data for efficient storage and processing
US8010889B2 (en) Techniques for efficient loading of binary XML data
CN101273329B (en) Efficiently describing relationships between resources
JP2004514966A (en) Binary format for MPEG-7 instances
US20070143664A1 (en) A compressed schema representation object and method for metadata processing
US6850948B1 (en) Method and apparatus for compressing textual documents
JP5847683B2 (en) Method for transmitting video data and associated metadata in a data stream, video encoding device, and personal video recorder
CN102156734A (en) Video content management method based on semantic hidden indexing
US7676742B2 (en) System and method for processing of markup language information
JP2005215951A (en) Encoding or decoding method for document data, and program therefor
JP2005100057A (en) Document transformation device
CN115604475A (en) Multi-mode information source joint coding method
KR20130018367A (en) Encoding a hierarchical multi-layer data package
JP2005284903A (en) Document encoding system, document decoding system, method for encoding document, and method for decoding document
Leighton et al. TREECHOP: A Tree-based Query-able Compressor for XML
JP2006519422A (en) How to encode structured documents
JP4756003B2 (en) Data compression / transfer apparatus, data compression / transfer system, data compression / transfer method, and data compression / transfer program
JP2008243077A (en) Structured document management device, method, and program
US20070300147A1 (en) Compression of mark-up language data
JP2009128945A (en) Data processing apparatus, method and program
EP2327028B1 (en) Method and device for encoding elements
Müldner et al. Using XML compression for WWW communication