JP5671320B2 - 情報処理装置及びその制御方法並びにプログラム - Google Patents

情報処理装置及びその制御方法並びにプログラム Download PDF

Info

Publication number
JP5671320B2
JP5671320B2 JP2010273944A JP2010273944A JP5671320B2 JP 5671320 B2 JP5671320 B2 JP 5671320B2 JP 2010273944 A JP2010273944 A JP 2010273944A JP 2010273944 A JP2010273944 A JP 2010273944A JP 5671320 B2 JP5671320 B2 JP 5671320B2
Authority
JP
Japan
Prior art keywords
learning
encoding
structured data
data
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010273944A
Other languages
English (en)
Other versions
JP2011146036A (ja
Inventor
透 石嵜
透 石嵜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010273944A priority Critical patent/JP5671320B2/ja
Publication of JP2011146036A publication Critical patent/JP2011146036A/ja
Application granted granted Critical
Publication of JP5671320B2 publication Critical patent/JP5671320B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/143Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/149Adaptation of the text data for streaming purposes, e.g. Efficient XML Interchange [EXI] format

Description

本発明は、符号化文書を生成するための技術に関する。
XMLでは一般的に、UTF-8やUTF-16などの文字符号化方式を使って全てのデータを符号化していた。この場合、本来の情報量に比べると冗長性がありデータサイズが大きくなる。これに対しバイナリXML技術であるISO/IEC標準のFast Infoset(非特許文献1)では、整数や浮動小数点数などをデータ型に応じた符号化方式で符号化することで、冗長性を減らしデータサイズを小さくしていた。しかしFast Infosetは、符号化データ中に、各データの符号化方式の識別子を記述しなければならず、識別子分のデータサイズを必要としていた。これに対し同じくバイナリXML技術であるW3CのEXI(非特許文献2)では、各データのデータ型情報をXMLのスキーマから取得するようにした。これにより、符号化データ中に符号化方式の識別子を記述する必要をなくし、データサイズをさらに小さくすることを実現していた。
ISO/IEC 24824-1:2007 Information technology - Generic applications of ASN.1:Fast Infoset Efficient XML Interchange (EXI) Format 1.0 - http://www.w3.org/TR/exi
EXIでデータ型に応じて符号化するには、予め文書のスキーマまたは部分スキーマから符号化規則を生成しておく必要がある。スキーマは、XMLデータ全体の文法を決めるものであり、各XMLデータから見ると関係ない記述も含まれる。よって、スキーマから符号化規則を生成するには、多くの処理時間やメモリサイズが必要になる。
本発明は、スキーマから符号化規則を生成する従来手法に比してより高効率な符号化規則の生成を実現することを目的とする。
本発明の一側面によれば、入力した構造化データを符号化規則に従い符号化する情報処理装置であって、前記符号化規則の学習対象を指定する指定手段と、入力した前記構造化データが前記指定手段により指定された学習対象に適合するときに前記符号化規則の学習開始と判定する開始判定手段と、前記開始判定手段により学習開始と判定された場合に、前記構造化データの構造及びデータ型を認識して前記符号化規則の学習を行う学習手段と、入力した前記構造化データに対し、前記指定手段により指定された学習対象に応じた終了条件が成立したときに前記符号化規則の学習終了と判定する終了判定手段と、前記終了判定手段により学習終了と判定されるまで前記構造化データを保存する保存手段と、前記終了判定手段により学習終了と判定されたとき、前記保存手段により保存された構造化データを、前記学習手段により学習した符号化規則に従い符号化する符号化手段とを有し、前記終了判定手段は更に、入力した前記構造化データのデータサイズと前記保存手段により保存されている構造化データのデータサイズとの和が所定のデータサイズを超えたときに学習終了と判定することを特徴とする情報処理装置が提供される。
本発明によれば、入力されるXMLデータ自体から符号化規則を生成するので、スキーマから生成する場合に比べて冗長性の少ない符号化規則を生成することができる。これにより、小さなメモリサイズでEXIの符号化処理を行うことができる。
実施形態における情報処理装置の構成を示すブロック図。 実施形態における情報処理装置で処理されるデータの例を示す図。 実施形態における情報処理装置の動作を示すフローチャート。 実施形態における情報処理装置の符号化処理に係る機能構成及びこの情報処理装置で処理されるデータの例を示す図。 実施形態における情報処理装置の動作を示すフローチャート。 実施形態における情報処理装置で処理されるデータの例を示す図。 実施形態における情報処理装置の動作を示すフローチャート。 実施形態におけるXMLスキーマの例を示す図。 実施形態における情報処理装置の動作を示すフローチャート。 実施形態における情報処理装置で処理されるデータの例を示す図。 実施形態における情報処理装置の動作を示すフローチャート。 実施形態におけるXMLデータの一例を示す図。 実施形態における描画設計用のツールの表示画面の一例を示す図。 学習によるGrammarの圧縮を説明する図。 実施形態における学習対象の指定のための各描画入力の回数のカウントを説明する図。
以下、図面を参照して本発明の好適な実施形態について詳細に説明する。なお、本発明は以下の実施形態に限定されるものではなく、本発明の実施に有利な具体例を示すにすぎない。
<実施形態1>
本実施形態の情報処理装置の構成について、図1のブロック図を参照して説明する。本実施形態の情報処理装置は単一のコンピュータ装置で実現してもよいし、必要に応じた複数のコンピュータ装置で機能を分散して実現してもよい。複数のコンピュータ装置で構成される場合は、互いに通信可能なようにLocal Area Network(LAN)などで接続されうる。
図1において、101は情報処理装置100全体を制御するCentral Processing Unit(CPU)である。102は変更を必要としないプログラムやパラメータを格納するRead Only Memory(ROM)である。103は外部装置などから供給されるプログラムやデータを一時記憶するRandom Access Memory(RAM)である。104は情報処理装置100に固定して設置された外部記憶装置である。外部記憶装置は例えば次のものを含む。ハードディスク、メモリカード、フレキシブルディスク(FD)、Compact Disk(CD)等の光ディスク、磁気カード、光カード、ICカードなど。105はユーザの操作を受け、データを入力するポインティングデバイスやキーボード109などの入力デバイスとのインタフェイスである。106はインターネット103などのネットワーク回線に接続するためのネットワークインタフェイスである。107は101〜106の各ユニットを通信可能に接続するシステムバスである。
本実施形態では、描画データが記述されたXMLデータに、本発明を適用した場合の例を説明する。描画データには、座標情報など多くの数値データが記述される。数値データは、文字型ではなく数値型として符号化した方が、コンピュータの処理がしやすくデータサイズが小さい。バイナリXMLで符号化することで、数値データを数値型として符号化することができる。図2に本実施形態で使用する描画データが記述されたXMLデータの例を示す。XMLデータには、座標情報を表すx属性、y属性に数値データ“100”が記述されている。
まず、図2のXMLデータをW3C標準のバイナリXMLであるEXI(Efficient XML Interchange)へ符号化する際の例を示す。スキーマからEXIへの符号化は、202に示すGrammarと呼ばれるProductionの集合を符号化規則として使う。例えば、XMLデータが開始要素であれば、Grammarの中からSE(*)のProductionを探し、event code 2.5へ符号化する。終了要素であれば、Grammarの中からEEのProductionを探し、event code 2.0へ符号化する。
EXIで数値型への符号化を行うには、schema informedという符号化オプションを使用する。schema informedは、図2に示すように、符号化前に符号化対象のXMLのスキーマ203からGrammar202を生成する。EXIでは、データ型情報をスキーマ側に持たせることで符号化データのサイズを小さくしている。
201がEXI符号化に係る機能ブロック図である。EXI符号化装置は、スキーマからGrammarを生成するGrammar生成部と、生成したGrammarを用いてXMLデータをEXI符号化するEXI符号化部からなる。
図3に、schema informedのEXI符号化処理のフローチャートを示す。まず、S301において、XMLデータの分割入力を受け付ける。次にS302において、入力されたXMLデータがスキーマに妥当であるかどうかを判定する。妥当であると判定された場合は、S303において、対応するProductionを使い符号化する。妥当でないと判定された場合は、S304において、invalid schemaのProductionを使い符号化する。
図2のXMLデータは、x属性の値として100という値を入力している。この値は文字以外であることを示すために、浮動小数点数であるdouble型として入力している。EXIのschema informedでは、効率よく符号化するにはスキーマと一致した型で入力する必要がある。double型として入力した場合は、スキーマに妥当であるため、AT(“x”)のproductionを使いevent code 0とdouble型の100として符号化される。仮に、integer型として入力した場合は、スキーマに妥当でないため、AT(“x”)[schema-invalid-value]のproductionを使い、event code2.4.0と文字列型の100として符号化される。
以上からわかるように、データ型に適した符号化が行えるschema informedでは、スキーマを事前に読み込むことや、生成したGrammarを符号化終了まで保持しなければいけないといったコストがかかる。さらに、スキーマは定義情報なので、図2に示すように、C要素、S要素、L要素といった入力されたXMLデータには含まれないGrammarも生成、保持しなければならない。入力されたXMLデータを一通り解析し、その後EXIへの符号化を行えば、Grammarの生成、保持を効率化することができるかもしれない。しかし本発明を適用すれば、XMLデータを一通り解析するコストを要さず、リアルタイムに効率的なGrammarの生成、保持を行うことができる。
図4は本実施形態におけるEXIへの符号化処理に係る機能を説明する図である。本発明では、符号化前に符号化対象のXMLのスキーマからGrammar生成を行うことはない。その代わりにGrammarの学習対象を指定する。ここでいう学習とは、EXIで定義されているBuilt-in Grammarからの学習とは異なり、従来であればスキーマから生成される部分の学習である。学習対象は、例えば、ある名前の要素、もしくはある一定区間に含まれる要素というように、XMLの構造を指定することができる。本実施形態では、Path要素、M要素、C要素、S要素、L要素を学習対象として指定する。他には、メモリリソースが少ない環境では、学習するGrammarのデータサイズを指定してもよい。本発明を適用すれば、Grammarは402のみ保持すればよくなる。
図4において、401は本実施形態における情報処理装置の符号化処理に係る機能構成図である。学習対象指定部411はGrammarの学習対象を指定する。学習開始判定部412及び学習終了判定部413はそれぞれ、学習対象の指定に従い入力データに対し学習の開始及び終了を判定する。Grammar学習部414はGrammarの学習を行う。構造化データ保存部415は、学習中に入力データを一時保存する。構造化データ符号化部416は、学習したGrammarを使い入力データを符号化する。Grammar出力部417は学習したGrammarを学習終了後に出力する。
図5は、本実施形態におけるEXIへの符号化処理を示すフローチャートである。まずS501において、XMLデータの分割入力を受け付ける。次にS502において、あらかじめ指定された条件に従い、入力された構造化データがGrammarの学習対象であるかを判定する。本実施形態では、学習対象としてPath要素、M要素、C要素、S要素、L要素を指定しているので、入力された構造化データの要素名が何れかに適合しているかどうかを判定する。
S502において学習対象であると判定された場合は、S503においてGrammarの学習を行う。図7は学習を行う際のフローチャートである。以下図7のフローチャートに従って説明する。まずS701において、既にGrammarが学習済みであるかどうかを判定する。本実施形態で行う学習は、従来符号化前にスキーマから生成される部分であり、EXIに準拠した符号化データを生成するには、一度学習したGrammarは同じものを使い続けなければならない。よって、学習済みと判定された場合は、学習を行わずリターンする。
S701において、学習済みでないと判定された場合は、S702において、入力されたXMLデータの構造と型をチェックし、対応するGrammarのProductionと型情報と階層位置を登録する。ここで既にProductionがある場合は登録しない。本実施形態では、M要素のx属性の値として“100”という値を入力している。文字ではなく浮動小数点数であることを示すためにdouble型として入力している。よって、M要素のGrammarに対応するAT(“x”)のProductionがないので、図6の601のGrammarにProductionを追加し、602のGrammarを作成する。同様に、M要素のy属性の値として“100”というdouble型の値を入力している。よって、図6の602のGrammarにAT(“y”)のProductionを追加し604のGrammarを作成する。また、図6の603、605に示すようにx属性、y属性の値の型情報としてdouble型を記録する。ここで仮に、その後M要素のx属性の値としてdouble型が入力された場合は、既にProductionがあるので追加を行わない。その後M要素のx属性の値としてinteger型が入力された場合は、スキーマにinvalidとみなし、AT(“x”){schema-invalid value}のProductionを使うものとし追加を行わない。
入力されるXMLデータの型は、インタフェースで明示的に指定してもよいが、符号化装置側が認識する方法もある。例えば、Java(登録商標)のリフレクション機能を使えば、入力されたXMLデータのオブジェクトから型を推定することができる。また、型を示す識別子を予め符号化装置に記憶しておき、入力データ中の識別子を読むことで型を解釈することもできる。例えば、XMLスキーマのtype属性はデータ型を示す属性なので、符号化装置側が入力データに記述されたtype属性を認識することで型を解釈することができる。
次にS703において、Grammar学習の終了条件が成立しているかどうかを判定する。本実施形態では、学習対象としてPath要素、M要素、C要素、S要素、L要素を指定している。よって、M要素のGrammarについては、M要素の終了要素が入力された時点で終了条件が成立したと判定する。M要素のx属性の値が入力された時点やy属性の値が入力された時点では、M要素が終了していないので終了条件が成立していないと判定する。同様に、PathのGrammarについても、Path要素の終了要素が入力された時点で終了条件が成立したと判定する。あるいは、学習したGrammarのデータサイズの閾値として所定のデータサイズを指定することもできる。この場合は、学習したGrammarのデータサイズが、上記所定のデータサイズを超えたときに学習終了と判定してもよい。
S703において終了条件が成立していないと判定された場合は図7の処理を終了し、図5の処理へ戻りS504へ進む。終了条件が成立したと判定された場合は、S704において、学習したGrammarにevent codeを割り当てる。本実施形態では、EXIの仕様に沿って、図6の606に示すように追加したAT(“x”), AT(“y”)のProductionに対し順番にevent code 0, 1を割り当てる。追加前のProductionのevent codeには追加分を加算したevent codeを割り当てる。次にS705において、学習済みであることを示すために、606に示すように学習済みフラグをオンにする。そして図7の処理を終了し、図5の処理へ戻りS504へ進む。このフラグは、後述する入力データをEXIへ符号化する際に使われる。
S504では、学習中のGrammarがあるかどうかを判定する。Grammarが学習中であるかどうかは前述するフラグによって示されている。入力されたXMLデータは、学習したGrammarで符号化する。よって、学習中であればevent codeが確定していないので、学習終了するまで入力データを保存しておかなければならない。学習中のGrammarがあると判定された場合は、S505において、入力されたXMLデータを保存する。入力データ順に符号化することを期待する場合は、学習中のGrammarがあると判定された際には、例え学習対象ではない入力データであっても保存しておかなければならない。
S504において学習中のGrammarがないと判定された場合は、S506において、学習したGrammarを使って、一時保存されているデータと入力されたXMLデータを符号化する。
符号化したデータは復号装置により復号される。EXIのschema informedでは、符号化時と同様に、予めXMLのスキーマからGrammarを生成することで復号処理を行う。そこで、本発明に従い学習したGrammarをXMLのスキーマとして出力すれば、同様な復号装置で復号可能となる。または、復号装置側のGrammar設定フォーマットに従い学習したGrammarを出力すれば、スキーマを介さずに同様な復号装置で復号可能となる。したがって、Grammar出力部417は学習したGrammarの出力形式の設定ができ、学習したGrammarを、設定された出力形式で出力するように構成されるとよい。以下では、学習したGrammarの出力形式をスキーマとして出力する場合を詳細に説明する。
図8は出力したXMLスキーマの例である。本実施形態では、W3CのXML Schemaを用いて作成している。他のスキーマ言語を用いて作成してもよい。図9はスキーマを作成する際のフローチャートである。まずS901において、学習したGrammarの中で、スキーマ生成が行われていないものがあるかどうかを判定する。S901において、あると判定された場合は、S902において学習したGrammarの要素を定義するスキーマを生成する。本実施形態では、Path要素、M要素のGrammarがスキーマ生成の対象となる。よって、<xsd: element name="Path" type="pathtype"/>、<xsd: element name="M" type="mtype"/>を生成する。“pathtype”、“mtype”は参照のための識別子なので文字列自体に意味はない。
次にS903において、学習したProductionの中で、スキーマ生成が行われていないものがあるかどうかを判定する。S903において、あると判定された場合は、S904においてGrammarの要素の中身としてProductionと型情報に対応するスキーマを生成する。本実施形態では、図6の606、607より、double型のx属性、double型のy属性として次の記述を生成する。<xsd: attribute name="x" type="xsd:double"/>、<xsd: attribute name="y" type="xsd:double">。本スキーマの生成は、符号化処理中に行ってもよいし、全入力データを符号化終了後に行ってもよい。
<実施形態2>
実施形態2では、記憶領域の少ない機器でも適用できるように、学習条件に、保存する入力データサイズの制限を指定した際の例を示す。図10は、本実施形態で符号化するXMLデータの例である。本実施形態においても、実施形態1と同様に、Path要素、M要素、C要素、S要素、L要素を学習対象として指定する。このとき、Path要素のGrammarの学習が開始するのは、Pathの開始要素であるデータの先頭、学習が終了するのは、Pathの終了要素であるデータの末尾になる。順次符号化処理を行う場合、学習中の入力データは全て保持しなければならないので、記憶領域の少ない機器では符号化が難しくなる。そこで、Grammarの学習条件の指定で、保存する入力データサイズの閾値を設定しておく。
図11は本実施形態のフローチャートである。符号化処理のうち、図5のS505へ進む前までの手順は実施形態1と同様である。S505へ進む際に、S1101において、既に保存されているデータと入力データのサイズの和が、予め指定された閾値を超えているかどうか判定する。超えていないと判定された場合は、S1102において入力されたXMLデータを保存しS501へ進む。超えていると判定された場合は、S1103において、学習中のGrammarに対し現時点でのProductionに対するevent codeを割り当てる。event codeの割り当て方法は実施形態1と同様である。さらにS1104において、Grammarの学習済みフラグを立て学習を完了させる。最後にS1105において、学習したGrammarを使って、一時保存されているデータと入力されたXMLデータを入力順に符号化しS501へ進む。
以上により、設定された閾値でPath要素のGrammarの学習が終了し、保存しなければならないデータは図10のようにPath要素の一部で済む。但し、Grammarの学習がPath要素の途中で終了しているので、図10のように学習終了後に出てきたL要素はschema invalidなGrammarのProductionが適用される。
<実施形態3>
スキーマを使ったバイナリXML符号化の目的として、スキーマという共通情報を使って各XMLインスタンスの圧縮効率を高めたいというものがある。しかしEXIではさらに、データ型適合符号化を行いたいという目的もある。データ型適合符号化は、整数値を文字列型ではなく整数型で符号化するというように、データ型に適した符号化を行うことで圧縮効率を高めるものである。
よって、後者のデータ型適合符号化だけを目的とする場合は、処理コストやGrammarのサイズを考えて、文字列型以外のデータだけschema informed grammarを作成したいという場合がある。実施形態1では、要素名で指定したが、本実施形態は階層数で指定する。図12のXMLにおいて、文字列型以外のデータを使っているのはx属性の値とy属性の値である。この属性はルート要素から数えて2番目の階層の要素に属する。そこで、階層数2を指定する。すると、図5に示すS502において階層数2のM要素がGrammarの学習対象になり、S503においてGrammarの学習を行う。実施形態1と同様に図6に示すGrammarが生成され、効率的にバイナリXMLへの符号化が行われる。
<実施形態4>
以下の実施形態4では、ユーザの選択に応じたGrammar学習対象の指定について説明する。
図13に示すように、ユーザはツールを使用しながら描画設計を行う。そして設計した描画結果を、例えばXML形式に変換して保存する。図14は、図13の描画結果をXMLに変換した結果を示す。図13における丸や四角の図形部分はpath要素で記述され、テキスト部分はtext要素で記述される。本実施形態ではさらに、XMLのバイナリ符号化方式であるEXIに変換できるものとする。
スキーマを使ったEXIへの符号化では、スキーマを使わない場合よりも圧縮効率が高いが、図14に示すようなscript要素やanimate要素など、図14のXMLには出現しないタグまでGrammarが生成されてしまう。また、svg要素やtext要素といった繰り返しのない圧縮効果の小さいタグまでGrammarが生成されてしまう。
そこで、図15に示すように、図形入力や文字入力といった各描画入力の回数をツール側でカウントする。各描画入力は、ツール側で一定のSVGタグへ変換されるので、描画入力の回数は、あるSVGタグの出現回数と同等になると予測することができる。そこで、EXIへエクスポートする際に、カウントした回数の多い描画入力を選択し、対応するSVGタグを特定して学習対象として指定する。本実施形態では、丸と四角と直線の描画入力を選択し、path要素、m要素、l要素を学習対象として指定する。EXIへの符号化では、指定されたpath要素、m要素、l要素のみ学習しGrammarを生成する。学習や生成の方法については上述の実施形態と同様である。
これにより、頻繁に使われるタグについてのみGrammarが生成されるので、圧縮効率を落とすことなく符号化、復号化に要するメモリ使用量を小さくすることができる。
(他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (11)

  1. 入力した構造化データを符号化規則に従い符号化する情報処理装置であって、
    前記符号化規則の学習対象を指定する指定手段と、
    入力した前記構造化データが前記指定手段により指定された学習対象に適合するときに前記符号化規則の学習開始と判定する開始判定手段と、
    前記開始判定手段により学習開始と判定された場合に、前記構造化データの構造及びデータ型を認識して前記符号化規則の学習を行う学習手段と、
    入力した前記構造化データに対し、前記指定手段により指定された学習対象に応じた終了条件が成立したときに前記符号化規則の学習終了と判定する終了判定手段と、
    前記終了判定手段により学習終了と判定されるまで前記構造化データを保存する保存手段と、
    前記終了判定手段により学習終了と判定されたとき、前記保存手段により保存された構造化データを、前記学習手段により学習した符号化規則に従い符号化する符号化手段と、
    を有し、
    前記終了判定手段は更に、入力した前記構造化データのデータサイズと前記保存手段により保存されている構造化データのデータサイズとの和が所定のデータサイズを超えたときに学習終了と判定する
    ことを特徴とする情報処理装置。
  2. 前記学習手段により学習した符号化規則を学習終了後に出力する出力手段を更に有することを特徴とする請求項1に記載の情報処理装置。
  3. 前記出力手段は、前記学習手段により学習した符号化規則の出力形式を設定する手段を含み、前記学習手段により学習した符号化規則を前記設定された出力形式で出力することを特徴とする請求項2記載の情報処理装置。
  4. 前記指定手段は、前記符号化規則の学習対象とする要素名を指定し、
    前記開始判定手段は、入力した前記構造化データの要素名が前記指定手段により指定された要素名に適合したときに学習開始と判定する
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記終了判定手段は、入力した前記構造化データが前記指定手段により指定された要素名の終了要素に適合したときに前記終了条件が成立し、学習終了と判定することを特徴とする請求項4に記載の情報処理装置。
  6. 前記学習手段は、前記構造化データのデータ型を推定する手段を含むことを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  7. 前記学習手段は、前記構造化データに記述されたtype属性からデータ型を解釈する手段を含むことを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  8. 前記構造化データはXMLデータであることを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  9. 前記符号化手段は、前記保存手段により保存された構造化データを、前記学習手段により学習した符号化規則に従い、EXI(Efficient XML Interchange)に符号化することを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  10. 入力した構造化データを符号化規則に従い符号化する情報処理装置の制御方法であって、
    指定手段が、前記符号化規則の学習対象を指定する指定ステップと、
    開始判定手段が、入力した前記構造化データが前記指定ステップで指定された学習対象に適合するときに前記符号化規則の学習開始と判定する開始判定ステップと、
    学習手段が、前記開始判定ステップで学習開始と判定された場合に、前記構造化データの構造及びデータ型を認識して前記符号化規則の学習を行う学習ステップと、
    終了判定手段が、入力した前記構造化データに対し、前記指定ステップで指定された学習対象に応じた終了条件が成立したときに前記符号化規則の学習終了と判定する終了判定ステップと、
    保存手段が、前記終了判定ステップで学習終了と判定されるまで前記構造化データを保存する保存ステップと、
    符号化手段が、前記終了判定ステップで学習終了と判定されたとき、前記保存ステップで保存された構造化データを、前記学習ステップで学習した符号化規則に従い符号化する符号化ステップと、
    を有し、
    前記終了判定ステップにおいて、前記終了判定手段は更に、入力した前記構造化データのデータサイズと前記保存手段により保存されている構造化データのデータサイズとの和が所定のデータサイズを超えたときに学習終了と判定する
    ことを特徴とする情報処理装置の制御方法。
  11. コンピュータを請求項1乃至のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
JP2010273944A 2009-12-18 2010-12-08 情報処理装置及びその制御方法並びにプログラム Expired - Fee Related JP5671320B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010273944A JP5671320B2 (ja) 2009-12-18 2010-12-08 情報処理装置及びその制御方法並びにプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009288418 2009-12-18
JP2009288418 2009-12-18
JP2010273944A JP5671320B2 (ja) 2009-12-18 2010-12-08 情報処理装置及びその制御方法並びにプログラム

Publications (2)

Publication Number Publication Date
JP2011146036A JP2011146036A (ja) 2011-07-28
JP5671320B2 true JP5671320B2 (ja) 2015-02-18

Family

ID=44152476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010273944A Expired - Fee Related JP5671320B2 (ja) 2009-12-18 2010-12-08 情報処理装置及びその制御方法並びにプログラム

Country Status (2)

Country Link
US (1) US8849726B2 (ja)
JP (1) JP5671320B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5670859B2 (ja) * 2011-10-21 2015-02-18 株式会社東芝 記述方法、exiデコーダおよびプログラム
US10019418B2 (en) * 2012-07-20 2018-07-10 Fujitsu Limited Efficient XML interchange profile stream decoding
US9128912B2 (en) * 2012-07-20 2015-09-08 Fujitsu Limited Efficient XML interchange schema document encoding
JP2015115652A (ja) 2013-12-09 2015-06-22 キヤノン株式会社 情報処理装置、情報処理方法及びプログラム
DE102014219090A1 (de) * 2014-09-22 2016-03-24 Siemens Aktiengesellschaft Gerät mit Kommunikationsschnittstelle und Verfahren zur Steuerung eines Datenbankzugriffs
US10311137B2 (en) * 2015-03-05 2019-06-04 Fujitsu Limited Grammar generation for augmented datatypes for efficient extensible markup language interchange
US10282400B2 (en) * 2015-03-05 2019-05-07 Fujitsu Limited Grammar generation for simple datatypes
CN108737392B (zh) * 2018-05-03 2020-10-30 杭州鸿泉物联网技术股份有限公司 一种终端上报数据的压缩方法及发送端和接收端
CN112382165B (zh) * 2020-11-19 2022-10-04 北京罗克维尔斯科技有限公司 驾驶策略生成方法、装置、介质、设备及仿真系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6008A (en) * 1849-01-09 Pkoto-litho
FR2670973B1 (fr) * 1990-12-19 1994-04-15 Ouest Standard Telematique Sa Systeme de transmission par paquets a compression de donnees, procede et equipement correspondant.
JP3855423B2 (ja) * 1998-01-09 2006-12-13 富士ゼロックス株式会社 データ管理装置および記録媒体
US7669120B2 (en) * 2002-06-21 2010-02-23 Microsoft Corporation Method and system for encoding a mark-up language document
US7350199B2 (en) * 2003-01-17 2008-03-25 Microsoft Corporation Converting XML code to binary format
US20060085737A1 (en) * 2004-10-18 2006-04-20 Nokia Corporation Adaptive compression scheme
JP4898405B2 (ja) * 2006-12-01 2012-03-14 キヤノン株式会社 文書データ処理方法、文書データ作成装置、及び文書データ処理装置
US7970082B2 (en) 2007-06-29 2011-06-28 Texas Instruments Incorporated Frequency offset correction when decoding a packet encoded in a frequency modulated signal
EP2040178B1 (en) 2007-09-20 2016-07-13 Canon Kabushiki Kaisha Document encoding apparatus, document encoding method, and computer-readable storage medium
JP5207886B2 (ja) * 2007-09-20 2013-06-12 キヤノン株式会社 文書符号化装置、文書符号化方法
JP4898615B2 (ja) * 2007-09-20 2012-03-21 キヤノン株式会社 情報処理装置および符号化方法
US8090731B2 (en) * 2007-10-29 2012-01-03 Oracle International Corporation Document fidelity with binary XML storage
FR2933793B1 (fr) * 2008-07-11 2013-07-05 Canon Kk Procedes de codage et de decodage, par referencement, de valeurs dans un document structure, et systemes associes.
EP2219117A1 (en) * 2009-02-13 2010-08-18 Siemens Aktiengesellschaft A processing module, a device, and a method for processing of XML data

Also Published As

Publication number Publication date
US20110153531A1 (en) 2011-06-23
JP2011146036A (ja) 2011-07-28
US8849726B2 (en) 2014-09-30

Similar Documents

Publication Publication Date Title
JP5671320B2 (ja) 情報処理装置及びその制御方法並びにプログラム
US8117217B2 (en) Information processing apparatus and encoding method
US11132540B2 (en) Ink file searching method, apparatus, and program
US20090254882A1 (en) Methods and devices for iterative binary coding and decoding of xml type documents
CN102929646B (zh) 应用程序生成方法及装置
EP1990737B1 (en) Document transformation system
CN111159394A (zh) 一种文本摘要生成方法和装置
US8381097B2 (en) Determining optimal parameter for binary coding of a structured document
JP7390442B2 (ja) 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム
JP4821287B2 (ja) 構造化文書の符号化方法、符号化装置、符号化プログラム、復号装置及び符号化された構造化文書のデータ構造
CN115935909A (zh) 一种文件生成方法、装置及电子设备
CN112698825B (zh) 编程积木块转换方法、装置、处理设备及存储介质
CN113485829B (zh) 用于微服务集群的数据增量步段的标识值生成方法
CN115297327A (zh) 基于语义结构化编码的语义先验编解码方法与系统
KR20230065017A (ko) 인공지능 분석 기반 프로그램 소스코드의 요약문 생성 장치 및 방법
US8386922B2 (en) Information processing apparatus and information processing method
CN113222160A (zh) 一种量子态的转换方法及装置
JPWO2004079586A1 (ja) マークアップ言語の処理を最適に行なうことのできるデータ変換方法
JP2007219579A (ja) ドキュメント変換装置、およびプログラム
CN115134433B (zh) 一种工控协议的语义解析方法、系统、设备及存储介质
CN116074412B (zh) 一种数据高速读写方法、系统、设备和可读存储介质
CN115001628A (zh) 数据编码的方法及装置、数据解码的方法及装置和数据结构
JP5400344B2 (ja) ドキュメント変換装置、およびプログラム
CN117789233A (zh) 文本识别方法、装置、设备及存储介质
CN117749899A (zh) 协议转换框架、设备通讯方法、装置和计算机存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20131203

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140625

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140630

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140820

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141121

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141219

R151 Written notification of patent or utility model registration

Ref document number: 5671320

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees