JP4750581B2 - Storage area management method, storage area management apparatus, storage area management system, and storage area management method - Google Patents
Storage area management method, storage area management apparatus, storage area management system, and storage area management method Download PDFInfo
- Publication number
- JP4750581B2 JP4750581B2 JP2006049970A JP2006049970A JP4750581B2 JP 4750581 B2 JP4750581 B2 JP 4750581B2 JP 2006049970 A JP2006049970 A JP 2006049970A JP 2006049970 A JP2006049970 A JP 2006049970A JP 4750581 B2 JP4750581 B2 JP 4750581B2
- Authority
- JP
- Japan
- Prior art keywords
- storage area
- information
- unit
- structured data
- storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
この発明は、データ固有の構造とデータ間の関係とを表す構造化データを情報処理機器が処理できるデータ形式の情報に変換する場合に、変換したデータ形式の情報を記憶する記憶領域の記憶領域量を予め求めるものであり、特に、構造化データを解析した結果の解析結果情報に適合する記憶領域量を推定する記憶領域推定情報より記憶領域量を決定する記憶領域管理方式、記憶領域管理装置、記憶領域管理システム、及び、記憶領域管理方法に関する。 The present invention relates to a storage area of a storage area for storing information in a converted data format when converting structured data representing a data-specific structure and a relationship between data into information in a data format that can be processed by an information processing device. A storage area management method and a storage area management apparatus for determining a storage area amount from storage area estimation information for estimating a storage area amount that matches analysis result information obtained as a result of analyzing structured data. The present invention relates to a storage area management system and a storage area management method.
XML(eXtensible Markup Language)等の構造化データを処理するデジタル回路やソフトウェアは、そのデータを一時的に保持しておくために、メモリを使用することが多い。その際に、構造化データをそのままメモリ上に展開するのではなく、そのデータを解析し、内部的に処理しやすい内部データ表現形式に変換し、メモリ上に展開するのが一般的である。
例えば、XMLの場合には、通常W3C(World Wide Web Consortium)で仕様策定されたDOM(Document Object Model)に基づいて、XMLの構造化データを内部データ表現形式に変換しメモリ上に展開する。展開する際に、データ内の各ノードは、タグはElementオブジェクト、属性はAttrオブジェクト、テキストはTextオブジェクトと言った様に、ノード種別によって異なるオブジェクトのインスタンスで表現される。このように構造化データを内部データ表現形式に変換しメモリ上に展開する場合、必要となるメモリ領域をいかに効率的に確保するかは重要な課題であり、メモリ制約の厳しい組込機器への構造化データ適用のニーズが増えている現在において特に重要な課題となっている。
Digital circuits and software that process structured data such as XML (extensible Markup Language) often use a memory to temporarily hold the data. At that time, it is general that the structured data is not expanded on the memory as it is, but the data is analyzed, converted into an internal data representation format that can be easily processed internally, and expanded on the memory.
For example, in the case of XML, XML structured data is converted into an internal data representation format based on DOM (Document Object Model), which is normally defined by W3C (World Wide Web Consortium). When expanding, each node in the data is represented by an instance of an object that differs depending on the node type, such as a tag being an Element object, an attribute being an Attr object, and a text being a Text object. In this way, when structured data is converted into internal data representation format and expanded on memory, how to efficiently secure the necessary memory area is an important issue. This is a particularly important issue as the need for applying structured data increases.
従来のメモリ確保の方法(従来方法1)では、構造化データの解析中、随時必要最低限のメモリ量(記憶領域量)を確保する方法が取られていた。この方法は、理論上解析終了時に余分に確保されたメモリが存在しない利点がある。
その他の従来の方法(従来方法2)として、構造化データのデータサイズに基づいて解析前に必要となるメモリ量(記憶領域量)を推定する方法がある。この方法では、必要となると推定されたメモリ量(記憶領域量)を一度に確保するため、その領域を消費するまではメモリ確保処理が不要となるため、前期方法よりも高速に処理可能な利点がある。
また、例えば、特開平5−101111号公報(特許文献1、従来方法3)には、データのファイルサイズを求め、そのファイルサイズに応じて使用される記憶領域サイズを決定し、記憶領域を確保する技術が記載されている。
As another conventional method (conventional method 2), there is a method of estimating a memory amount (storage area amount) required before analysis based on the data size of structured data. This method secures the memory amount (storage area amount) estimated to be necessary at a time, and therefore does not require the memory securing process until the area is consumed. There is.
Further, for example, in Japanese Patent Laid-Open No. 5-101111 (
しかし、従来方法1では、メモリが必要となるたびにメモリ確保処理を行う必要があるため、処理速度が遅くなる問題や、アドレスバウンダリの影響により、理論上のメモリ量(記憶領域量)よりも多くのメモリ領域を消費する問題がある。
また、従来方法2,3では、構造化データはデータサイズが同じでも、内部構造の複雑さは千差万別であり、必要となるメモリ量(記憶領域量)には大きな開きが生じる。このため、内部構造が非常に簡単な場合には、実際に必要となるメモリ量(記憶領域量)よりも極端に多くのメモリ量(記憶領域量)を確保してしまう。また逆に、内部構造が非常に複雑な場合には、実際に必要となるメモリ量(記憶領域量)よりも少ないメモリ量(記憶領域量)しか確保できず、メモリ確保処理を繰り返し行う必要が生じる問題がある。
However, in the
Further, in the
前記従来技術の課題を鑑みて、本発明は、従来技術よりも推定するメモリ量(記憶領域量)と実際に必要となるメモリ量(記憶領域量)の誤差を少なくする事を可能とすることを目的とする。 In view of the problems of the prior art, the present invention makes it possible to reduce the error between the estimated memory amount (storage area amount) and the actually required memory amount (storage area amount) than the prior art. With the goal.
この発明に係るデータ固有の構造とデータ間の関係とを表す構造化データを情報処理機器が処理できるデータ形式の情報に変換する場合に、変換したデータ形式の情報を記憶するデータ記憶領域の記憶領域量を予め求める記憶領域管理方式は、
処理を実行するセントラル・プロセッシング・ユニット(Centoral Processing Unit:CPU)と、
上記CPUが処理を行った結果を記憶する記憶部と、
構造化データを入力してCPUにより解析して記憶領域量を推定するパラメータとなる解析結果情報を生成し、生成した解析結果情報をCPUにより記憶部に記憶する解析処理部と、
記憶領域量を推定するパラメータを予め複数記憶するとともに、複数のパラメータそれぞれに対応させて、記憶領域量を推定する記憶領域推定情報を予め記憶する記憶領域推定情報記憶部と、
上記解析処理部が生成した解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報記憶部から取得して、取得した記憶領域推定情報に基づいて上記記憶領域量を決定して、決定した記憶領域量をCPUにより記憶部に記憶する記憶領域決定部と、
上記記憶領域決定部が決定した記憶領域量を記憶部より入力して、入力した記憶領域量に相当する記憶領域を、上記変換したデータ形式の情報を記憶するデータ記憶領域としてCPUにより確保する記憶領域管理部と
を備えたことを特徴とする。
Storage of a data storage area for storing converted data format information when converting structured data representing the data-specific structure and the relationship between data into data format information that can be processed by the information processing device The storage area management method for obtaining the area amount in advance is:
A central processing unit (CPU) for executing processing;
A storage unit for storing a result of processing performed by the CPU;
An analysis processing unit that inputs structured data, generates analysis result information that is a parameter for estimating the storage area amount by the CPU, and stores the generated analysis result information in the storage unit by the CPU;
A storage area estimation information storage unit that stores in advance a plurality of parameters for estimating the storage area amount, and stores in advance storage area estimation information for estimating the storage area amount corresponding to each of the plurality of parameters;
The analysis result information generated by the analysis processing unit is input from the storage unit, the storage region estimation information corresponding to the parameter that matches the input analysis result information is acquired from the storage region estimation information storage unit, and the acquired storage A storage area determination unit that determines the storage area amount based on the area estimation information and stores the determined storage area amount in the storage unit by the CPU;
The storage area amount determined by the storage area determination unit is input from the storage unit, and the storage area corresponding to the input storage area amount is secured by the CPU as a data storage area for storing the information of the converted data format And an area management unit.
この発明の記憶領域管理方式は、解析処理部が構造化データを入力してCPUにより解析して記憶領域量を推定するパラメータとなる解析結果情報を生成し、記憶領域推定情報記憶部が記憶領域量を推定するパラメータを予め複数記憶するとともに、複数のパラメータそれぞれに対応させて、記憶領域量を推定する記憶領域推定情報を予め記憶し、記憶領域決定部が上記解析処理部が生成した解析結果情報を入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報記憶部から取得して、取得した記憶領域推定情報に基づいて上記記憶領域量を決定して、決定した記憶領域量をCPUにより記憶部に記憶する。このため、例えばオブジェクトの出現回数を解析結果情報とし、記憶領域推定情報はオブジェクトの出現回数から取得したり、ある1つのオブジェクトの出現回数から他のオブジェクトの出現回数を予測して記憶領域推定情報を取得するようにすると、構造化データの内部構造が複雑であっても、記憶領域推定情報を取得する処理時間を高速にできる効果がある。また、記憶領域推定情報を取得する処理は複雑でないため、高速に行える効果がある。また、例えば、記憶領域推定情報は、オブジェクトの単一サイズにそのオブジェクトの出現回数を掛けたり、複数のオブジェクトの出現回数を合計した数に複数のオブジェクトの平均サイズを掛けたりして、オブジェクトの出現回数から記憶領域量を推定するようにすると、推定した記憶領域量と実際に必要となる記憶領域量との差を小さくできる効果がある。 According to the storage area management system of the present invention, the analysis processing unit inputs structured data and analyzes it by the CPU to generate analysis result information that is a parameter for estimating the storage area amount, and the storage area estimation information storage unit stores the storage area. A plurality of parameters for estimating the amount are stored in advance, storage region estimation information for estimating the storage region amount is stored in advance corresponding to each of the plurality of parameters, and the analysis result generated by the analysis processing unit by the storage region determination unit Information is input, storage area estimation information corresponding to a parameter that matches the input analysis result information is acquired from the storage area estimation information storage unit, and the storage area amount is determined based on the acquired storage area estimation information Then, the determined storage area amount is stored in the storage unit by the CPU. For this reason, for example, the number of appearances of an object is used as analysis result information, and the storage area estimation information is obtained from the number of appearances of an object, or the number of appearances of one object is predicted to predict the number of appearances of another object. As a result, even if the internal structure of the structured data is complex, there is an effect that the processing time for acquiring the storage area estimation information can be increased. Further, since the process for acquiring the storage area estimation information is not complicated, there is an effect that it can be performed at high speed. Further, for example, the storage area estimation information may be obtained by multiplying the single size of an object by the number of appearances of the object, or multiplying the total number of appearances of a plurality of objects by the average size of the plurality of objects. Estimating the storage area amount from the number of appearances has the effect of reducing the difference between the estimated storage area amount and the actually required storage area amount.
実施の形態1.
図1は、この実施の形態の記憶領域管理方式を実行する構造化データメモリ管理装置の機能ブロック図である。
図2は、図1の記憶領域管理方式を実現する構造化データメモリ管理装置を含むシステム構成を示す図である。
図3は、図2の構造化データメモリ管理装置を含むシステムのハードウェア資源の一例を示す図である。
FIG. 1 is a functional block diagram of a structured data memory management apparatus for executing the storage area management system of this embodiment.
FIG. 2 is a diagram showing a system configuration including a structured data memory management apparatus that implements the storage area management method of FIG.
FIG. 3 is a diagram illustrating an example of hardware resources of a system including the structured data memory management device of FIG.
図1〜図3の構造化データメモリ管理装置の要素について説明を行う前に、本実施の形態、及び、他の実施の形態で説明する構造化データと内部データ形式について説明する。
構造化データとは、情報処理機器で処理可能なように、既存の知識の延長線上、またはある集団・組織内に浸透する一般的な意味を交換可能なデータ固有の構造や関係をデータ自身に組み込んだデータの事である。例えば、XML、HTML(HyperText Markup Language)等が代表的な構造化データである。
図4(a)は、構造化データの一例としてのHTMLコンテンツを示す図である。例えば、図4(a)の「<html>」、「<title>」、「<body>」、「<b>」、「<br>」は、タグの持つ意味を表現するElementオブジェクトである。また、「sample1」、「sample」は、テキストの持つ意味を表現するTextオブジェクトである。
Before describing the elements of the structured data memory management apparatus of FIGS. 1 to 3, the structured data and internal data format described in this embodiment and other embodiments will be described.
Structured data refers to the data's unique structure and relationships that can be exchanged for general meaning that is an extension of existing knowledge or permeates within a group / organization so that it can be processed by information processing equipment. It is the embedded data. For example, XML, Hyper Text Markup Language (HTML), etc. are typical structured data.
FIG. 4A is a diagram showing HTML content as an example of structured data. For example, “<html>”, “<title>”, “<body>”, “<b>”, and “<br>” in FIG. 4A are Element objects representing the meaning of the tag. . “Sample1” and “sample” are Text objects that express the meaning of the text.
また、内部データ形式とは、前記構造化データを情報処理機器でより容易に取り扱える様に情報処理機器に都合のよい形式に変換した内部表現形式のことである。例えば、XMLやHTML等であれば標準仕様であるDOM(Document Object Model)に準拠した内部表現形式から、固有に策定した内部表現形式までを指す。一般的に内部データ形式は、前記構造化データの保持するデータ固有の構造や関係・意味を保持可能とするため、それぞれのデータに適した複数の内部表現形式を持つ。例えば、DOMであれば、XMLドキュメントを表現するDocumentオブジェクトがあり、タグの持つ意味を表現するためのオブジェクトとしてElementオブジェクトがあり、テキストの持つ意味を表現するためにTextオブジェクトがある。それぞれのオブジェクトの構造関係を表現するために各オブジェクトをノードとした木構造で表現する。図4(b)は、図4(a)のHTMLコンテンツをDOMに準拠した内部データ形式で表現した場合のブロック図の例である。四角形のブロックはDocumentオブジェクト、六角形のブロックはElementオブジェクト、楕円のブロックはTextオブジェクトを表現している。ブロック間の縦方向の矢印は木構造の親子関係を、横方向の矢印は兄弟関係を表現している。兄弟関係はコンテンツ内の同一階層のオブジェクト同士で結ばれ、親子関係は隣接する階層構造間のオブジェクト同士で結ばれる関係構造である。 The internal data format is an internal representation format in which the structured data is converted into a format convenient for the information processing device so that the information processing device can more easily handle the structured data. For example, XML, HTML, or the like refers to an internal representation format that conforms to a standard specification DOM (Document Object Model) to a uniquely formulated internal representation format. Generally, the internal data format has a plurality of internal representation formats suitable for each data in order to be able to hold the structure, relationship and meaning unique to the data held by the structured data. For example, in the case of DOM, there is a Document object that represents an XML document, an Element object as an object for expressing the meaning of a tag, and a Text object for expressing the meaning of a text. In order to express the structural relationship of each object, it is expressed in a tree structure with each object as a node. FIG. 4B is an example of a block diagram when the HTML content of FIG. 4A is expressed in an internal data format conforming to DOM. A rectangular block represents a Document object, a hexagonal block represents an Element object, and an elliptical block represents a Text object. The vertical arrows between blocks represent the parent-child relationship of the tree structure, and the horizontal arrows represent the sibling relationship. Sibling relationships are connected with objects in the same hierarchy in the content, and parent-child relationships are relationship structures connected with objects between adjacent hierarchical structures.
また、情報処理機器とは、PC(Personal Computer)、Workstationと言った据え置き型の情報処理機器から、携帯電話、カーナビゲーションシステム、デジタルテレビや情報家電といった、組込機器と呼ばれる情報機器が含まれる。 In addition, information processing devices include information devices called embedded devices such as mobile phones, car navigation systems, digital TVs, and information appliances, from stationary information processing devices such as PCs (Personal Computers) and workstations. .
次に、図1の記憶領域管理方式を実行する構造化データメモリ管理装置について説明する。
図1において、構造化データメモリ管理装置10は、記憶領域管理方式を実行する装置の一例であり、記憶領域管理装置の一例である。また、構造化データメモリ管理装置10は、記憶領域管理方法を実行する装置の一例である。構造化データメモリ管理装置10は、構造化データを入力してCPUにより解析して記憶領域量を推定するパラメータとなる解析結果情報を生成し、生成した解析結果情報をCPUにより記憶部に記憶する解析処理部の一例の前解析処理部13を備える。また、記憶領域量を推定するパラメータを予め複数記憶するとともに、複数のパラメータそれぞれに対応させて、記憶領域量を推定する記憶領域推定情報を予め記憶する記憶領域推定情報記憶部の一例の記憶領域推定情報格納部16を備える。また、前解析処理部13が生成した解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報格納部16から取得して、取得した記憶領域推定情報に基づいて上記記憶領域量を決定して、決定した記憶領域量をCPUにより記憶部に記憶する記憶領域決定部15を備える。また、上記記憶領域決定部15が決定した記憶領域量を記憶部より入力して、入力した記憶領域量に相当する記憶領域を、上記変換したデータ形式の情報を記憶するデータ記憶領域としてCPUにより確保する記憶領域管理部17を備える。また、従来のメモリ管理方式によるメモリ管理を行う構造化データ解析部14を備える。また、構造化データを記憶する構造化データ記憶部の一例である構造化データ格納部11を備える。また、解析の対象とする構造化データの解析対象範囲を指定する解析範囲情報100を入力する入力部18を備える。また、構造化データメモリ管理装置10の前記した各要素の動作を制御する解析処理制御部12を備える。
Next, a structured data memory management apparatus that executes the storage area management method of FIG. 1 will be described.
In FIG. 1, a structured data
以下に、構造化データメモリ管理装置10の前記した各要素の動作を、解析処理制御部12の動作を中心にして説明する。動作の説明において、図5のシーケンス図を参照する。図5は、解析処理制御部12を中心としたシーケンス図である。
構造化データ格納部11(構造化データ記憶部の一例)は、少なくとも一つ以上の構造化データの実体もしくは実体を参照する情報(URL、ポインタ、その他の参照情報等)を永続的、もしくは一時的に格納する記憶領域である。具体的にはRAMやROMなどの内部メモリ、ハードディスク、FDD(Flexible・Disk・Drive)、メモリーカード、CDROM、DVD等が考えられる。構造化データ格納部11に格納されている構造化データは、通常のファイルシステムによって管理する方法、データベースの様に各構造化データにキーを設定し、そのキーを利用して管理する方法、解析処理を要求されている構造化データがリクエスト順に列挙されているリストやキュー、リングバッファ形式で管理する方法等が考えられる。また、各構造化データに付随する関連情報を一緒に格納し管理する事も考えられる。その場合の関連情報は、構造化データの取得元情報(URL等)やこの構造化データの作成日時情報、更新日時情報、作成作者情報、更新作者情報等が考えられる。
Hereinafter, the operation of each element described above of the structured data
The structured data storage unit 11 (an example of a structured data storage unit) stores at least one entity of structured data or information (URL, pointer, other reference information, etc.) referring to the entity permanently or temporarily. It is a storage area for storing automatically. Specifically, an internal memory such as a RAM or a ROM, a hard disk, an FDD (Flexible / Disk / Drive), a memory card, a CDROM, a DVD, or the like can be considered. Structured data stored in the structured
解析処理制御部12は、構造化データの解析処理の制御を行う中央制御部である。解析処理制御部12は、上位モジュールより構造化データ解析要求を受けると、その要求に対応した構造化データを構造化データ格納部11より取得する。適切に取得できなかった場合には、解析処理制御部12は上位モジュールに対してコンテンツ取得不正応答を返す。
正常に取得できた場合には、解析処理制御部12はそのコンテンツを前解析するため前解析処理部13に対して、前解析要求を発行する。また、構造化データを前解析する範囲の指定がある場合には、入力部18より、解析範囲を示す解析範囲情報100を入力して、入力した解析範囲情報100を前解析要求に含めて、前解析処理部13に発行する。前解析が正常に終了しなかった場合には、解析処理制御部12は上位モジュールに対して前解析不正応答を返すか、もしくは、従来通りのメモリ管理方式で解析を継続するため、構造化データ解析部14に対して、従来解析要求を発行する。この「解析を継続する」とは、万が一、前解析が正常終了できなかった場合に、そこで処理を中断させないために、記憶領域管理方式による記憶領域量の推定は行わないで、従来からのメモリ管理方式を行う構造化データ解析部14を利用して構造化データの解析を実行するように、構造化データ解析部14に命令するものである。つまり、前解析処理部13による解析結果情報は生成されないため、記憶領域量を推定して推定した記憶領域量の記憶領域をデータ記憶領域に確保する処理は、構造化データ解析部14が独自に行う事になる。構造化データ解析部14による記憶領域の確保は、多くの場合、解析前にコンテンツに関係なく一定量の記憶領域量の記憶領域をデータ記憶領域に確保する、或いは、記憶領域が必要になった時に、必要な記憶領域量の記憶領域をデータ記憶領域に毎回確保する方式になる。
The analysis
If it can be acquired normally, the analysis
前解析処理部13による前解析が正常に終了した場合には、解析処理制御部12は解析結果情報を元にして、前解析の対象とした構造化データを内部データ形式に変換する際に必要となる記憶領域サイズ(記憶領域量)を決定するために、記憶領域決定部15に領域決定要求を発行する。記憶領域決定部15による領域決定が正常に終了しなかった場合には、解析処理制御部12は上位モジュールに対して領域決定不正応答を返すか、もしくは、従来通りのメモリ管理方式で解析を継続するため、構造化データ解析部14に対して、従来解析要求を発行する。この「解析を継続する」とは、前述した前解析処理部13による解析結果情報の生成が正常に行われなかった場合の「解析を継続する」ことと、同様の動作をいう。
記憶領域決定部15による領域決定が正常に終了した場合には、解析処理制御部12は決定された領域サイズ(記憶領域量)の記憶領域をデータ記憶領域に確保するため、記憶領域管理部17に対して、領域確保要求を発行する。記憶領域管理部17による領域確保に失敗した場合には、解析処理制御部12は上位モジュールに対して領域確保不正応答を返すか、もしくは、従来通りのメモリ管理方式で解析を継続するため、構造化データ解析部14に対して、従来解析要求を発行する。この「解析を継続する」とは、前述した前解析処理部13による解析結果情報の生成が正常に行われなかった場合の「解析を継続する」ことと、同様の動作をいう。
記憶領域管理部17による領域確保に成功した場合には、確保されたメモリ領域(記憶領域量)を使用して構造化データの解析を行うために、解析処理制御部12は構造化データ解析部14に対して解析要求を発行し、解析結果を上位モジュールに返す。
When the pre-analysis by the
When the area determination by the storage
When the storage
前解析処理部13は、解析処理制御部12からの前解析要求を受け、要求に対応する構造化データを前解析するモジュールである。解析する構造化データは、構造化データ格納部11をアクセスして取得する場合と、ネットワークを介して外部装置より受信する場合とがある。前解析を行った結果生成する解析結果情報は、構造化データを解析し、内部データ形式を構成する内部データオブジェクトを生成するために必要となる記憶領域サイズ(記憶領域量)を決定するためのパラメータとして利用される。
The
記憶領域決定部15は、解析処理制御部12からの領域決定要求を受け、要求に含まれる解析結果情報を元に、構造化データを内部データ形式で表現した場合に、内部データを構成する内部データオブジェクトを生成するために必要となる記憶領域サイズ(記憶領域量)を決定するモジュールである。また、記憶領域決定部15が記憶領域サイズ(記憶領域量)を決定する際にアクセスする記憶領域推定情報格納部16には、記憶領域サイズ(記憶領域量)を決定する際に必要となる記憶領域推定情報を、記憶領域量を推定する複数のパラメータ毎に対応させて格納している。記憶領域決定部15は必要に応じて記憶領域推定情報格納部16から、解析結果情報に適合するパラメータに対応する記憶領域推定情報を取得して、記憶領域量を決定する記憶領域決定処理を遂行する。決定された記憶領域量は、オブジェクトの区別をしないで一括したサイズで求める場合や、オブジェクトの区別を行い、各オブジェクトでどれだけのサイズの領域が必要となるかを求める場合が考えられる。例えば、前記したように構造化データがXMLドキュメントである場合は、ElementオブジェクトとTextオブジェクトとが存在するので、これらのオブジェクトを区別することなく1つの記憶領域量を決定する場合と、これらのオブジェクト毎に対応する記憶領域量を求める場合とがある。なお、それぞれのオブジェクトに対応する記憶領域量を求める場合には、前解析処理部13によりオブジェクト毎の解析結果情報を生成することが必要となる。さらに、オブジェクト毎の解析結果情報を生成する場合には、解析結果情報を生成するオブジェクトを指定する情報を入力部18より入力するとともに、指定したオブジェクト毎に解析結果情報を生成することを指示する情報を入力部18より入力することが必要となる。
The storage
記憶領域管理部17は、解析処理制御部12からの領域確保要求を受け、要求に応じた記憶領域サイズ(記憶領域量)の記憶領域をデータ記憶領域に確保する。また、記憶領域管理部17は、構造化データ解析部14が構造化データを内部データ形式に変換するための解析処理の途中に、変換した内部データ形式の内部データを格納するために必要となった記憶領域要求に対して、適切な記憶領域を参照するための情報を返す。その際に、データ記憶領域に確保した記憶領域が枯渇した場合には、構造化データ解析部14に領域不足応答を返す。
記憶領域決定部15が決定した記憶領域サイズ(記憶領域量)が、オブジェクトの区別を行わずに一括した記憶領域サイズ(記憶領域量)で求めている場合には、記憶領域管理部17では、記憶領域の確保方法は、その記憶領域サイズ(記憶領域量)の記憶領域を一つ確保する事になる。一方、オブジェクトの区別を行って記憶領域サイズ(記憶領域量)を決定した場合には、各オブジェクト毎に決定された記憶領域量の記憶領域をそれぞれ独立して確保する。
The storage
When the storage area size (storage area amount) determined by the storage
また、記憶領域管理部17による記憶領域の確保が正常に終了した場合、構造化データ解析部14では、解析処理制御部12の解析要求に応じて、要求に対応する構造化データの解析を行う。その際に構造化データを解析し、内部データとして表現する処理を行う際に必要となる記憶領域の記憶領域サイズ(記憶領域量)は、記憶領域管理部17に対して、構造化データ解析部14が要求する事によって、記憶領域管理部17が、要求された記憶領域サイズ(記憶領域量)の記憶領域について他からの使用を禁止することによって構造化データ解析部14による使用を保証する。そして、記憶領域管理部17は、構造化データ解析部14から要求された内容に適合した記憶領域サイズ(記憶領域量)の記憶領域を確保できたことを通知する情報を、構造化データ解析部14に応答として返す。さらに、確保した記憶領域を使用するための必要となる情報も構造化データ解析部14に通知する。また、その際にメモリ領域が不足した場合には、記憶領域管理部17は構造化データ解析部14に対して、エラー通知を行う。
When the storage
入力部18は、構造化データの解析対象とする範囲を指定する解析範囲情報100を入力して、解析範囲情報100を解析処理制御部12に通知する。解析範囲情報100は、例えば、構造化データ全てを解析対象として指定する情報や、構造化データの一部を解析対象として指定する情報である。また、構造化データの有する特定の情報を解析対象とするように、特定の情報を解析範囲情報100に含めて指定する。解析範囲情報100の具体的な内容は後で説明する。
以上が、図1の構造化データメモリ管理装置10の備える要素の概略である。
The
The above is the outline of the elements provided in the structured data
次に、構造化データメモリ管理装置10の外観を説明する。構造化データメモリ管理装置10は、例えば図2のような機器構成をしているものとする。図2において、構造化データメモリ管理装置10は、クライアント装置909、サーバ装置910、CRT(Cathode Ray Tube)やLCD(液晶)の表示画面を有する表示装置901、キーボード902(K/B)、マウス903、FDD904(Flexible Disk Drive)、コンパクトディスク装置905(CDD)などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。
サーバ装置910及びクライアント装置909とは、コンピュータであり、サーバ装置910とクライアント装置909とはケーブルで接続されている。また、クライアント装置909は、サーバ装置910を介してデータベース908に記憶されている情報に対してアクセスすることが出来る。データベース908は、例えば構造化データ格納部11に相当し、クライアント装置909はサーバ装置910を介して、データベース908が記憶する構造化データを取得する。サーバ装置910とデータベース908とはケーブルで接続され、また、ローカルエリアネットワーク942(LAN)、ゲートウェイ941を介してインターネット940に接続されている。インターネット940の右側には、別のコンピュータシステムが接続されている。クライアント装置909は、サーバ装置910、LAN942、ゲートウェイ941、インターネット940を介して、インターネット940の右側にある別のコンピュータシステムの記憶装置に記憶された情報をアクセスすることが出来る。
Next, the appearance of the structured data
The server device 910 and the
図3において、構造化データメモリ管理装置10は、プログラムを実行するCPU911(Central Processing Unit、中央処理装置、処理装置、演算装置ともいう)を備えている。CPU911は、バス912を介してROM913、RAM914、通信ボード915、表示装置901、キーボード902、マウス903、FDD904、CDD905、磁気ディスク装置920と接続され、これらのハードウェアデバイスを制御する。CPU911は、解析処理制御部12、前解析処理部13、記憶領域決定部15、記憶領域管理部17、構造化データ解析部14、入力部18の動作を制御する。磁気ディスク装置920の代わりに、光ディスク装置、メモリーカード読み書き装置などの記憶装置でもよい。
RAM914は、揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、不揮発性メモリの一例である。ROM913、FDD904、CDD905、磁気ディスク装置920の記憶媒体は、記憶装置、格納部、あるいは記憶部の一例であって、情報処理機器が処理できるデータ形式(内部データ形式)の情報に変換した情報を記憶するデータ記憶領域を備える。
通信ボード915、キーボード902、FDD904などは、入力部、入力装置の一例である。
また、通信ボード915、表示装置901出力部、出力装置の一例である。
In FIG. 3, the structured data
The
The
Moreover, it is an example of the
通信ボード915は、LAN942に接続されている。通信ボード915は、LAN942に限らず、インターネット940、ISDN等のWAN(ワイドエリアネットワーク)などに接続されていても構わない。インターネット940或いはISDN等のWANに接続されている場合、ゲートウェイ941は不用となる。
磁気ディスク装置920には、オペレーティングシステム921(OS)、ウィンドウシステム922、プログラム群923、ファイル群924が記憶されている。プログラム群923のプログラムは、CPU911、オペレーティングシステム921、ウィンドウシステム922により実行される。
The
The
上記プログラム群923には、実施の形態で説明する構造化データメモリ管理装置10の備える「〜部」と、構造化データメモリ管理装置10により動作する「〜ステップ」として説明する機能を実行するプログラムが記憶されている。プログラムは、CPU911により読み出され実行される。
ファイル群924には、実施の形態の説明において、「解析結果情報」、「記憶領域量」、「解析範囲情報」、「〜の解析結果」、「〜決定した結果」、「〜の判定結果」、「〜の計算結果」、「〜の処理結果」として説明するデータや信号値や変数値やパラメータが、「〜ファイル」や「〜データベース」の各項目として記憶されている。
また、実施の形態の説明において説明するフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、RAM914のメモリ、FDD904のフレキシブルディスク、CDD905のコンパクトディスク、磁気ディスク装置920の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital Versatile Disk)等の記録媒体に記録される。また、データや信号は、バス912や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
The
In the
In addition, arrows in the flowcharts described in the description of the embodiments mainly indicate input / output of data and signals, and the data and signal values are the memory of the
また、実施の形態の説明において「〜部」として説明するものは、ROM913に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、ハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU911により読み出され、CPU911により実行される。すなわち、プログラムは、「〜部」としてコンピュータを機能させるものである。あるいは、以下に述べる「〜部」、「〜ステップ」の手順をコンピュータに実行させるものである。
Also, what is described as “˜unit” in the description of the embodiment may be realized by firmware stored in the
以下では前解析処理部13の処理の具体例を挙げて説明を行う。この実施の形態では、前解析処理部13で構造化データの前解析を行い、解析結果情報を生成して、記憶領域決定部15により構造化データを内部データ形式で表現する際に必要となるデータ記憶領域の記憶領域量を、解析結果情報から求める。
その前解析処理の具体例として、構造化データが有するデータ固有の構造を特徴付ける特徴データについて解析を行った場合を説明する。例えば、構造化データの構造を特徴付ける情報を特徴データとして構造化データから抽出し、その個数を前解析結果とするものである。
構造化データがXMLの場合には、タグの開始記号となる”<”や、タグの終了記号となる”/>”、属性への値代入を示す”=”等が、特徴データの一例として挙げられる。
Hereinafter, a specific example of the process of the
As a specific example of the pre-analysis process, a case will be described in which feature data that characterizes a data-specific structure of structured data is analyzed. For example, information that characterizes the structure of the structured data is extracted from the structured data as feature data, and the number thereof is used as a pre-analysis result.
When the structured data is XML, “<” that is the start symbol of the tag, “/>” that is the end symbol of the tag, “=” that indicates the value assignment to the attribute, etc. are examples of the feature data. Can be mentioned.
図1の説明において、入力部18は、解析範囲情報100として、例えば、構造化データ全てを解析対象として指定する情報や、構造化データの一部を解析対象として指定する情報や、解析対象データの有する特定の情報を解析対象とするように、特定の情報を解析範囲情報100に含めて指定すると説明した。ここでは、入力部18は、全ての構造化データを解析範囲として指定するとともに、特定の情報のみを解析対象とする場合について、例えば特徴データであるタグの開始記号となる”<”、タグの終了記号となる”/>”、属性への値代入を示す”=”について前解析処理部13で解析を行い、その出現回数を解析結果情報として生成することについて説明する。すなわち、解析範囲情報100は、構造化データの全データを解析対象にして、”<”,”/>”,”=”の出現回数を解析することを指定する情報となる。 図6は、構造化データがXMLの場合における特徴データとしてタグ開始記号のみを利用した場合の前解析処理部13の処理フロー図である。
In the description of FIG. 1, the
図5のシーケンスではS5の構造化データ取得ステップが、解析処理の開始であり、はじめに、解析処理制御部12は、解析対象とする構造化データを指定する情報を入力する。例えば、構造化データ格納部11に予め複数の構造化データが記憶されて、それぞれの構造化データが構造化データを識別するファイル名によって区別されている場合には、入力部18によりファイル名を入力する。また、解析する構造化データが構造化データメモリ管理装置10に記憶されていない場合は、解析する構造化データそのものを入力部18より入力する。入力部18は、例えば通信ボード915、キーボード902、FDD904であるので、通信ボード915の場合には、解析処理制御部12は、ネットワークを介して通信ボード915が受信したファイル名や構造化データそのものを入力する。キーボード902である場合には、解析処理制御部12は、キーボード902が入力したファイル名を入力する。FDD904である場合には、解析処理制御部12は、FDD904のフレキシブルディスクをCPUによりアクセスして記憶されたファイル名、或いは、解析データそのものを入力する。ファイル名が入力された場合には、解析処理制御部12は、構造化データ格納部11からファイル名から特定される構造化データをCPUにより取り出す。
In the sequence of FIG. 5, the structured data acquisition step of S5 is the start of the analysis process. First, the analysis
解析処理制御部12は、解析対象の構造化データを取得できたら、次は、解析範囲情報100を入力する。この実施の形態では、前述のように、構造化データの全データを解析対象にして、”<”,”/>”,”=”の出現回数を解析するため、解析範囲情報100は、構造化データの全データを解析対象とすることを指定する情報、及び、”<”,”<”,”/>”,”=”の出現回数を解析することを指定する情報とを有する。前述のように入力部18は、例えば通信ボード915、キーボード902、FDD904であるので、通信ボード915の場合には、解析処理制御部12は、ネットワークを介して通信ボード915が受信した解析範囲情報100を入力する。キーボード902である場合には、解析処理制御部12は、キーボード902が入力した解析範囲情報100を入力する。FDD904である場合には、解析処理制御部12は、FDD904のフレキシブルディスクに記憶された解析範囲情報100をCPUによりアクセスして取り出す。
ここでは、解析対象とする構造化データの指定(或いは、入力)と、解析範囲情報100の指定(或いは、入力)とを、解析処理制御部12が動作を開始する処理開始要求の入力とする。
解析処理制御部12は、前述の処理開始要求を入力すると、前解析処理を開始する指示と、解析対象の構造化データと、解析範囲情報100とを前解析要求として、CPUにより記憶部に記憶して、前解析処理部13を動作させる。すなわち、前解析処理を開始する指示と、解析対象の構造化データと、解析範囲情報100とを前解析要求として、CPUにより前解析処理部13に出力する。以下の説明において、解析処理制御部12から他の「〜部」へ情報を送信、通知、出力する処理は、送信、通知、出力する情報をCPUにより記憶部に記憶して、解析処理制御部12が他の「〜部」を動作させてことをいうものとする。また、他の「〜部」が、解析処理制御部12から受信、入力、取得する情報は、解析処理制御部12がCPUにより記憶部に記憶した情報を読み取る動作をいうものとする。すなわち、解析処理制御部12と他の「〜部」との間の情報のやり取りは、記憶部を介して行うものである。
If the analysis
Here, the designation (or input) of the structured data to be analyzed and the designation (or input) of the
When the analysis
S1の解析処理ステップでは、前解析処理部13は、解析処理制御部12より前解析要求を入力すると、前述の解析範囲情報100をCPUにより解析して、解析対象の範囲が全データであることを判断する。さらに、前解析処理部13は、前述の解析範囲情報100をCPUにより解析して、解析を行う内容が、構造化データ中の”<”,”<”,”/>”,”=”の出現回数を求めることであることを判断する。前解析処理部13は、図6のフロー図に従い、構造化データ中の”<” ,”<”,”/>”,”=”の出現回数をCPUにより求める動作を開始する。図6では、はじめにタグ開始記号の個数を記憶する変数t_countに0を代入し初期化を行う。この処理は、前解析処理開始直前であるため、抽出された特徴データは0個である事を意味する。また、構造化データの先頭文字を現在文字とする。
次に、現在文字が終端文字であるかどうかを判別する。この処理は、構造化データ全ての前解析が終了したかどうかを判定するための処理であり、終端文字であった場合には前解析が全て終了した事を意味する。終端文字でない場合には、前解析を必要としているデータが残っている事を意味する。この時に終端文字であった場合には、前解析を終了し、その時点のt_countの値が前解析を行った構造化データに対する前解析の結果である解析結果情報となる。
逆に現在文字が終端文字でなかった場合には、次の処理へと移行する。次の処理では、終端文字ではない現在文字が”<”,”/>”,”=”のいずれかであるかどうかを判別する。この処理は現在文字が特徴データと一致するかを判別する処理であり、特徴データと一致した場合には変数t_countに1を加算し、特徴データが一つ発見された事を変数t_countに反映させ、次の処理へ移行する。逆に現在文字が特徴データと一致しなかった場合には、t_countには何も影響を及ぼさずに次の処理へ移行する。
次の処理は現在文字を現在の文字位置から一文字進める。この処理は、前解析を終了した文字からその隣接する前解析を終了していない文字に現在文字を移動させるための処理である。この処理を終了後、現在文字が終端文字かどうかの判別処理から繰り返す。
In the analysis processing step of S1, when the
Next, it is determined whether or not the current character is a terminal character. This process is a process for determining whether or not the pre-analysis of all structured data has been completed, and if it is a terminal character, it means that all the pre-analysis has been completed. If it is not a terminal character, it means that there is still data that needs pre-analysis. If it is a terminal character at this time, the pre-analysis is terminated, and the value of t_count at that time becomes analysis result information which is a result of the pre-analysis for the structured data subjected to the pre-analysis.
Conversely, if the current character is not a terminal character, the process proceeds to the next process. In the next process, it is determined whether or not the current character that is not the terminal character is one of “<”, “/>”, and “=”. This process is a process for determining whether or not the current character matches the feature data. If the current character matches the feature data, 1 is added to the variable t_count, and the fact that one feature data is found is reflected in the variable t_count. Then, the process proceeds to the next process. Conversely, if the current character does not match the feature data, the process proceeds to the next process without affecting t_count.
The next process advances the current character one character from the current character position. This process is a process for moving the current character from the character for which the pre-analysis has been completed to the adjacent character for which the pre-analysis has not been completed. After completing this process, the process repeats from the process of determining whether the current character is a terminal character.
以上の処理を前解析処理部13がCPUにより行う事によって、構造化データに幾つのタグ開始記号と、タグの終了記号となる”/>”と、属性への値代入を示す”=”とがあるかを解析できる。この出現回数をカウントした情報を用いる事によって、構造化データであるXMLコンテンツをDOMの内部データ形式で表現する際に、オブジェクトが幾つ必要となるかを推定する事が可能となる。
ただし、この方法では構造化データに含まれるタグ開始記号と、タグの終了記号と、属性への値代入との合計数を前解析しているため、異なるオブジェクトの合計数を解析結果情報とすることになる。オブジェクトの単一サイズは、オブジェクトの種類によりそれぞれ異なるので、異なるオブジェクトの合計数を解析結果情報とすると、記憶領域決定部15の動作の説明は後述するが、例えば、記憶領域決定部15が、異なるオブジェクトの単一サイズを合計して、その合計から求めた平均のサイズを使用して記憶領域量を求めると仮定する。属性への値代入の出現回数が合計数の8割を占め、属性への値代入のオブジェクトの単一サイズと、他のオブジェクトの単一サイズとの差が大きい場合は、平均のサイズが属性への値代入のオブジェクトの単一サイズよりも小さくなるので、平均サイズを使用して推定した記憶領域量は、実際に必要とする記憶領域量よりも少なくなることが予想される。
また、例えば構造化データに含まれるタグ開始記号のみの出現回数を解析するように解析範囲情報100に指定することができる。この方法では、タグの個数を推定する事は可能であるが、その他の要素の個数に関して推定する事ができない。このため、前述のように、属性への値代入のオブジェクトの単一サイズと、他のオブジェクトの単一サイズとの差が大きく、属性への値代入のオブジェクトの数がタグ開始記号のオブジェクトの数よりも多い場合には、タグ開始記号のオブジェクトの出現回数を解析結果情報として記憶領域量を求めると、実際に必要とする記憶領域量よりも少ない記憶領域量が求められてしまう。
そこで、タグの個数と、属性値の個数と、テキスト文字数とをそれぞれ別々に解析する前解析処理の処理フローの一例を説明する。なお、解析範囲情報100は、”<”,”<”,”/>”,”=”の出現回数を解析することを指定する情報に替えて、タグの個数と、属性値の個数と、テキスト文字数とのそれぞれの出現回数を別々に解析することを指定する情報となる。
When the
However, since this method pre-analyzes the total number of tag start symbols, tag end symbols, and value assignments to attributes included in structured data, the total number of different objects is used as analysis result information. It will be. Since the single size of the object differs depending on the type of the object, if the total number of different objects is the analysis result information, the operation of the storage
For example, the
Therefore, an example of a processing flow of pre-analysis processing for separately analyzing the number of tags, the number of attribute values, and the number of text characters will be described. Note that the
図7は、構造化データがXMLの場合における特徴データとしてタグの開始・終了記号、属性設定記号、テキスト文字数のそれぞれによる特徴抽出処理フロー図である。前解析処理部13が解析処理制御部12から前解析要求を受けた後の解析範囲情報100の内容を判断する処理は同様であるため省略する。前解析処理部13が、構造化データの全データについて、タグの開始・終了記号、属性設定記号、テキスト文字数のそれぞれの出現回数について解析を行い、解析結果情報を生成する処理について説明する。
(1)変数t_count、a_count、s_countに0を代入する事で初期化を行う。この3変数はそれぞれ、前解析を行う構造化データに存在するタグ数、属性数、テキスト文字数の推定値を保持するための変数である。また、同時に現在文字として構造化データの先頭文字を設定する。
(2)次に現在文字が終端文字であるか判別する。もし終端文字である場合には、前解析を行っている構造化データは全て前解析を終了した事を意味するため、前解析を終了し、その時点のt_count、a_count、s_countの値がそれぞれタグ数、属性数、テキスト文字数の出現値を表している。終端文字でない場合には次の処理へ移行する。
(3)次の処理では現在文字が”<”であるか判別する。もし”<”である場合には現在文字はタグの開始記号である事を意味するため、t_countに1加算する事で解析結果を変数に反映し、現在文字を1文字先に進める。”<”でない場合には、その文字はテキストである事を意味するのでs_countに1加算し、現在文字を1文字先に進め、(2)の処理へ移行する。”<”の場合には次の処理へ移行する。
(4)この処理では、タグの内部の前解析を行う処理であるため、現在文字が属性への値代入を意味する”=”であるか判別する。”=”の場合には、属性がある事を示すため、a_countに1加算し、現在文字を1文字先に進め(4)の処理を繰り返す。”=”でない場合には、次の処理へ進む。
(5)この処理では、タグが終了しているかどうかを判別する処理となる。そのため、現在文字が”/”であり、かつ現在文字の次の文字が”>”であるか判別し、タグの終了記号の判別を行う。この条件を満たさない場合には、タグ終了記号ではないため、現在文字を1文字先に進め、(4)の処理へ移行する。この条件を満たす場合には、タグが終了した事を意味するため、現在文字を2文字先に進め、(2)へ処理を移行する。
FIG. 7 is a feature extraction process flow diagram for each of the tag start / end symbol, attribute setting symbol, and number of text characters as feature data when the structured data is XML. Since the process of determining the content of the
(1) Initialization is performed by assigning 0 to the variables t_count, a_count, and s_count. These three variables are variables for holding estimated values of the number of tags, the number of attributes, and the number of text characters existing in the structured data to be pre-analyzed. At the same time, the first character of the structured data is set as the current character.
(2) Next, it is determined whether the current character is a terminal character. If it is a terminal character, all the structured data being pre-analyzed means that pre-analysis has been completed, so pre-analysis is terminated, and the values of t_count, a_count, and s_count at that time are the tags. This represents the appearance value of the number, the number of attributes, and the number of text characters. If it is not a terminal character, the process proceeds to the next process.
(3) In the next processing, it is determined whether or not the current character is “<”. If “<”, it means that the current character is the start symbol of the tag. Therefore, by adding 1 to t_count, the analysis result is reflected in the variable, and the current character is advanced by one character. If it is not “<”, it means that the character is text, so 1 is added to s_count, the current character is advanced one character, and the process proceeds to (2). If “<”, the process proceeds to the next process.
(4) Since this process is a process of pre-analyzing the inside of the tag, it is determined whether or not the current character is “=” meaning value substitution to the attribute. In the case of “=”, to indicate that there is an attribute, 1 is added to a_count, the current character is advanced by one character, and the process of (4) is repeated. If it is not “=”, the process proceeds to the next process.
(5) This process is a process for determining whether or not the tag has ended. Therefore, it is determined whether the current character is “/” and the next character after the current character is “>”, and the end symbol of the tag is determined. If this condition is not satisfied, it is not a tag end symbol, so the current character is advanced one character, and the process proceeds to (4). If this condition is satisfied, it means that the tag has been completed, so that the current character is advanced by two characters, and the process proceeds to (2).
以上の処理を行う事によって、構造化データに存在するタグ数、属性数、テキスト文字数をそれぞれ個別に推定する事が可能である。これらの情報を用いる事によって、構造化データであるXMLコンテンツをDOMの内部データ形式で表現する際に、Elementオブジェクト(タグに対応)、Attrオブジェクト(属性に対応)が幾つ必要となるか、そしてテキスト領域として何文字分確保する必要があるかを個別に推定する事が可能となる。
前述した例では、前解析処理部13は解析した”<”,”<”,”/>”,”=”の出現回数や、タグの開始・終了記号、属性設定記号、テキスト文字数のそれぞれの出現回数を、記憶部に解析結果情報として記憶し、前解析処理部13が解析処理の終了を解析処理制御部12に通知する。そして、解析処理制御部12は、解析処理の終了通知を受けて、記憶部から解析結果情報を取り出して、記憶領域決定部15に対して解析結果情報とともに、領域決定要求を出力する。
By performing the above processing, the number of tags, the number of attributes, and the number of text characters existing in the structured data can be estimated individually. By using these pieces of information, the number of Element objects (corresponding to tags) and Attr objects (corresponding to attributes) are required to express the XML content as structured data in the DOM internal data format. It is possible to individually estimate how many characters need to be secured as a text area.
In the above-described example, the
以上の方法では、属性数の推定に属性への値代入記号である”=”を利用しているため、属性へ値を代入していない場合には実際の属性数と異なる推定値が求まる事となる。しかし、本技術では各オブジェクトの個数を正確に求める事が目的ではなく、いかに簡単な方法で各オブジェクトの個数の推定値を求め、その推定値からより誤差の少ない記憶領域量の決定を行う事が目的であるため、これは本質的な問題ではない。もし、より正確な個数を前解析で求めたいのであれば、実際に構造化データの有する全ての要素に対する前解析を行う事によって求める事が可能である。事実、この前解析で全ての要素に対して正確な個数を求めてしまっても構わない。 In the above method, since the value substitution symbol “=” is used to estimate the number of attributes, an estimated value different from the actual number of attributes can be obtained if no value is assigned to the attribute. It becomes. However, the purpose of this technology is not to accurately determine the number of objects, but to determine an estimated value of the number of objects using a simple method and determine the amount of storage area with less error from the estimated value. This is not an essential problem. If it is desired to obtain a more accurate number by pre-analysis, it can be obtained by performing pre-analysis for all elements of the structured data. In fact, this pre-analysis may determine the exact number for all elements.
前解析で、前述の様な構造化データから特徴データを抽出した解析結果に加えて、構造化データ全体のデータサイズやファイルサイズ、ファイルの作成日時情報、更新情報、作成者情報、更新者情報等の構造化データの基本情報を解析結果情報に含めても構わない。また、前述の様な構造化データから特徴データを抽出した解析結果に替えて、構造化データ全体のデータサイズやファイルサイズ、ファイルの作成日時情報、更新情報、作成者情報、更新者情報等の構造化データの基本情報を解析結果情報としても構わない。この場合、入力部18により入力する解析範囲情報100に、基本情報を解析結果情報とする、或いは、基本情報を解析結果情報に含めるという指示を示す情報を含める。
In addition to the analysis results obtained by extracting the feature data from the structured data as described above in the previous analysis, the data size and file size of the entire structured data, file creation date / time information, update information, creator information, and updater information Basic information of structured data such as the above may be included in the analysis result information. Also, instead of the analysis results obtained by extracting the feature data from the structured data as described above, the data size and file size of the entire structured data, file creation date / time information, update information, creator information, updater information, etc. Basic information of structured data may be used as analysis result information. In this case, the
以下では、前解析処理部13が生成した解析結果情報と記憶領域推定情報格納部16に記憶した記憶領域推定情報とを元に、記憶領域決定部15が必要となる記憶領域のサイズ(記憶領域量)を決定するS2の記憶領域決定ステップの動作を、具体的な例を挙げて説明する。
記憶領域推定情報格納部16は、前解析を行った構造化データを内部データ形式で表現した場合に、各内部データオブジェクトを生成するのに必要となるメモリ量(記憶領域量)を決定するための情報を予め格納する。ここで言うメモリ量(記憶領域量)は、実際に必要となる物理メモリの領域サイズでもよいし、必要となる各内部データオブジェクト数でもよい。
図8は、記憶領域推定情報格納部16に格納されている情報の具体例の一つであり、(a)はパラメータが所定の範囲の値を示す例であり、(b)はパラメータが1つの値を示す例である。パラメータは解析結果情報と対応し、複数のパラメータのそれぞれに対応して記憶領域量を推定するための記憶領域推定情報を記憶する。パラメータは、図8(a)のように、所定の範囲の値を設定してもいいし、図8(b)のように1つの値を設定してもよい。前解析処理部13が異なる構造化データを解析した場合、解析する内容が同じであっても、構造化データの有するデータの内容により異なる解析結果が求まる。このため、図8のように、パラメータに所定の範囲の値を設定することと、1つの値を設定することとを可能にしている。また、同じ構造化データを解析しても、解析する内容が異なれば、異なる解析結果が求まる。このため、パラメータは異なる解析内容に対応して複数種類の設定を行うことを可能にする。例えば、図8は前述した”<”,”<”,”/>”,”=”の出現回数を解析する場合に使用するパラメータと記憶領域推定情報との組であり、後で説明する図10は、前述したタグの開始・終了記号、属性設定記号、テキスト文字数のそれぞれの出現回数について解析する場合に使用するパラメータと記憶領域推定情報との組である。記憶領域推定情報格納部16は、図8(a),(b)と図10(a),(b),(c)とをそれぞれ異なるテーブルとして記憶する。構造化データメモリ管理装置10を使用する利用者は、どのような構造化データを解析対象として、それぞれの構造化データをどのような解析内容で解析を行うのかを予め予想して、解析結果情報として求められると予想される値をパラメータとして記憶領域推定情報格納部16に予め設定するとともに、そのパラメータの値に対応させて、記憶領域量を求める計算式や、関数、或いは、記憶領域量そのものを予め設定する。また、計算式や、関数、或いは、記憶領域量そのものは、過去に解析を行って実際に必要となって確保した記憶領域量の統計を取り、統計の結果から計算式や、関数を求めてもいいし、或いは、実際に確保した記憶領域量そのものを設定してもよい。
In the following, based on the analysis result information generated by the
The storage area estimation
FIG. 8 is one of specific examples of information stored in the storage area estimation
図8(a)は、解析結果情報が第一列(パラメータ)のどの要素の範囲内に収まるかで、記憶領域量がいくつになるかを示した対応情報である。この例では、特徴データとして”<”,”<”,”/>”,”=”を指定し、それらの合計の出現回数を解析することを仮定している。記憶領域決定部15は、前解析処理部13が生成した解析結果情報が、記憶領域推定情報格納部16の有するテーブルの第一列のどの範囲に適合するかを検索し、適合したパラメータに対応する記憶領域推定情報を取得する。記憶領域推定情報の「S」は複数のオブジェクトの平均記憶領域サイズを示し、記憶領域推定情報は平均記憶領域サイズにパラメータに示した値の範囲のうち上限の値を掛ける計算式を、記憶領域量を推定する計算式とすることを示している。
FIG. 8A shows correspondence information indicating how much the storage area amount is based on which element of the first column (parameter) the analysis result information falls within. In this example, it is assumed that “<”, “<”, “/>”, “=” are designated as feature data, and the total number of appearances is analyzed. The storage
ここで、記憶領域推定情報格納部16へパラメータと記憶領域推定情報とを設定する手順を説明する。図9は、記憶領域推定情報格納部16へパラメータと記憶領域推定情報とを設定する手順のフローチャート図である。構造化データメモリ管理装置10の入力部18は、パラメータを入力する(S11)。ここで入力部18は前述したように、キーボード902や通信ボード915やFDD904等である。続いて、入力部18は、パラメータに対応する記憶領域推定情報を入力する(S12)。そして、入力部18は、入力したパラメータと記憶領域推定情報とをCPUにより記憶領域推定情報格納部16に記憶する(S13)。全パラメータについての入力が終了するまで、S11〜S13を繰り返す(S14)。S11〜S14は記憶領域推定情報記憶ステップS1である。
記憶するパラメータと記憶領域推定情報とは、過去に構造化データを解析した結果を分析して、パラメータとなる値とパラメータに対応する記憶領域推定情報とをあらかじめ決めておき、それをユーザが入力部18より入力する。あるいは、過去に解析した構造化データとその解析した結果からパラメータと記憶領域推定情報とを導き出して、記憶領域推定情報格納部16に書き込みを行う処理をコンピュータに実行させるプログラムをあらかじめユーザが作成して、プログラム群923に記憶させておき、そのプログラムを実行するようにしてもかまわない。また、パラメータと記憶領域推定情報とは、構造化データ毎にそれぞれ記憶領域推定情報格納部16に記憶してもかまわない。また、パラメータと記憶領域推定情報とは、前解析処理部13が行う解析内容毎にそれぞれ記憶領域推定情報格納部16に記憶してもかまわない。
Here, a procedure for setting parameters and storage area estimation information in the storage area estimation
The parameters to be stored and the storage area estimation information are obtained by analyzing the result of analyzing the structured data in the past, determining the parameter value and the storage area estimation information corresponding to the parameter in advance, and inputting them by the user Input from
図10は、(a)はタグ数、(b)は属性数、(c)は文字数それぞれについてパラメータと記憶領域推定情報とを記憶する記憶領域推定情報格納部16の例を示す図である。
前解析処理部13がタグの開始・終了記号、属性設定記号、テキスト文字数のそれぞれの出現回数を解析した場合は、3つの解析結果情報を生成する。記憶領域決定部15は、図10(a)の対応表より、タグの開始・終了記号の出現回数の解析結果情報に適合する記憶領域推定情報を取得する。次に、図10(b)の対応表より属性設定記号の出現回数の解析結果情報に適合する記憶領域推定情報を取得する。次に、図10(c)の対応表より、テキスト文字数の出現回数の解析結果情報に適合する記憶領域推定情報を取得する。
また、前解析処理部13が1つの解析内容について、例えば、タグの開始・終了記号の出現回数を解析した場合は、1つの解析結果情報を生成する。記憶領域決定部15は、図10(a)の対応表より、タグの開始・終了記号の出現回数の解析結果情報に適合する記憶領域推定情報を取得する。そして、属性設定記号の記憶領域推定情報と、テキスト文字数の記憶領域推定情報とは、タグの開始・終了記号の出現回数から求める。これは、図10(b)の対応表と図10(c)の対応表の前解析結果が、タグの開始・終了記号の出現回数であり、タグの開始・終了記号の出現回数から属性設定記号の記憶領域推定情報と、テキスト文字数の記憶領域推定情報とを推測する場合に適用できる。記憶領域決定部15は、図10(a)の対応表からタグの開始・終了記号の出現回数の解析結果情報に適合する記憶領域推定情報を取得したあと、図10(b)の対応表よりタグの開始・終了記号の出現回数に適合する属性設定記号の記憶領域推定情報を取得する。さらに、図10(c)の対応表より、タグの開始・終了記号の出現回数に適合するテキスト文字数の記憶領域推定情報を取得する。これは、タグの開始・終了記号の出現回数と、属性設定記号やテキスト文字数との出現回数の関連性を分析して、関連性がわかっている場合に有効である。このように、タグの開始・終了記号の出現回数に対応させて属性やテキストの記憶領域推定情報を記憶領域推定情報格納部16に記憶させておくと、実際には解析しなかった属性やテキストの記憶領域推定情報を取得できる。
例えば、記憶領域決定部15は、この構造化データを解析し内部データ形式で表現した場合、必要となるオブジェクト数はそれぞれタグの開始・終了記号(Elementオブジェクト)が24個だった場合、Attrオブジェクトは図10(b)の属性数の対応情報より32個、テキスト文字数は図10(c)の文字数の対応情報より、124文字と決定する。なお、図10の「x」、「y」、「z」はそれぞれのオブジェクトの単一の記憶領域サイズを示している。このように記憶領域推定情報格納部16は、一つの解析結果情報で全ての内部データオブジェクトの個数との対応付けを行ってもよいし、内部データオブジェクト毎に一つの対応情報を作成しても構わない。オブジェクト毎に対応情報を作成する事で、前解析処理部13の解析内容をオブジェクト単位で指定する事が可能となる。
FIG. 10 is a diagram illustrating an example of the storage area estimation
When the
For example, when the
For example, when the structured data is analyzed and expressed in the internal data format, the storage
また、前解析の範囲指定は、範囲で表現せずに離散値の集合でも、単独の値で表現しても構わない。単独で表現した場合の例は、図8である。離散地で表現した場合の例は図10と図11である。図10の前解析結果の間隔は10間隔であったが、図11は、前解析結果の間隔が属性の場合は10間隔であるが、文字数の場合は4間隔としている。このように、間隔を変えることで、実際にそのオブジェクトで必要とする記憶領域量に近い記憶領域量の推定情報を設定できる。なお、図11では、「属性数」、「文字数」に対する記憶領域推定情報は、記憶領域量ではなくオブジェクトの数を記憶領域推定情報としているため、「*y」、「*z」の表示がない。
また図10、図11では3つのオブジェクトを例に説明したが、実際にはこれ以上に多くのオブジェクトが必要となる場合がある。この場合は、それらのオブジェクトと記憶領域推定情報との対応情報を作成することになる。また、この例では前解析の結果と各オブジェクト数のみの対応情報となっているが、前解析の結果と、ある特定のオブジェクト数の組からその他のオブジェクトの必要数の対応情報の様に複数の検索キーとなる情報から一つの結果を導き出す対応情報でもよい。
In addition, the range specification for the pre-analysis may be expressed as a set of discrete values or as a single value without being expressed as a range. FIG. 8 shows an example when expressed alone. Examples when expressed in discrete places are shown in FIGS. The interval of the pre-analysis result in FIG. 10 is 10 intervals, but in FIG. 11, when the interval of the pre-analysis result is an attribute, it is 10 intervals, but in the case of the number of characters, it is 4 intervals. In this way, by changing the interval, it is possible to set the estimation information of the storage area amount close to the storage area amount actually required for the object. In FIG. 11, since the storage area estimation information for “number of attributes” and “number of characters” uses the number of objects instead of the storage area amount as storage area estimation information, “* y” and “* z” are displayed. Absent.
10 and 11 have been described using three objects as an example, but in reality, more objects may be required. In this case, correspondence information between the objects and the storage area estimation information is created. In addition, in this example, the correspondence information includes only the result of the pre-analysis and the number of each object. Corresponding information for deriving one result from information serving as a search key may be used.
記憶領域決定部15は、取得した記憶領域推定情報を記憶部に記憶する。この時、記憶領域推定情報が図8や図9、図10のように記憶領域量を計算する式である場合には、これを計算した結果を記憶部に記憶する。オブジェクトごとの単一のサイズを示す変数の値は、記憶領域推定情報格納部16に変数用のテーブルとして記憶されているものとする。記憶領域決定部15は、この変数用のテーブルから記憶領域量の計算に使用する変数を取得し、CPUにより記憶領域量を計算して記憶部に記憶する。そして、解析処理制御部12に処理の終了を通知する。以上の処理が、図5のS2の記憶領域決定ステップである。
The storage
S3の記憶領域管理ステップにおいて、解析処理制御部12は、記憶領域決定部15が記憶した記憶領域量をCPUにより記憶部より取り出して、記憶領域管理部17に出力する。記憶領域管理部17は、記憶領域量を入力して、記憶領域量に相当するデータ記憶領域を、記憶部に確保する。ここで記憶部とは、前述したように、例えばROM913、FDD904、CDD905、磁気ディスク装置920の不揮発性の記憶媒体である。確保されたデータ記憶領域が他からアクセスされないように、記憶領域管理部17は、CPUにより排他制御をかける。記憶領域管理部17は、領域の確保が行えたら、そのことを解析処理制御部12にCPUにより通知する。
In the storage area management step of
解析処理制御部12は、領域の確保が行えたことを記憶領域管理部17より通知されると、S4の実解析処理ステップにおいて、構造化データ解析部14に対して、構造化データの解析要求と、解析する構造化データとをCPUにより出力する。「構造化データを出力する」とは、構造化データそのものを出力するのではなく、例えば構造化データが記憶されている記憶部のアドレスを渡すことである。構造化データ解析部14は、解析要求と構造化データを入力すると、構造化データを解析する処理を開始する。このとき、記憶領域管理部17が確保したデータ記憶領域を使用する。
構造化データ解析部14の動作は従来の構造化データ処理部と同様である。
When the storage
The operation of the structured
この実施の形態では、以下の手段を備えた構造化データメモリ管理方式の一例を説明した。
一つまたは複数の構造化データを一時的または永続的に格納・管理する構造化データ格納手段(構造化データ格納部11)
構造化データを前解析し、内部データ形式に変換するために必要な記憶領域量を推定するための前解析パラメータを導出する前解析処理手段(前解析処理部13)
記憶領域の推定基準となる記憶領域推定情報を格納する記憶領域推定情報格納手段(記憶領域推定情報格納部16)
前解析パラメータと記憶領域推定情報を元に、前解析パラメータを導出するのに利用した構造化データを内部データ形式に変換するために必要な記憶領域量を推定する記憶領域決定手段(記憶領域決定部15)
記憶領域決定手段が推定した記憶領域量に基づき、記憶領域を確保・管理する記憶領域管理手段(記憶領域管理部17)。
In this embodiment, an example of a structured data memory management system including the following means has been described.
Structured data storage means for storing or managing one or a plurality of structured data temporarily or permanently (structured data storage unit 11)
Pre-analysis processing means (pre-analysis processing unit 13) for pre-analyzing structured data and deriving a pre-analysis parameter for estimating a storage area amount necessary for conversion into an internal data format
Storage area estimation information storage means (storage area estimation information storage unit 16) for storing storage area estimation information which is a storage area estimation criterion
Based on the pre-analysis parameter and the storage area estimation information, a storage area determination means (storage area determination) that estimates the storage area amount necessary to convert the structured data used to derive the pre-analysis parameter into the internal data format Part 15)
Storage area management means (storage area management unit 17) for securing and managing the storage area based on the storage area amount estimated by the storage area determination means.
また、前解析処理手段(前解析処理部13)で、構造化データの全てを前解析することを説明した。 In addition, it has been described that the preanalysis processing means (preanalysis processing unit 13) preanalyzes all the structured data.
また、前解析処理手段(前解析処理部13)で、構造化データから構造を特徴付ける構造化データ特徴データを検出する事で前解析を行うことを説明した。例えば、XMLで記述された構造化データの場合、”<”(タグの開始記号)、”=”(属性値の代入記号)、<−−(コメント開始記号)等を、構造を特徴付けるデータと言い、その個数などが前解析結果となることを説明した。 Further, it has been described that the pre-analysis processing means (pre-analysis processing unit 13) performs the pre-analysis by detecting the structured data feature data that characterizes the structure from the structured data. For example, in the case of structured data described in XML, “<” (tag start symbol), “=” (attribute value substitution symbol), <-(comment start symbol), and the like are data that characterizes the structure. It was explained that the number of the results is the result of the previous analysis.
また、記憶領域推定情報格納部は、前解析処理手段(前解析処理部13)から得られる前解析結果の値または、前解析結果の値の集合と、記憶領域推定量が対応付けられた対応表であることを説明した。例えば、記憶領域推定情報が離散的な取り扱いがなされている事が特徴。精度が劣る反面、推定量を求める処理が高速であることを説明した。 In addition, the storage area estimation information storage unit is a correspondence in which a pre-analysis result value or a set of pre-analysis result values obtained from the pre-analysis processing unit (pre-analysis processing unit 13) is associated with a storage area estimation amount. It explained that it was a table. For example, the storage area estimation information is handled in a discrete manner. While the accuracy is inferior, it has been explained that the processing for obtaining the estimated amount is fast.
また、前解析処理手段(前解析処理部13)、記憶領域推定情報格納手段(記憶領域推定情報格納部16)、構造化データ格納手段(構造化データ格納部11)、記憶領域決定手段(記憶領域決定部15)を有する装置が、解析手段(構造化データ解析部)、記憶領域管理手段(記憶領域管理部17)を有する装置と同一あることを説明した。例えば、メモリ量(記憶領域量)推定を行う装置が、メモリを実際に確保する装置と同一であることを説明した。例えば、構造化データメモリ管理装置10を、Networkシステムに例えると、XMLコンテンツを取得するクライアントにあたる。
Further, the pre-analysis processing means (pre-analysis processing section 13), the storage area estimation information storage means (storage area estimation information storage section 16), the structured data storage means (structured data storage section 11), the storage area determination means (memory) It has been described that the apparatus having the area determination unit 15) is the same as the apparatus having the analysis unit (structured data analysis unit) and the storage area management unit (storage area management unit 17). For example, it has been described that the device that estimates the memory amount (storage area amount) is the same as the device that actually secures the memory. For example, when the structured data
この実施の形態の記憶領域管理方式を実行する記憶領域管理装置の一例である構造化データメモリ管理装置10は、構造化データの特徴データ、例えばオブジェクトの出現回数を解析結果情報とし、記憶領域推定情報はオブジェクトの出現回数から取得するようにした。また、記憶領域推定情報は、オブジェクトの単一サイズにそのオブジェクトの出現回数を掛けたり、複数のオブジェクトの平均サイズを複数のオブジェクトの出現回数を合計した数に掛けた。また、ある1つのオブジェクトの出現回数から他のオブジェクトの出現回数を予測して記憶領域推定情報を取得するようにした。このため、構造化データの内部構造が複雑であっても、記憶領域推定情報を取得する処理時間を高速にできる効果がある。また、構造化データの特徴データ、例えばオブジェクトの出現回数から記憶領域量を推定するので、推定した記憶領域量と実際に必要となる記憶領域量との差を小さくできる効果がある。また、オブジェクト出現回数をパラメータとして、そのパラメータに記憶領域推定情報を対応させた。このため、記憶領域推定情報を取得する処理は複雑でないため、高速に行える効果がある。
The structured data
また、この実施の形態では、記憶領域決定部が決定する構造化データを内部データ形式に変換したものを記憶するでーた記憶領域の記憶領域量と、実際に使用する記憶領域量との差が少なくなるので、コンピュータの有限なメモリ資源を有効に活用したいという課題に対して、コンピュータのメモリの使用効率が向上するという効果が得られる。すなわち、この実施の形態で説明した記憶領域管理方式は、前述したコンピュータのハードウェア資源のうち特にメモリ等に確保する記憶領域量を、実際に使用する記憶領域量に近い量とする処理をする記憶領域決定部を用いている点が特徴である。 Further, in this embodiment, the difference between the storage area amount that can be stored by converting the structured data determined by the storage area determination unit into the internal data format and the storage area amount that is actually used. As a result, the memory usage efficiency of the computer is improved in response to the problem of effectively utilizing the finite memory resources of the computer. That is, the storage area management method described in this embodiment performs processing for setting the storage area amount secured in the memory or the like among the computer hardware resources described above to an amount close to the storage area amount actually used. A feature is that a storage area determination unit is used.
実施の形態2.
この実施の形態では、上記実施の形態1とは別の記憶領域推定情報を記憶領域推定情報格納部16が記憶する一例を説明する。
図12は、過去に行った前解析処理部13の解析結果情報に基づいて記憶領域決定部15が推定した記憶領域量と、実際に構造化データ解析部14が使用した記憶領域量とを利用して、メモリ使用推定量関数を求めるグラフを示す図である。
ここで「推定関数」とは、過去に行った前解析結果の解析結果情報に基づいて記憶領域決定部15が推定した記憶領域量と、実際に構造化データ解析部14が使用したメモリ量(記憶領域量)とを利用して、メモリ使用量推定関数を数学的に求めたものである。図12のグラフはその一例である。このグラフは、インターネット上に存在するHTMLコンテンツを前解析した解析結果情報(図12ではHTMLコンテンツに含まれるタグを解析して、そのタグの出現回数を解析結果情報とする)をx軸とし、実際に使用する事になったメモリサイズ(記憶領域量)をy軸としたグラフである。グラフ上のひし形の小さい点は、実際の解析結果情報と使用メモリサイズ(使用記憶領域量)のデータであり、プロット情報の一例である。またグラフ上に表示されている線分が、ひし形の点を元に推定関数として求めた近似関数(「推定関数」のことである)である。この近似関数を利用して、記憶領域量を推定する。図12の例では、グラフ右上に示した「y=0.09x+1.2345」が推定関数である。xが解析結果情報であるので、記憶領域決定部15は、前解析処理部13が生成した解析結果情報をこの推定関数のxに当てはめて、記憶領域量(y)を求める。このように、推定関数は、得られたプロット情報からの線形近似や対数近似など、数学的な近似関数が具体的な推定方法となる。また、Rの2乗(精度情報)は、推定関数で求めた値yがどのぐらい正しいかを示すものであり、1に近いほど精度が高いことを示している。このため、推定関数と精度情報とを記憶領域推定情報として記憶しておくと、推定関数が複数あるとき、制度情報の高い順に推定関数を採用することができる。
また、推定関数を記憶領域推定情報とする場合、パラメータはオブジェクトの種類や、コンテンツの種類(例えば、HTMLコンテンツであるか、XMLコンテンツであるかなどである)となる。この場合、前解析処理部13は、解析結果情報に解析したオブジェクトの種類を含める。また、コンテンツの種類を解析して、解析できたコンテンツの種類を含める。
In this embodiment, an example will be described in which the storage area estimation
FIG. 12 uses the storage area amount estimated by the storage
Here, the “estimation function” means the storage area amount estimated by the storage
Further, when the estimation function is storage area estimation information, the parameters are the type of object and the type of content (for example, whether it is HTML content or XML content). In this case, the
実施の形態1で説明した図10は、解析結果情報と各オブジェクト数の離散的な対応情報を構成していた。しかし、図13のように解析結果情報を入力とし、各オブジェクトの出現回数を出力とする、連続近似関数を記憶領域推定情報としてもかまわない。図13(a)はタグの出現回数が解析結果情報である場合の連続近似関数f(x)を示し、(b)は属性の出現回数が解析結果情報である場合の連続近似関数f(y)を示し、(c)は文字の出現回数が解析結果情報である場合の連続近似関数f(z)を示す。単純に近似関数を記憶領域推定情報として取り扱ってもよく、その近似関数を求めるための近似パラメータを記憶領域推定情報として取り扱ってもよい。この場合の記憶領域推定情報に対応するパラメータはタグや属性や文字数等のオブジェクトの種類であり、前解析処理部13は、解析結果情報に解析したオブジェクトの種類を含める。一例を図14、図15に示す。図14は、図13の連続近似関数に対応する記憶領域推定情報格納部16の一例を示し、図15は、解析結果情報の値の範囲によって対応する連続近似関数が異なるとともに、オブジェクト別に解析結果情報と記憶領域推定情報との対応表を設けた例を示す図である。図14の「混合」は複数のオブジェクトを区別することなくまとめて出現回数を解析した場合を示している。図15の「x1」、「x2」・・・「xn」は、解析結果情報の値が適合する範囲によって、記憶領域量を計算する関数が異なることを示している。また、「y1」、「y2」・・・「yn」及び「z1」、「z2」・・・「zn」ついても同様である。
記憶領域決定部15は、各オブジェクトに対応する近似関数に解析結果情報を入力する事で、内部データ表現に変換した場合に必要となる特定のオブジェクトの近似数を求めることが出来る。そして、求まったオブジェクトの近似数にそのオブジェクトの単一のサイズを掛けて、記憶領域量を求める。図10の記憶領域推定情報から求められる記憶領域量と、図12の記憶領域推定情報から求められる記憶領域量との差異は、図10の場合にはある特定の範囲の前解析結果情報では、求められるオブジェクト数が同一となり、記憶領域量が同一となるが、近似関数の場合には図10よりも細かいオブジェクト数の近似が可能となるので、このようなオブジェクト数から計算する記憶領域量は実際に必要とする記憶領域量に近い量となる。
FIG. 10 described in the first embodiment configures discrete correspondence information between analysis result information and the number of objects. However, as shown in FIG. 13, a continuous approximation function that receives the analysis result information and outputs the number of appearances of each object may be used as the storage area estimation information. FIG. 13A shows the continuous approximation function f (x) when the number of appearances of the tag is analysis result information, and FIG. 13B shows the continuous approximation function f (y) when the number of appearances of the attribute is analysis result information. (C) shows a continuous approximation function f (z) when the number of appearances of characters is analysis result information. An approximate function may simply be handled as storage area estimation information, or an approximate parameter for obtaining the approximate function may be handled as storage area estimation information. The parameters corresponding to the storage area estimation information in this case are the object types such as tags, attributes, and the number of characters, and the
The storage
この実施の形態では、記憶領域推定情報が、前解析結果および、実際に必要となったメモリ量(記憶領域量)を軸とした平面にプロットされたN個の事前に前解析結果および実際に必要となったメモリ量(記憶領域量)の結果を元に推定された推定関数である事を特徴とする記憶領域管理方式を実行する構造化データメモリ管理装置10、および、記憶領域管理装置の一例である構造化データメモリ管理装置10について説明した。
例えば、記憶領域推定情報が連続的な取り扱いがなされている事を説明した。
In this embodiment, the storage area estimation information includes the pre-analysis results and the N pre-analysis results plotted in a plane with the memory amount (storage area amount) actually required as an axis. A structured data
For example, it has been explained that the storage area estimation information is continuously handled.
この実施の形態の構造化データメモリ管理装置10は、記憶領域推定情報が連続的な取り扱いがなされている。このため、記憶領域決定部15が決定する記憶領域量の精度は、離散的な取り扱いよりも高くなるという効果がある。
In the structured data
実施の形態3.
この実施の形態では、構造化データに関する基本情報を解析結果とする場合の、記憶領域量の決定について一例を説明する。
図16は、記憶領域推定情報格納部16に格納されている付加情報の具体例の一つを示す図である。
図17は、図16の付加情報を利用した記憶領域決定ステップ(S2)のフローチャート図である。
図16に示す情報は、過去に解析を行った事のある構造化データに関する付加情報を記録する記憶領域推定情報格納部16が記憶するテーブルの一例である。記憶領域推定情報格納部16は、パラメータに対応するものとして、過去解析を行った構造化データの識別情報としてのURIと、その構造化データを過去に解析した時の更新日時情報とを記憶する。そして、その構造化データを過去に解析した時に必要となった内部データオブジェクトの実際の個数をオブジェクト別に要素数16x、属性数16y、文字数16zとして保持している。なお、記憶領域推定情報格納部16は、図16に示した情報の他に、実施の形態1〜2で説明した例えば図10に示した情報を図16とは別のテーブルとして記憶しているものとする。
以下で、この情報を利用した記憶領域決定部15による記憶領域決定ステップを説明する。
解析処理制御部12は記憶領域決定部15に対して処理要求を出力する際に、処理要求に少なくとも、構造化データ、構造化データの解析結果情報を含める。また、その解析結果情報の一つとして、解析を行った構造化データの更新日時情報を含める。URIは、構造化データ自身が自身の識別情報として有している。また、更新日時情報は、構造化データ格納部11に構造化データに対する付加情報として記憶されている。更新日時情報は前解析処理部13或いは、解析処理制御部12が、構造化データ格納部11より取得する。また、構造化データ自身に自身の識別情報としてのURIが含まれていない場合には、構造化データ格納部11に付加情報の1つとして記憶されているので、前解析処理部13或いは、解析処理制御部12が、構造化データ格納部11より取得する。そして解析処理制御部12が、解析結果情報の一つに、構造化データに対するURIを含める。
In this embodiment, an example of the determination of the storage area amount in the case where basic information about structured data is used as an analysis result will be described.
FIG. 16 is a diagram showing one specific example of the additional information stored in the storage area estimation
FIG. 17 is a flowchart of the storage area determination step (S2) using the additional information of FIG.
The information shown in FIG. 16 is an example of a table stored in the storage area estimation
Hereinafter, the storage area determination step by the storage
When the analysis
以下は、図17のフローチャート図に従い説明する。
解析処理制御部12から処理要求を受けた記憶領域決定部15は、処理要求に含まれている構造化データの識別情報としてURIを取り出す。記憶領域決定部15は、このURIと、記憶領域推定情報格納部16が記憶する図16に示したテーブルから構造化データのURIの値を比較し、一致する値が存在するか検索する。検索の結果、一致するURIが存在しない場合には、記憶領域決定部15は、図10に示したような解析結果情報とオブジェクト毎の記憶領域量の対応表や、図15のような記憶領域推定情報に近似関数を用いた、実施の形態1や実施の形態2で説明した決定方法を実施して、記憶領域量を決定する。
逆に一致するURIが存在した場合には、記憶領域決定部15は、次に処理要求に含まれる更新日時情報と図16のテーブルの更新日時の値を比較する。比較の結果、双方の更新日時が一致するかチェックする。チェックの結果、一致した場合、前解析処理部13が前解析を行った構造化データは、過去に解析した結果と同一構造を有する構造化データであると判明した。このため、記憶領域決定部15は、過去のオブジェクト数をテーブルから取得し、取得したオブジェクト数を記憶領域量として利用する。一致しなかった場合には、URIが存在しない場合と同様に、記憶領域決定部15は、図10に示したような解析結果情報とオブジェクト毎の記憶領域量の対応表や、図15のような記憶領域推定情報に近似関数を用いた、実施の形態1や実施の形態2で説明した決定方法を実施する。
The following will be described with reference to the flowchart of FIG.
The storage
Conversely, if there is a matching URI, the storage
図16では、一つの構造化データに対して、一つの更新日時、オブジェクト数の組が対応付けられているが、一つの構造化データに対して更新日時、オブジェクト数の組を複数対応付ける事も可能である。その場合には、同一URIがあった場合には、そのURIに対応付けられている全ての組の更新日時と解析結果情報に含まれた更新日時を比較し、同一日時の情報がないか検索する事になる。 In FIG. 16, one set of update date / time and the number of objects is associated with one structured data. However, a plurality of sets of update date / time and the number of objects may be associated with one structured data. Is possible. In that case, if there is the same URI, the update date and time of all the sets associated with the URI are compared with the update date and time included in the analysis result information, and search for information on the same date and time. Will do.
また、図16では、要素数、属性数、文字数とに対してそれぞれ別々にオブジェクト数を設定した。このため、記憶領域決定部15は、オブジェクト毎の単一サイズを、それぞれのオブジェクト数に掛けて、オブジェクト毎の記憶領域量を決定する。これは図10や図15の記憶領域推定情報格納部16を使用して記憶領域量を決定した場合も同様である。このように、オブジェクト毎に記憶領域量を決定すると、解析処理制御部12は、記憶領域決定部15が決定したオブジェクト毎の記憶領域量を、記憶領域管理部17に出力する。オブジェクト毎の記憶領域量を入力した記憶領域管理部17は、データ記憶領域にオブジェクト毎の記憶領域量の記憶領域を確保する。
In FIG. 16, the number of objects is set separately for the number of elements, the number of attributes, and the number of characters. Therefore, the storage
以上までで説明した実施の形態1〜3では、記憶領域量決定の具体的な例を挙げてきたが、以上の様な処理で求まる、構造化データの解析前に必要となる各内部データオブジェクト数の推定値や、全体で必要となるメモリサイズ(記憶領域量)の推定値を利用して、記憶領域管理部17がデータ記憶領域の確保を行い、その確保した領域を構造化データ解析部14が使用できるように、確保した領域を参照するための情報を、記憶領域管理部17が解析処理制御部12に返す。記憶領域管理部17がデータ記憶領域の確保を行う場合には、記憶領域決定部15が記憶領域推定情報に従い記憶領域量を求めることを説明した。しかし、内部データオブジェクト数の推定値を利用する場合には、記憶領域管理部17がその推定値に従って各オブジェクトの配列を作成してもよいし、記憶領域管理部17が全オブジェクトで必要となるメモリ量(記憶領域量)を算出して、データ記憶領域を一括確保してもよい。
In the first to third embodiments described above, specific examples of determining the storage area amount have been given. However, each internal data object required before the analysis of the structured data obtained by the above processing The storage
この実施の形態では、前解析処理部13で、前解析を行う構造化データに関する基本情報を前解析の結果の全てまたは一部とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10について説明した。
また、構造化データの基本情報は、例えばある構造化データの出所情報(URL等)、構造化データの作成日時情報、更新日時情報として説明した。
In this embodiment, the
The basic information of structured data has been described as, for example, source information (URL or the like) of certain structured data, creation date / time information of structured data, and update date / time information.
この実施の形態の構造化データメモリ管理装置10は、過去に解析を行った構造化データと、今回解析する構造化データの構造が一致する場合、過去に解析した際の記憶領域量を今回の記憶領域量として使用するため、実際に使用する記憶領域量を確保できるので、記憶部の使用効率を向上できる効果がある。
When the structured data analyzed in the past and the structure of the structured data analyzed this time match, the structured data
実施の形態4.
実施の形態1〜3では、構造化データの全データを解析していた。この実施の形態では、構造化データのデータのうち、一部のデータを解析する例を説明する。
前解析処理部13は、構造化データの全てを解析するのではなく、先頭からある特定の条件が満たされる箇所までを前解析の対象データとして前解析を行うようにしてもよい。
例えば前解析を行う前に、前解析を行う構造化データのファイルサイズを取得し、そのファイルサイズの特定の割合までを解析処理対象とする方法がある。この方法を利用すると、例えばXMLコンテンツなどであれば、構造化データの最後のあたりでは終了タグの記述が多くなり、実質その部分はDOMオブジェクトとして生成されないため、解析対象からはずした方が、メモリ使用量の推定は精度が高くなる可能性がある。このため、その最後の領域を削除する事が可能となる。このように、先頭からある特定の条件が満たされる箇所までを前解析の対象データとする場合は、解析対象とするデータサイズを、解析範囲情報100として指定し、入力部18よりデータサイズを指定した解析範囲情報100を入力する。
In the first to third embodiments, all the structured data is analyzed. In this embodiment, an example in which a part of the structured data is analyzed will be described.
The
For example, before performing the pre-analysis, there is a method in which the file size of the structured data to be pre-analyzed is acquired, and up to a specific ratio of the file size is the analysis processing target. If this method is used, for example, in the case of XML content, the description of the end tag increases around the end of the structured data, and the portion is not generated as a DOM object. The estimation of usage can be highly accurate. Therefore, it is possible to delete the last area. As described above, when data up to a point where a specific condition is satisfied from the beginning is to be analyzed, the data size to be analyzed is specified as the
また、コンテンツサイズを利用した方法以外には、構造化データの構造自身を利用した方法が考えられる。
この方法の場合には、例えばHTMLコンテンツであれば、<HEAD>の終了タグ</HEAD>もしくは<BODY>タグが出現する前までを前解析の対象であるとして、前解析の終了箇所を指定する事により、それ以降にメモリサイズの推定にあまり貢献できない記述が並ぶ場合には、その箇所以降を前解析の対象からはずす事が可能となる効果がある。このように、前解析の終了箇所を指定する場合には、その終了する箇所を判定するための情報を解析範囲情報100として指定し、入力部18より終了する箇所を判定するための情報を指定した解析範囲情報100を入力する。
Besides the method using the content size, a method using the structure of the structured data itself can be considered.
In the case of this method, for example, in the case of HTML contents, the end point of the pre-analysis is designated as the target of the pre-analysis until the end tag <HEAD> or <BODY> of <HEAD> appears. By doing this, if there are descriptions that do not contribute much to the estimation of the memory size after that, it is possible to remove the subsequent portions from the target of the previous analysis. As described above, when specifying the end point of the pre-analysis, information for determining the end point is specified as the
また、構造化データの途中の一部分を解析の対象として指定するようにしてもよい。
例えば、構造化データのファイルサイズを取得し、そのファイルサイズの特定の割合までを前解析の対象からはずし、それ以降からのデータから前解析を開始する方法がある。この場合には、指定したファイルサイズに相当する構造化データの部分は、解析対象としないことを、解析範囲情報100して指定して、入力部18より入力する。
A part of the structured data may be designated as an analysis target.
For example, there is a method in which the file size of structured data is acquired, a specific ratio of the file size is excluded from the target of the pre-analysis, and the pre-analysis is started from the data after that. In this case, the structured data portion corresponding to the designated file size is designated as the
その他に、構造化データの構造自身を利用した方法も考えられる。
この場合には、例えばHTMLコンテンツであれば<BODY>タグ以降を前解析の対象とすることによって、それ以前のコンテンツ内容を前解析からはずすと言った方法が考えられる。この場合、<BODY>タグと、<BODY>タグ以降を前解析の対象とすることを解析範囲情報100に指定して、入力部18より入力する。
このように先頭から数えて一部分を前解析の対象からはずす事によって、先頭にある不要なヘッダ情報などを前解析の対象からはずす事が可能となり、より精度よく記憶領域量の推定が可能となる効果がある。
In addition, a method using the structure of structured data itself can be considered.
In this case, for example, in the case of HTML content, a method may be considered in which the content content before that is removed from the pre-analysis by setting the portion after the <BODY> tag as the target of the pre-analysis. In this case, the <BODY> tag and the <BODY> tag and the subsequent items are designated in the
By removing a part from the target of the previous analysis in this way, unnecessary header information at the head can be removed from the target of the previous analysis, and the storage area amount can be estimated more accurately. effective.
また、HTMLの場合を例に挙げると、例えば<FORM>タグ以下の全要素はそれ以外のタグの場合と比較して、メモリ使用量が統計的に多い事が分かっているとする。その場合には、前解析を開始し、<FORM>タグを検出するまでは通常の前解析を行い、<FORM>タグ以降の要素を前解析する場合には、通常の前解析よりも、メモリ量(記憶領域量)が多くなるような結果を出力する前解析処理に切り替え、前解析を継続する。そして<FORM>タグ以下の前解析が終了(</FORM>タグを検出)した後は、通常の前解析に戻る。最終的に全ての前解析が完了した後で、二つの前解析の結果を統合する事で、一つの前解析結果とする。図18は、前解析処理部13が第1と第2の前解析処理部を備えて、記憶領域管理方式を実行する構造化データメモリ管理装置の機能ブロック図である。前解析処理部13は、図18のように、第1の解析処理部131と第2の解析処理部132とを備えて、前述した通常の前解析は、第1の解析処理部131により実行し、前述のメモリ量(記憶領域量)が多くなるような結果を出力する前解析処理は、第2の解析処理部132により実行する。
Further, taking the case of HTML as an example, it is assumed that, for example, it is known that all elements below the <FORM> tag have a statistically large memory usage compared to other tags. In that case, the pre-analysis is started, the normal pre-analysis is performed until the <FORM> tag is detected, and when the elements after the <FORM> tag are pre-analyzed, the memory is more effective than the normal pre-analysis. Switch to pre-analysis processing that outputs a result that increases the amount (storage area amount), and continue the pre-analysis. After the pre-analysis below the <FORM> tag is completed (the </ FORM> tag is detected), the normal pre-analysis is returned. After all the previous analyzes are finally completed, the results of the two previous analyzes are integrated into a single previous analysis result. FIG. 18 is a functional block diagram of a structured data memory management apparatus in which the
前述のように、前解析処理部13は、構造化データ全てを同一の前解析アルゴリズム(第1の解析処理部131)で前解析するのではなく、一部を別の前解析アルゴリズム(第2の解析処理部132)で処理するとしてもよい。
例えば、HTMLコンテンツを前解析する場合、<FORM>タグの全要素は、通常の前解析アルゴリズムを適用するよりも、他の前解析アルゴリズムを適用した方が精度が高くなることが分かっている場合、前解析で<FORM>タグを発見した場合には、その終了タグが発見されるまでは別の前解析アルゴリズムを適用し、終了タグ以降はまた通常の前解析アルゴリズムを適用して、全てを前解析してもよい。このようにアルゴリズムを変更する場合には、構造化データの特別な構造に関しては、他の構造と比較して明らかに異なるメモリ消費が分かっている場合には、有効な前解析方法となる。
As described above, the
For example, when pre-analyzing HTML content, it is known that all elements of the <FORM> tag are more accurate by applying another pre-analysis algorithm than by applying a normal pre-analysis algorithm When the <FORM> tag is found in the pre-analysis, another pre-analysis algorithm is applied until the end tag is found, and after the end tag, the normal pre-analysis algorithm is applied again, Pre-analysis may be performed. When the algorithm is changed in this way, the special structure of the structured data is an effective pre-analysis method when memory consumption that is clearly different from other structures is known.
また、HTMLコンテンツを前解析する場合、例えば<FORM>タグは、<FORM>タグの終了を示す</FORM>タグと対で記述される。このため、<FORM>タグから</FORM>タグまでを、解析対象とすることも可能である。この場合、<FORM>タグを特定情報として解析範囲情報100に指定して、入力部18より入力すると、前解析処理部13は、特定情報である<FORM>タグに対応する終了情報が</FORM>タグであることを判断して、<FORM>タグから</FORM>タグまでを、解析対象とする。なお、</FORM>タグを<FORM>タグに対応する情報として、解析範囲情報100に指定してもいいし、予め構造化データメモリ管理装置10の備えるファイル群924に特定情報と特定情報に対応する終了情報とを対にして記憶させておき、これを前解析処理部13が参照するようにしてもかまわない。
Further, when pre-analyzing HTML content, for example, a <FORM> tag is described in a pair with a </ FORM> tag indicating the end of the <FORM> tag. For this reason, the <FORM> tag to the </ FORM> tag can be analyzed. In this case, when the <FORM> tag is specified as the specific information in the
この実施の形態では、前解析処理部13で、構造化データの先頭から一部分までを前解析する事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
また、前解析処理部13で、構造化データのある特定箇所から前解析を開始し、構造化データの一部分を前解析する事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
また、前解析処理部13で、前解析処理中に特定情報が検出された場合に、その特定情報に対応する特定終了情報が検出されるまで前解析処理をすることなく、構造化データを読み飛ばす事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
In this embodiment, the
Also, an example of a storage area management apparatus that executes a storage area management system characterized in that the
Further, when the
また、前解析処理部13で、前解析処理中に特定情報が検出された場合に、その特定情報に対応する特定終了情報が検出されるまで前解析処理を異なる処理体系とする事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
Further, when specific information is detected during the pre-analysis process in the
この実施の形態の構造化データメモリ管理装置10は、解析対象の範囲を指定することによって、構造化データを構成するデータの特徴を、記憶領域量の推定に反映させることが出来るので、精度よく記憶領域量の推定が可能となる効果がある。
The structured data
実施の形態5.
この実施の形態では、構造化データに含まれる特徴データの密度を解析結果情報の1つにすることを説明する。
解析結果情報として構造化データが含む特徴データの個数だけではなく、その密度を利用してもよい。密度とは、ある特定の領域のメモリサイズで、その特定の領域に含まれる各構造化データの特徴データの個数を割った値(割合)である。密度を利用する場合としては、全体としての個数を利用する場合よりも、特定領域の密度を利用した方が精度のよい推定が行える場合等が考えられる。
In this embodiment, it will be described that the density of feature data included in structured data is one analysis result information.
As the analysis result information, not only the number of feature data included in the structured data but also its density may be used. The density is a value (ratio) obtained by dividing the number of feature data of each structured data included in the specific area by the memory size of the specific area. As a case where the density is used, it is conceivable that the estimation can be performed with higher accuracy by using the density of the specific region than when using the total number.
例えば、「構造化データの特徴データ」とは、XMLで言えば”<”(タグの開始記号)、”=”(属性値の代入記号)、”<−−”(コメント開始記号)等の、構造を特徴付けるデータの事を言う。「構造化データの特徴データの密度」とは、コンテンツ内に含まれる全文字数で、”<”(タグの開始記号)、”=”(属性値の代入記号)、”<−−”(コメント開始記号)等の各構造化データの特徴データの個数を割って求めた数値である。全文字数ではなく、実施の形態4で説明した、解析対象とする構造化データの一部分の特定領域に含まれる文字数に対する各構造化データの特徴データの個数を割って求めた数値とすることでもかまわない。
この値を利用する事によって、全体で特徴となる情報が何個あるかよりも、ある特定領域での密度や分布を調べる事の方がより正確に推定できる場合等に有効となる。
For example, “characteristic data of structured data” means “<” (tag start symbol), “=” (attribute value substitution symbol), “<-” (comment start symbol), etc. in XML. This refers to data that characterizes the structure. “Characteristic data density of structured data” refers to the total number of characters included in the content, “<” (tag start symbol), “=” (attribute value substitution symbol), “<-” (comment This is a numerical value obtained by dividing the number of feature data of each structured data such as a start symbol). Instead of the total number of characters, a numerical value obtained by dividing the number of feature data of each structured data with respect to the number of characters included in a specific area of a part of the structured data to be analyzed described in the fourth embodiment may be used. Absent.
By using this value, it is effective when it is possible to estimate the density and distribution in a specific area more accurately than the number of pieces of information that are characteristic as a whole.
前解析処理部13は、前述した密度を解析結果情報とする。或いは、前解析処理部13は、実施の形態1〜3のように、オブジェクトの数とともに、前述した密度を解析結果情報とする。解析結果情報にオブジェクトの数と密度とが含まれる場合には、記憶領域決定部15は、それぞれの解析結果に基づいて、記憶領域量を決定し、決定した記憶領域量のうち、大きい方を解析処理制御部12に出力する。或いは、小さい方を解析処理制御部12に出力する。どちらを出力するかは、最低限必要とする記憶領域量を確保するか、余裕を持って記憶領域量を確保するかのシステムのポリシーによって異なる。このため、記憶領域決定部15は、これらの記憶領域量を表示装置901に表示して、利用者がいずれかの記憶領域量を入力部18より選択することを可能にする。
The
この実施の形態では、前解析処理部13で、構造化データの特徴データの密度を解析結果情報とする事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
In this embodiment, the
この実施の形態の構造化データメモリ管理装置10は、全体で特徴となる情報が何個あるかよりも、ある特定領域での密度や分布を調べる事の方がより正確に推定できる場合に有効となる効果がある。
The structured data
実施の形態6.
この実施の形態では、記憶領域決定部15が、最大記憶領域量と、最小記憶領域量と、統計により確保した記憶領域量が不足しないことが保障された棄却可能記憶領域量とのいずれかを、記憶領域量として決定する構造化データメモリ管理装置10の一例を説明する。
図19は、最大記憶領域量と、最小記憶領域量と、棄却可能記憶領域量とを、複数のオブジェクト毎にそれぞれ記憶する記憶領域推定情報格納部16の一例であり、(a)はElementに対応し、(b)はattrオブジェクトに対応し、(c)はテキストオブジェクトに対応する例を示す図である。
In this embodiment, the storage
FIG. 19 is an example of the storage area estimation
記憶領域推定情報格納部16は、図19に示したように、最大記憶領域量と、最小記憶領域量と、棄却可能記憶領域量とを記憶する。記憶領域決定部15は、構造化データの記憶領域を決定した際に、決定した記憶領域量と、記憶領域推定情報格納部16が記憶する最大記憶領域量と比較して、記憶領域量>最大記憶領域量である時、記憶領域推定情報格納部16の最大記憶領域量を記憶領域量により更新する。また、決定した記憶領域量と、記憶領域推定情報格納部16が記憶する最小記憶領域量と比較して、記憶領域量<最小記憶領域量である時、記憶領域推定情報格納部16の最小記憶領域量を記憶領域量により更新する。
As illustrated in FIG. 19, the storage area estimation
また、棄却可能記憶領域量は以下のようにして統計により求める。
ある構造化データAに対して解析結果がRes(A)となったと仮定した場合、その時に解析結果情報の値または、解析結果情報の値の集合と、記憶領域量が対応付けられた記憶領域推定情報格納部16に記憶された対応表で、Res(A)が分類された区分Pattern(k)に含まれる前解析結果とそれに対する実際に使用されたメモリサイズの組を要素とする集合 S = { (x,y) | x ∈ Pattern(k) , y is actual memory size }
に対して、Sのyに関する情報を統計的に検定する事で、棄却域となるy’が求まり、そのy’を「メモリ不足が発生する事をPattern(k)において棄却可能な量」として使用する。
Further, the amount of storage area that can be discarded is obtained by statistics as follows.
When it is assumed that the analysis result is Res (A) with respect to a certain structured data A, a storage area in which a value of analysis result information or a set of values of analysis result information is associated with a storage area amount at that time In the correspondence table stored in the estimation
On the other hand, by statistically examining the information on y of S, y ′ that becomes a rejection area is obtained, and that y ′ is defined as “a quantity that can be rejected in Pattern (k) that a memory shortage occurs”. use.
記憶領域決定部15は、余裕があるように記憶領域量を決定する場合には、記憶領域推定情報格納部16より最大記憶領域量を取得して、解析処理制御部12に出力する。また、最低限必要となる記憶領域量を決定する場合には、記憶領域推定情報格納部16より最小記憶領域量を取得して、解析処理制御部12に出力する。また、記憶領域不足にならない程度の記憶領域量を決定する場合には、記憶領域推定情報格納部16より棄却可能記憶領域量を取得して、解析処理制御部12に出力する。
前述の余裕があるように記憶領域量を決定するか、最低限必要となる記憶領域量を決定するか、記憶領域不足にならない程度の記憶領域量を決定するかは、利用者が構造化データメモリ管理装置10に入力部18より予め設定しておき、ファイル群924に記憶する。記憶領域決定部15はファイル群924に記憶された情報を参照して、記憶領域推定情報格納部16より最大記憶領域量と、最小記憶領域量と、棄却可能記憶領域量との何れを取得するかを決定する。
When determining the storage area amount so that there is a margin, the storage
Whether the storage area is determined so as to have the above-mentioned margin, the minimum required storage area is determined, or the storage area is determined so as not to be short of the storage area. It is preset in the
また、最大記憶領域量と、最小記憶領域量と、棄却可能記憶領域量は、図16のような付加情報とともに設定することも可能である。
図20は、記憶領域推定情報格納部16に格納されている付加情報に最大記憶領域量と、最小記憶領域量と、棄却可能記憶領域量を設定した例を示す図である。
記憶領域決定部15は、解析結果情報に基本情報が含まれている場合、或いは、解析結果情報が基本情報である場合、ファイル群924に記憶された情報を参照して、記憶領域推定情報格納部16より最大記憶領域量と、最小記憶領域量と、棄却可能記憶領域量との何れを取得するかを決定する。
Further, the maximum storage area amount, the minimum storage area amount, and the rejectable storage area amount can be set together with the additional information as shown in FIG.
FIG. 20 is a diagram illustrating an example in which the maximum storage area amount, the minimum storage area amount, and the rejectable storage area amount are set in the additional information stored in the storage area estimation
When the analysis result information includes basic information or when the analysis result information is basic information, the storage
この実施の形態では、記憶領域決定部15で、記憶領域推定情報を元に求める前記記憶領域量を、同一の解析結果情報が過去得られた複数の構造化データの内、実際に必要となったメモリ量(記憶領域量)が最大となったメモリ量(記憶領域量)とする事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
これは、極力、メモリ不足を発生させない方針であるときに有効である。
In this embodiment, the storage
This is effective when the policy is to prevent memory shortage as much as possible.
この実施の形態では、記憶領域決定部15で、記憶領域推定情報を元に求める前記記憶領域量を、同一の解析結果情報が過去得られた複数の構造化データの内、実際に必要となったメモリ量(記憶領域量)が最小となったメモリ量(記憶領域量)とする事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
これは、極力、メモリ確保する量を減らす方針であるときに有効である。
In this embodiment, the storage
This is effective when the policy is to reduce the memory allocation as much as possible.
この実施の形態では、記憶領域決定部15で、前記記憶領域推定情報を元に求める前記記憶領域量を、同一の解析結果情報が過去得られた複数の構造化データの中で、統計的にメモリ不足が発生する事を棄却可能な量から選出する事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
これは、メモリ不足の発生率を減らしつつも、メモリを確保する量を減らす方針の場合に有効であるという効果がある。
In this embodiment, the storage
This is effective in the case of a policy of reducing the amount of memory while reducing the occurrence rate of memory shortage.
この実施の形態の構造化データメモリ管理装置10は、極力、メモリ不足を発生させない方針であるとき、または、極力、メモリ確保する量を減らす方針であるとき、または、メモリ不足の発生率を減らしつつも、メモリを確保する量を減らす方針であるとき、のいずれかの方針に有効である。
The structured data
実施の形態7.
以上までで説明した実施の形態1〜6の記憶領域決定部15が求める記憶領域量は、システム全体のポリシーにも依存する。具体的には、記憶領域決定部15で求める記憶領域量は、解析結果情報から分類される状況において、全ての構造化データで記憶領域量の不足が発生しないとするポリシーで算出する場合(ポリシー1)と、全ての構造化データで最低限必要となる記憶領域量のみを確保するポリシーで算出する場合(ポリシー2)とでは、同じ解析結果情報から算出される記憶領域量は異なってくる。そのポリシーの違いは、記憶領域推定情報格納部16に格納されている記憶領域推定情報および記憶領域決定部15のアルゴリズムに反映される。
次に、以下では構造化データ解析部14が行う、構造化データ解析処理について説明する。
記憶領域管理部17は、記憶部にデータ記憶領域を確保した後、構造化データ解析部14から、確保したデータ記憶領域のうち、構造化データ解析部14が使用する記憶領域量、すなわち、構造化データ解析部14が内部データ形式に変換したデータを記憶するために必要な記憶領域量の要求を受け付ける。記憶領域管理部17は、構造化データ解析部14から要求された分の記憶領域量が、確保したデータ記憶領域に未使用領域として残っていれば、構造化データ解析部14に対して、使用を許可する通知を出力するとともに、使用を許可する記憶領域を構造化データ解析部14が使用するためのデータ記憶領域のアドレス情報等を通知する。一方、確保したデータ記憶領域に構造化データ解析部14が使用を要求している分の未使用領域が残っていなければ、データ記憶領域の不足を構造化データ解析部14に通知する。さらに、解析処理制御部12にも、データ記憶領域の不足を通知する。このようにして、記憶領域管理部17は、確保したデータ記憶領域の残量を管理する。
The storage area amount obtained by the storage
Next, a structured data analysis process performed by the structured
The storage
解析処理制御部12は、解析対象となる構造化データと、記憶領域管理部17がデータ記憶領域に確保した記憶領域を参照するための情報とを含む、解析処理要求を構造化データ解析部14に対して出力する。その要求を受け取った構造化データ解析部14は、解析対象となる構造化データの解析を開始する。構造化データ解析部14は、内部データ形式に変換したデータを記憶するために記憶領域が必要となった時に、必要な分を、記憶領域管理部17に要求する。構造化データ解析部14は、記憶領域管理部17から、使用を許可する通知を受け取ると、記憶領域管理部17から通知されたアドレス情報により示されるデータ記憶領域に、内部データ形式に変換したデータを記憶する。解析処理が終了すると、その時生成された内部データ形式のルート要素、DOMの場合にはDocumentオブジェクトの参照を解析処理制御部12に出力する。
The analysis
次に、構造化データ解析部14が解析処理中に、記憶領域管理部17が確保した記憶領域だけでは全ての構造化データを内部データ形式で表現する事ができない場合の具体的な対処例について説明する。
図21は、確保した記憶領域が不足した場合に発生する対処処理の処理シーケンスの一例を示す図である。
S20の不足通知ステップにおいて、記憶領域不足を検知した記憶領域管理部17は、構造化データ解析部14に対して、記憶領域不足通知を行う。この不足通知に対して、構造化データ解析部14は、構造化データのどの位置まで解析できているのかを示す解析位置情報、例えば、次に解析を開始するデータ位置の参照、解析が終了したデータサイズ、解析されていないデータサイズ等を、記憶領域管理部17に通知する。そして、記憶領域管理部17は、解析処理制御部12に対して、記憶領域不足通知を行う。その通知には、構造化データのどの位置まで解析できているのかを示す解析位置情報、例えば、次に解析を開始するデータ位置の参照、解析が終了したデータサイズ、解析されていないデータサイズ等が含まれる。
記憶領域不足通知を受けた解析処理制御部12は、追加で記憶領域を確保するための再前解析要求を前解析処理部13に発行する。この要求には前述した構造化データのどの位置まで解析できているのかを示す解析位置情報が含まれる。
Next, a specific example of a case where all structured data cannot be expressed in the internal data format only with the storage area secured by the storage
FIG. 21 is a diagram illustrating an example of a processing sequence of coping processing that occurs when the reserved storage area is insufficient.
In the shortage notification step of S20, the storage
Upon receiving the storage area shortage notification, the analysis
再解析処理ステップS21では、再前解析要求を受けた前解析処理部13は、解析位置情報から解析が終っている構造化データの位置を判断して、解析が終了していない部分を構造化データから抽出する。そして、抽出した構造化データの解析が終了していない部分の前解析処理を行い、解析結果情報を求める。この時に、図5の解析処理ステップS1と同等の処理を行ってもよいし、異なる処理方式の前解析処理を行ってもよい。例えば、構造化データ全体に対して未解析のデータが占める割合を求める。そして、図5の解析処理ステップS1と同様の解析処理を行って求めた解析結果情報に対して、前述の割合をかけて、かけた結果を再前解析処理を行って求めた解析結果情報とする、などの方法を採用してもよい。また他に、同一の前解析処理に対して、解析位置情報に応じて、バイアスを加える方法でもよい。この「バイアスを加える」とは、その直前に記載した「図5の解析処理ステップS1と同様の解析処理を行って求めた解析結果情報に対して、前述の割合をかけて、かけた結果を再前解析処理を行って求めた解析結果情報とする」との説明のなかで、割合をかけている処理を、掛け算から、足し算に変えた方法を指す。具体的には、未解析のデータの割合に応じて決まる値(一般には負の値)を、図5の解析処理ステップS1と同様の解析処理を行って求めた解析結果情報の値に足すという処理に変えたものである。前解析処理部13は、再前解析終了後に、再前解析処理を行って求めた解析結果情報を解析処理制御部12に返す。
In the re-analysis processing step S21, the
記憶領域再決定ステップS22において、S21で求めた解析結果情報を受けた解析処理制御部12は、その結果と共に再決定要求を記憶領域決定部15に発行する。
再決定要求を受けた記憶領域決定部15は、S21で求めた解析結果情報を利用して、追加で確保する記憶領域量を決定する。この時に図5の記憶領域決定ステップS2で行った記憶領域量決定処理と同一の処理を利用してよい。また、同一の記憶領域量決定情報を記憶領域推定情報格納部16から取得して決定処理に利用してもよい。逆に、記憶領域量を再度決定するための、再決定専用の記憶領域量決定処理方式や異なる記憶領域量決定情報を準備して、再決定時にはそれらを利用してもよい。決定処理終了後、決定した記憶領域量を解析処理制御部12に返す。
In the storage area redetermination step S22, the analysis
The storage
記憶領域再管理ステップS23において、記憶領域量を受けた解析処理制御部12は、その記憶領域量と共に再確保要求を記憶領域管理部17に発行する。
再確保要求を受けた記憶領域管理部17は、記憶領域量を元に追加でデータ記憶領域を確保し、その領域を参照するための情報を解析処理制御部12に返す。
In the storage area re-management step S23, the analysis
Upon receipt of the re-allocation request, the storage
実解析処理ステップS24において、追加記憶領域を参照するための情報を受けた解析処理制御部12は、その参照するための情報を構造化データ解析部14に返す。その参照をするための情報を受けた事をトリガーとして、構造化データ解析部14は、受け取った参照先のデータ記憶領域を利用して解析処理を再開する。
In the actual analysis processing step S24, the analysis
また、前述の記憶領域再決定ステップS22において、記憶領域管理部17が記憶領域を各オブジェクトの配列で領域管理を行っている場合には、どのオブジェクトが不足したのかを示す情報を構造化データ解析部14が記憶領域管理部17に通知し、記憶領域管理部17が、さらに解析処理制御部12に通知し、解析処理制御部12は、その通知された情報を利用して、前解析処理部13、記憶領域決定部15、記憶領域管理部17がそのオブジェクトに対してのみ処理を行うように制御してもよい。
In addition, in the storage area redetermination step S22 described above, when the storage
また、解析範囲情報によって前解析処理を行う範囲を指定した場合は、構造化データ中に前解析処理をしていない部分が残っている。解析処理制御部12は、データ領域の不足通知を受けた場合、前回の前解析処理で解析対象外となった構造化データの部分を解析することを、前解析処理部13に要求してもかまわない。前解析処理部13は、前述の要求を解析処理制御部12から受けると、解析範囲情報100から解析対象外とした構造化データの部分を判定して、再解析処理を開始する。
In addition, when the range for performing the pre-analysis process is specified by the analysis range information, a portion that has not been subjected to the pre-analysis process remains in the structured data. When the analysis
この実施の形態では、記憶領域決定部15が求めた記憶領域量に基づき、記憶領域管理部17がデータ記憶領域を確保し、構造化データを解析処理中にその確保したデータ記憶領域にメモリ不足が発生した場合、その構造化データの内、構造化データ解析部14による解析が行われていない部分を、再度前解析処理部13により前解析処理して、その前解析処理の結果生成した解析結果情報から記憶領域決定部15で再度確保する記憶領域量を決定し、その決定した記憶領域量に基づき記憶領域管理部17が再度データ記憶領域を確保して、その再度確保したデータ記憶領域を使用して、構造化データ解析部14が解析処理を再開する事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
In this embodiment, based on the storage area amount obtained by the storage
この実施の形態の構造化データメモリ管理装置10は、一旦確保したデータ記憶領域が、構造化データ解析中に不足する状態になっても、再度データ記憶領域を追加で確保するので、記憶領域不足によって構造化データの解析処理が出来なくなることを防ぐ効果がある。
The structured data
実施の形態8.
この実施の形態では、再度データ記憶領域に確保する内部データ形式に変換したデータを記憶する記憶領域の記憶領域量を、再前解析処理することなく確保する例を説明する。
記憶領域管理部17は、記憶領域の不足が発生すると、図5の記憶領域管理ステップS3で確保した記憶領域量と同じ記憶領域量のデータ記憶領域を、記憶部に再度確保する。すなわち、図21の不足通知ステップS20において、記憶領域管理部17は、記憶領域の不足の通知を解析処理制御部12に通知せずに、前回確保した記憶領域量と同じ量のデータ記憶領域の再確保を行い、再確保したデータ記憶領域を参照するための情報を解析処理制御部12に通知する。そして、実解析処理ステップS24が開始される。この場合、前回の記憶領域量は、記憶領域決定部15が記憶部に或いは、ファイル群924に記憶しておき、記憶領域管理部17が記憶部やファイル群924に記憶されたものを取得する。
In this embodiment, an example will be described in which the storage area amount of the storage area for storing the data converted into the internal data format to be secured again in the data storage area is secured without re-preanalysis processing.
When the storage area shortage occurs, the storage
また、再度確保する記憶領域量を予め記憶しておく追加記憶量記憶部を構造化データメモリ管理装置10が備えるようにしてもかまわない。
図22は、追加記憶量記憶部を備える構造化データメモリ管理装置10のブロック図を示す図である。
図22において、追加記憶量記憶部19は、再度データ記憶領域を確保する際の再確保する記憶領域量を予め記憶する。その他の要素は、図1と同様である。
記憶領域管理部17からデータ記憶領域の不足を通知された解析処理制御部12は、記憶領域決定部15に対して再度確保する記憶領域量を決定することを要求する。すなわち、図21のように、前解析処理部13による再解析処理ステップS21を行わずに、記憶領域決定部15が追加記憶量記憶部19から再度確保する記憶領域量を取得する。
Further, the structured data
FIG. 22 is a block diagram of the structured data
In FIG. 22, the additional storage
The analysis
前述のように、図5の記憶領域管理ステップS3で確保した記憶領域量と同じ記憶領域量のデータ記憶領域を確保したり、或いは、追加記憶量記憶部19から再度確保する記憶領域量を取得することにより、前解析処理部13による前解析処理が不要となるため、構造化データ解析部14による処理を早く再開できる効果がある。
As described above, a data storage area having the same storage area amount as that secured in the storage area management step S3 in FIG. 5 is secured, or a storage area amount to be secured again is obtained from the additional storage
また、実施の形態7に記載した記憶領域量を再度決定するための、再決定専用の記憶領域量決定処理方式や異なる記憶領域量決定情報を、追加記憶量記憶部19に記憶するようにしてもかまわない。
この場合、データ記憶領域量の不足が発生した際の処理手順は、図21の処理手順となる。ただし、記憶領域決定部15は、記憶領域再決定ステップS22で、記憶領域推定情報格納部16をアクセスする代わりに、追加記憶量記憶部19をアクセスする。
In addition, the storage area amount determination processing method dedicated to redetermination and different storage area amount determination information for determining the storage area amount described in the seventh embodiment are stored in the additional storage
In this case, the processing procedure when the shortage of the data storage area amount is the processing procedure of FIG. However, the storage
この実施の形態では、データ記憶領域に不足が発生した後、記憶領域決定部15が使用する記憶領域推定情報は初回に使用した前記記憶領域推定情報と同一であるとして、初回に確保した記憶領域量と同じ記憶領域量を再度確保することを特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
In this embodiment, after a shortage occurs in the data storage area, the storage area estimation information used by the storage
また、データ記憶領域に不足が発生した後、記憶領域決定部15が使用する記憶領域推定情報は初回に使用した記憶領域推定情報とは異なる物であることを特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。例えば、データ記憶領域が不足した場合には、再度確保する記憶領域量を予め記憶する追加記憶量記憶部を備える。また、不足時用の推定情報を別に記憶する追加記憶量記憶部を備える。
In addition, after the data storage area is insufficient, the storage area estimation information used by the storage
この実施の形態の構造化データメモリ管理装置10は、データ記憶領域に不足が発生した場合、前解析処理部13による前解析処理が不要となるため、構造化データ解析部14による処理を早く再開できる効果がある。
In the structured data
実施の形態9.
この実施の形態では、構造化データ解析部14による解析処理で実際に必要となった記憶領域量を、記憶領域量の推定に反映する一例を説明する。
図23は、推定情報補正部20を備える構造化データメモリ管理装置10を示すブロック図である。
図23の構造化データメモリ管理装置10は、記憶領域推定情報格納部16が記憶する記憶領域推定情報を補正する推定情報補正部20を備える。他の要素は、図1と同様である。
推定情報補正部20は、構造化データ解析部14による解析処理終了後に、解析前に決定した領域サイズと実際に必要となった領域サイズの誤差を記憶領域推定情報に反映する。補正する手順は、はじめに、解析処理制御部12が、構造化データ解析部14から解析処理の終了通知を受信する。そして、解析処理制御部12は、記憶領域管理部17に対して、構造化データ解析部14が実際に使用したデータ記憶領域に確保した内部データ形式に変換したデータを記憶する記憶領域の記憶領域量を記憶領域推定情報に反映させることを要求する。記憶領域管理部17は、実際に使用した記憶領域量をデータ記憶領域を調査して、実際に使用した記憶領域量を取得する。さらに、記憶領域管理部17は、図5の記憶領域管理ステップS3で確保した記憶領域量、及び、図21の記憶領域再管理ステップS23で再度確保した記憶領域量とを合わせてた推定した記憶領域量を求めて、推定した記憶領域量と、実際に使用した記憶領域量とを、解析処理制御部12に通知する。通知を受けた解析処理制御部12は、推定した記憶領域量と、実際に使用した記憶領域量とを推定情報補正部20に通知するとともに、記憶領域推定情報の補正を要求する。推定情報補正部20は、推定した記憶領域量と、実際に使用した記憶領域量との差を算出し、その算出した値を利用して、次回以降の解析前の記憶領域量確保の精度を上げるために、記憶領域推定情報格納部16が記憶する記憶領域推定情報の更新を行う。
In this embodiment, an example in which the storage area amount actually required in the analysis processing by the structured
FIG. 23 is a block diagram illustrating the structured data
The structured data
After the analysis processing by the structured
例えば、記憶領域推定情報格納部16が記憶領域推定情報として近似関数を記憶している場合、関数は数学的、統計的に推定されるので、この近似関数をどのように変更するかは、その数学上のアルゴリズムに依存する。しかし、数学的に定まったアルゴリズムになっているので、入力となるx軸の解析結果情報と、出力となるy軸の実際の使用量が決定され、その組を近似に利用するデータ集合に加えて再近似処理を行えば、新たな近似関数が決定する。
For example, when the storage area estimation
この実施の形態では、構造化データ解析部14による解析終了後に実際に必要となったデータ記憶領域量と記憶領域決定部15が求めた記憶領域量との差を用いて、記憶領域推定情報を補正する推定情報補正部20を有する事を特徴とする記憶領域管理方式を実行する記憶領域管理装置の一例の構造化データメモリ管理装置10を説明した。
In this embodiment, the storage area estimation information is obtained by using the difference between the data storage area amount actually required after the analysis by the structured
この実施の形態の構造化データメモリ管理装置10は、記憶領域推定情報が静的ではなく、動的に更新される事で個別の環境に適応可能とする効果がある。
The structured data
実施の形態10.
以上までで説明した実施の形態の具体例は、説明した全ての処理が単独の情報端末内で実施される事を前提としている。すなわち、構造化データメモリ管理装置10が全ての「〜部」を備えていた。しかし、実際には、一部の処理部をネットワーク上のコンテンツサーバやプロキシサーバに実装してもよい。図24は、記憶領域管理システムの一例を示すブロック図である。例えば、図24はプロキシサーバである記憶領域推定装置101に前解析処理部13、制御部104(解析処理制御部12の機能の一部を有する)、記憶領域決定部15および記憶領域推定情報格納部16を実装し、解析処理制御部12、構造化データ格納部11、記憶領域管理部17および構造化データ解析部14を、利用者が使用する情報端末である記憶領域管理装置103に実装する。記憶領域推定装置101と記憶領域管理装置103とは、LAN942、ゲートウェイ941を介してインターネット940に接続され、2つの装置は例えばインターネットを介して接続されている。また、記憶領域推定装置101と記憶領域管理装置103とは、通信部1011と通信部1031とを介して、情報の通信を行う。通信部1011、通信部1031とは、通信ボード915により通信を行う。
The specific examples of the embodiments described above are based on the premise that all the processes described are performed in a single information terminal. That is, the structured data
構造化データ格納部11は、記憶領域管理装置103が備えている。このため、記憶領域管理装置103の解析処理制御部12は、構造化データ解析部14が解析しようとする構造化データを構造化データ格納部11より取得して、通信部1031により構造化データを記憶領域推定装置101に送信する。記憶領域推定装置101は、通信部1011により記憶領域管理装置103が送信した構造化データを受信して、制御部104に出力する。制御部104は、入力した構造化データを前解析処理部13に出力するとともに、前解析処理の要求を通知する。この後の処理は、図5のS1,S2と同じである。記憶領域決定部15が決定した記憶領域量は、制御部104を介して通信部1011により記憶領域管理装置103へ送信する。通信部1031は、記憶領域推定装置101が送信した記憶領域量を受信して、解析処理制御部12に出力する。この後の処理は、図5のS3,S4の処理と同様である。
The structured
また、構造化データ解析部14による解析処理中にデータ記憶領域の不足が発生すると、解析処理制御部12から通信部1031を介して、記憶領域推定装置101にデータ記憶領域の不足を通知する。この後の記憶領域推定装置101における処理は、図21のS20〜S22までと同じである。再確保する記憶領域量が決定すると、記憶領域推定装置101から通信部1011を介して、記憶領域管理装置103へ再確保する記憶領域量を送信する。記憶領域管理装置103は、通信部1031により再確保する記憶領域量を受信して、ず21のS23,S24の処理を行う。
Further, when the shortage of the data storage area occurs during the analysis process by the structured
この実施の形態では、前解析処理部13、記憶領域推定情報格納部16、記憶領域決定部15を有する装置が、構造化データ解析部14、記憶領域管理部17を有する装置とは異なりことの一例を説明した。また、構造化データ解析部14を有する記憶領域管理装置103および前解析処理部13を有する記憶領域推定装置101は、互いに通信するための通信部1011,1031を有し、記憶領域管理装置103は記憶領域推定装置101が推定した記憶領域量を、通信部1011,1031を介して取得することを特徴とする記憶領域管理システムの一例を説明した。
In this embodiment, the apparatus having the
この実施の形態の記憶領域管理システムは、記憶領域量を推定する処理と、構造化データを実際に解析する処理とを別々の装置により実現する。このため、構造化データを実際に解析する処理を行う情報端末(記憶領域管理装置103)が複数あった場合に、その情報端末(記憶領域管理装置103)を推定装置(記憶領域推定装置101)にネットワークを介して接続して、複数の推定装置(記憶領域推定装置101)を設置するコストを省ける効果がある。また、記憶領域推定情報を一元管理できる効果がある。 The storage area management system of this embodiment realizes the process of estimating the storage area amount and the process of actually analyzing the structured data by separate devices. For this reason, when there are a plurality of information terminals (storage area management apparatus 103) that perform processing for actually analyzing structured data, the information terminal (storage area management apparatus 103) is set as an estimation apparatus (storage area estimation apparatus 101). There is an effect that the cost of installing a plurality of estimation devices (storage area estimation devices 101) by connecting to the network via a network can be saved. In addition, the storage area estimation information can be managed in an integrated manner.
実施の形態11.
この実施の形態では、解析する構造化データが、記憶領域管理装置103と記憶領域推定装置101以外の他の装置に記憶されている記憶領域管理システムの一例を説明する。
図25は、記憶領域管理システムの図24とは別の一例を示すブロック図である。図25の記憶領域管理システムは、情報端末(記憶領域管理装置103)がプロキシサーバ(記憶領域推定装置101)を経由して、コンテンツサーバである構造化データ記憶装置102に存在する構造化データを通信して取得し、解析処理を行う場合の一つの具体例である。構造化データがコンテンツサーバ(構造化データ記憶装置102)に記憶されている点以外は、図25は図24の記憶領域管理システムは同じ装置構成をしており、それぞれの装置は図5及び図21の各処理ステップを、実施の形態10の説明と同じように、いずれかの装置でそれぞれ実行する。
プロキシサーバ(記憶領域推定装置101)はコンテンツサーバ(構造化データ記憶装置102)と情報端末(記憶領域管理装置103)と通信するための通信部105を備え、情報端末(記憶領域管理装置103)はプロキシサーバ(記憶領域推定装置101)との通信を行うための通信部1031を備える。記憶領域推定装置101と記憶領域管理装置103とコンテンツサーバ(構造化データ記憶装置102)とは、LAN942、ゲートウェイ941を介してインターネット940に接続され、3つの装置は例えばインターネットを介して接続されている(図25の第1のネットワーク107と第2のネットワーク108とは、例えば、LAN942、ゲートウェイ941、インターネット940とする)。通信部105、通信部1031とは、通信ボードにより通信を行う。また、通信部105とコンテンツサーバ(構造化データ記憶装置102)とが通信する情報、及び、通信部105と通信部1031とが通信する情報とは、ヘッダ部とボディ部とを有するものとする。
In this embodiment, an example of a storage area management system in which structured data to be analyzed is stored in a device other than the storage area management apparatus 103 and the storage area estimation apparatus 101 will be described.
FIG. 25 is a block diagram showing an example of the storage area management system different from FIG. In the storage area management system of FIG. 25, the structured data existing in the structured
The proxy server (storage area estimation apparatus 101) includes a
情報端末(記憶領域管理装置103)は、入力部18よりコンテンツサーバ(構造化データ記憶装置102)の構造化データを取得するコンテンツ取得リクエストを入力して、入力したコンテンツ取得リクエストをプロキシサーバ(記憶領域推定装置101)を経由して、コンテンツサーバ(構造化データ記憶装置102)へ送信して、構造化データを取得する事が可能である。情報端末(記憶領域管理装置103)から通信部1031と通信部105とを介してコンテンツ取得リクエストを受けたプロキシサーバ(記憶領域推定装置101)は、リクエストしているコンテンツサーバ(構造化データ記憶装置102)に通信部105を介してそのリクエストを転送する。そして、プロキシサーバ(記憶領域推定装置101)は、コンテンツサーバ(構造化データ記憶装置102)からの応答が到着するまで待機する。コンテンツサーバ(構造化データ記憶装置102)からの応答を通信部105により受信すると、プロキシサーバ(記憶領域推定装置101)は、その応答からボディ部が構造化データを有する場合には、ボディを取り出し、前解析処理部13に前解析処理を実行させ、生成した解析結果情報から記憶領域決定部15に必要となる記憶領域量を算出させる。算出された記憶領域量をコンテンツサーバ(構造化データ記憶装置102)から受け取った応答のヘッダに追加し、記憶領域量を追加した応答を通信部105を介して情報端末(記憶領域管理装置103)に送信する。
The information terminal (storage area management device 103) inputs a content acquisition request for acquiring structured data of the content server (structured data storage device 102) from the
プロキシサーバ(記憶領域推定装置101)から応答を受信した情報端末(記憶領域管理装置103)の通信部1031は、受信した応答を解析処理制御部12に渡す。応答を受け取った解析処理制御部12は、応答のボディ部から構造化データを取り出し、構造化データ格納部11に格納する。次に応答のヘッダ部から記憶領域量を取得し、その情報を記憶領域管理部17に渡し、記憶領域管理部17は記憶領域量のデータ記憶領域を確保する。そして、記憶領域管理部17は確保したことを解析処理制御部12に通知する。解析処理制御部12は、その後、構造化データ解析部14に対して、構造化データの解析要求を発行し、構造化データ解析部14は記憶領域管理部17が確保した記憶領域を使用して、構造化データ格納部11に記憶した構造化データの解析処理を実行する。
The
このようなプロキシサーバ(記憶領域推定装置101)を利用した場合、情報端末(記憶領域管理装置103)にマシンパワーがなく、前解析処理や記憶領域量決定処理が大きな負荷となってしまう場合には有効であり、その負荷をプロキシサーバ(記憶領域推定装置101)で代行する事が可能である。
また、コンテンツサーバ(構造化データ記憶装置102)が前述した具体例のプロキシサーバ(記憶領域推定装置101)が保持する機能を備えて同等の機能を果たす事も可能である。その場合には、コンテンツサーバ(記憶領域推定装置101)が情報端末(記憶領域管理装置103)からの構造化データリクエストを受信した事をトリガーとして、前解析処理、記憶領域量決定処理を実行し、その結果を応答のヘッダ部に付加して情報端末(記憶領域管理装置103)に送信する。この場合の情報端末(記憶領域管理装置103)の処理はプロキシサーバ(記憶領域推定装置101)を利用した場合と同等である。
この方法の場合、同一コンテンツに対して複数のリクエストがきた場合に、それぞれの場合で、コンテンツサーバ(記憶領域推定装置101)側で前解析処理および記憶領域量決定処理を実行するのは非効率であるため、一旦算出された結果をキャッシュしておく機構を持たせてもよい。
When such a proxy server (storage area estimation apparatus 101) is used, the information terminal (storage area management apparatus 103) does not have machine power, and the pre-analysis process and the storage area amount determination process become a heavy load. Is effective, and the proxy server (storage area estimation apparatus 101) can substitute the load.
In addition, the content server (structured data storage device 102) can be provided with the function held by the proxy server (storage area estimation device 101) of the specific example described above, and can perform an equivalent function. In that case, the pre-analysis process and the storage area amount determination process are executed with the content server (storage area estimation apparatus 101) receiving a structured data request from the information terminal (storage area management apparatus 103) as a trigger. The result is added to the header portion of the response and transmitted to the information terminal (storage area management device 103). The processing of the information terminal (storage area management apparatus 103) in this case is equivalent to the case where the proxy server (storage area estimation apparatus 101) is used.
In the case of this method, when a plurality of requests are made for the same content, it is inefficient to execute the pre-analysis process and the storage area amount determination process on the content server (storage area estimation apparatus 101) side in each case. Therefore, a mechanism for caching the result once calculated may be provided.
また、記憶領域量は、最初に情報端末(記憶領域管理装置103)が送信した構造化データリクエストに対する応答のヘッダ部に含めて、最終的に情報端末(記憶領域管理装置103)へ通知された。しかし、記憶領域量を情報端末(記憶領域管理装置103)に通知するための専用の情報を設けて、その専用の情報に含めて通知するようにしてもかまわない。
また、プロキシサーバ(記憶領域推定装置101)は、情報端末(記憶領域管理装置103)からコンテンツ取得リクエストを受けたことを、前解析処理の指示と判断していたが、情報端末(記憶領域管理装置103)からコンテンツ取得リクエストを要求する情報とは別に、前解析処理の指示を行う情報を情報端末(記憶領域管理装置103)からプロキシサーバ(記憶領域推定装置101)へ送信するようにしてもかまわない。
In addition, the storage area amount is included in the header part of the response to the structured data request first transmitted by the information terminal (storage area management apparatus 103), and finally notified to the information terminal (storage area management apparatus 103). . However, dedicated information for notifying the amount of storage area to the information terminal (storage area management apparatus 103) may be provided and notified in the dedicated information.
Further, the proxy server (storage area estimation apparatus 101) has determined that the content acquisition request from the information terminal (storage area management apparatus 103) has been received as an instruction for the pre-analysis process, but the information terminal (storage area management) In addition to the information requesting the content acquisition request from the device 103), information for instructing the pre-analysis process may be transmitted from the information terminal (storage area management apparatus 103) to the proxy server (storage area estimation apparatus 101). It doesn't matter.
この実施の形態では、前解析処理部13、記憶領域推定情報格納部16、記憶領域決定部15を有するのが、構造化データ解析部14、記憶領域管理部17を有する装置とは異なることを説明した。また、構造化データ解析部14を有する管理装置(記憶領域管理装置103)および前解析処理部13を有する推定装置(記憶領域推定装置101)は、通信するための通信部105,1031を有し、管理装置(記憶領域管理装置103)は解析する構造化データを構造化データ格納装置から通信部105を介して取得する際に、管理装置(記憶領域管理装置103)と構造化データ格納装置の通信経路の間に、推定装置(記憶領域推定装置101)を配し、管理装置(記憶領域管理装置103)が構造化データ格納装置から構造化データを取得する通信中に推定装置(記憶領域推定装置101)が構造化データ格納装置からの応答を解析し、記憶領域量を求め、管理装置(記憶領域管理装置103)に通信手段を介して転送する事を特徴とする記憶領域管理システムの一例を説明した。
In this embodiment, the
また、推定装置(記憶領域推定装置101)が求めた記憶領域量を応答のヘッダ情報として付加することにより管理装置(記憶領域管理装置103)に転送する事を特徴とする記憶領域管理システムの一例を説明した。 An example of a storage area management system is characterized in that the storage area amount obtained by the estimation apparatus (storage area estimation apparatus 101) is added to the management apparatus (storage area management apparatus 103) by adding it as header information of the response. Explained.
また、推定装置(記憶領域推定装置101)が求めた記憶領域量を専用の応答情報として管理装置(記憶領域管理装置103)に転送する事を特徴とする記憶領域管理システムの一例を説明した。 In addition, an example of a storage area management system has been described in which the storage area amount obtained by the estimation apparatus (storage area estimation apparatus 101) is transferred to the management apparatus (storage area management apparatus 103) as dedicated response information.
また、推定装置(記憶領域推定装置101)は管理装置(記憶領域管理装置103)から解析要求を、通信部を介して転送された場合にのみ推定処理を行い、推定結果を返す事を特徴とする。 Further, the estimation device (storage area estimation device 101) performs an estimation process only when an analysis request is transferred from the management device (storage area management device 103) via a communication unit, and returns an estimation result. To do.
また、構造化データの転送要求のヘッダ情報に記憶領域量を推定することを要求する情報を付加する事を特徴とする記憶領域管理システムの一例を説明した。 In addition, an example of a storage area management system has been described in which information requesting to estimate the storage area amount is added to the header information of the structured data transfer request.
また、記憶領域量を推定することを要求する専用の情報を、通信部を介して推定装置に転送する事を特徴とする。 Further, it is characterized in that dedicated information for requesting estimation of the storage area amount is transferred to the estimation device via the communication unit.
この実施の形態の記憶領域管理システムは、構造化データを一元管理するコンテンツサーバ(構造化データ記憶装置102)を備えたので、複数の情報端末(記憶領域管理装置103)で重複して同じ構造化データを管理することがないので、情報端末(記憶領域管理装置103)の記憶部を有効に使用できる効果がある。 Since the storage area management system of this embodiment includes a content server (structured data storage apparatus 102) that centrally manages structured data, a plurality of information terminals (storage area management apparatus 103) overlap and have the same structure. Therefore, the storage unit of the information terminal (storage area management device 103) can be used effectively.
また、記憶領域量を通知する情報は、コンテンツの要求に対する応答に含めたので、記憶領域推定装置101と記憶領域管理装置103との間の通信量を抑える効果がある。 In addition, since the information for notifying the storage area amount is included in the response to the content request, there is an effect of suppressing the communication amount between the storage area estimation apparatus 101 and the storage area management apparatus 103.
また、記憶領域量を算出することを要求する情報は、コンテンツを取得する要求と兼用としたので、記憶領域推定装置101と記憶領域管理装置103との間の通信量を抑える効果がある。 Further, since the information for requesting calculation of the storage area amount is also used as the request for acquiring the content, there is an effect of suppressing the communication amount between the storage area estimation apparatus 101 and the storage area management apparatus 103.
また、記憶領域量を算出することを要求する情報は、コンテンツの要求に対する応答とは別の専用の情報としたので、コンテンツだけを取得したい場合に対処できる効果がある。 Further, since the information requesting to calculate the storage area amount is dedicated information different from the response to the content request, there is an effect that it is possible to cope with the case where only the content is desired to be acquired.
また、記憶領域量を通知する情報は、コンテンツの要求に対する応答とは別の専用の情報にしたので、コンテンツだけを取得したい装置に、不要に記憶領域量を通知することを防ぐ効果がある。このため、記憶領域量を受信することに対応していない情報端末が、不要に記憶領域量を受信して不正動作を起こす事を防ぐ効果がある。 Further, since the information for notifying the storage area amount is dedicated information different from the response to the request for content, there is an effect of preventing unnecessary notification of the storage area amount to an apparatus that wants to acquire only the content. For this reason, there is an effect of preventing an information terminal that does not support receiving the storage area amount from receiving the storage area amount unnecessarily and causing an illegal operation.
10 構造化データメモリ管理装置、11 構造化データ格納部、12 解析処理制御部、13 前解析処理部、14 構造化データ解析部、15 記憶領域決定部、16 記憶領域推定情報格納部、16x 要素数、16y 属性数、16z 文字数、17 記憶領域管理部、18 入力部、19 追加記憶量記憶部、20 推定情報補正部、104 制御部、105 通信部、100 解析範囲情報、101 記憶領域推定装置、102 構造化データ記憶装置、103 記憶領域管理装置、107 第1のネットワーク、108 第2のネットワーク、131 第1の解析処理部、132 第2の解析処理部、161 最大、162 最小、163 棄却可能、901 表示装置、902 キーボード、903 マウス、904 FDD、905 CDD、908 データベース、909 クライアント装置、910 サーバ装置、911 CPU、912 バス、913 ROM、914 RAM、915 通信ボード、920 磁気ディスク装置、921 OS、922 ウィンドウシステム、923 プログラム群、924 ファイル群、940 インターネット、941 ゲートウェイ、942 LAN、1011,1031 通信部。
DESCRIPTION OF
Claims (28)
処理を実行するセントラル・プロセッシング・ユニット(Centoral Processing Unit:CPU)と、
上記CPUが処理を行った結果を記憶する記憶部と、
構造化データを入力してCPUにより解析して記憶領域量を推定するパラメータとなる解析結果情報を生成し、生成した解析結果情報をCPUにより記憶部に記憶する解析処理部と、
記憶領域量を推定するパラメータを予め複数記憶するとともに、複数のパラメータそれぞれに対応させて、記憶領域量を推定する記憶領域推定情報を予め記憶する記憶領域推定情報記憶部と、
上記解析処理部が生成した解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報記憶部から取得して、取得した記憶領域推定情報に基づいて上記記憶領域量を決定して、決定した記憶領域量をCPUにより記憶部に記憶する記憶領域決定部と、
上記記憶領域決定部が決定した記憶領域量を記憶部より入力して、入力した記憶領域量に相当する記憶領域を、上記変換したデータ形式の情報を記憶するデータ記憶領域としてCPUにより確保する記憶領域管理部と
を備えたことを特徴とする記憶領域管理方式。 When converting structured data representing the data-specific structure and the relationship between the data into data format information that can be processed by the information processing device, the storage area amount of the data storage area for storing the converted data format information is set in advance. In the storage area management method you want,
A central processing unit (CPU) for executing processing;
A storage unit for storing a result of processing performed by the CPU;
An analysis processing unit that inputs structured data, generates analysis result information that is a parameter for estimating the storage area amount by the CPU, and stores the generated analysis result information in the storage unit by the CPU;
A storage area estimation information storage unit that stores in advance a plurality of parameters for estimating the storage area amount, and stores in advance storage area estimation information for estimating the storage area amount corresponding to each of the plurality of parameters;
The analysis result information generated by the analysis processing unit is input from the storage unit, the storage region estimation information corresponding to the parameter that matches the input analysis result information is acquired from the storage region estimation information storage unit, and the acquired storage A storage area determination unit that determines the storage area amount based on the area estimation information and stores the determined storage area amount in the storage unit by the CPU;
The storage area amount determined by the storage area determination unit is input from the storage unit, and the storage area corresponding to the input storage area amount is secured by the CPU as a data storage area for storing the information of the converted data format A storage area management system comprising an area management unit.
上記解析処理部により解析する構造化データのうち解析対象とするデータの範囲を指定する解析範囲情報を入力装置により入力して、入力した解析範囲情報をCPUにより記憶部に記憶する入力部を備え、
上記解析処理部は、上記入力部が入力した解析範囲情報を記憶部より入力して、入力した解析範囲情報により指定された範囲の構造化データをCPUにより解析する
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area management method further includes:
An input unit for inputting analysis range information for designating a range of data to be analyzed among the structured data analyzed by the analysis processing unit by an input device, and storing the input analysis range information in a storage unit by a CPU is provided. ,
2. The analysis processing unit according to claim 1, wherein the analysis range information input by the input unit is input from the storage unit, and the structured data in the range specified by the input analysis range information is analyzed by the CPU. The storage area management method described.
構造化データの先頭のデータから一部分までを解析対象とすることを指定する情報と、
構造化データの特定箇所のデータから一部分までを解析対象とすることを指定する情報とのいずれかの情報である
ことを特徴とする請求項2記載の記憶領域管理方式。 The analysis range information input by the input unit includes information specifying that all structured data is to be analyzed, and
Information that specifies that the first part of the structured data to a part of it is to be analyzed;
3. The storage area management system according to claim 2, wherein the storage area management method is any one of information specifying that the data from a specific portion of the structured data to a part thereof is to be analyzed.
上記入力部は、上記構造化データの有する特定情報を示す情報を上記解析範囲情報として入力して、CPUにより記憶部に記憶し、
上記解析処理部は、上記入力部が入力した解析範囲情報を記憶部より入力して、構造化データの先頭のデータから特定情報を検出するまで構造化データの解析を行い、上記構造化データの特定情報を検出した場合は、検出した特定情報と対応する特定終了情報を検出するまで、構造化データを読み飛ばして、構造化データの特定終了情報を検出した場合は、検出した特定終了情報の次の構造化データから最後の構造化データまでをCPUにより解析する
ことを特徴とする請求項2記載の記憶領域管理方式。 The structured data has specific information characterizing the structure of the data, and specific end information corresponding to the specific information,
The input unit inputs information indicating specific information included in the structured data as the analysis range information, and stores the information in the storage unit by the CPU.
The analysis processing unit inputs the analysis range information input by the input unit from the storage unit, analyzes the structured data until specific information is detected from the top data of the structured data, When the specific information is detected, the structured data is skipped until the specific end information corresponding to the detected specific information is detected, and when the specific end information of the structured data is detected, the detected specific end information 3. The storage area management system according to claim 2, wherein the CPU analyzes from the next structured data to the last structured data.
上記入力部は、上記構造化データの有する特定情報を示す情報を上記解析範囲情報として入力して、CPUにより記憶部に記憶し、
上記解析処理部は、所定の手順で構造化データを解析する第1の解析処理部と、上記第1の解析処理部とは異なる手順で構造化データを解析する第2の解析処理部とを備えて、上記入力部が入力した解析範囲情報を記憶部より入力して、構造化データの先頭のデータから特定情報を検出するまでの構造化データを上記第1の解析処理部により解析し、上記構造化データの特定情報を検出した場合は、検出した特定情報と対応する特定終了情報を検出するまで構造化データを上記第2の解析処理部により解析し、構造化データの特定終了情報を検出した場合は、検出した特定終了情報の次の構造化データから最後の構造化データまでを上記第1の解析処理部により解析する
ことを特徴とする請求項2記載の記憶領域管理方式。 The structured data has specific information characterizing the structure of the data and specific end information corresponding to the specific information,
The input unit inputs information indicating specific information included in the structured data as the analysis range information, and stores the information in the storage unit by the CPU.
The analysis processing unit includes a first analysis processing unit that analyzes structured data in a predetermined procedure, and a second analysis processing unit that analyzes structured data in a procedure different from the first analysis processing unit. The analysis range information input by the input unit is input from the storage unit, the structured data until the specific information is detected from the top data of the structured data is analyzed by the first analysis processing unit, When the specific information of the structured data is detected, the structured data is analyzed by the second analysis processing unit until the specific end information corresponding to the detected specific information is detected, and the specific end information of the structured data is obtained. 3. The storage area management system according to claim 2, wherein when detected, the first analysis processing section analyzes from the next structured data to the last structured data of the detected specific end information.
上記解析処理部は、上記構造化データから特徴データを検出して、検出した結果から上記解析結果情報を生成する
ことを特徴とする請求項1から4のいずれかに記載の記憶領域管理方式。 The structured data has characteristic data characterizing the structure unique to the data,
5. The storage area management system according to claim 1, wherein the analysis processing unit detects feature data from the structured data, and generates the analysis result information from the detected result.
上記解析処理部は、上記構造化データの基本情報を上記解析結果情報とすることと、上記構造化データの基本情報を上記解析結果情報に含めることとのいずれかを行う
ことを特徴とする請求項1記載の記憶領域管理方式。 The structured data has basic information about the structured data,
The analysis processing unit performs either one of setting the basic information of the structured data as the analysis result information and including the basic information of the structured data in the analysis result information. Item 4. The storage area management method according to Item 1.
ことを特徴とする請求項6記載の記憶領域管理方式。 The analysis processing unit obtains a ratio of the detected result to the structured data to be analyzed with respect to the result of detecting the feature data from the structured data, and determines the obtained ratio as the analysis result information. The storage area management method according to claim 6, wherein the ratio is included in the analysis result information.
ことを特徴とする請求項1記載の記憶領域管理方式。 2. The storage according to claim 1, wherein each of the plurality of parameters stored in the storage area estimation information storage unit is one value or a value indicating a predetermined range. Area management method.
上記記憶領域決定部は、上記解析処理部が生成した解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する推定関数情報を上記記憶領域推定情報記憶部から取得して、取得した推定関数情報に基づいて上記記憶領域量を決定する
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area estimation information stored in the storage area estimation information storage unit is generated in the past with respect to the coordinate plane having the analysis result information and the storage area amount as axes (N is an integer, N ≧ 1) is estimation function information indicating a function obtained by plotting in advance the analysis result information and the storage area amount obtained based on the analysis result information;
The storage area determination unit inputs the analysis result information generated by the analysis processing unit from the storage unit, and acquires estimation function information corresponding to a parameter that matches the input analysis result information from the storage area estimation information storage unit The storage area management method according to claim 1, wherein the storage area amount is determined based on the obtained estimation function information.
上記記憶領域決定部は、上記取得した記憶領域推定情報が最大の記憶領域量を含む場合、最大の記憶領域量を上記決定した記憶領域量としてCPUにより記憶部に記憶する
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area estimation information storage unit sets the storage area amount that is actually used among the plurality of structured data for which the same analysis result information has been generated in the past, and the same analysis result information as a parameter. To be included in the storage area estimation information and
The storage area determining unit, when the acquired storage area estimation information includes a maximum storage area amount, stores the maximum storage area amount as the determined storage area amount in the storage unit by the CPU. Item 4. The storage area management method according to Item 1.
上記記憶領域決定部は、上記取得した記憶領域推定情報が最小の記憶領域量を含む場合、最小の記憶領域量を上記決定した記憶領域量としてCPUにより記憶部に記憶する
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area estimation information storage unit sets the storage area amount of the smallest storage area actually used among the plurality of structured data for which the same analysis result information has been generated in the past, and the same analysis result information as a parameter. To be included in the storage area estimation information and
The storage area determining unit, when the acquired storage area estimation information includes a minimum storage area amount, stores the minimum storage area amount as the determined storage area amount in the storage unit by the CPU. Item 4. The storage area management method according to Item 1.
上記記憶領域決定部は、上記取得した記憶領域推定情報が記憶領域不足が発生しない記憶領域量を含む場合、記憶領域不足が発生しない記憶領域量を上記決定した記憶領域量としてCPUにより記憶部に記憶する
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area estimation information storage unit is a memory that does not cause a storage area shortage determined based on statistics of analysis result information generated in the past and the amount of storage area actually used by the structured data that generated the analysis result information. The area amount is previously included in the storage area estimation information and stored,
When the acquired storage area estimation information includes a storage area amount that does not cause a shortage of storage area, the storage area determination unit stores the storage area amount that does not cause a shortage of storage area as the determined storage area amount by the CPU. 2. The storage area management system according to claim 1, wherein the storage area management method is stored.
上記解析処理部は、上記記憶領域管理部から記憶領域量が不足していることを受信すると、上記入力部が入力した解析範囲情報により指定された範囲以外の構造化データをCPUにより解析し、上記解析結果情報を生成してCPUにより記憶部に記憶し、
上記記憶領域決定部は、上記解析処理部が生成した解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報記憶部から取得して、取得した記憶領域推定情報に基づいて新たに確保する記憶領域の記憶領域量を決定して、決定した新たに確保する記憶領域の記憶領域量をCPUにより記憶部に記憶し、
上記記憶領域管理部は、上記記憶領域決定部が決定した記憶領域量を記憶部より入力して、入力した記憶領域量相当する記憶領域を、既に確保している記憶領域に対して追加で確保する
ことを特徴とする請求項3または4記載の記憶領域管理方式。 The storage area management unit monitors the usage status of the data storage area for storing the information of the converted data format, detects whether the secured storage area amount is insufficient, and is insufficient If it is detected, the analysis processing unit is notified of the shortage of storage area,
When the analysis processing unit receives that the storage area amount is insufficient from the storage area management unit, the CPU analyzes the structured data other than the range specified by the analysis range information input by the input unit, The analysis result information is generated and stored in the storage unit by the CPU,
The storage area determination unit inputs the analysis result information generated by the analysis processing unit from the storage unit, and stores storage area estimation information corresponding to a parameter that matches the input analysis result information from the storage area estimation information storage unit. Acquiring the storage area amount of the newly reserved storage area based on the acquired storage area estimation information, storing the determined storage area amount of the newly reserved storage area in the storage unit by the CPU,
The storage area management unit inputs the storage area amount determined by the storage area determination unit from the storage unit, and additionally secures a storage area corresponding to the input storage area amount with respect to the already reserved storage area. 5. The storage area management system according to claim 3, wherein the storage area management system is a storage area management system.
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area management unit monitors the usage status of the data storage area for storing the information of the converted data format, detects whether the secured storage area amount is insufficient, and is insufficient If it can be detected, the storage area amount determined by the storage area determination unit is input from the storage unit, and a storage area corresponding to the input storage area amount is additionally allocated to the already allocated storage area. The storage area management system according to claim 1, wherein:
上記記憶領域管理部は、上記変換したデータ形式の情報を記憶するデータ記憶領域の使用状況を監視して、確保した記憶領域量が不足しているかいないかを検出し、不足していることが検出できた場合に、上記追加記憶領域量記憶部が記憶する追加記憶領域量情報をCPUにより取得し、取得した追加記憶領域量情報に相当する記憶領域を、既に確保している記憶領域に対して追加で確保する
ことを特徴とする請求項1記載の記憶領域管理方式。 The storage area management method further includes an additional storage area amount storage unit that pre-stores additional storage area amount information indicating the storage area amount additionally secured with respect to the already secured storage area amount,
The storage area management unit monitors the usage status of the data storage area for storing the information of the converted data format, detects whether the secured storage area amount is insufficient, and is insufficient If it is detected, the additional storage area amount information stored in the additional storage area amount storage unit is acquired by the CPU, and the storage area corresponding to the acquired additional storage area amount information is obtained with respect to the storage area already secured. 2. The storage area management method according to claim 1, wherein the storage area management method is additionally secured.
上記記憶領域管理方式は、さらに、
上記記憶領域管理部が求めた実使用量を記憶部より入力するとともに、上記記憶領域決定部が決定した記憶領域量を記憶部より入力して、入力した実使用量と記憶領域量との差を求め、求めたに差に基づいて上記記憶領域推定情報記憶部が記憶する記憶領域推定情報を補正する推定情報補正部を備えた
ことを特徴とする請求項1記載の記憶領域管理方式。 When the storage area management unit stores information in the data format obtained by converting the structured data in the storage area, the storage area management unit obtains the actual usage by managing the actual usage of the storage area. Store in the storage unit by the CPU,
The storage area management method further includes:
The actual usage amount obtained by the storage area management unit is input from the storage unit, the storage area amount determined by the storage area determination unit is input from the storage unit, and the difference between the input actual usage amount and the storage area amount is input. The storage area management system according to claim 1, further comprising: an estimation information correction unit that corrects the storage area estimation information stored in the storage area estimation information storage unit based on the obtained difference.
請求項1に記載したCPUと、記憶部と、記憶領域管理部とを備えた記憶領域管理装置とをネットワークを介して接続する記憶領域管理システムであって、
上記記憶領域推定装置と記憶領域管理装置とはそれぞれ、上記ネットワークを介して通信装置により情報の通信を行う通信部を備えた
ことを特徴とする記憶領域管理システム。 A storage area estimation device comprising: a CPU according to claim 1; a storage section; an analysis processing section; a storage area estimation information storage section; and a storage area determination section.
A storage area management system for connecting a CPU according to claim 1, a storage area, and a storage area management device comprising a storage area management section via a network,
A storage area management system, wherein each of the storage area estimation apparatus and the storage area management apparatus includes a communication unit that communicates information with a communication apparatus via the network.
上記構造化データ記憶装置を第1のネットワークを介して接続して、構造化データ記憶装置から構造化データ記憶部が記憶する構造化データを上記第1のネットワークを介して取得して、取得した構造化データを情報処理機器が処理できるデータ形式の情報に変換する場合に、変換したデータ形式の情報を記憶するデータ記憶領域の記憶領域量を求めて、求めた記憶領域量を送信する記憶領域推定装置と、
上記記憶領域推定装置を第2のネットワークを介して接続して、上記記憶領域推定装置が送信した記憶領域量を上記第2のネットワークを介して受信する記憶領域管理装置と
を備え、
上記記憶領域管理装置は、
処理を実行するセントラル・プロセッシング・ユニット(Centoral Processing Unit:CPU)と、
上記CPUが処理を行った結果を記憶する記憶部と、
上記構造化データ記憶装置の構造化データ記憶部が記憶する構造化データを取得する指示を通信装置により送信するとともに、上記記憶領域推定装置が送信した記憶領域量を通信装置により受信して、受信した記憶領域量をCPUにより記憶部に記憶する通信部と、
上記通信部が受信した記憶領域量を記憶部より入力して、入力した記憶領域量に相当する記憶領域を、上記変換したデータ形式の情報を記憶するデータ記憶領域にCPUにより確保する記憶領域管理部と
を備え、
上記記憶領域推定装置は、
処理を実行するセントラル・プロセッシング・ユニット(Centoral Processing Unit:CPU)と、
上記CPUが処理を行った結果を記憶する記憶部と、
上記記憶領域管理装置が送信した構造化データを取得する指示を通信装置により受信して、受信した構造化データを取得する指示に基づいて上記構造化データ記憶装置の構造化データ記憶部から構造化データを通信装置により受信して記憶部にCPUにより記憶するとともに、上記記憶領域量を通信装置により送信する通信部と、
上記通信部が入力した構造化データをCPUにより解析して記憶領域量を推定するパラメータとなる解析結果情報を生成し、生成した解析結果情報をCPUにより記憶部に記憶する解析処理部と、
上記記憶領域量を推定するパラメータを複数記憶するとともに、複数のパラメータそれぞれに対応させて、上記記憶領域量を推定する記憶領域推定情報を予め記憶する記憶領域推定情報記憶部と、
上記解析処理部が生成した解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報記憶部から取得して、取得した記憶領域推定情報に基づいて上記記憶領域量を決定して、決定した記憶領域量をCPUにより記憶部に記憶する記憶領域決定部と
を備えた
ことを特徴とする記憶領域管理システム。 A structured data storage device comprising a structured data storage unit for storing structured data representing data-specific structures and relationships between data;
The structured data storage device is connected via the first network, and the structured data stored in the structured data storage unit is obtained from the structured data storage device via the first network. When converting structured data into information in a data format that can be processed by an information processing device, a storage area for obtaining the storage area amount of the data storage area for storing the converted data format information and transmitting the obtained storage area amount An estimation device;
A storage area management device that connects the storage area estimation device via a second network and receives the storage area amount transmitted by the storage area estimation device via the second network;
The storage area management device includes:
A central processing unit (CPU) for executing processing;
A storage unit for storing a result of processing performed by the CPU;
An instruction to acquire structured data stored in the structured data storage unit of the structured data storage device is transmitted by the communication device, and the storage region amount transmitted by the storage region estimation device is received by the communication device and received. A communication unit for storing the storage area amount by the CPU in the storage unit;
Storage area management in which the amount of storage area received by the communication unit is input from the storage unit, and the storage area corresponding to the input storage area amount is secured by the CPU in the data storage area for storing the information of the converted data format With
The storage area estimation device includes:
A central processing unit (CPU) for executing processing;
A storage unit for storing a result of processing performed by the CPU;
An instruction to obtain structured data transmitted by the storage area management device is received by the communication device, and structured from the structured data storage unit of the structured data storage device based on the received instruction to obtain structured data A communication unit that receives data by the communication device and stores the data in the storage unit by the CPU, and transmits the storage area amount by the communication device;
Analyzing the structured data input by the communication unit by the CPU to generate analysis result information that is a parameter for estimating the storage area amount, an analysis processing unit storing the generated analysis result information in the storage unit by the CPU,
A plurality of parameters for estimating the storage area amount, and a storage area estimation information storage unit that stores in advance storage area estimation information for estimating the storage area amount, corresponding to each of the plurality of parameters,
The analysis result information generated by the analysis processing unit is input from the storage unit, the storage region estimation information corresponding to the parameter that matches the input analysis result information is acquired from the storage region estimation information storage unit, and the acquired storage A storage area management system comprising: a storage area determination unit that determines the storage area amount based on area estimation information and stores the determined storage area amount in a storage unit by a CPU.
解析処理部が、構造化データを入力して、入力した構造化データをCPUにより解析して記憶領域量を推定するパラメータとなる解析結果情報を生成し、生成した解析結果情報をCPUにより記憶部に記憶する解析処理ステップと、
入力部が記憶領域量を推定する複数のパラメータと、複数のパラメータそれぞれに対応する記憶領域量を推定する記憶領域推定情報とを入力装置のより入力して、入力した複数のパラメータと複数のパラメータにそれぞれ対応する記憶領域推定情報を予め記憶領域推定情報記憶部に記憶する記憶領域推定情報記憶ステップと、
記憶領域決定部が、上記解析処理部により生成された解析結果情報を記憶部より入力して、入力した解析結果情報と適合するパラメータに対応する記憶領域推定情報を上記記憶領域推定情報記憶部から取得して、取得した記憶領域推定情報に基づいて上記記憶領域量を決定して、決定した記憶領域量をCPUにより記憶部に記憶する記憶領域決定ステップと、
記憶領域管理部が、上記記憶領域決定部により決定された記憶領域量に基づく記憶領域を、上記変換したデータ形式の情報を記憶するデータ記憶領域としてCPUにより確保する記憶領域管理ステップと
を有することを特徴とする記憶領域管理方法。 When converting structured data representing the data-specific structure and the relationship between the data into data format information that can be processed by the information processing device, the storage area amount of the data storage area for storing the converted data format information In the desired storage area management method,
The analysis processing unit inputs structured data, analyzes the input structured data by the CPU, generates analysis result information as a parameter for estimating the storage area amount, and stores the generated analysis result information by the CPU Analysis processing steps stored in
The input device inputs a plurality of parameters for estimating the storage area amount and storage area estimation information for estimating a storage area amount corresponding to each of the plurality of parameters from the input device. Storage area estimation information storage step for storing storage area estimation information respectively corresponding to the storage area estimation information storage unit in advance,
A storage area determination unit inputs analysis result information generated by the analysis processing unit from the storage unit, and stores storage area estimation information corresponding to a parameter that matches the input analysis result information from the storage area estimation information storage unit. A storage area determination step of acquiring, determining the storage area amount based on the acquired storage area estimation information, and storing the determined storage area amount in the storage unit by the CPU;
And a storage area management step in which the storage area management unit secures a storage area based on the storage area amount determined by the storage area determination unit as a data storage area for storing information of the converted data format. A storage area management method.
上記解析処理ステップは、上記解析処理部が、上記構造化データから特徴データを検出して、検出した結果から上記解析結果情報を生成する
ことを特徴とする請求項27記載の記憶領域管理方法。 The structured data has characteristic data characterizing the structure unique to the data,
28. The storage area management method according to claim 27, wherein, in the analysis processing step, the analysis processing unit detects feature data from the structured data, and generates the analysis result information from the detected result.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006049970A JP4750581B2 (en) | 2006-02-27 | 2006-02-27 | Storage area management method, storage area management apparatus, storage area management system, and storage area management method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006049970A JP4750581B2 (en) | 2006-02-27 | 2006-02-27 | Storage area management method, storage area management apparatus, storage area management system, and storage area management method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007226724A JP2007226724A (en) | 2007-09-06 |
JP4750581B2 true JP4750581B2 (en) | 2011-08-17 |
Family
ID=38548454
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006049970A Expired - Fee Related JP4750581B2 (en) | 2006-02-27 | 2006-02-27 | Storage area management method, storage area management apparatus, storage area management system, and storage area management method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4750581B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013214237A (en) * | 2012-04-03 | 2013-10-17 | Nippon Telegr & Teleph Corp <Ntt> | Configuration file analysis device and program |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05101111A (en) * | 1991-10-04 | 1993-04-23 | Toshiba Corp | Data processor |
JP2005107590A (en) * | 2003-09-26 | 2005-04-21 | Nippon Telegraph & Telephone West Corp | Method and system for accessing structured file, and program for accessing structured file |
-
2006
- 2006-02-27 JP JP2006049970A patent/JP4750581B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007226724A (en) | 2007-09-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3896111B2 (en) | Resource allocation system, method and program | |
US9785899B2 (en) | Configurable resource policies | |
JP5788344B2 (en) | Program, analysis method, and information processing apparatus | |
US7958511B1 (en) | Mechanism for estimating the computing resources needed to execute a job | |
EP1906315A1 (en) | Ontology-integration-position specifying apparatus, ontology-integration supporting method, and computer program product | |
JP2005174201A6 (en) | Resource allocation system, method and program | |
US20100017486A1 (en) | System analyzing program, system analyzing apparatus, and system analyzing method | |
JP2007048315A (en) | System, method, and program for resource assignment | |
US20130054680A1 (en) | Apparatus and method for collecting log information from a plurality of servers | |
JP2009528649A (en) | Improvements on distributed computing | |
US20210365350A1 (en) | Determination method and storage medium | |
CN110249312A (en) | Data integration operation changing | |
US8751503B2 (en) | Computer product, operation and management support apparatus and method | |
JP2010079511A (en) | Generation device, program, and generation method | |
US8655928B2 (en) | Device and method for storing file | |
JP4750581B2 (en) | Storage area management method, storage area management apparatus, storage area management system, and storage area management method | |
JP2009169757A (en) | Distributed processing program, distributed processing device, and distributed processing method | |
US8959126B2 (en) | Device management apparatus and device management method | |
US8326977B2 (en) | Recording medium storing system analyzing program, system analyzing apparatus, and system analyzing method | |
JP5515117B2 (en) | Data processing device | |
JP2009509196A (en) | Positioning screen elements | |
JP2006209650A (en) | Use right issuing method and use right issuing device | |
JP2009134511A (en) | Sizing device, sizing method, program for sizing, and recording medium | |
JP2019159610A (en) | Report creation program and report creation method | |
US20090228315A1 (en) | Project Assessment Using Project Yield Determination |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110517 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110519 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |