JP2014186457A - データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 - Google Patents

データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 Download PDF

Info

Publication number
JP2014186457A
JP2014186457A JP2013059957A JP2013059957A JP2014186457A JP 2014186457 A JP2014186457 A JP 2014186457A JP 2013059957 A JP2013059957 A JP 2013059957A JP 2013059957 A JP2013059957 A JP 2013059957A JP 2014186457 A JP2014186457 A JP 2014186457A
Authority
JP
Japan
Prior art keywords
data set
data
pair
rows
structuring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013059957A
Other languages
English (en)
Other versions
JP6045415B2 (ja
Inventor
Yasuyuki Watanabe
泰之 渡邊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2013059957A priority Critical patent/JP6045415B2/ja
Publication of JP2014186457A publication Critical patent/JP2014186457A/ja
Application granted granted Critical
Publication of JP6045415B2 publication Critical patent/JP6045415B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】表形式のデータ集合に対して、データ量の削減を可能とする効率的なデータ表現方式を得る。
【解決手段】データ集合Tに対して、(a)前記データ集合Tの各列において重複しない値の集合を抽出したデータ集合C1〜Cnを生成するステップと、(b)データ集合Tの各データについてデータ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、(c)データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出したデータ集合CpCqを生成するステップと、(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1に対応するCpCqをデータ集合D1とするステップと、(e)データ集合T0を、ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップとを含むデータ構造化方法。
【選択図】図3

Description

本発明はデータベースの符号化技術に係り、表形式のデータ集合に対し各列を構造化するためのデータ構造化方法、構造化情報を用いて元のデータ集合を再構成するデータ再構成方法、データ構造化プログラム、データ再構成プログラム及び、データ構造化とデータ再構成を実現するためのデータ符号化装置に関する。
符号化技術については、例えば特許文献1に示されるような種々方式が提案されているが、データベースの符号化技術において、データ量を削減(圧縮)するための一般的な方式としては、辞書符号化方式が存在する。この方式は、行列で構成された表形式のデータ集合に対して、各列の取り得る値を辞書として別のデータ集合で管理し、各列の項目において別のデータ集合を参照することで、バイト数の多いデータや重複するデータを効率的に表現し、結果的に全体のデータ量を削減するものである。
特表2011−530234号公報
しかしながら、この方式では、列単位での効率化は実現できるものの、複数の列を組み合わせて更なる効率化を図るものではなかった。
行列で構成された表形式のデータ集合において、行数が膨大になることを想定すると、計算機資源を節約するため、効率的なデータ表現方式を採用し、全体データ量を削減することが重要である。
本発明は上記実情に鑑みて提案されたもので、通信システムから時系列で生成されるログファイルのように、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ列間で連動して値が変化する特性を持つデータ集合に対して、効率的なデータ表現方式を提供するものである。
すなわち、本発明は、データを符号化する場合において、組み合わせてデータ量の削減効果が高い列の組を順次見出してデータの構造化を図るデータ構造化方法、構造化されたデータを用いて元のデータを再構成するデータ再構成方法、及び、これらの方法を実現するためのデータ符号化装置を提供することを目的としている。
上記目的を達成するため請求項1のデータ構造化方法は、1行が複数の列から構成され、複数の行からなる複数値のデータ集合Tに対して、次の各手順を行うことを特徴としている。
(a)前記データ集合Tの各列において、重複しない値の集合を抽出し、通し番号を振ったデータ集合C1〜Cnを生成するステップ。
(b)前記データ集合Tの各データについて、データ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップ。
(c)前記データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出し、通し番号を振ったデータ集合CpCqを生成するステップ。
(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1={Cp,Cq}を生成し、ペアD1に対応するCpCqをデータ集合D1とするステップ(複数の組合せがある場合は複数のペアを生成する。ただし、各列はどれか1つのペアにのみ属するものとする。)。
(e)前記データ集合T0を、前記ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップ。
請求項2は、請求項1のデータ構造化方法において、前記ステップ(c)乃至(e)を繰り返す手順を含むことを特徴としている。
請求項3は、請求項2のデータ構造化方法を行うに際して、前記ステップ(c)乃至(e)の繰り返し手順において、前記ステップ(d)における行数が最も少ない場合の行数が、元のデータ集合Tの行数と等しくなった場合に、ステップ(c)乃至(e)の繰り返し手順を終了し、残った全ての列をペアDm={Cp,Cq,Cr,...}とし、データ集合Tm-1をデータ集合Dmとするステップを含むことを特徴としている。
請求項4は、データ再構成方法であり、前記請求項1乃至請求項3のいずれかに記載のデータ構造化方法の各ステップを実施した後に、
前記データ集合Tに対して、
(f)データ集合C1〜Cnを取得するステップと、
(g)全てのペアDiに対して、データ集合Diを取得するステップと、
を含むことを特徴としている。
請求項5は、請求項4のデータ再構成方法を行うに際して、前記ステップ(g)において、以下のいずれかの条件を満たすDiのデータ集合Diを取得するステップを含むことを特徴とする。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合、
(2)Diが要素となるペアDjが存在しない場合、
条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。
請求項6は、各行に対して複数の列を有して構成される表形式のデータ集合(初期データ集合)を構造化するとともに、構造化情報を用いて前記初期データ集合を再構成するデータ符号化装置であって、次の構成を含むことを特徴としている。
前記各列について重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段。
前記初期データ集合の各列を前記各基本データ集合に置き換えて初期データ集合を書き換えたデータ集合を作成するデータ集合再構成手段。
データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段。
前記抽出データ集合から行数が最も少ない列の組み合わせをペアとするペア選択手段。
前記ペアを用いて置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段。
前記基本データ集合及び各データ集合Tnと前記ペアを基に前記初期データ集合を再構成する再構成手段。
請求項7は、請求項6に記載のデータ符号化装置において、前記再構成手段で使用されるペアは、以下のいずれかの条件を満たすデータ集合Diであることを特徴としている。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合、
(2)Diが要素となるペアDjが存在しない場合、
条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。
請求項8は、請求項1乃至請求項3のいずれか1項に記載のデータ構造化方法の各ステップをコンピュータにより実行可能としたデータ構造化プログラムを特徴としている。
請求項9は、請求項4又は請求項5に記載のデータ再構成方法の各ステップをコンピュータにより実行可能としたデータ再構成プログラムを特徴としている。
本発明によれば、行列で構成された表形式のデータ集合をまず構造化し、さらに構造化情報を用いて元のデータ集合を再構成することにより、全体データ量を削減することができ、計算機資源をより効率的に利用することが可能となる。
本発明のデータ符号化装置の全体構成を示すブロック図である。 データ集合(初期データ)の各データを示す表である。 構造化を行う場合の処理手順(手順1)を示すフローチャートである。 再構成を行う場合の処理手順(手順2)を示すフローチャートである。 構造化するに際して算出した各列に対応するデータ集合を示す表である。 構造化するに際して算出したデータ集合T0を示す表である。 (a)〜(c)は、構造化するに際して2つの列の組合せで重複しない値の集合を抽出して作成した各データ集合を示す表である。 (a)〜(c)は、構造化するに際して2つの列の組合せで重複しない値の集合を抽出して作成した各データ集合を示す表である。 ペアを生成するための説明図であり、(a)は列の組み合せ表、(b)は構造化情報のモデル、(c)はペアD1に対応するデータ集合D1を示す。 構造化するに際して算出したデータ集合T1を示す表である。 (a)及び(b)は、構造化するに際してデータ集合T1の2つの列の組合せで重複しない値の集合を抽出して作成した各データ集合を示す表である。 ペアを生成するための説明図であり、(a)は列の組み合せ表、(b)は構造化情報のモデル、(c)はペアD2に対応するデータ集合D2を示す。 構造化するに際して算出したデータ集合T2を示す表である。 ペアを生成するための説明図であり、(a)は構造化情報のモデル、(b)はペアD3に対応するデータ集合D3を示す。 再構成化するに際して取得・展開したデータ集合を示した説明図である。
本発明のデータ構造化方法及びデータ再構成方法、この方法を実施するためのデータ符号化装置の実施形態の一例について、図面を参照して説明する。
本発明方法は、複数の行列で構成される表形式のデータ集合を符号化するものであり、特に、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ列間で連動して値が変化する特性を持つデータ集合に対して、効率良い符号化が可能な方法である。
データ符号化装置10は、オペレーティングシステム(OS)を含む基本プログラムやメモリ、プログラムを実行するCPU等コンピュータが有する主要な構成を備え、本発明のデータ構造化プログラム及びデータ再構成プログラムがインストールされることで構築されている。
データ符号化装置10は、図1に示すように、元のデータ集合に対し辞書符号化方式により符号化を行う符号化部11と、データ集合の各列の構造化を行う構造化部12と、構造化情報を用いて元のデータ集合を再構成する再構成部13と、各データを記憶する記憶部14とを有している。
元データとなるデータ集合は、図2に示すように、行列で構成された表形式のデータ集合である。
記憶部14には、表形式のデータ集合Tが入力されるとともに、符号化、構造化及び再構成化に必要な各データ(データ集合)が記録される。
符号化部11は、データ集合の構造化および再構成化を行うにあたって必要となる各種のデータ集合を作成するための手段が含まれている。この手段は、元のデータ集合Tの各列について、重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段と、データ集合Tの各列の値を対応する基本データ集合の値に置き換えてデータ集合Tを書き換えたデータ集合T0を作成するデータ集合再構成手段を備えている。
構造化部12は、データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段と、作成された列の組み合わせ毎のデータ集合から行数が最も少ない列の組み合わせをペアとするペア選択手段と、前記ペアを用いてデータを置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段とを備える。
再構成部13は、データ集合の再構成化に必要データを記録部14から読み出し、符号化部11で作成したデータ集合及び構造化部12のデータを基に、元のデータ集合T0を再構成する。
次に、図2で示したデータ集合を想定して本発明方法のデータ構造化方法及びデータ再構成方法が行われる手順について、図3及び図4のフローチャートと、図5〜図15のデータ集合を参照して説明する。
符号化前の元のデータ集合は、図2に示すように、10個の行と4個の列から成る表形式のデータ集合Tを構成している。
本発明方法は、このデータ集合Tに対して、後述する手順1に基づいて列データを構造化するデータ構造化方法(図3)と、構造化情報を用いて、手順2に基づいて元のデータ集合Tを再構成する再構成方法(図4)とを有している。
以下、手順1によるデータ構造化処理について、図3及び図5〜図14を参照して説明する。
(手順1)
データ集合Tの各列について、重複しない値の集合を抽出し、図5に示す各データ集合(データ集合C1,データ集合C2,データ集合C3,データ集合C4)を生成する(ステップ0a)。この処理は、符号化部11の基本データ集合作成手段において、記憶部14よりデータ集合Tを読み出し、重複しないデータ集合(C1〜Cn)を抽出して、記憶部14へ格納することで行われる。
データ集合C1〜C4を参照して、データ集合Tの各列のデータを置き換えて辞書符号化したデータ集合T0(図6)を生成する(ステップ0b)。この処理は、符号化部11のデータ集合再構成手段において、データ集合C1〜C4を用いてデータ集合Tを変換し、結果となるデータ集合T0を記憶部14に格納することで行われる。
2つの列の各組合せ(C1C2, C1C3, C1C4, C2C3, C2C4, C3C4)において、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合C1C2, C1C3, C1C4, C2C3, C2C4, C3C4(図7及び図8)を生成する(ステップ1)。この処理は、構造化部12の抽出データ集合作成手段において、記憶部14よりデータ集合C1〜C4を読み出し、重複しない値の集合を抽出してそれぞれデータ集合CpCqを生成し、結果を記憶部14に格納することで行われる。
データ集合C1〜C4の組み合わせによる行数(図9(a))から、行数が最も少ない列の組合せを求め、ペアD1を生成する(ステップ2)。この例の場合、ペアD1は、「C1とC3」の組合せとなり、その行数は「2」となる。行数が最も少ない組合せが複数ある場合は、複数のペアを生成する。ただし、各列は、どれか1つのペアにのみ属するものとする。
ペアとなる2つの列の組合せのデータ集合をデータ集合D1(図9(c))とする。また、データ集合D1の行数をND1で表す。この例では、ND1は「2」となる。
この処理は、構造化部12のペア選択手段において、ステップ1で生成したデータ集合を元に上記により図9(b)のような構造化に関する情報を生成し、結果を記憶部14に格納することで行われる。図9(b)の構造化情報は、データ集合C1〜C4に対して、「C1とC3」の組合せがペアD1となり、データ集合D1の行数が「2」であることを示している。
生成したペアD1「C1とC3」を用いてデータ集合T0(図6)を再構成しデータ集合T1(図10)とする(ステップ3)。この処理は、構造化部12のデータ集合再構成手段において、記憶部14よりデータ集合T0を読み出し、ステップ2で生成したペア情報を用いてデータ集合T0を変換し、結果となるデータ集合T1を記憶部14に格納することで行われる。
続いて、データ集合T1に対して、上述したステップ1〜ステップ3の処理を繰り返して行う。
すなわち、データ集合T1における2つの列の各組合せ(D1C2, D1C4, C2C4)において、行毎に値を連結した場合に重複しない値の集合を抽出し、データ集合D1C2, D1C4(図11)を生成する(ステップ1)。データ集合C2C4については前回のステップ1で既に作成されている(図8(b))。
データ集合D1, C2, C4の組み合わせによる行数(図12(a))から、行数が最も少ない列の組合せを求め、ペアD2を生成する(ステップ2)。
生成したペアD2を用いてデータ集合T1(図10)を再構成しデータ集合(図13)とする(ステップ3)。この例では、ペアD2は「D1,C4」となり、ND2は「5」となる。
この処理は、構造化部12において、ステップ1で生成したデータ集合を元に上記により図12(b)のような構造化に関する情報を生成し、結果を記憶部14に格納することで行われる。図12(b)の構造化情報は、図9(b)の構造化情報に加えて、「D1とC4」の組合せがペアD2となり、データ集合D2の行数が「5」であることを示している。
ステップ1〜ステップ3の処理は、ステップ2でNDiが元のデータ集合Tにおける全体の行数に等しくなるまで繰り返して行う(ステップ10)。
この例では、次の繰り返し処理にてデータ集合D2C2が唯一生成され、「D2とC2」の組合せがペアD3となる。データ集合D2C2の行数ND3が「10」となり、元のデータ集合Tの行数に等しくなるので、この時点でデータ構造化は終了し、残りの列を全て1つのペアD3(ペアDm)とする(ステップ11)。この例では、ペアD3は「D2とC2」となり、ND3は「10」となる。
この処理は、構造化部12におけるペア生成処理の終了判定(生成したペアDmのデータ集合Dmの行数が元のデータ集合Tの行数に等しくなるか否かの判定)で行われる。
上述の処理で与えられたデータ集合Tm-1は、図14(b)のように符号化されたデータ集合Dmとなる。また、図14(a)のような構造化情報を取得する。
図14(a)の構造化情報は、図9(b)及び図10(b)の構造化情報に加えて、「D2とC2」の組合せがペアD3となり、データ集合D3の行数が「10」であることを示している。
続いて、構造化情報を用いて元のデータ集合を再構成する手順2によるデータ再構成化処理について、図2及び図15を参照して説明する。
(手順2)
先ず、上述した図3のステップ0aで生成したデータ集合を全て取得する(ステップ21)。
次に、全てのDiに対して、以下の条件(1)又は(2)のいずれかを満たすDiのデータ集合Diを取得する(ステップ22〜26)。
(1)Diが要素となるDjが存在し、NDi<NDj/2 を満足する。
(2)Diが要素となるDjが存在しない。
Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて(再帰的に)展開する。
これらの処理は、再構成部(再構成手段)13において、上記条件を満たすデータ集合を記憶部14より読み出し、あるいは読み出したデータを元に生成し、最終的に再構成後のデータ集合として結果を出力することで行われる。
上述したデータ集合T(図2)の例で説明すると、先ず、図3のステップ0aで生成したデータ集合C1, C2, C3, C4を全て取得する(図15)。
次に、ペアD1については、D1が要素となるペアD2が存在し、ND1(2)<ND2(5)/2が成立するので、データ集合D1を取得する(図15)。
ペアD2については、D2が要素となるペアD3が存在するが、ND2(5)<ND3(10)/2が成立しない(ND2(5)=ND3(10)/2)。
ペアD3については、D3が要素となるペアDjが存在しないので、データ集合D3をデータ集合D2を用いて展開してデータ集合D3(展開後)を取得する(図15)。
その結果、データ集合C1, C2, C3, C4、データ集合D1、データ集合D3(展開後)を取得し記憶部14に記憶する。これらが、元のデータ集合Tを再構成した結果となり、内容はデータ集合Tと同等である。
上述したデータ符号化装置において符号化に必要な各データ集合のデータ量について考えると、データ集合Aのデータ量をSA(再構成後の全てのデータを含む)、データ集合Aの行数をNA、元のデータ集合の行数をN、列Cのバイト数をLC、行番号を表す列のバイト数をLとした場合、データ集合1, 2 , 3 ,4のデータ量S1, S2, S3, S4はそれぞれ次式のようになる。
ST= ( L列1 + L列2 + L列3 + L列4 ) × N
ST0= 4 × L × N + ΣL列i × NCi
ST1= 3 × L × N + 2 × L × ND1 + ΣL列i × NCi
ST2= 2 × L × N + 2 × L × ND2 + 2 × L × ND1 + ΣL列i × NCi
前提として L列i>L、N>NCi と考えてよいので、ST>ST0 が導かれる。
また、N>2 x ND1 であれば、 ST0>ST1 が導かれる。
同様に、N>2 x ND2 であれば、 ST1>ST2 が導かれる。
したがって、前提条件下においては、データ構造化および再構成化処理を繰り返す毎にデータ量は減少するので、本装置によりデータ集合の全体データ量を削減することができる。
上述したデータ符号化装置によれば、通信システムから時系列で生成されるログファイルのように、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ、行の値に対して列間で連動して値が変化する特性を持つデータ集合に対して、組み合わせて効果が高い列の組を見出して構造化を図ることにより、効率的なデータ表現を行ってデータ量の削減を達成することができる。
10…データ符号化装置、 11…符号化部、 12…構造化部、 13…再構成部、 14…記憶部。

Claims (9)

  1. 1行が複数の列から構成され、複数の行からなる複数値のデータ集合Tに対して、
    (a)前記データ集合Tの各列において、重複しない値の集合を抽出し、通し番号を振ったデータ集合C1〜Cnを生成するステップと、
    (b)前記データ集合Tの各データについて、データ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、
    (c)前記データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出し、通し番号を振ったデータ集合CpCqを生成するステップと、
    (d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1={Cp,Cq}を生成し、ペアD1に対応するCpCqをデータ集合D1とするステップと、
    (e)前記データ集合T0を、前記ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップと、
    を含むことを特徴とするデータ構造化方法。
  2. 前記ステップ(c)乃至(e)を繰り返す手順を含むことを特徴とする請求項1に記載のデータ構造化方法。
  3. 前記ステップ(c)乃至(e)の繰り返し手順において、前記ステップ(d)における行数が最も少ない場合の行数が、元のデータ集合Tの行数と等しくなった場合に、ステップ(c)乃至(e)の繰り返し手順を終了し、残った全ての列をペアDm={Cp,Cq,Cr,...}とし、データ集合Tm-1をデータ集合Dmとするステップを含むことを特徴とする請求項2に記載のデータ構造化方法。
  4. 前記請求項1乃至請求項3のいずれかに記載のデータ構造化方法の各ステップを実施した後に、
    前記データ集合Tに対して、
    (f)データ集合C1〜Cnを取得するステップと、
    (g)全てのペアDiに対して、データ集合Diを取得するステップと、
    を含むデータ再構成方法。
  5. 前記ステップ(g)において、以下のいずれかの条件を満たすDiのデータ集合Diを取得するステップを含むことを特徴とする請求項4に記載のデータ再構成方法。
    (1)Diが要素となるペアDjが存在し、
    (データ集合Diの行数)<(データ集合Djの行数)/2
    を満たす場合、
    (2)Diが要素となるペアDjが存在しない場合、
    条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。
  6. 各行に対して複数の列を有して構成される表形式のデータ集合(初期データ集合)を構造化するとともに、構造化情報を用いて前記初期データ集合を再構成するデータ符号化装置であって、
    前記各列について重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段と、
    前記初期データ集合の各列を前記各基本データ集合に置き換えて初期データ集合を書き換えたデータ集合を作成するデータ集合再構成手段と、
    データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段と、
    前記抽出データ集合から、行数が最も少ない列の組み合わせをペアとするペア選択手段と、
    前記ペアを用いて置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段と、
    前記基本データ集合及び各データ集合Tnと前記ペアを基に前記初期データ集合を再構成する再構成手段と、
    を備えたことを特徴とするデータ符号化装置。
  7. 前記再構成手段で使用されるペアは、以下のいずれかの条件を満たすデータ集合Diである請求項6に記載のデータ符号化装置。
    (1)Diが要素となるペアDjが存在し、
    (データ集合Diの行数)<(データ集合Djの行数)/2
    を満たす場合、
    (2)Diが要素となるペアDjが存在しない場合、
    条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合は、データ集合Diについてデータ集合Dkを用いて再帰的に展開して得る。
  8. 請求項1乃至請求項3のいずれか1項に記載のデータ構造化方法の各ステップをコンピュータにより実行可能としたことを特徴とするデータ構造化プログラム。
  9. 請求項4又は請求項5に記載のデータ再構成方法の各ステップをコンピュータにより実行可能としたことを特徴とするデータ再構成プログラム。
JP2013059957A 2013-03-22 2013-03-22 データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 Expired - Fee Related JP6045415B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013059957A JP6045415B2 (ja) 2013-03-22 2013-03-22 データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013059957A JP6045415B2 (ja) 2013-03-22 2013-03-22 データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置

Publications (2)

Publication Number Publication Date
JP2014186457A true JP2014186457A (ja) 2014-10-02
JP6045415B2 JP6045415B2 (ja) 2016-12-14

Family

ID=51833995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013059957A Expired - Fee Related JP6045415B2 (ja) 2013-03-22 2013-03-22 データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置

Country Status (1)

Country Link
JP (1) JP6045415B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016170594A1 (ja) * 2015-04-21 2016-10-27 株式会社日立製作所 計算機、データベース処理方法、及び集積回路
JP2018182466A (ja) * 2017-04-07 2018-11-15 富士通株式会社 符号化プログラム、符号化方法および符号化装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011090526A (ja) * 2009-10-22 2011-05-06 Fujitsu Ltd 圧縮プログラム、方法及び装置、並びに解凍プログラム、方法及び装置
JP2011530234A (ja) * 2008-07-31 2011-12-15 マイクロソフト コーポレーション 大規模なデータストレージのための効率的な列ベースデータの符号化
JP2012226502A (ja) * 2011-04-19 2012-11-15 Nec Corp ファイルアクセスログ圧縮システム、ファイルアクセスログ圧縮方法、及びファイルアクセスログ圧縮プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011530234A (ja) * 2008-07-31 2011-12-15 マイクロソフト コーポレーション 大規模なデータストレージのための効率的な列ベースデータの符号化
JP2011090526A (ja) * 2009-10-22 2011-05-06 Fujitsu Ltd 圧縮プログラム、方法及び装置、並びに解凍プログラム、方法及び装置
JP2012226502A (ja) * 2011-04-19 2012-11-15 Nec Corp ファイルアクセスログ圧縮システム、ファイルアクセスログ圧縮方法、及びファイルアクセスログ圧縮プログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016170594A1 (ja) * 2015-04-21 2016-10-27 株式会社日立製作所 計算機、データベース処理方法、及び集積回路
JP2018182466A (ja) * 2017-04-07 2018-11-15 富士通株式会社 符号化プログラム、符号化方法および符号化装置
US11323132B2 (en) 2017-04-07 2022-05-03 Fujitsu Limited Encoding method and encoding apparatus
JP7210130B2 (ja) 2017-04-07 2023-01-23 富士通株式会社 符号化プログラム、符号化方法および符号化装置

Also Published As

Publication number Publication date
JP6045415B2 (ja) 2016-12-14

Similar Documents

Publication Publication Date Title
Baharav et al. Straggler-proofing massive-scale distributed matrix multiplication with d-dimensional product codes
Li et al. A generic transformation for optimal repair bandwidth and rebuilding access in MDS codes
US9390098B2 (en) Fast approximation to optimal compression of digital data
JP2007221720A5 (ja)
CN104040899B (zh) 生成符号的代码字母表以便为与程序一起使用的字生成代码字
Bao et al. Differencing provenance in scientific workflows
CN112991472B (zh) 一种基于残差稠密阈值网络的图像压缩感知重建方法
JPWO2019241422A5 (ja)
JP6367444B2 (ja) 関係データをトランスポートする方法
JP6232522B2 (ja) 計算機及びグラフデータ生成方法
JP6045415B2 (ja) データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置
CN115952528A (zh) 一种多尺度联合文本隐写方法及系统
Zou et al. Quality-aware data management for large scale scientific applications
CN109062724A (zh) 一种纠删码转换方法及终端
CN106452451B (zh) 数据处理方法及装置
JP5454826B2 (ja) 故障の木システム信頼性分析システム、故障の木システム信頼性分析方法及びプログラム
US11271732B2 (en) Robust repeatable entropy extraction from noisy source
JP2020510935A5 (ja)
JP7099316B2 (ja) 類似度演算装置、方法、およびプログラム
CN104572921A (zh) 一种跨数据中心的数据同步方法和装置
KR102197993B1 (ko) 분할 반복 부호를 이용한 데이터 분산 저장 장치 및 방법
JP7133534B2 (ja) 化合物の構造を自動生成するための化合物構造自動生成装置、化合物構造自動生成プログラム及び化合物構造自動生成方法
JP2018013924A (ja) 移動体経路検索装置、記号列検索装置、及びプログラム
Heule et al. Clausal Proof Compression.
CN107515867A (zh) 一种NoSQL数据库的数据存储、查询方法和装置以及一种rowKey全组合的生成方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150827

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160608

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160805

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20160810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161115

R150 Certificate of patent or registration of utility model

Ref document number: 6045415

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees