JP6045415B2 - データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 - Google Patents
データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 Download PDFInfo
- Publication number
- JP6045415B2 JP6045415B2 JP2013059957A JP2013059957A JP6045415B2 JP 6045415 B2 JP6045415 B2 JP 6045415B2 JP 2013059957 A JP2013059957 A JP 2013059957A JP 2013059957 A JP2013059957 A JP 2013059957A JP 6045415 B2 JP6045415 B2 JP 6045415B2
- Authority
- JP
- Japan
- Prior art keywords
- data set
- data
- pair
- structuring
- rows
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
行列で構成された表形式のデータ集合において、行数が膨大になることを想定すると、計算機資源を節約するため、効率的なデータ表現方式を採用し、全体データ量を削減することが重要である。
すなわち、本発明は、データを符号化する場合において、組み合わせてデータ量の削減効果が高い列の組を順次見出してデータの構造化を図るデータ構造化方法、構造化されたデータを用いて元のデータを再構成するデータ再構成方法、及び、これらの方法を実現するためのデータ符号化装置を提供することを目的としている。
前記符号化部により、
(a)前記データ集合Tの各列において、重複しない値の集合を抽出し、通し番号を振ったデータ集合C1〜Cnを生成するステップと、
(b)前記データ集合Tの各データについて、データ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、
を実行し、
前記構造化部により、
(c)前記データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出し、通し番号を振ったデータ集合CpCqを生成するステップと、
(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1={Cp,Cq}を生成し、ペアD1に対応するCpCqをデータ集合D1とするステップと、
(e)前記データ集合T0を、前記ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップと、
を実行する。
前記請求項1乃至請求項3のいずれかに記載のデータ構造化方法の各ステップを実施した後に、
前記データ集合Tに対して、
前記再構成部により、
(f)データ集合C1〜Cnを取得するステップと、
(g)全てのペアDiに対して、データ集合Diを取得するステップと、
を実行する
ことを特徴としている。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合。
(2)Diが要素となるペアDjが存在しない場合。
(2)の場合、(2)の条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合に、データ集合Dkを用いて再帰的に展開して前記データ集合Diを得る。
前記各列について重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段。
前記初期データ集合の各要素を前記各基本データ集合の値を参照して置き換えて初期データ集合を書き換えたデータ集合を作成するデータ集合再構成手段。
データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段。
前記抽出データ集合作成手段で作成したデータ集合から、行数が最も少ない列の組み合わせをペアとするペア選択手段。
前記ペアを用いて置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段。
前記基本データ集合及び各データ集合Tnと前記ペアを基に前記初期データ集合を再構成する再構成手段。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合。
(2)Diが要素となるペアDjが存在しない場合。
(2)の場合、(2)の条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合に、データ集合Dkを用いて再帰的に展開して前記データ集合Diを得る。
本発明方法は、複数の行列で構成される表形式のデータ集合を符号化するものであり、特に、列数が多く、行数と比較して各列の取り得る値の種類が少数に限定され、且つ列間で連動して値が変化する特性を持つデータ集合に対して、効率良い符号化が可能な方法である。
データ符号化装置10は、図1に示すように、元のデータ集合に対し辞書符号化方式により符号化を行う符号化部11と、データ集合の各列の構造化を行う構造化部12と、構造化情報を用いて元のデータ集合を再構成する再構成部13と、各データを記憶する記憶部14とを有している。
記憶部14には、表形式のデータ集合Tが入力されるとともに、符号化、構造化及び再構成化に必要な各データ(データ集合)が記録される。
符号化前の元のデータ集合は、図2に示すように、10個の行と4個の列から成る表形式のデータ集合Tを構成している。
以下、手順1によるデータ構造化処理について、図3及び図5〜図14を参照して説明する。
データ集合Tの各列について、重複しない値の集合を抽出し、図5に示す各データ集合(データ集合C1,データ集合C2,データ集合C3,データ集合C4)を生成する(ステップ0a)。この処理は、符号化部11の基本データ集合作成手段において、記憶部14よりデータ集合Tを読み出し、重複しないデータ集合(C1〜Cn)を抽出して、記憶部14へ格納することで行われる。
ペアとなる2つの列の組合せのデータ集合をデータ集合D1(図9(c))とする。また、データ集合D1の行数をND1で表す。この例では、ND1は「2」となる。
すなわち、データ集合T1における2つの列の各組合せ(D1C2, D1C4, C2C4)において、行毎に値を連結した場合に重複しない値の集合を抽出し、データ集合D1C2, D1C4(図11)を生成する(ステップ1)。データ集合C2C4については前回のステップ1で既に作成されている(図8(b))。
データ集合D1, C2, C4の組み合わせによる行数(図12(a))から、行数が最も少ない列の組合せを求め、ペアD2を生成する(ステップ2)。
この処理は、構造化部12において、ステップ1で生成したデータ集合を元に上記により図12(b)のような構造化に関する情報を生成し、結果を記憶部14に格納することで行われる。図12(b)の構造化情報は、図9(b)の構造化情報に加えて、「D1とC4」の組合せがペアD2となり、データ集合D2の行数が「5」であることを示している。
この例では、次の繰り返し処理にてデータ集合D2C2が唯一生成され、「D2とC2」の組合せがペアD3となる。データ集合D2C2の行数ND3が「10」となり、元のデータ集合Tの行数に等しくなるので、この時点でデータ構造化は終了し、残りの列を全て1つのペアD3(ペアDm)とする(ステップ11)。この例では、ペアD3は「D2とC2」となり、ND3は「10」となる。
この処理は、構造化部12におけるペア生成処理の終了判定(生成したペアDmのデータ集合Dmの行数が元のデータ集合Tの行数に等しくなるか否かの判定)で行われる。
図14(a)の構造化情報は、図9(b)及び図10(b)の構造化情報に加えて、「D2とC2」の組合せがペアD3となり、データ集合D3の行数が「10」であることを示している。
(手順2)
先ず、上述した図3のステップ0aで生成したデータ集合を全て取得する(ステップ21)。
次に、全てのDiに対して、以下の条件(1)又は(2)のいずれかを満たすDiのデータ集合Diを取得する(ステップ22〜26)。
(1)Diが要素となるDjが存在し、NDi<NDj/2 を満足する。
(2)Diが要素となるDjが存在しない。
これらの処理は、再構成部(再構成手段)13において、上記条件を満たすデータ集合を記憶部14より読み出し、あるいは読み出したデータを元に生成し、最終的に再構成後のデータ集合として結果を出力することで行われる。
次に、ペアD1については、D1が要素となるペアD2が存在し、ND1(2)<ND2(5)/2が成立するので、データ集合D1を取得する(図15)。
ペアD2については、D2が要素となるペアD3が存在するが、ND2(5)<ND3(10)/2が成立しない(ND2(5)=ND3(10)/2)。
ペアD3については、D3が要素となるペアDjが存在しないので、データ集合D3をデータ集合D2を用いて展開してデータ集合D3(展開後)を取得する(図15)。
その結果、データ集合C1, C2, C3, C4、データ集合D1、データ集合D3(展開後)を取得し記憶部14に記憶する。これらが、元のデータ集合Tを再構成した結果となり、内容はデータ集合Tと同等である。
ST0= 4 × L × N + ΣL列i × NCi
ST1= 3 × L × N + 2 × L × ND1 + ΣL列i × NCi
ST2= 2 × L × N + 2 × L × ND2 + 2 × L × ND1 + ΣL列i × NCi
また、N>2 x ND1 であれば、 ST0>ST1 が導かれる。
同様に、N>2 x ND2 であれば、 ST1>ST2 が導かれる。
したがって、前提条件下においては、データ構造化および再構成化処理を繰り返す毎にデータ量は減少するので、本装置によりデータ集合の全体データ量を削減することができる。
Claims (9)
- 元のデータ集合に対し符号化を行う符号化部と、データ集合の各列の構造化を行う構造化部と、各データを記憶する記憶部とを備えたデータ符号化装置を使用してデータの構造化を行う方法であって、
1行が複数の要素から構成され、複数の行からなる複数値の前記記憶部から読み出されるデータ集合Tに対して、
前記符号化部により、
(a)前記データ集合Tの各列において、重複しない値の集合を抽出し、通し番号を振ったデータ集合C1〜Cnを生成するステップと、
(b)前記データ集合Tの各データについて、データ集合C1〜Cnを参照して書き換えたデータ集合T0を生成するステップと、
を実行し、
前記構造化部により、
(c)前記データ集合T0の全ての列の組合せにおいて、行毎に値を連結した場合に重複しない値の集合を抽出し、通し番号を振ったデータ集合CpCqを生成するステップと、
(d)前記ステップ(c)で生成したCpCqにおいて、行数が最も少ない列の組合せであるペアD1={Cp,Cq}を生成し、ペアD1に対応するCpCqをデータ集合D1とするステップと、
(e)前記データ集合T0を、前記ペアD1によりデータ集合D1を参照して書き換えたデータ集合T1を生成するステップと、
を実行することを特徴とするデータ構造化方法。 - 前記ステップ(c)乃至(e)を繰り返す手順を含むことを特徴とする請求項1に記載のデータ構造化方法。
- 前記ステップ(c)乃至(e)の繰り返し手順において、前記ステップ(d)における行数が最も少ない場合の行数が、元のデータ集合Tの行数と等しくなった場合に、ステップ(c)乃至(e)の繰り返し手順を終了し、残った全ての列をペアDm={Cp,Cq,Cr,...}とし、データ集合Tm-1をデータ集合Dmとするステップを含むことを特徴とする請求項2に記載のデータ構造化方法。
- 前記データ符号化装置は、前記構造化部の構造化情報を用いて元のデータ集合を再構成する再構成部を備え、
前記請求項1乃至請求項3のいずれかに記載のデータ構造化方法の各ステップを実施した後に、
前記データ集合Tに対して、
前記再構成部により、
(f)データ集合C1〜Cnを取得するステップと、
(g)全てのペアDiに対して、データ集合Diを取得するステップと、
を実行するデータ再構成方法。 - 前記ステップ(g)において、以下のいずれかの条件を満たすDiのデータ集合Diを取得するステップを含むことを特徴とする請求項4に記載のデータ再構成方法。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合。
(2)Diが要素となるペアDjが存在しない場合。
(2)の場合、(2)の条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合に、データ集合Dkを用いて再帰的に展開して前記データ集合Diを得る。 - 各行に対して複数の列を有して構成される表形式のデータ集合(初期データ集合)を構造化するとともに、構造化情報を用いて前記初期データ集合を再構成するデータ符号化装置であって、
前記各列について重複しない値の集合を抽出した列毎の基本データ集合を作成する基本データ集合作成手段と、
前記初期データ集合の各要素を前記各基本データ集合の値を参照して置き換えて初期データ集合を書き換えたデータ集合を作成するデータ集合再構成手段と、
データ集合Tn-1を構成する列から2つの列の組み合わせを順次選択し、行毎に値を連結した場合に重複しない値の集合を抽出し、それぞれデータ集合を作成する抽出データ集合作成手段と、
前記抽出データ集合作成手段で作成したデータ集合から、行数が最も少ない列の組み合わせをペアとするペア選択手段と、
前記ペアを用いて置き換えることで前記データ集合Tn-1を書き換えたデータ集合Tnを作成するデータ集合再構成手段と、
前記基本データ集合及び各データ集合Tnと前記ペアを基に前記初期データ集合を再構成する再構成手段と、
を備えたことを特徴とするデータ符号化装置。 - 前記再構成手段で使用されるペアは、以下のいずれかの条件を満たすデータ集合Diである請求項6に記載のデータ符号化装置。
(1)Diが要素となるペアDjが存在し、
(データ集合Diの行数)<(データ集合Djの行数)/2
を満たす場合。
(2)Diが要素となるペアDjが存在しない場合。
(2)の場合、(2)の条件を満たすペアDiにおいて、Diの要素に条件を満たさないDkが存在する場合に、データ集合Dkを用いて再帰的に展開して前記データ集合Diを得る。 - 請求項1乃至請求項3のいずれか1項に記載のデータ構造化方法の各ステップをコンピュータにより実行可能としたことを特徴とするデータ構造化プログラム。
- 請求項4又は請求項5に記載のデータ再構成方法の各ステップをコンピュータにより実行可能としたことを特徴とするデータ再構成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013059957A JP6045415B2 (ja) | 2013-03-22 | 2013-03-22 | データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013059957A JP6045415B2 (ja) | 2013-03-22 | 2013-03-22 | データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014186457A JP2014186457A (ja) | 2014-10-02 |
JP6045415B2 true JP6045415B2 (ja) | 2016-12-14 |
Family
ID=51833995
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013059957A Expired - Fee Related JP6045415B2 (ja) | 2013-03-22 | 2013-03-22 | データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6045415B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016170594A1 (ja) * | 2015-04-21 | 2016-10-27 | 株式会社日立製作所 | 計算機、データベース処理方法、及び集積回路 |
JP7210130B2 (ja) * | 2017-04-07 | 2023-01-23 | 富士通株式会社 | 符号化プログラム、符号化方法および符号化装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8108361B2 (en) * | 2008-07-31 | 2012-01-31 | Microsoft Corporation | Efficient column based data encoding for large-scale data storage |
JP5549177B2 (ja) * | 2009-10-22 | 2014-07-16 | 富士通株式会社 | 圧縮プログラム、方法及び装置、並びに解凍プログラム、方法及び装置 |
JP2012226502A (ja) * | 2011-04-19 | 2012-11-15 | Nec Corp | ファイルアクセスログ圧縮システム、ファイルアクセスログ圧縮方法、及びファイルアクセスログ圧縮プログラム |
-
2013
- 2013-03-22 JP JP2013059957A patent/JP6045415B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2014186457A (ja) | 2014-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2009506606A5 (ja) | ||
JP6239652B2 (ja) | 符号化の方法および符号化装置 | |
US10366464B2 (en) | Generating interpolated input data sets using reduced input source objects | |
JPWO2019241422A5 (ja) | ||
CN104040899B (zh) | 生成符号的代码字母表以便为与程序一起使用的字生成代码字 | |
US9852429B2 (en) | Method and system for generating a global representation of a product definition | |
CN109344193B (zh) | 一种将结构化数据转化为非结构化数据的方法及系统 | |
US9698819B1 (en) | Huffman code generation | |
WO2016157275A1 (ja) | 計算機及びグラフデータ生成方法 | |
JP6045415B2 (ja) | データ構造化方法、データ再構成方法、データ構造化プログラム、データ再構成プログラム及びデータ符号化装置 | |
CN115952528B (zh) | 一种多尺度联合文本隐写方法及系统 | |
JP2009181446A (ja) | プログラム生成装置およびブロック線図生成装置 | |
CN108073582B (zh) | 一种计算框架选择方法和装置 | |
Zou et al. | Quality-aware data management for large scale scientific applications | |
US20030158720A1 (en) | Space reduction in compositional state systems | |
CN110941793A (zh) | 一种网络流量数据填充方法、装置、设备及存储介质 | |
JPWO2012115095A1 (ja) | 故障の木システム信頼性分析システム、故障の木システム信頼性分析方法及びプログラム | |
JP7099316B2 (ja) | 類似度演算装置、方法、およびプログラム | |
CN104572921A (zh) | 一种跨数据中心的数据同步方法和装置 | |
JP5696132B2 (ja) | 部分的木構造に応じた適応型再構成装置及び方法及びプログラム | |
JP5670993B2 (ja) | 単一パス集約による木構造の再構成装置及び方法及びプログラム | |
KR102197993B1 (ko) | 분할 반복 부호를 이용한 데이터 분산 저장 장치 및 방법 | |
CN110990188B (zh) | 一种基于Hadamard矩阵的部分重复码的构造方法 | |
JP7074191B2 (ja) | 情報処理装置、テンソル圧縮方法、及びプログラム | |
JP6958417B2 (ja) | 文書要約装置、方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150827 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160608 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160805 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20160810 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20161109 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20161115 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6045415 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |