JP2013011946A - データ蓄積装置、データ蓄積方法、及びプログラム - Google Patents
データ蓄積装置、データ蓄積方法、及びプログラム Download PDFInfo
- Publication number
- JP2013011946A JP2013011946A JP2011142884A JP2011142884A JP2013011946A JP 2013011946 A JP2013011946 A JP 2013011946A JP 2011142884 A JP2011142884 A JP 2011142884A JP 2011142884 A JP2011142884 A JP 2011142884A JP 2013011946 A JP2013011946 A JP 2013011946A
- Authority
- JP
- Japan
- Prior art keywords
- offset
- data
- bit
- compression
- bits
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】レコードの特定の値をキー値としてsparse indexによる索引付けを行い、一の論理ブロックが受け持つキー値の範囲に含まれるキー値のレコードが他の論理ブロックにある場合には、一の論理ブロックから別の論理ブロックへのオフセット数をビット列で表現して圧縮したオフセットデータをオフセットファイルとして二次記憶装置330に記録させる。
【選択図】図1
Description
Run Length圧縮は、ある値が一定以上の個数連続して現れた場合に、これをそのまま表現する代わりに、連続したビットの個数を表して圧縮する手法である。
4バイト(32ビット)を1つの符号として扱い、1つの符号に、できるだけ多くの整数値を詰め込もうとする方法で、整数値の大きさに合わせて、使用するビット数を1〜28ビットに変化させる手法である(例えば、非特許文献4を参照。)。
通常4バイトで表す整数値を、整数値の大きさに合わせて使用するバイト数を1〜4バイトに変化させる方法である(例えば、非特許文献3を参照。)。
実施形態1はオフセット数の表現にVariable Byte Codeを用いる形態である。
実施形態2は、オフセットの表現にSimple9で圧縮した整数値を用いる形態である。実施形態2のデータ蓄積装置の構成は図1のデータ蓄積装置10と同様である。
実施の形態3は、オフセットの表現にビット番号を用い、0もしくは1のビットが連続した場合にRun Length圧縮を用いる方法である。実施形態3のデータ蓄積装置の構成は図1のデータ蓄積装置10と同様である。
次に、本発明の各圧縮方法によるビット効率向上の例をグラフで示す。以下の例では、Simple9のオフセットデータにおけるヘッダ部の大きさを32ビット、Run Length圧縮のオフセットデータにおけるコード長記憶部の大きさを16ビット、圧縮回数記憶部の大きさを8ビット、圧縮位置および圧縮ビット数記憶部のサイズを32ビットとして計算を行っている。
上述した各データ蓄積装置はコンピュータとプログラムによっても実現できる。上述した各データ蓄積装置の動作をコンピュータで実行可能なプログラムとし、これをコンピュータが読み取り可能な記録媒体に記録することも、ネットワークを通してコンピュータに提供することも可能である。
110:インタフェース
120:バッファメモリ
300:システム制御部
301:入力データ解析部
302:メモリ管理部
303:ファイル操作部
304:オフセット圧縮部
330:二次記憶装置
331:索引ファイル
332:データファイル
333、333’、333”:オフセットファイル
Claims (9)
- レコードを最小単位として連続して入力されるデータを、論理ブロックを単位として逐次蓄積する二次記憶装置と、
前記レコードの特定の値をキー値としてスパースインデックス(sparse index)による索引付けを行い、一の論理ブロックが受け持つキー値の範囲に含まれる前記キー値を持つ前記レコードが他の論理ブロックにある場合には、前記一の論理ブロックから前記他の論理ブロックへのオフセット数をビット列で表現して圧縮したオフセットデータをオフセットファイルとして前記二次記憶装置に記録させるシステム制御手段と、
を備えるデータ蓄積装置。 - 前記システム制御手段は、
前記オフセットデータを、コード長記憶部、圧縮回数記憶部、圧縮位置及び圧縮ビット数記憶部、並びにコード部で構成し、
前記コード部において、前記オフセット数と等しいビット位置のビットを「1」とし、
前記コード部のビット列が予め設定したしきい値以上同一のビットが連続する連続ビット部を含む場合に、前記連続ビット部のビット数を数え上げ、前記連続ビット部の先頭の位置と前記連続ビット部のビット数を前記圧縮位置及び圧縮ビット数記憶部に記録し、
前記連続ビット部の先頭のビットを残して前記連続ビット部の他のビットを削除する
オフセット圧縮部を有することを特徴とする請求項1に記載のデータ蓄積装置。 - 前記システム制御手段は、
一の論理ブロックが受け持つ前記キー値の範囲に含まれる前記キー値を持つ前記レコードが他の複数の論理ブロックにある場合、前記一の論理ブロックから前記他の複数の論理ブロックへの前記オフセット数をそれぞれ求め、前記他の複数の論理ブロックのうち最もブロック位置が近い論理ブロック同士について、求めた前記オフセット数からそれぞれの論理ブロックへのオフセット数の差を求め、これを差分オフセット数とし、
前記オフセットデータを、ヘッダ部並びにコード部で構成し、
前記コード部に、単数の前記オフセット数もしくは複数の前記差分オフセット数を前記オフセット数もしくは前記差分オフセット数に応じたビット数で表現したオフセットビット列、及び前記オフセットビット列のビット数を記載した一定ビット数の符号ヘッダ、で形成される符号を格納し、
前記ヘッダ部に、前記符号の個数及び前記オフセット数の個数を表示する
オフセット圧縮部を有することを特徴とする請求項1に記載のデータ蓄積装置。 - 前記システム制御手段は、
前記オフセットデータを複数のバイトで構成し、
前記オフセット数に応じたバイト数で前記オフセット数を表現する際に、前記オフセット数を表現する各バイトの一定数のビットをヘッダとし、前記オフセット数を表現したバイト数を前記ヘッダで表示する
オフセット圧縮部を有することを特徴とする請求項1に記載のデータ蓄積装置。 - レコードを最小単位として連続して入力されるデータを、論理ブロックを単位として二次記憶装置に逐次蓄積する際に、
前記レコードの特定の値をキー値としてスパースインデックス(sparse index)による索引付けを行い、一の論理ブロックが受け持つキー値の範囲に含まれる前記キー値を持つ前記レコードが他の論理ブロックにある場合には、前記一の論理ブロックから前記他の論理ブロックへのオフセット数をビット列で表現して圧縮したオフセットデータをオフセットファイルとして前記二次記憶装置に記録させるシステム制御手順を行うデータ蓄積方法。 - 前記システム制御手順は、
前記オフセットデータを、コード長記憶部、圧縮回数記憶部、圧縮位置及び圧縮ビット数記憶部、並びにコード部で構成し、
前記コード部において、前記オフセット数と等しいビット位置のビットを「1」とし、
前記コード部のビット列が予め設定したしきい値以上同一のビットが連続する連続ビット部を含む場合に、前記連続ビット部のビット数を数え上げ、前記連続ビット部の先頭の位置と前記連続ビット部のビット数を前記圧縮位置及び圧縮ビット数記憶部に記録し、
前記連続ビット部の先頭のビットを残して前記連続ビット部の他のビットを削除する
ことを特徴とする請求項5に記載のデータ蓄積方法。 - 前記システム制御手順は、
一の論理ブロックが受け持つ前記キー値の範囲に含まれる前記キー値を持つ前記レコードが他の複数の論理ブロックにある場合、前記一の論理ブロックから前記他の複数の論理ブロックへの前記オフセット数をそれぞれ求め、前記他の複数の論理ブロックのうち最もブロック位置が近い論理ブロック同士について、求めた前記オフセット数からそれぞれの論理ブロックへのオフセット数の差を求め、これを差分オフセット数とし、
前記オフセットデータを、ヘッダ部並びにコード部で構成し、
前記コード部に、単数の前記オフセット数もしくは複数の前記差分オフセット数を前記オフセット数もしくは前記差分オフセット数に応じたビット数で表現したオフセットビット列、及び前記オフセットビット列のビット数を記載した一定ビット数の符号ヘッダ、で形成される符号を格納し、
前記ヘッダ部に、前記符号の個数及び前記オフセット数の個数を表示する
ことを特徴とする請求項5に記載のデータ蓄積方法。 - 前記システム制御手順は、
前記オフセットデータを複数のバイトで構成し、
前記オフセット数に応じたバイト数で前記オフセット数を表現する際に、前記オフセット数を表現する各バイトの一定数のビットをヘッダとし、前記オフセット数を表現したバイト数を前記ヘッダで表示する
ことを特徴とする請求項5に記載のデータ蓄積方法。 - コンピュータに、請求項5から8のいずれかに記載のデータ蓄積方法の前記システム制御手順を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011142884A JP5639011B2 (ja) | 2011-06-28 | 2011-06-28 | データ蓄積装置、データ蓄積方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011142884A JP5639011B2 (ja) | 2011-06-28 | 2011-06-28 | データ蓄積装置、データ蓄積方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013011946A true JP2013011946A (ja) | 2013-01-17 |
JP5639011B2 JP5639011B2 (ja) | 2014-12-10 |
Family
ID=47685795
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011142884A Expired - Fee Related JP5639011B2 (ja) | 2011-06-28 | 2011-06-28 | データ蓄積装置、データ蓄積方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5639011B2 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101575015B1 (ko) * | 2013-07-01 | 2015-12-07 | (주) 솔텍시스템 | 시계열적 공정 데이터의 압축 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
US9979415B2 (en) | 2015-02-16 | 2018-05-22 | Mitsubishi Electric Corporation | Data compression apparatus, data decompression apparatus, data compression method, data compression method, and computer readable medium |
JPWO2019092990A1 (ja) * | 2017-11-09 | 2020-04-02 | 日本電信電話株式会社 | 情報蓄積装置、データ処理システム、およびプログラム |
CN112784271A (zh) * | 2021-01-21 | 2021-05-11 | 国网河南省电力公司电力科学研究院 | 一种电力工控系统的控制软件逆向分析方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007088962A (ja) * | 2005-09-26 | 2007-04-05 | Nippon Telegr & Teleph Corp <Ntt> | 順序データ圧縮方法、順序データ解凍方法、順序データ処理プログラム、順序データ圧縮装置、順序データ解凍装置、および、順序データ処理システム |
-
2011
- 2011-06-28 JP JP2011142884A patent/JP5639011B2/ja not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007088962A (ja) * | 2005-09-26 | 2007-04-05 | Nippon Telegr & Teleph Corp <Ntt> | 順序データ圧縮方法、順序データ解凍方法、順序データ処理プログラム、順序データ圧縮装置、順序データ解凍装置、および、順序データ処理システム |
Non-Patent Citations (6)
Title |
---|
CSND200900734014; 岡野原大輔: '[速習]サーチエンジン 刻々と進化する検索技術の今 第2章 全文検索システムMiniseの作成 エン' WEB+DB PRESS 第53巻, 20091125, pp.105〜117, 株式会社技術評論社 * |
CSNG201000331036; 山崎敬広ほか5名: '順序逆転のある時系列センサデータのための効率的な索引付方法の提案と性能評価' 電子情報通信学会技術研究報告 第109巻 第449号, 20100225, pp.241〜246, 社団法人電子情報通信学会 * |
CSNJ201010043592; 山崎敬広ほか5名: '順序逆転のある時系列センサデータに対するオフセットビットマップを用いた効率的な索引付方法' 電子情報通信学会2010年総合大会講演論文集 通信2 , 20100302, p.592, 社団法人電子情報通信学会 * |
JPN6014007346; 山崎敬広ほか5名: '順序逆転のある時系列センサデータのための効率的な索引付方法の提案と性能評価' 電子情報通信学会技術研究報告 第109巻 第449号, 20100225, pp.241〜246, 社団法人電子情報通信学会 * |
JPN6014007348; 岡野原大輔: '[速習]サーチエンジン 刻々と進化する検索技術の今 第2章 全文検索システムMiniseの作成 エン' WEB+DB PRESS 第53巻, 20091125, pp.105〜117, 株式会社技術評論社 * |
JPN6014007351; 山崎敬広ほか5名: '順序逆転のある時系列センサデータに対するオフセットビットマップを用いた効率的な索引付方法' 電子情報通信学会2010年総合大会講演論文集 通信2 , 20100302, p.592, 社団法人電子情報通信学会 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101575015B1 (ko) * | 2013-07-01 | 2015-12-07 | (주) 솔텍시스템 | 시계열적 공정 데이터의 압축 장치, 방법 및 컴퓨터 판독 가능한 기록 매체 |
US9979415B2 (en) | 2015-02-16 | 2018-05-22 | Mitsubishi Electric Corporation | Data compression apparatus, data decompression apparatus, data compression method, data compression method, and computer readable medium |
JPWO2019092990A1 (ja) * | 2017-11-09 | 2020-04-02 | 日本電信電話株式会社 | 情報蓄積装置、データ処理システム、およびプログラム |
CN112784271A (zh) * | 2021-01-21 | 2021-05-11 | 国网河南省电力公司电力科学研究院 | 一种电力工控系统的控制软件逆向分析方法 |
CN112784271B (zh) * | 2021-01-21 | 2022-07-22 | 国网河南省电力公司电力科学研究院 | 一种电力工控系统的控制软件逆向分析方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5639011B2 (ja) | 2014-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5639011B2 (ja) | データ蓄積装置、データ蓄積方法、及びプログラム | |
US10359939B2 (en) | Data object processing method and apparatus | |
US9405790B2 (en) | System, method and data structure for fast loading, storing and access to huge data sets in real time | |
CN101620617B (zh) | 日志文件的查询和处理的方法及装置 | |
US20120191672A1 (en) | Dictionary for data deduplication | |
WO2013163813A1 (zh) | 重复数据删除方法及装置 | |
US10977315B2 (en) | System and method for statistics-based pattern searching of compressed data and encrypted data | |
JP2011523152A (ja) | 検索インデックスフォーマットの最適化 | |
CN102782643A (zh) | 使用布隆过滤器的索引搜索 | |
EP2821924A1 (en) | Method, device and system for querying data index | |
JPWO2011155551A1 (ja) | ファイル記憶装置、ファイル記憶方法およびプログラム | |
CN109937411A (zh) | 将接收的数据块存储为去重数据块的装置和方法 | |
KR100946694B1 (ko) | 영상 정보 기반의 동영상 파일 중복 검사와 관리를 위한시스템 및 방법 | |
WO2009097710A1 (zh) | 文件的组织、检索方法、文件组织模块、系统及存储媒介 | |
CA2770348A1 (en) | Compression of bitmaps and values | |
WO2014097359A1 (ja) | 圧縮プログラム、圧縮方法、圧縮装置およびシステム | |
JP6252489B2 (ja) | 圧縮装置、圧縮方法、圧縮プログラム、伸張装置、伸張方法、伸張プログラム、および圧縮伸張システム | |
CN111061428B (zh) | 一种数据压缩的方法及装置 | |
WO2014030180A1 (ja) | 格納プログラム、格納方法、格納装置、伸張プログラム、伸張方法及び伸張装置 | |
CN111078652A (zh) | 物流箱码的归档压缩方法及装置 | |
CN116303580A (zh) | 数据查询方法、装置及数据库系统 | |
CN115391696A (zh) | 模型数据处理方法、装置、设备以及存储介质 | |
CN109271463B (zh) | 一种恢复MySQL数据库的innodb压缩数据的方法 | |
CN107026652B (zh) | 基于分区的正整数序列压缩方法 | |
US10037148B2 (en) | Facilitating reverse reading of sequentially stored, variable-length data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130730 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20140225 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140425 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20141021 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20141023 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5639011 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |