DE11710114T1 - Verfahren und system zur komprimierung von datensätzen und zur verarbeitung komprimierter datensätze - Google Patents

Verfahren und system zur komprimierung von datensätzen und zur verarbeitung komprimierter datensätze Download PDF

Info

Publication number
DE11710114T1
DE11710114T1 DE11710114T DE11710114T DE11710114T1 DE 11710114 T1 DE11710114 T1 DE 11710114T1 DE 11710114 T DE11710114 T DE 11710114T DE 11710114 T DE11710114 T DE 11710114T DE 11710114 T1 DE11710114 T1 DE 11710114T1
Authority
DE
Germany
Prior art keywords
trivial
block
quasi
data
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE11710114T
Other languages
English (en)
Inventor
Jörg Bienert
Michael Hummel
Norbert Heusser
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ParStream GmbH
Original Assignee
ParStream GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ParStream GmbH filed Critical ParStream GmbH
Publication of DE11710114T1 publication Critical patent/DE11710114T1/de
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Verfahren zum Komprimieren von Datensätzen in einem Datenbanksystem, wobei das Verfahren die folgenden Schritte umfasst: – Bereitstellen von Datensätzen mit einer binären Struktur, – Unterteilen der Datensätze in mehrere Bitvektoren, – Verringern der Größe jedes Bitvektors durch – Unterteilen des Bitvektors in aufeinander folgende Teilbereiche gleicher Größe, wobei jeder Teilbereich aus n Bits besteht, – Klassifizieren der Teilbereiche als triviale Teilbereiche, quasi-triviale Teilbereiche und nicht-triviale Teilbereiche, – Kombinieren eines nicht-trivialen oder mehrerer aufeinander folgender nicht-trivialer Teilbereiche zu einem jeweiligen R-Block, – Entfernen der trivialen Teilbereiche, – Kombinieren eines quasi-trivialen oder mehrerer aufeinander folgender quasi-trivialer Teilbereiche zu einem jeweiligen O-Block.

Claims (30)

  1. Verfahren zum Komprimieren von Datensätzen in einem Datenbanksystem, wobei das Verfahren die folgenden Schritte umfasst: – Bereitstellen von Datensätzen mit einer binären Struktur, – Unterteilen der Datensätze in mehrere Bitvektoren, – Verringern der Größe jedes Bitvektors durch – Unterteilen des Bitvektors in aufeinander folgende Teilbereiche gleicher Größe, wobei jeder Teilbereich aus n Bits besteht, – Klassifizieren der Teilbereiche als triviale Teilbereiche, quasi-triviale Teilbereiche und nicht-triviale Teilbereiche, – Kombinieren eines nicht-trivialen oder mehrerer aufeinander folgender nicht-trivialer Teilbereiche zu einem jeweiligen R-Block, – Entfernen der trivialen Teilbereiche, – Kombinieren eines quasi-trivialen oder mehrerer aufeinander folgender quasi-trivialer Teilbereiche zu einem jeweiligen O-Block.
  2. Verfahren nach Anspruch 1, wobei der Schritt des Kombinierens eines nicht-trivialen oder mehrerer aufeinander folgender nicht-trivialer Teilbereiche zu einem jeweiligen R-Block des weiteren die Schritte des Notierens der absoluten Bitvektorposition PR des ersten Bits des in jedem R-Block enthaltenen ersten nicht-trivialen Teilbereichs und der Anzahl mR der aufeinander folgenden nicht-trivialen Teilbereiche in einem R-Block umfasst.
  3. Verfahren nach einem der Ansprüche 1 oder 2, wobei der Schritt des Kombinierens eines quasi-trivialen oder mehrerer aufeinander folgender quasi-trivialer Teilbereiche zu einem jeweiligen O-Block des weiteren die Schritte des Notierens der absoluten Bitvektorposition PO des ersten Bits des in jedem O-Block enthaltenen ersten quasi-trivialen Teilbereichs und der Anzahl mO der aufeinander folgenden quasi-trivialen Teilbereiche in einem O-Block umfasst.
  4. Verfahren nach Anspruch 3, das des weiteren den Schritt des Entfernens der quasi-trivialen Teilbereiche umfasst.
  5. Verfahren nach einem der Ansprüche 2 bis 4, bei dem die absolute Bitvektorposition PR und die Anzahl mR der aufeinander folgenden nicht-trivialen Teilbereiche in einem R-Block zu Beginn jedes R-Blocks notiert werden.
  6. Verfahren nach einem der Ansprüche 3 bis 5, bei dem in einem O-Block ausschließlich die absolute Bitvektorposition PO, die Anzahl mO der ursprünglich in einem O-Block enthaltenen quasi-trivialen Teilbereiche und eine Identifikation des O-Blocks notiert werden.
  7. Verfahren nach einem der Ansprüche 2 bis 6, bei dem für die Anzahl mR die Beziehung mR ≤ n – 1 gültig ist.
  8. Verfahren nach einem der Ansprüche 3 bis 7, bei dem für die Anzahl mO die Beziehung mO ≤ 2n gültig ist.
  9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, dass jeder Bitvektor eine maximale Länge von 2n + n – 1 aufweist.
  10. Verfahren nach einem der Ansprüche 5 bis 9, das des weiteren den Schritt des Erzeugens eines Informationsbereichs mit n Bits in jedem R-Block umfasst, wobei in diesem Informationsbereich die absolute Bitvektorposition PR und die Anzahl mR der aufeinander folgenden nicht-trivialen Teilbereiche in einem R-Block notiert werden.
  11. Verfahren nach Anspruch 10, bei dem die Anzahl mR in den letzten x Bits des Informationsbereichs notiert wird, wobei x = log2 n ist.
  12. Verfahren nach einem der Ansprüche 6 bis 11, das des weiteren den Schritt des Erzeugens eines ersten und eines zweiten Informationsbereichs, die jeweils n Bits aufweisen, in jedem O-Block umfasst, wobei in dem ersten und dem zweiten Informationsbereich die absolute Bitvektorposition PO und die Anzahl mO der ursprünglich in einem O-Block enthaltenen quasi-trivialen Teilbereiche notiert werden.
  13. Verfahren nach Anspruch 12, bei dem die absolute Bitvektorposition PO in dem ersten Informationsbereich notiert wird und die Anzahl mO in dem zweiten Informationsbereich notiert wird.
  14. Verfahren nach Anspruch 12 oder 13, bei dem die Identifikation in den letzten x Bits des ersten Informationsbereichs notiert wird, wobei x = log2 n ist.
  15. Datenspeichermedium zum Speichern von Datensammlungen mit einer darauf gespeicherten Datensammlung, wobei die Datensammlung aus einer Menge von Datensätzen besteht, die nach dem Verfahren nach einem der Ansprüche 1 bis 14 komprimiert sind.
  16. Datenspeichermedium zum Speichern von Datensammlungen mit einer darauf gespeicherten Datensammlung, wobei die Datensammlung aus einer Menge von Datensätzen besteht, von denen ein zu mindestens einem R-Block und/oder mindestens einem O-Block reduziert wurde, wobei der R-Block einen nicht-trivialen oder mehrere aufeinander folgende nicht-triviale Teilbereiche des jeweiligen Datensatzes umfasst und der O-Block einen quasi-trivialen oder mehrere aufeinander folgende quasi-triviale Teilbereiche des jeweiligen Datensatzes umfasst.
  17. Datenspeichermedium nach Anspruch 16, bei dem ein R-Block des weiteren die absolute Bitvektorposition PR des ersten Bits des in dem jeweiligen R-Block enthaltenen ersten nicht-trivialen Teilbereichs und die Anzahl mR der aufeinander folgenden nicht-trivialen Teilbereiche in dem R-Block umfasst.
  18. Datenspeichermedium nach Anspruch 16 oder 17, bei dem ein O-Block die absolute Bitvektorposition PO des ersten Bits des in dem jeweiligen O-Block enthaltenen ersten quasi-trivialen Teilbereichs und die Anzahl mO der aufeinander folgenden quasi-trivialen Teilbereiche in dem O-Block umfasst.
  19. Datenspeichermedium nach Anspruch 18, bei dem der O-Block ausschließlich die absolute Bitvektorposition PO, die Anzahl mO der ursprünglich in dem O-Block enthaltenen quasi-trivialen Teilbereiche und eine Identifikation des O-Blocks umfasst.
  20. Computerprogramm mit Programmcodemitteln zum Ausführen eines Verfahrens nach einem der Ansprüche 1 bis 14, wenn das Programm auf einem Datenbank-Computersystem ausgeführt wird.
  21. Computerprogrammprodukt mit einem computerlesbaren Medium, auf dem ein Computerprogramm nach Anspruch 20 gespeichert ist.
  22. Verfahren zum Verarbeiten einer Datensammlung, die aus einer Menge von nach dem Verfahren nach einem der Ansprüche 1 bis 14 komprimierten Datensätzen besteht, wobei das Verfahren den Schritt des Auswählens mindestens zweier Bitvektoren und Kombinieren der mindestens zwei Bitvektoren zu einem Lösungsvektor umfasst, wobei die Kombination der Bitvektoren durch die Kombination der O-Blöcke und/oder R-Blöcke der Bitvektoren ausgeführt wird.
  23. Verfahren nach Anspruch 22, bei dem bei der Kombination der mindestens zwei Bitvektoren mehrere Kombinationen von O-Blöcken und/oder R-Blöcken der Bitvektoren parallel ausgeführt werden.
  24. Verfahren nach Anspruch 23, bei dem die parallele Kombination auf einer Computereinheit mit mehreren SIMD-Prozessoren ausgeführt wird.
  25. Computerdatenbanksystem mit einem Datenspeichermedium (20) nach einem der Ansprüche 15 bis 19.
  26. Computerdatenbanksystem mit einem Computer (12) mit einem Bus (22) zum Kommunizieren von Daten und einer Verarbeitungseinheit (14) sowie mit einem Datenspeichermedium (20) zum Speichern von Datenmengen (Datensätzen), wobei der Computer (12) dazu eingerichtet ist, Datensätze in dem Datenbanksystem nach einem Verfahren nach einem der Ansprüche 1 bis 14 zu komprimieren und die komprimierten Datensätze in dem Datenspeichermedium (20) zu speichern.
  27. Computerdatenbanksystem mit einem Computer (12) mit einem Bus (22) zum Kommunizieren von Daten und einer Verarbeitungseinheit (14) sowie mit einem Datenspeichermedium (20) zum Speichern von Datenmengen (Datensätzen), wobei der Computer (12) dazu eingerichtet ist, komprimierte Datensätze in dem Datenbanksystem nach einem Verfahren nach einem der Ansprüche 22 bis 24 zu verarbeiten.
  28. Computerprogramm mit Programmcodemitteln zum Ausführen eines Verfahrens nach einem der Ansprüche 22 bis 24, wenn das Programm auf einem Datenbank-Computersystem ausgeführt wird.
  29. Computerprogrammprodukt mit einem computerlesbaren Medium, auf dem ein Computerprogramm nach Anspruch 28 gespeichert ist.
  30. Anrufdatenaufzeichnungssystem mit einem Datenbank-Computersystem nach einem der Ansprüche 26 oder 27.
DE11710114T 2010-02-04 2011-02-04 Verfahren und system zur komprimierung von datensätzen und zur verarbeitung komprimierter datensätze Pending DE11710114T1 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102010006931A DE102010006931A1 (de) 2010-02-04 2010-02-04 Verfahren zur Verarbeitung von Datensammlungen, insbesondere in Datenbanksystemen
DE102010006931 2010-02-04
EP11710114.7A EP2531939B1 (de) 2010-02-04 2011-02-04 Verfahren und system zur komprimierung von datensätzen und zur verarbeitung komprimierter datensätze

Publications (1)

Publication Number Publication Date
DE11710114T1 true DE11710114T1 (de) 2013-07-25

Family

ID=43952834

Family Applications (2)

Application Number Title Priority Date Filing Date
DE102010006931A Withdrawn DE102010006931A1 (de) 2010-02-04 2010-02-04 Verfahren zur Verarbeitung von Datensammlungen, insbesondere in Datenbanksystemen
DE11710114T Pending DE11710114T1 (de) 2010-02-04 2011-02-04 Verfahren und system zur komprimierung von datensätzen und zur verarbeitung komprimierter datensätze

Family Applications Before (1)

Application Number Title Priority Date Filing Date
DE102010006931A Withdrawn DE102010006931A1 (de) 2010-02-04 2010-02-04 Verfahren zur Verarbeitung von Datensammlungen, insbesondere in Datenbanksystemen

Country Status (7)

Country Link
US (1) US9805045B2 (de)
EP (2) EP2531939B1 (de)
JP (1) JP5709903B2 (de)
CN (1) CN102906740B (de)
DE (2) DE102010006931A1 (de)
ES (1) ES2408701T1 (de)
WO (1) WO2011095345A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720376A1 (de) * 2012-10-09 2014-04-16 Alcatel Lucent Sichere und verlustfreie Datenkomprimierung
US9094537B2 (en) * 2013-03-22 2015-07-28 Jdsu Uk Limited Method and apparatus for managing call data
KR101656750B1 (ko) * 2016-02-26 2016-09-23 주식회사 아미크 인덱스정보를 생성하는 데이터베이스의 아카이빙 방법 및 장치, 인덱스정보를 포함하는 아카이빙된 데이터베이스의 검색 방법 및 장치
US10725911B2 (en) * 2018-12-10 2020-07-28 Sap Se Non-Uniform pagination of columnar data

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340866A (ja) 1991-05-16 1992-11-27 Mutoh Ind Ltd ビットマップ・ランレングス変換装置
JP2790594B2 (ja) 1993-05-28 1998-08-27 株式会社日立製作所 データベースレコードの圧縮方法および復元方法
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
JP3218226B2 (ja) 1996-03-19 2001-10-15 三菱電機株式会社 符号化装置及び復号装置及びそれらの方法及び画像処理装置
US5907297A (en) * 1997-02-28 1999-05-25 Oracle Corporation Bitmap index compression
JP3860910B2 (ja) 1998-04-30 2006-12-20 株式会社アドバンテスト データ圧縮装置およびデータ圧縮方法
JP3368883B2 (ja) 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
KR100390672B1 (ko) * 2000-12-01 2003-07-07 (주)아이디스 영상 압축 장치 및 방법
US7293150B2 (en) 2002-06-28 2007-11-06 Microsoft Corporation Method and system for creating and restoring an image file
US6831575B2 (en) * 2002-11-04 2004-12-14 The Regents Of The University Of California Word aligned bitmap compression method, data structure, and apparatus
US7961960B2 (en) * 2006-08-24 2011-06-14 Dell Products L.P. Methods and apparatus for reducing storage size
WO2008118789A2 (en) * 2007-03-23 2008-10-02 D. E. Shaw Research, Llc Computation of multiple body interactions
US7769729B2 (en) 2007-05-21 2010-08-03 Sap Ag Block compression of tables with repeated values
US9236881B2 (en) * 2009-08-07 2016-01-12 Algorhyme A/S Compression of bitmaps and values

Also Published As

Publication number Publication date
US9805045B2 (en) 2017-10-31
CN102906740A (zh) 2013-01-30
EP2690565B1 (de) 2020-06-17
EP2690565A1 (de) 2014-01-29
EP2531939B1 (de) 2014-04-09
ES2408701T1 (es) 2013-06-21
US20130204850A1 (en) 2013-08-08
JP5709903B2 (ja) 2015-04-30
EP2531939A1 (de) 2012-12-12
JP2013519141A (ja) 2013-05-23
WO2011095345A1 (en) 2011-08-11
DE102010006931A1 (de) 2011-08-04
CN102906740B (zh) 2015-10-21

Similar Documents

Publication Publication Date Title
DE102008004815B4 (de) Verfahren und Vorrichtung zum grafischen Angeben des Fortschritts mehrerer Teile einer Aufgabe
DE11710114T1 (de) Verfahren und system zur komprimierung von datensätzen und zur verarbeitung komprimierter datensätze
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
DE112004001811B4 (de) Verfahren zum Bearbeiten und Speichern von Massenspektrometriedaten
DE60118973T2 (de) Verfahren zum abfragen einer struktur komprimierter daten
DE112006001412T5 (de) Tragbares Datenspeicherungsgerät
EP3267625B1 (de) Verfahren zur detektion von anomalen zuständen in einem computernetzwerk
DE10061218B4 (de) Datenkompressionssystem
DE60219821D1 (de) Verfahren und gerät zum wiedergewinnen von zeitreihedaten, die mit einer aktivität in beziehung stehen
CN103810300B (zh) 用于非索引覆盖的数据查询方法和装置
CN109635267A (zh) 一种审前调查报告生成方法及装置
DE112016004924T5 (de) System zum Ausgraben eines Benutzerzyklusmodus und dessen Verfahren
DE102017002456A1 (de) Betriebsverwaltungsverfahren für eine Werkzeugmaschine
EP2165273A1 (de) Verfahren und vorrichtung zum codieren und decodieren von multimediadaten
CN114051124A (zh) 支持多区域监控的视频监控方法、装置、设备及存储介质
WO1996033470A1 (de) Abbildung eines graphen in einen speicher
Hatipoglu et al. Image texture description using complex wavelet transform
DE3024009C2 (de) Digitales Filter
DE60132328T2 (de) Bestimmung des minimum- oder des maximumwertes in einem datensatz
EP2302526A2 (de) Verfahren zur Verteilung der Rechenlast in Datenverarbeitungseinrichtungen bei einer Durchführung von blockbasierten Rechenvorschriften
DE69635973T2 (de) Audio-Teilbandkodierverfahren
CH695402A5 (de) Verfahren zur Bestimmung eines charakteristischen Datensatzes für ein Tonsignal.
DE4417557A1 (de) Verfahren zur Erkennung von Sprachsignalen und Anordnung zum Durchführen des Verfahrens
DE69720898T2 (de) Dekodierungs- und Regenerationsanordnung zur Dekodierung und Regeneration von rahmenkodierten Daten und Verfahren dazu
DE102008025213A1 (de) Verfahren zur Segmentierung von Fingerabdruckbildern