ES2408701T1 - Procedimiento y sistema para comprimir registros de datos y para procesar registros de datos comprimidos - Google Patents

Procedimiento y sistema para comprimir registros de datos y para procesar registros de datos comprimidos Download PDF

Info

Publication number
ES2408701T1
ES2408701T1 ES11710114T ES11710114T ES2408701T1 ES 2408701 T1 ES2408701 T1 ES 2408701T1 ES 11710114 T ES11710114 T ES 11710114T ES 11710114 T ES11710114 T ES 11710114T ES 2408701 T1 ES2408701 T1 ES 2408701T1
Authority
ES
Spain
Prior art keywords
block
trivial
partial areas
data
quasi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
ES11710114T
Other languages
English (en)
Inventor
Jörg BIENERT
Michael Hummel
Norbert Heusser
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ParStream GmbH
Original Assignee
ParStream GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ParStream GmbH filed Critical ParStream GmbH
Publication of ES2408701T1 publication Critical patent/ES2408701T1/es
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1744Redundancy elimination performed by the file system using compression, e.g. sparse files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Un procedimiento para comprimir registros de datos en un sistema de base de datos, comprendiendo el procedimientolas siguientes etapas: - proporcionar registros de datos con una estructura binaria; - dividir los registros de datos en varios vectores de bits; - reducir el tamaño de cada vector de bits - dividiendo el vector de bits en áreas parciales consecutivas de igual tamaño, consistiendo cada área parcial en nbits; - clasificando las áreas parciales como áreas parciales triviales, áreas parciales cuasi-triviales y áreas parciales notriviales; - combinando un área parcial no trivial o varias áreas parciales no triviales consecutivas en un respectivo bloque R; - eliminando las áreas parciales triviales; - combinar un área parcial cuasi-trivial o varias áreas parciales cuasi-triviales consecutivas en un respectivo bloque O.

Claims (30)

  1. REIVINDICACIONES
    1. Un procedimiento para comprimir registros de datos en un sistema de base de datos, comprendiendo el procedimiento las siguientes etapas:
    -
    proporcionar registros de datos con una estructura binaria;
    -
    dividir los registros de datos en varios vectores de bits;
    -
    reducir el tamaño de cada vector de bits
    -
    dividiendo el vector de bits en áreas parciales consecutivas de igual tamaño, consistiendo cada área parcial en n bits;
    -
    clasificando las áreas parciales como áreas parciales triviales, áreas parciales cuasi-triviales y áreas parciales no triviales;
    -
    combinando un área parcial no trivial o varias áreas parciales no triviales consecutivas en un respectivo bloque R;
    -
    eliminando las áreas parciales triviales;
    -
    combinar un área parcial cuasi-trivial o varias áreas parciales cuasi-triviales consecutivas en un respectivo bloque O.
  2. 2.
    El procedimiento de la reivindicación 1, en el cual la etapa de combinar un área parcial no trivial o varias áreas parciales no triviales consecutivas en un respectivo bloque R comprende adicionalmente las etapas de anotar la posición absoluta PR de vector de bits del primer bit de la primera área parcial no trivial incluida en cada bloque R, y el número mR de las áreas parciales no triviales consecutivas en un bloque R.
  3. 3.
    El procedimiento de una cualquiera de las reivindicaciones 1 o 2, en el cual la etapa de combinar un área parcial cuasitrivial o varias áreas parciales cuasi-triviales consecutivas en un respectivo bloque O comprende adicionalmente las etapas de anotar la posición absoluta PO de vector de bits del primer bit de la primera área parcial cuasi-trivial incluida en cada bloque O, y el número mO de las áreas parciales cuasi-triviales consecutivas en un bloque O.
  4. 4.
    El procedimiento de la reivindicación 3, que comprende adicionalmente la etapa de eliminar las áreas parciales cuasitriviales.
  5. 5.
    El procedimiento de una cualquiera de las reivindicaciones 2 a 4, en el cual la posición absoluta PR de vector de bits y el número mR de las áreas parciales no triviales consecutivas en un bloque R son anotadas al comienzo de cada bloque R.
  6. 6.
    El procedimiento de una cualquiera de las reivindicaciones 3 a 5, en el cual en un bloque O son anotados exclusivamente la posición absoluta PO de vector de bits, el número mO de las áreas parciales cuasi-triviales originalmente incluidas en un bloque O y una identificación del bloque O.
  7. 7.
    El procedimiento de una cualquiera de las reivindicaciones 2 a 6, en el cual para el número mR la relación mR < n -1 es válida.
  8. 8.
    El procedimiento de una cualquiera de las reivindicaciones 3 a 7, en el cual para el número mO la relación mO <2n es válida.
  9. 9.
    El procedimiento de una cualquiera de las reivindicaciones 1 a 8, caracterizado porque cada vector de bits tiene una longitud máxima de 2n + n -1.
  10. 10.
    El procedimiento de una cualquiera de las reivindicaciones 5 a 9, que comprende adicionalmente la etapa de generar, en cada bloque R, un área de información con n bits, área de información en la cual son anotados la posición absoluta PR de vector de bits y el número mR de las áreas parciales no triviales consecutivas en un bloque R.
  11. 11.
    El procedimiento de la reivindicación 10, en el cual el número mR es anotado en los últimos x bits del área de información, con x = log2 n.
  12. 12.
    El procedimiento de una cualquiera de las Reivindicaciones 6 a 11, que comprende adicionalmente la etapa de generar, en cada bloque O, áreas de información primera y segunda, teniendo cada una n bits, áreas de información primera y segunda en las cuales se anotan la posición absoluta PO de vector de bits y el número mO de las áreas parciales cuasi-triviales originalmente incluidas en un bloque O.
  13. 13.
    El procedimiento de la reivindicación 12, en el cual la posición absoluta PO de vector de bits es anotada en la primera área de información y el número mO es anotado en la segunda área de información.
    2 5
  14. 14.
    El procedimiento de la reivindicación 12 o 13, en el cual la identificación es anotada en los últimos x bits de la primera área de información, con x = log2 n.
  15. 15.
    Un medio de almacenamiento de datos para almacenar colecciones de datos, que comprende una colección de datos almacenada en el mismo, consistiendo la colección de datos en un conjunto de registros de datos comprimidos según el procedimiento de una cualquiera de las reivindicaciones 1 a 14.
  16. 16.
    Un medio de almacenamiento de datos para almacenar colecciones de datos, que comprende una colección de datos almacenada en el mismo, consistiendo la colección de datos en un conjunto de registros de datos, estando cada uno de los registros de datos reducido a al menos un bloque R y / o al menos un bloque O, comprendiendo el bloque R un área parcial no trivial o varias áreas parciales no triviales consecutivas del respectivo registro de datos, y comprendiendo el bloque O un área parcial cuasi-trivial o varias áreas parciales cuasi-triviales consecutivas del respectivo registro de datos.
  17. 17.
    El medio de almacenamiento de datos de la reivindicación 16, en el cual un bloque R comprende adicionalmente la posición absoluta PR de vector de bits del primer bit de la primera área parcial no trivial incluida en el respectivo bloque R y el número mR de las áreas parciales no triviales consecutivas en el bloque R.
  18. 18.
    El medio de almacenamiento de datos de la reivindicación 16 o 17, en el cual un bloque O comprende la posición absoluta PO de vector de bits del primer bit de la primera área parcial cuasi-trivial incluida en el respectivo bloque O y el número mO de las áreas parciales cuasi-triviales consecutivas en el bloque O.
  19. 19.
    El medio de almacenamiento de datos de la reivindicación 18, en el cual el bloque O comprende exclusivamente la posición absoluta PO de vector de bits, el número mO de las áreas parciales cuasi-triviales originalmente incluidas en el bloque O y una identificación del bloque O.
  20. 20.
    Un programa de ordenador que comprende medios de código de programa para realizar un procedimiento de una cualquiera de las reivindicaciones 1 a 14 cuando dicho programa es ejecutado en un sistema de ordenador de base de datos.
  21. 21.
    Un producto de programa de ordenador que comprende un medio legible por ordenador, sobre el cual está almacenado un programa de ordenador de la reivindicación 20.
  22. 22.
    Un procedimiento para procesar una colección de datos que consiste en un conjunto de registros de datos comprimidos según el procedimiento de una cualquiera de las reivindicaciones 1 a 14, comprendiendo el procedimiento la etapa de seleccionar al menos dos vectores de bits y combinar los al menos dos vectores de bits en un vector solución, en el que la combinación de los vectores de bits es llevada a cabo por la combinación de bloques O y / o bloques R de los vectores de bits.
  23. 23.
    El procedimiento de la reivindicación 22, en el cual, en la combinación de los al menos dos vectores de bits, varias combinaciones de bloques O y / o bloques R de los vectores de bits son llevadas a cabo en paralelo.
  24. 24.
    El procedimiento de la reivindicación 23, en el cual la combinación paralela es llevada a cabo en una unidad de ordenador que tiene varios procesadores SIMD.
  25. 25.
    Un sistema de base de datos de ordenador que comprende un medio de almacenamiento de datos (20) de una cualquiera de las reivindicaciones 15 a 19.
  26. 26.
    Un sistema de base de datos de ordenador que comprende un ordenador (12) con un bus (22) para comunicar datos y una unidad de procesamiento (14), así como un medio de almacenamiento de datos (20) para almacenar conjuntos de datos (registros de datos), en el que el ordenador (12) está configurado de manera tal como para comprimir registros de datos en el sistema de base de datos, según un procedimiento de una cualquiera de las reivindicaciones 1 a 14, y para almacenar los registros de datos comprimidos en el medio de almacenamiento de datos (20).
  27. 27.
    Un sistema de base de datos de ordenador que comprende un ordenador (12) con un bus (22) para comunicar datos y una unidad de procesamiento (14), así como un medio de almacenamiento de datos (20) para almacenar conjuntos de datos (registros de datos), en el que el ordenador (12) está configurado de manera tal como para procesar registros de datos comprimidos en el sistema de base de datos, según un procedimiento de una cualquiera de las reivindicaciones 22 a 24.
  28. 28.
    Un programa de ordenador que comprende medios de código de programa para realizar un procedimiento de una cualquiera de las reivindicaciones 22 a 24 cuando dicho programa es ejecutado en un sistema de ordenador de base de datos.
  29. 29.
    Un producto de programa de ordenador que comprende un medio legible por ordenador, en el cual está almacenado un programa de ordenador de la reivindicación 28.
  30. 30.
    Un sistema de registros de datos de llamada que comprende un sistema de ordenador de base de datos según una cualquiera de las reivindicaciones 26 o 27.
ES11710114T 2010-02-04 2011-02-04 Procedimiento y sistema para comprimir registros de datos y para procesar registros de datos comprimidos Pending ES2408701T1 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102010006931 2010-02-04
DE102010006931A DE102010006931A1 (de) 2010-02-04 2010-02-04 Verfahren zur Verarbeitung von Datensammlungen, insbesondere in Datenbanksystemen
PCT/EP2011/000519 WO2011095345A1 (en) 2010-02-04 2011-02-04 Method and system for compressing data records and for processing compressed data records

Publications (1)

Publication Number Publication Date
ES2408701T1 true ES2408701T1 (es) 2013-06-21

Family

ID=43952834

Family Applications (1)

Application Number Title Priority Date Filing Date
ES11710114T Pending ES2408701T1 (es) 2010-02-04 2011-02-04 Procedimiento y sistema para comprimir registros de datos y para procesar registros de datos comprimidos

Country Status (7)

Country Link
US (1) US9805045B2 (es)
EP (2) EP2531939B1 (es)
JP (1) JP5709903B2 (es)
CN (1) CN102906740B (es)
DE (2) DE102010006931A1 (es)
ES (1) ES2408701T1 (es)
WO (1) WO2011095345A1 (es)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2720376A1 (en) * 2012-10-09 2014-04-16 Alcatel Lucent Secure and lossless data compression
US9094537B2 (en) * 2013-03-22 2015-07-28 Jdsu Uk Limited Method and apparatus for managing call data
KR101656750B1 (ko) 2016-02-26 2016-09-23 주식회사 아미크 인덱스정보를 생성하는 데이터베이스의 아카이빙 방법 및 장치, 인덱스정보를 포함하는 아카이빙된 데이터베이스의 검색 방법 및 장치
US10725911B2 (en) * 2018-12-10 2020-07-28 Sap Se Non-Uniform pagination of columnar data

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04340866A (ja) 1991-05-16 1992-11-27 Mutoh Ind Ltd ビットマップ・ランレングス変換装置
JP2790594B2 (ja) 1993-05-28 1998-08-27 株式会社日立製作所 データベースレコードの圧縮方法および復元方法
CA2125337A1 (en) * 1993-06-30 1994-12-31 Marlin Jay Eller Method and system for searching compressed data
JP3218226B2 (ja) 1996-03-19 2001-10-15 三菱電機株式会社 符号化装置及び復号装置及びそれらの方法及び画像処理装置
US5907297A (en) 1997-02-28 1999-05-25 Oracle Corporation Bitmap index compression
JP3860910B2 (ja) 1998-04-30 2006-12-20 株式会社アドバンテスト データ圧縮装置およびデータ圧縮方法
JP3368883B2 (ja) * 2000-02-04 2003-01-20 インターナショナル・ビジネス・マシーンズ・コーポレーション データ圧縮装置、データベースシステム、データ通信システム、データ圧縮方法、記憶媒体及びプログラム伝送装置
KR100390672B1 (ko) 2000-12-01 2003-07-07 (주)아이디스 영상 압축 장치 및 방법
US7293150B2 (en) 2002-06-28 2007-11-06 Microsoft Corporation Method and system for creating and restoring an image file
US6831575B2 (en) * 2002-11-04 2004-12-14 The Regents Of The University Of California Word aligned bitmap compression method, data structure, and apparatus
US7961960B2 (en) * 2006-08-24 2011-06-14 Dell Products L.P. Methods and apparatus for reducing storage size
WO2008118789A2 (en) * 2007-03-23 2008-10-02 D. E. Shaw Research, Llc Computation of multiple body interactions
US7769729B2 (en) 2007-05-21 2010-08-03 Sap Ag Block compression of tables with repeated values
CA2770348A1 (en) * 2009-08-07 2011-02-10 Algorhyme A/S Compression of bitmaps and values

Also Published As

Publication number Publication date
DE11710114T1 (de) 2013-07-25
WO2011095345A1 (en) 2011-08-11
DE102010006931A1 (de) 2011-08-04
EP2531939A1 (en) 2012-12-12
EP2690565A1 (en) 2014-01-29
EP2690565B1 (en) 2020-06-17
JP5709903B2 (ja) 2015-04-30
EP2531939B1 (en) 2014-04-09
CN102906740A (zh) 2013-01-30
US9805045B2 (en) 2017-10-31
CN102906740B (zh) 2015-10-21
JP2013519141A (ja) 2013-05-23
US20130204850A1 (en) 2013-08-08

Similar Documents

Publication Publication Date Title
CN102456101B (zh) 遗传信息管理系统及方法
US20140188893A1 (en) Data retrieval apparatus, data storage method and data retrieval method
ES2408701T1 (es) Procedimiento y sistema para comprimir registros de datos y para procesar registros de datos comprimidos
CN108985008B (zh) 一种快速比对基因数据的方法和比对系统
CN103150397B (zh) 一种数据索引创建方法、数据检索方法和系统
RU2014152796A (ru) Накопитель цифровой информации большой емкости в днк
CN103999061B (zh) 存储器件存取系统
CN102708183B (zh) 数据压缩的方法和装置
CN102682085A (zh) 一种网页去重的方法
JP2014511643A5 (es)
EP2804115B1 (en) Index scan device and index scan method
RU2016123091A (ru) Способ и система для обработки данных
CN101388842A (zh) 一种存储方法和装置
CN108255912B (zh) 一种表项数据存储、查询方法及其装置
CN103778120B (zh) 全局文件标识生成方法、生成装置及相应的分布式文件系统
EP2690567A3 (en) Method for managing data and an electronic device thereof
CN104408041B (zh) 一种gps数据的保存方法
CO2019003583A2 (es) Estructuras eficientes de datos para la representación de información bioinformática
CN105677755A (zh) 一种处理图数据的方法及装置
CN109739854A (zh) 一种数据存储方法及装置
KR20130122816A (ko) 유전자 염기서열 압축장치 및 압축방법
AR082014A1 (es) Metodo para producir plantas con tolerancia al estres abiotico basado en la identificacion y seleccion de caracteristicas a nivel de metilacion del adn en una poblacion de plantas
CN104298735B (zh) 识别应用程序类型的方法和装置
CN105468748B (zh) 一种分布式存储位置数据方法及系统
CN106873905A (zh) 数据存储的方法、装置及固态硬盘