CN101231653A - 数据块拆分方法及其装置 - Google Patents

数据块拆分方法及其装置 Download PDF

Info

Publication number
CN101231653A
CN101231653A CNA200810004255XA CN200810004255A CN101231653A CN 101231653 A CN101231653 A CN 101231653A CN A200810004255X A CNA200810004255X A CN A200810004255XA CN 200810004255 A CN200810004255 A CN 200810004255A CN 101231653 A CN101231653 A CN 101231653A
Authority
CN
China
Prior art keywords
file
type
split
data block
compression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200810004255XA
Other languages
English (en)
Other versions
CN101231653B (zh
Inventor
祁小满
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Innovation Technology Co ltd
Original Assignee
UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd filed Critical UIT STORAGE TECHNOLOGY (SHENZHEN) Co Ltd
Priority to CN200810004255XA priority Critical patent/CN101231653B/zh
Publication of CN101231653A publication Critical patent/CN101231653A/zh
Application granted granted Critical
Publication of CN101231653B publication Critical patent/CN101231653B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据块拆分方法,包括查看待拆分文件的文件类型;在预先存储的文件类型与拆分规则对应关系中,索引与查看到的文件类型对应的拆分规则;按照索引到的拆分规则将所述待拆分文件拆分成数据块。相应的本发明还公开了一种数据块拆分装置。本发明提高了针对不同文件拆分出的数据块的重复率,进而可以过滤掉一些内容重复的数据块,这样可以大大减少存储文件所占用的存储空间,也可以在传输文件时,减小数据的传输量,节约网络带宽资源。

Description

数据块拆分方法及其装置
技术领域
本发明涉及数据存储技术领域,更具体的,涉及一种数据块拆分方法及其装置。
背景技术
在数据存储技术领域中,如果将存储文件拆分成更小的数据块,对内容相同的数据块仅存储一次,这样可以大大减少存储文件所占用的存储空间,也可以在传输文件时,减小数据的传输量,节约网络带宽资源。
目前一般都是按照固定长度的方式将文件拆分成数据块的,即拆分出的数据块长度大小相等。例如一个集合型的文件,其内容为AABBCC,它包含三个子文件,其子文件内容分别为AA、BB和CC;另外一个集合型的文件,其内容为AXYBBCC,同样它也包含三个子文件,其子文件内容分别为AXY、BB和CC;如果按照固定长度方式将上述两个文件内容拆分为数据块,拆分结果具体如下:
 文件内容  包含子文件内容 拆分出的固定大小数据块(2byte)
 AABBCC  file_1:AAfile_2:BBfile_3:CC 数据块1:AA数据块2:BB数据块3:CC
 AXYBBCC  file_4:AXYfile_2:BBfile_3:CC 数据块1:AX数据块2:YB数据块3:BC数据块4:C
 重复率 0/7即0%,即没有相同的数据块
可见,按照固定长度的方式对上述两个文件进行拆分,数据块的重复率为0,也就意味着按照目前的固定长度方式对不同文件拆分出的数据块重复率比较低,这样根本就不能过滤掉一些内容重复的数据块,因此基于将文件拆分为数据块进行存储时,对于存储空间和网络传输资源的节约也就不能起到很好的效果。
发明内容
本发明提供一种数据块拆分方法及其装置,以提高针对不同文件拆分出的数据块的重复率。
本发明提出了一种数据块拆分方法,包括查看待拆分文件的文件类型;在预先存储的文件类型与拆分规则对应关系中,索引与查看到的文件类型对应的拆分规则;按照索引到的拆分规则将所述待拆分文件拆分成数据块。
其中对于非结构化文件类型对应的拆分规则为:按照固定长度划分数据块。
其中对于结构化文件类型对应的拆分规则为:按照文件中的存储单元为单位划分数据块。
其中对于压缩型文件集类型对应的拆分规则为:根据压缩型文件集的数据结构将压缩型文件集中包含的每一个子文件拆分为至少一个数据块。
其中对于非压缩型文件集类型对应的拆分规则为:对于非压缩型文件集中包含的非结构化子文件,按照固定长度划分数据块;对于非压缩型文件集中包含的结构化子文件,按照子文件的存储单元为单位划分数据块。
本发明还提出了一种数据块拆分装置,包括:预先存储有文件类型与拆分规则对应关系的存储单元;查看单元,用于查看待拆分文件的文件类型;索引单元,用于在所述存储单元存储的对应关系中,索引与查看单元查看到的文件类型对应的拆分规则;拆分单元,用于按照索引单元索引到的拆分规则,将所述待拆分文件拆分成数据块。
本发明实施例提出的数据块拆分方案通过预先建立文件类型和拆分规则的对应关系,对于待拆分文件,按照其文件类型首先查找其对应的拆分规则,然后按照查找到的拆分规则将待拆分文件拆分成数据块,这样可以实现针对不同的文件类型,使用不同的拆分方式拆分数据块,避免了所有文件都基于固定长度方式来拆分数据块,从而提高了针对不同文件拆分出的数据块的重复率,进而可以过滤掉一些内容重复的数据块,这样可以大大减少存储文件所占用的存储空间,也可以在传输文件时,减小数据的传输量,节约网络带宽资源。
附图说明
下面将结合各个附图对本发明技术方案的具体实施过程进行详细阐述,各个附图中:
图1为本发明实施例数据块拆分方法的实现流程图;
图2为结构化文件中存储单元的结构示意图;
图3为本发明提出的数据块拆分装置的组成结构框图。
具体实施方式
本发明数据块拆分方案的设计思想是:当系统获得一个待拆分文件后,根据该文件的文件类型,进而还可以参考其数据结构,按照和该文件类型对应的拆分方式将该文件拆分成大小不同(或相同)的数据块,进而提高拆分出的数据块的重复率。
如图1所示,为本发明实施例数据块拆分方法的实现流程图,其中具体实施过程如下:
步骤10,查看待拆分文件的文件类型;其中文件类型包括但不限于为非结构化文件、结构化文件、压缩型文件集和非压缩型文件集等等。
步骤20,在预先存储的文件类型与拆分规则对应关系中,索引与上述查看到的文件类型对应的拆分规则;
例如,可以预先设置文件类型和拆分规则的对应关系表如下:
文件类型 拆分规则
非结构化文件 按照固定长度划分数据块
结构化文件 以文件中的存储单元为单位划分数据块
压缩型文件集 根据压缩型文件集的数据结构将压缩型文件集中包含的每一个子文件拆分为至少一个固定长度的数据块
非压缩型文件集 非结构化子文件 按照固定长度划分数据块
结构化子文件 按照子文件的存储单元为单位划分数据块
然后将上表存储,这样后续在接收到待拆分文件时,查看该待拆分文件的文件类型,根据查看结果在该表中索引到与该查找到的文件类型对应的拆分规则即可。
步骤30,按照上述索引到的拆分规则将所述待拆分文件拆分成数据块。
按照本发明实施例数据块拆分方法拆分出的每个数据块,可以是一个文件的全部,也可以是文件的一部分,但是不允许将多个文件的内容划分到同一个数据块中。
对于不同文件类型对应的拆分规则,现举例说明如下:
1)针对非结构化文件,如可执行文件,PDF文件,Word等办公文件等,以固定长度方式来划分数据块。
2)针对结构化文件,如Oracle数据库文件、MS SQL Server数据库文件等,由于这些文件均以Page作为存储单元,所以可以基于Page作为划分单位来划分数据块,即按照变长方式,划分每一个Page作为一个数据块。
如图2所示,为结构化文件中存储单元的结构示意图,对于结构化文件,就可以将一个或几个完整的Page划分到一个数据块中,而不应该使一个Page的某一部分在一个数据块中,另一部分在另外一个数据块中。
3)针对压缩型文件集,如RAR,ZIP等压缩文件集,根据压缩文件集的数据结构将压缩文件集中所包含的每一个子文件拆分成至少一个数据块。
4)针对非压缩型文件集,如备份文件集等,根据文件集的数据结构,将文件集中的每一个子文件划分成一个独立的段,对于划分出的每一个段的类型,按照上述1)以及2)中的文件拆分方式来进行数据块拆分处理。
这里仍以上述背景技术中所列的例子来说明:一个集合型的文件,其内容为AABBCC,它包含三个子文件,其子文件内容分别为AA、BB和CC;另外一个集合型的文件,其内容为AXYBBCC,同样它也包含三个子文件,其子文件内容分别为AXY、BB和CC;;如果按照本发明数据块拆分方案,以子文件为单位将上述两个文件内容拆分为数据块,拆分结果具体如下:
 文件内容  包含子文件内容 拆分出的固定大小数据块(2byte)
 AABBCC  file_1:AAfile_2:BBfile_3:CC 数据块1:AA数据块2:BB数据块3:CC
 AXYBBCC  file_4:AXYfile_2:BBfile_3:CC 数据块1:AXY数据块2:BB数据块3:CC
 重复率 4/6即66.6%,存在4个相同的数据块
可见,按照本发明数据块拆分方案对上述两个文件进行拆分,数据块内容的重复率为66.6%,也就意味着按照本发明数据块拆分方案对不同文件拆分出的数据块重复率比较高,这样就可以较好的过滤掉一些内容重复的数据块,因此基于将文件拆分为数据块进行存储时,可以较好的节约存储空间和网络传输资源。
相应的,本发明还提出了一种数据块拆分装置,如图3所示,为本发明提出的数据块拆分装置的组成结构框图,具体包括预先存储有文件类型与拆分规则对应关系的存储单元100;查看单元,用于查看待拆分文件的文件类型;索引单元300,用于在存储单元100存储的对应关系中,索引与查看单元200查看到的文件类型对应的拆分规则;拆分单元400,用于按照索引单元300索引到的拆分规则,将待拆分文件拆分成数据块。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种数据块拆分方法,其特征在于,包括:
查看待拆分文件的文件类型;
在预先存储的文件类型与拆分规则对应关系中,索引与查看到的文件类型对应的拆分规则;
按照索引到的拆分规则将所述待拆分文件拆分成数据块。
2.如权利要求1所述的方法,其特征在于,非结构化文件类型对应的拆分规则为:按照固定长度划分数据块。
3.如权利要求1所述的方法,其特征在于,结构化文件类型对应的拆分规则为:按照文件中的存储单元为单位划分数据块。
4.如权利要求1所述的方法,其特征在于,压缩型文件集类型对应的拆分规则为:根据压缩型文件集的数据结构将压缩型文件集中包含的每一个子文件拆分为至少一个数据块。
5.如权利要求1所述的方法,其特征在于,非压缩型文件集类型对应的拆分规则为:
对于非压缩型文件集中包含的非结构化子文件,按照固定长度划分数据块;
对于非压缩型文件集中包含的结构化子文件,按照子文件的存储单元为单位划分数据块。
6.一种数据块拆分装置,其特征在于,包括:
预先存储有文件类型与拆分规则对应关系的存储单元;
查看单元,用于查看待拆分文件的文件类型;
索引单元,用于在所述存储单元存储的对应关系中,索引与查看单元查看到的文件类型对应的拆分规则;
拆分单元,用于按照索引单元索引到的拆分规则,将所述待拆分文件拆分成数据块。
7.如权利要求6所述的装置,其特征在于,所述存储单元中存储的非结构化文件类型对应的拆分规则为:按照固定长度划分数据块。
8.如权利要求6所述的装置,其特征在于,所述存储单元中存储的结构化文件类型对应的拆分规则为:按照文件中的存储单元为单位划分数据块。
9.如权利要求6所述的装置,其特征在于,所述存储单元中存储的压缩型文件集类型对应的拆分规则为:根据压缩型文件集的数据结构将压缩型文件集中包含的每一个子文件拆分为至少一个数据块。
10.如权利要求6所述的装置,其特征在于,所述存储单元中存储的非压缩型文件集类型对应的拆分规则为:
对于非压缩型文件集中包含的非结构化子文件,按照固定长度划分数据块;
对于非压缩型文件集中包含的结构化子文件,按照子文件的存储单元为单位划分数据块。
CN200810004255XA 2008-01-24 2008-01-24 数据块拆分方法及其装置 Active CN101231653B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810004255XA CN101231653B (zh) 2008-01-24 2008-01-24 数据块拆分方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810004255XA CN101231653B (zh) 2008-01-24 2008-01-24 数据块拆分方法及其装置

Publications (2)

Publication Number Publication Date
CN101231653A true CN101231653A (zh) 2008-07-30
CN101231653B CN101231653B (zh) 2010-09-22

Family

ID=39898129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810004255XA Active CN101231653B (zh) 2008-01-24 2008-01-24 数据块拆分方法及其装置

Country Status (1)

Country Link
CN (1) CN101231653B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104361001A (zh) * 2014-09-29 2015-02-18 株洲南车时代电气股份有限公司 一种lkj基础数据比对方法及系统
CN105528347A (zh) * 2014-09-28 2016-04-27 北京古盘创世科技发展有限公司 数据块储存方法、数据查询方法和数据修改方法
CN108268218A (zh) * 2018-01-10 2018-07-10 北京思特奇信息技术股份有限公司 一种基于网络编码的变长数据段的写入方法及读取方法
CN108304554A (zh) * 2018-02-02 2018-07-20 平安证券股份有限公司 文件拆分方法、装置、计算机设备和存储介质
CN110196871A (zh) * 2019-03-07 2019-09-03 腾讯科技(深圳)有限公司 数据入库方法和系统
CN112422682A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 数据发送方法及装置、存储介质、电子装置
CN112749137A (zh) * 2019-10-31 2021-05-04 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
CN112749137B (zh) * 2019-10-31 2024-05-24 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158954B (zh) * 2007-11-07 2011-09-28 上海爱数软件有限公司 一种在计算机存储中识别重复数据的方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528347B (zh) * 2014-09-28 2019-03-26 北京古盘创世科技发展有限公司 数据块储存方法、数据查询方法和数据修改方法
CN105528347A (zh) * 2014-09-28 2016-04-27 北京古盘创世科技发展有限公司 数据块储存方法、数据查询方法和数据修改方法
WO2016045641A3 (zh) * 2014-09-28 2016-05-19 北京古盘创世科技发展有限公司 数据块储存方法、数据查询方法和数据修改方法
US10521144B2 (en) * 2014-09-28 2019-12-31 Beijing Gupanchuangshi Science And Technology Development Co., Ltd. Data block storage by splitting file content and file headers for independent storage
CN104361001B (zh) * 2014-09-29 2017-12-05 株洲南车时代电气股份有限公司 一种lkj基础数据比对方法及系统
CN104361001A (zh) * 2014-09-29 2015-02-18 株洲南车时代电气股份有限公司 一种lkj基础数据比对方法及系统
CN108268218A (zh) * 2018-01-10 2018-07-10 北京思特奇信息技术股份有限公司 一种基于网络编码的变长数据段的写入方法及读取方法
CN108268218B (zh) * 2018-01-10 2021-02-02 北京思特奇信息技术股份有限公司 一种基于网络编码的变长数据段的写入方法及读取方法
CN108304554A (zh) * 2018-02-02 2018-07-20 平安证券股份有限公司 文件拆分方法、装置、计算机设备和存储介质
CN108304554B (zh) * 2018-02-02 2020-07-28 平安证券股份有限公司 文件拆分方法、装置、计算机设备和存储介质
CN110196871A (zh) * 2019-03-07 2019-09-03 腾讯科技(深圳)有限公司 数据入库方法和系统
CN110196871B (zh) * 2019-03-07 2024-05-17 腾讯科技(深圳)有限公司 数据入库方法和系统
CN112749137A (zh) * 2019-10-31 2021-05-04 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
CN112749137B (zh) * 2019-10-31 2024-05-24 阿里巴巴集团控股有限公司 数据处理方法、装置、设备及存储介质
CN112422682A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 数据发送方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN101231653B (zh) 2010-09-22

Similar Documents

Publication Publication Date Title
CN101231653B (zh) 数据块拆分方法及其装置
CN103761318B (zh) 一种关系型异构数据库数据同步的方法及系统
CN101901248B (zh) 一种布隆过滤器的生成、更新以及查询元素方法和装置
US10726016B2 (en) In-memory column-level multi-versioned global dictionary for in-memory databases
CN101594319B (zh) 表项查找方法和装置
CN106462592A (zh) 优化对索引的多版本支持的系统和方法
CN101950297A (zh) 一种海量语义数据的存储和查询方法及装置
US9535939B2 (en) Intra-block partitioning for database management
KR20120120159A (ko) 표 검색 장치, 표 검색 방법, 및, 표 검색 시스템
CN101546342A (zh) 实现搜索服务的方法与系统
CN106528641B (zh) 一种数据存储方法、装置及通信网关机
US9317556B2 (en) Accelerating database queries containing bitmap-based conditions
CN103838770A (zh) 一种数据逻辑分区的方法和系统
CN104504030B (zh) 一种面向电力调度自动化海量报文的索引方法
CN104268298A (zh) 一种创建数据库索引及其查询的方法
AU2013382910A1 (en) Compression device, compression method, decompression device, decompression method, and information processing system
CN103326925B (zh) 一种消息推送方法及装置
CN102915344A (zh) 一种sql语句处理方法及装置
CN107241417A (zh) 一种文件传输的方法、系统、发送端及接收端
CN103389976A (zh) 用于终端的搜索方法及系统
CN104346347A (zh) 数据存储方法、装置、服务器及系统
CN107229755A (zh) 一种分布式系统优化方法及设备
CN109753609B (zh) 一种多意图查询方法、装置以及终端
CN104462080A (zh) 针对检索结果进行分组统计的索引结构创建方法和系统
CN112527836A (zh) 一种基于t-box平台的大数据查询方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 518057 Shenzhen Software Park, No. 9, 501, 502, Science and Technology Middle Road, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Innovation Technology Co.,Ltd.

Address before: 518057 Fangda Building 1501, South 12 Road Science and Technology Park, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: UITSTOR (USA) Inc.

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Method and device for resolution of data block

Effective date of registration: 20200707

Granted publication date: 20100922

Pledgee: Shenzhen hi tech investment small loan Co.,Ltd.

Pledgor: Shenzhen Innovation Technology Co.,Ltd.

Registration number: Y2020980003829

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20221121

Granted publication date: 20100922

Pledgee: Shenzhen hi tech investment small loan Co.,Ltd.

Pledgor: Shenzhen Innovation Technology Co.,Ltd.

Registration number: Y2020980003829