CN101777056A - 数据存储方法及设备 - Google Patents

数据存储方法及设备 Download PDF

Info

Publication number
CN101777056A
CN101777056A CN200910216926A CN200910216926A CN101777056A CN 101777056 A CN101777056 A CN 101777056A CN 200910216926 A CN200910216926 A CN 200910216926A CN 200910216926 A CN200910216926 A CN 200910216926A CN 101777056 A CN101777056 A CN 101777056A
Authority
CN
China
Prior art keywords
semantic
semantic data
data piece
information
content identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN200910216926A
Other languages
English (en)
Other versions
CN101777056B (zh
Inventor
王奇
张巍
吕先红
曹振奇
汪东升
刘川意
鞠大鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Chengdu Huawei Technology Co Ltd
Original Assignee
Tsinghua University
Huawei Symantec Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Huawei Symantec Technologies Co Ltd filed Critical Tsinghua University
Priority to CN2009102169263A priority Critical patent/CN101777056B/zh
Publication of CN101777056A publication Critical patent/CN101777056A/zh
Application granted granted Critical
Publication of CN101777056B publication Critical patent/CN101777056B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例公开了数据存储方法及设备,应用于数据存储技术领域。本发明实施例的数据存储方法,通过解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;按照所述语义信息,将所述待储存文件分解为至少两个语义数据块,获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息,储存至少两个语义数据块,和待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置,储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系,提高了文件搜索效率,方便对数据管理和检索。

Description

数据存储方法及设备
技术领域
本发明涉及数据存储领域,特别涉及数据存储方法及设备。
背景技术
在如今的数据存储领域中,数据量的增长导致了包括硬件成本、维护成本和人力成本在内的存储系统整体拥有成本(Total Cost of Ownership,TCO)的增长。减少数据传输、数据存储和数据管理过程中的数据量就成为大规模分布式存储系统中的一个需求,而重复数据删除技术是一种在文件内部层次通过无损的数据压缩方法来消除重复数据的技术,在诸如数据归档等应用类型的存储系统中具有很好的应用价值。
现有的重复数据删除技术主要是:基于比特级,将文件分割成互不交叠的数据块,然后对内容相同的块在存储系统中只保存一份,一个被保存的数据块可能属于同一个文件的不同部分,也可能属于多个文件的不同部分。
在对上述现有技术进行实践和研究的过程中,本发明的发明人发现:
按照现有的数据存储方法进行文件的储存后,在查找文件时,系统需要先对有关的非重复大块进行检索,这些大块随机分布在存储设备中,要逐个地对文件进行重构,然后检查文件内容是否与要求的查询相匹配,这样会降低文件搜索效率;除此而外,由于现有技术是基于比特级对文件进行分割,因此在数据存储的过程中可能把差别很小的两个文件划分为几乎完全不同的数据块,不能很好的删除重复数据。
发明内容
本发明实施例提供数据存储方法及设备,提高了数据管理和数据检索的效率。
为实现上述目的,本发明实施例提供了如下方案:
一种数据存储方法,包括:
解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;
按照所述语义信息,将所述待储存文件分解为至少两个语义数据块;
获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息;
存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;
储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系。
一种数据储存设备,包括:
解析模块,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示待储存文件的属性信息;
语义分解模块,用于按照语义信息将待储存文件分解为至少两个语义数据块;
标识获取模块,用于获取所述语义分解模块分解的语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息;
第一映射关系存储模块,用于存储待储存文件信息与所述标识获取模块获取的所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;
数据储存模块,用于储存所述语义分解模块分解的语义数据块;
第二映射关系储存模块,用于储存所述标识获取模块获取的内容标识与所述语义数据块的存储位置的第二映射关系。
可见,本发明实施例的数据存储方法,通过解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息,按照所述语义信息,将所述待储存文件分解为至少两个语义数据块,获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息,存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块,储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系。这样由于数据是以语义数据块为单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。采用本发明实施例提供的技术方案,提高了数据管理和数据检索的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明方法实施例提供的数据存储方法的流程图;
图2是本发明方法实施例中将语义数据块包装到固定长度的第一对象中的结构示意图;
图3是本发明实施例中提供的电子邮件系统中对数据存储的方法流程图;
图4是本发明实施例中提供的MP3文件的结构示意图;
图5是本发明设备实施例一提供的数据存储设备的结构示意图;
图6是本发明设备实施例二提供的数据存储设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为便于说明,下面介绍本发明的一个具体实施例,如下:一种数据存储方法,本方法实施例的方法是适用于数据存储系统中,如邮件系统等,流程图如图1所示,包括:
步骤100、解析待储存文件,得到待储存文件包括的语义信息;
可以理解,语义信息是用于指示待储存文件的属性信息,可以包括以下任意两种以上信息:应用元数据如文件类型,文件格式,应用软件等,应用提示即应用标记符,文件系统元数据等,其中文件系统元数据包括目录条目、文件的索引(inode)信息等。
例如,通常情况,一个电子邮件文件中包括6个语义信息即:发件地址(FROM)、收件地址(TO)、标题(SUBJECT)、文本(TEXT)、附件名称(ATTACHMENT FILE NAME)和附件内容信息。
步骤101、按照语义信息将待储存文件分解为至少两个语义数据块(Semantic Chunk,SC);
步骤102、获取所述语义数据块的内容标识;
可以理解,内容标识用于指示所述语义数据块的内容信息。在获取语义数据块的内容标识时,系统可以通过加密哈希(Hash)算法得到,能全局唯一标识语义数据块的数据内容,其中hash算法包括信息-摘要算法5(MD5)或安全哈希算法(SHA1)等。
步骤103、存储待储存文件信息与所述内容标识的第一映射关系;
其中,待储存文件信息用于标识所述语义数据块的位置,待储存文件信息可以包括待储存文件的属性、名称等信息,例如:从0到100字节的文件1标识一个语义数据块,从100到1000字节的文件1标识另一个语义数据块。
可以理解,在储存待储存文件信息与内容标识的第一映射关系时,可以将待储存文件信息和内容标识进行对应储存,例如:从0到100字节的文件1对应内容标识1,从100到1000字节的文件1对应内容标识2等。
步骤104、储存所述至少两个语义数据块;
上述步骤103和104并没有顺序关系,也没有互为条件的关系。
步骤105、储存所述内容标识与相应语义数据块的存储位置的第二映射关系;
具体地,在储存内容标识与相应语义数据块的存储位置的第二映射关系时,可以将内容标识和语义数据块的存储位置如存储地址等信息对应的储存,例如:内容标识1对应身份标识号码(Identification Identity,ID)1,内容标识2对应ID2等。
其中,语义数据块的存储位置是在步骤104进行储存时获得的。
可见,本发明实施例的数据存储方法包括:将待储存文件按照语义信息分解成至少两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将获取的语义数据块、和内容标识与相应语义数据块的存储位置进行对应地储存成第一映射关系和第二映射关系。这样使得数据存储系统中,数据是以语义数据块为单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后,才能查看文件相比,本发明实施例的方法能提高文件搜索效率,方便对数据管理和检索。
在一个具体的实施例中,执行上述步骤101时,可以基于语义信息对应的文件切分方法,将待储存文件切分成至少两个语义数据块。
其中,文件切分方法是预置在数据存储系统中的算法,在数据存储系统中包括多个对应不同应用的数据切分库函数,每个数据切分库函数对文件中相应语义信息对应的数据进行切分。如果系统中没有预置步骤100中解析出的语义信息对应的数据切分函数,则系统会按照默认的数据切分函数如Rabin指纹方法(Rabin′s Fingerprinting Algorithm)对文件进行切分。
在另一个具体的实施例中,在执行上述步骤104时可以包括:
将获取的语义数据块的内容标识,和当前存储的内容标识进行匹配;若确定所述当前存储的内容标识中不包括获取的所述语义数据块的内容标识,则储存该语义数据块;当然,若确定当前存储的内容标识中包括获取的所述语义数据块的内容标识,则说明系统中已经储存了该内容标识对应的数据,为了避免重复储存数据,则不执行储存该语义数据块。
将获取的语义数据块的内容标识,和当前存储的内容标识匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,才储存该语义数据块,这样减少文件中重复数据的储存,有效删除了文件中的重复数据。
在其它的具体实施例中,在执行步骤104时,可以将分解的至少两个语义数据块包装到固定长度的第一对象中,并进行储存。
可以理解,对象是存储设备的存储单位,一个固定长度的第一对象可能包括一个或几个逻辑语义数据块,也可能包括一个语义数据块的一部分。具体地,在进行包装成第一对象时,可以如图2所示,
将至少两个语义数据块封装成所述第一对象;或者,
将一个语义数据块分解为至少两个的第一对象;或者,
将语义数据块直接转化为所述第一对象。
例如:语义数据块1、语义数据块2、语义数据块3、语义数据块4和语义数据块5需要存储时,由于语义数据块1的长度大于第一对象的长度时,则将语义数据块1分解成第一对象1和第一对象2;由于语义数据块2、语义数据块3和语义数据块4的总长度不大于第一对象的长度时,将语义数据块2、语义数据块3和语义数据块4封装成第一对象3;由于语义数据块5的长度与第一对象的长度大致相同时,将语义数据块5直接转化为第一对象5;
其中,由于第一对象的大小与语义数据块的大小不可能很好对应,允许包装成的第一对象中存在多个没有数据的字节,例如:当语义数据块2、语义数据块3和语义数据块4的总长度为100字节,而第一对象3的长度为103字节,这时,将语义数据块2、语义数据块3和语义数据块4封装成第一对象3,剩下3个字节没有数据。
其中,语义数据块的存储位置可以包括第一对象的对象标识和位置偏移量,其中,第一对象的对象标识用于标识第一对象,位置偏移量用于指示语义数据块在第一对象中的存储位置,例如:对象标识可以采用UUID(通用唯一识别码,Universally Unique Identifier)标识第一对象,位置偏移量可以采用语义数据块位于第一对象的第几字节与第几字节之间来指示语义数据块在第一对象中的存储位置。
将待储存文件分解为多个语义数据块后,由于每个语义数据块是变长的,自识别的和自描述的逻辑单位,为了使得对这些数据的管理更方便和容易,将至少两个语义数据块包装到固定长度的第一对象中,避免了对存储设备上的小碎片进行操作的代价。
以下以数据存储系统为电子邮件归档系统、网络(Web)文件归档系统及动态影像专家压缩标准音频层面3(MP3)文件归档系统为例说明本发明实施例的方法:
1、电子邮件归档
当邮件系统接收到由Alice发来的邮件时,对邮件的存储的具体步骤参考图3所示,包括:
步骤A1、接收来自Alice的邮件;
步骤B1、加载邮件并开始扫描;
步骤C1、判断当前的扫描位置是否是邮件的结束,如果是,执行步骤D1,如果不是,则返回步骤B1进行扫描;
步骤D1、通过邮件系统中语义数据压缩(SDD)库提供的应用接口标记检索(tag Retrieval),解析到邮件包括如下的语义信息:“FROM地址”、“TO地址”“SUBJECT”、“TEXT”、附件文件名和附件内容;
步骤E1、通过SDD库提供的应用接口文件切分(File Divider),将邮件分解为6个语义数据块,并分别计算6个语义数据块的Hash值即内容标识,在储存语义数据块后,将计算得到的6个语义数据块的Hash值与6个语义数据块相应的存储位置进行对应地储存。
2、Web文件归档
大多数web文件为超文本标记语言(Hyper Text Mark-up Language,HTML)文件,用来描述在互联网上的可读浏览器的超文本页,对HTML文件进行的储存时通过如下步骤来实现:
(1)Web文件储存系统在进行解析待储存的HTML文件得到语义信息时:
一个HTML文件由若干元素组成,每个元素通常有通常用一个开始标记(tag)和一个结束标记表示,如以<元素名称(element-name)>开始。元素的属性包含在开始标记和结束标记中,因此在解析语义信息时,可以解析每个开始标记,得到的元素即为语义信息。
(2)在划分语义数据块时:
在划分语义数据块时,是将每个标记的开始或结束作为语义分块的切入点。但是,在一般情况下,HTML文件格式包含非常多的标记,它们用以划定该文件元素的范围,这样潜在地导致了实际上不同大小元素的存在。
因此在划分语义数据块时,可以将一个标记的开始和结束作为候选切分点(candidate dividing point)P,先于P的m字节开始,在P之后的m字节结束,将一个指针的标识符(identifier)作为语法(Shingle)的指纹,即identifier(P)=fingerprint(shingle[P-m,P+m]),其中Shingle的大小是2m字节,其中m可以依据不同的工作量予以配置。如果候选切分点P的Rabin指纹与一个预先标记的值匹配,那么就将该点P作为切分语义数据块的一个划分点。
(3)进一步的对系统中的Web文件进行去重:
由于web文件在每个站点总是成批归档,而在同一站点内通常会有相同或近似的风格及格式的Web页,则可以将系统中储存的Web文件进行对比得到该站点的模板(template)。如在同一站点内的两个web页有着同样的抬头(header)片段及底部(bottom)片段(对应于开始元素、标题元素以及风格元素等等),相似的工具条片段以及甚至相似的内容片段。利用上述得到的模板,可以进一步对web文件进行划分并去重相同的片段。
由于待储存或搜索的web区域可以使用<protocol name>://<machinename>/<file name>这样的统一资源定位符(Uniform Resource Locator,URL)结构来指定,其中<protocol name>是指浏览器与服务器通信使用的协议(如HTTP、文件传输协议等等),<machine name>是指服务器的名字(web地址),<file name>是指在服务器存储文档的目录路径。
因此,具有相同服务器名字的URL限制储存在特定的服务器页中,同时拥有相同文件夹前缀的URL仅限制储存在其子文件夹的页中。
3、MP3文件归档
MP3是一种数字音频编码格式,使用有损数据压缩技术,即减低声音一些部分的精确性,被认为是在大多数人们的听力解析能力之外。使用MP3格式的音频数据的归档对相关的应用是很重要的。
如图4所示,MP3文件有一个标准格式,包含三个部分:标记V2(TAG_V2即ID3V2)元数据(metadata),帧(Frames),分别对应的标记V1(TAG_V1即ID3V1)元数据,其中,帧包含MP3抬头(header)和MP3数据(data)。MP3抬头含有一个同步的字,用于识别一个合法帧的开始,随后的一位显示这是MPEG标准,两位显示层3被使用。
一般情况下,MP3文件含有ID3元数据,先于或在MP3帧之后,ID3V2部分是一个可变长度的tag表,用以描述音频。在压缩音频文件中一个标记是指包含诸如标题,艺术家,专辑,音轨号或其他与该文件内容相关信息的元数据的域。另外,可以扩展ID3V1信息,它是一个拥有128字节的tag结构,如下表1所示:
表1
Figure G2009102169263D00081
Figure G2009102169263D00091
由于许多不同的MP3文件有着相同的音频内容和不同的标记描述信息,即相同的歌曲由同一个歌手演唱,但发布在不同的专辑中,或者相同的歌曲由不同的工作室编码,这样就有了不同的评论tag,或者甚至有些tag被人使用一些音频编辑工具修改或评论。因此,在切分时,将把每个MP3文件切分成如图3所示的三个部分,其中ID3V2和ID3V1标记被解析和存储在MDS的File_Attibutes_Table中,音频帧作为一个逻辑的语义数据块进行存储,以便进一步被打包成物理对象而实际存储到磁盘设备中。
可见,本发明实施例的数据存储方法是:将待储存文件按照语义信息分解成至少两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将待储存文件信息、和内容标识与语义数据块的存储位置对应地储存成第一映射关系和第二映射关系。这样使得数据存储系统中,数据是以语义数据块为单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后,才能查看文件相比,本发明实施例的方法能提高文件搜索效率,方便对数据管理和检索;
另外,本发明实施例中,将获取的语义数据块的内容标识,和当前存储的内容标识匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,才储存该语义数据块,这样减少文件中重复数据的储存。
本发明实施例还提供了一种数据存储设备,如图5所示,包括:
解析模块00,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示待储存文件的属性信息,可以包括以下任意两种以上信息:文件类型,文件格式,应用提示,文件系统元数据;
语义分解模块10,用于按照所述解析模块00解析得到的语义信息将待储存文件分解为至少两个语义数据块;
标识获取模块11,用于获取所述语义分解模块10分解的语义数据块的内容标识;
可以理解,内容标识用于指示所述语义数据块的内容信息,标识获取模块11在获取语义数据块的内容标识时,可以通过加密哈希(hash)算法得到,能全局唯一标识语义数据块的数据内容,其中hash算法包括MD5或SHA1等。
第一映射关系存储模块12,用于存储待储存文件信息与所述标识获取模块获取的所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;
数据储存模块13,用于储存所述语义分解模块10分解的语义数据块;
第二映射关系储存模块14,用于储存所述标识获取模块11获取的内容标识与所述语义数据块的存储位置的第二映射关系。
可见,本发明实施例的数据存储设备中:解析模块00解析待储存文件得到语义信息,语义分解模块10将待储存文件按照语义信息分解成至少两个语义数据块,标识获取模块11获取所述语义数据块的内容标识,第一映射关系存储模块12将待储存文件信息与所述标识获取模块获取的所述内容标识的第一映射关系进行存储,数据储存模块13储存该语义数据块,第二映射关系储存模块14将所述标识获取模块获取的内容标识与所述语义数据块的存储位置的第二映射关系进行存储。这样使得数据存储设备在查看文件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后,才能查看文件相比,本发明实施例的设备能提高文件搜索效率,方便对数据管理和检索。
本发明实施例还提供了另一种数据存储设备,如图6所示,本实施例的设备相对于上一个设备实施例,细化了数据储存模块13,结构示意图如图6所示,其中:
语义分解模块10具体用于基于所述解析模块00解析得到的语义信息对应的文件切分方法,将所述待储存文件切分成至少两个语义数据块。
文件切分方法是预置在数据存储设备中的算法,在数据存储设备中包括多个不同的应用相关的数据切分库函数,每个数据切分库函数对文件中相应语义信息对应数据进行切分。如果设备中没有预置解析单元00中解析出的语义信息对应的数据切分函数,则语义分解模块10会按照默认的数据切分函数如Rabin指纹方法对文件进行切分。
数据储存模块13具体包括:
匹配单元130,用于将所述标识获取模块11获取的语义数据块的内容标识,和当前存储的内容标识进行匹配;
存储单元131,用于若所述匹配单元130确定所述当前存储内容标识中不包括所述标识获取模块11获取的所述语义数据块的内容标识,则储存所述语义分解模块分解的所述语义数据块。
当然,若确定当前存储的内容标识中包括获取的所述获取的语义数据块的内容标识,则说明系统中已经储存了该语义数据块,不再存储该语义数据块。
在其他的实施例中,数据储存模块13还可以包括:定长包装单元132,用于将所述语义分解模块10切分得到的至少两个语义数据块包装到固定长度的第一对象中。
本发明实施例的设备中,匹配单元130将获取的语义数据块的内容标识,和当前存储的内容标识进行匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,存储单元131才储存该语义数据块,这样减少文件中重复数据的储存;
且通过定长包装单元132将语义数据块包装到固定长度的第一对象中,这样方便了数据存储设备对数据的管理。
具体地,定长包装单元132在进行包装成第一对象时,可以将至少两个语义数据块封装成所述第一对象;或者,将一个语义数据块分解为至少两个的第一对象;或者,将语义数据块直接转化为所述第一对象。这时,语义数据块的存储位置可以包括第一对象的对象标识和位置偏移量,其中,第一对象的对象标识用于标识第一对象,位置偏移量用于指示语义数据块在第一对象中的存储位置。
可见,本发明实施例的数据存储方法包括:将待储存文件按照语义信息分解成至少两个语义数据块,储存该语义数据块,并获取所述语义数据块的内容标识,将待储存文件信息、和内容标识与语义数据块的存储位置对应地储存成第一映射关系和第二映射关系。这样使得数据存储系统中,数据是以语义数据块为单位进行储存的,则在查看文件时,可以查看文件中一部分语义数据块的数据。和现有技术中需要查找文件的全部数据并重构后,才能查看文件相比,本发明实施例的方法能提高文件搜索效率,方便对数据管理和检索;
另外,本发明实施例中,将获取的语义数据块的内容标识,和当前存储的内容标识匹配,只有在当前存储的内容标识中不包括该获取的内容标识时,才储存该语义数据块,这样减少文件中重复数据的储存。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。
以上对本发明实施例所提供的数据存储方法及设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (9)

1.一种数据存储方法,其特征在于,包括:
解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示所述待储存文件的属性信息;
按照所述语义信息,将所述待储存文件分解为至少两个语义数据块;
获取所述语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息;
存储待储存文件信息与所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;
储存所述语义数据块以及所述内容标识与所述语义数据块的存储位置的第二映射关系。
2.根据权利要求1所述的方法,其特征在于,所述按照语义信息,将所述待储存文件分解为至少两个语义数据块,包括:
基于所述语义信息对应的文件切分方法,将所述待储存文件切分成至少两个语义数据块。
3.根据权利要求2所述的方法,其特征在于,所述储存所述语义数据块包括:
将获取的所述内容标识,和当前存储的内容标识进行匹配;
若确定所述当前存储的内容标识中不包括获取的所述内容标识,则储存所述语义数据块。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述储存所述语义数据块,还包括:
将所述至少两个所述语义数据块包装到固定长度的第一对象中;
所述语义数据块的存储位置包括所述第一对象的对象标识和位置偏移量,其中,所述第一对象的对象标识用于标识所述第一对象,所述位置偏移量用于指示所述语义数据块在所述第一对象中的存储位置。
5.根据权利要求1所述的方法,其特征在于,所述语义信息包括以下至少两种信息:文件类型,文件格式,应用提示,文件系统元数据。
6.一种数据储存设备,其特征在于,包括:
解析模块,用于解析待储存文件,得到所述待储存文件包括的语义信息,所述语义信息用于指示待储存文件的属性信息;
语义分解模块,用于按照语义信息将待储存文件分解为至少两个语义数据块;
标识获取模块,用于获取所述语义分解模块分解的语义数据块的内容标识,所述内容标识用于指示所述语义数据块的内容信息;
第一映射关系存储模块,用于存储待储存文件信息与所述标识获取模块获取的所述内容标识的第一映射关系,所述待储存文件信息用于标识所述语义数据块的位置;
数据储存模块,用于储存所述语义分解模块分解的语义数据块;
第二映射关系储存模块,用于储存所述标识获取模块获取的内容标识与所述语义数据块的存储位置的第二映射关系。
7.根据权利要求6所述的设备,其特征在于,所述语义分解模块具体用于基于所述解析单元解析得到的语义信息对应的文件切分方法,将所述待储存文件切分成至少两个语义数据块。
8.根据权利要求6所述的设备,其特征在于,所述数据储存模块包括:
匹配单元,用于将所述标识获取模块获取的语义数据块的内容标识,和当前存储的内容标识进行匹配;
存储单元,用于若所述匹配单元确定所述当前存储内容标识中不包括所述标识获取模块获取的所述语义数据块的内容标识,则储存所述语义分解模块分解的所述语义数据块。
9.根据权利要求6至8中任意一项所述的设备,其特征在于,所述数据储存模块还包括:
定长包装单元,用于将所述语义分解模块分解的至少两个语义数据块包装到固定长度的第一对象中;
所述第二映射关系储存模块储存的所述语义数据块的存储位置包括所述第一对象的对象标识和位置偏移量,其中,第一对象的对象标识用于标识所述第一对象,位置偏移量用于指示语义数据块在所述第一对象中的存储位置。
CN2009102169263A 2009-12-31 2009-12-31 数据存储方法及设备 Active CN101777056B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102169263A CN101777056B (zh) 2009-12-31 2009-12-31 数据存储方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102169263A CN101777056B (zh) 2009-12-31 2009-12-31 数据存储方法及设备

Publications (2)

Publication Number Publication Date
CN101777056A true CN101777056A (zh) 2010-07-14
CN101777056B CN101777056B (zh) 2012-01-04

Family

ID=42513520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102169263A Active CN101777056B (zh) 2009-12-31 2009-12-31 数据存储方法及设备

Country Status (1)

Country Link
CN (1) CN101777056B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件系统缓存方法
CN102436449A (zh) * 2010-09-29 2012-05-02 腾讯科技(深圳)有限公司 一种获取音频文件名的方法和装置
WO2012088925A1 (zh) * 2010-12-31 2012-07-05 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置
CN102568531A (zh) * 2011-12-15 2012-07-11 惠州Tcl移动通信有限公司 音量管理方法及其无线通讯设备
CN102651051A (zh) * 2011-02-28 2012-08-29 国际商业机器公司 识别临床路径执行偏差的系统和方法
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除系统及其删除方法
CN103559200A (zh) * 2013-10-07 2014-02-05 宁波芝立软件有限公司 一种亲缘关系信息库构建方法
WO2014090097A1 (zh) * 2012-12-14 2014-06-19 腾讯科技(深圳)有限公司 一种数据存储方法和装置
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN104079469A (zh) * 2013-03-26 2014-10-01 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104811742A (zh) * 2015-04-28 2015-07-29 无锡天脉聚源传媒科技有限公司 一种视频数据的存储方法及装置
CN105138546A (zh) * 2015-07-10 2015-12-09 国家电网公司 基于Dom4J的IMS信息设备台账消重方法
CN105225097A (zh) * 2015-10-10 2016-01-06 广东卓维网络有限公司 一种用于电子审计文件的归档系统及归档方法
CN105530227A (zh) * 2014-09-30 2016-04-27 亿阳信通股份有限公司 一种接口数据传输方法和装置
CN105892956A (zh) * 2016-06-13 2016-08-24 北京中电普华信息技术有限公司 一种高复用分布式存储方法及系统
CN106507210A (zh) * 2013-09-25 2017-03-15 北京奇虎科技有限公司 播放网页中视频的方法及装置
CN106572090A (zh) * 2016-10-21 2017-04-19 网宿科技股份有限公司 数据传输方法及系统
CN107015978A (zh) * 2016-01-27 2017-08-04 广州市动景计算机科技有限公司 一种网页资源处理方法以及装置
CN107330097A (zh) * 2017-07-05 2017-11-07 郑州云海信息技术有限公司 一种分布式重删装置、数据指纹存储、读取方法及系统
CN107529070A (zh) * 2016-06-21 2017-12-29 天脉聚源(北京)科技有限公司 一种实现弹幕的方法和系统
CN108733664A (zh) * 2017-04-13 2018-11-02 腾讯科技(深圳)有限公司 一种文件归类方法及装置
WO2020015220A1 (zh) * 2018-07-19 2020-01-23 平安科技(深圳)有限公司 基于pdf文档的数据下载方法及装置、存储介质、终端
CN112307033A (zh) * 2020-11-23 2021-02-02 杭州迪普科技股份有限公司 数据包文件的重构方法、装置及设备
CN114528258A (zh) * 2022-02-18 2022-05-24 北京百度网讯科技有限公司 文件异步处理方法、装置、服务器、介质、产品及系统
WO2024037002A1 (zh) * 2022-08-15 2024-02-22 华为技术有限公司 一种数据的缩减方法、装置、设备、存储介质及处理器

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100337208C (zh) * 2004-06-03 2007-09-12 华为技术有限公司 一种存储系统中的快照处理方法
CN101446924B (zh) * 2008-12-16 2013-04-17 成都市华为赛门铁克科技有限公司 一种数据存储及获取方法、系统

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968795A (zh) * 2010-09-03 2011-02-09 清华大学 一种数据块长度可变的文件系统缓存方法
CN102436449A (zh) * 2010-09-29 2012-05-02 腾讯科技(深圳)有限公司 一种获取音频文件名的方法和装置
WO2012088925A1 (zh) * 2010-12-31 2012-07-05 成都市华为赛门铁克科技有限公司 一种基于数据内容识别的存储方法及装置
CN102651051A (zh) * 2011-02-28 2012-08-29 国际商业机器公司 识别临床路径执行偏差的系统和方法
CN102568531A (zh) * 2011-12-15 2012-07-11 惠州Tcl移动通信有限公司 音量管理方法及其无线通讯设备
CN102568531B (zh) * 2011-12-15 2015-02-18 惠州Tcl移动通信有限公司 音量管理方法及其无线通讯设备
US9377959B2 (en) 2012-12-14 2016-06-28 Tencent Technology (Shenzhen) Company Limited Data storage method and apparatus
WO2014090097A1 (zh) * 2012-12-14 2014-06-19 腾讯科技(深圳)有限公司 一种数据存储方法和装置
CN104079469A (zh) * 2013-03-26 2014-10-01 联想(北京)有限公司 一种信息处理的方法及电子设备
CN103177111B (zh) * 2013-03-29 2016-02-24 西安理工大学 重复数据删除系统及其删除方法
CN103177111A (zh) * 2013-03-29 2013-06-26 西安理工大学 重复数据删除系统及其删除方法
CN106507210A (zh) * 2013-09-25 2017-03-15 北京奇虎科技有限公司 播放网页中视频的方法及装置
CN103559200A (zh) * 2013-10-07 2014-02-05 宁波芝立软件有限公司 一种亲缘关系信息库构建方法
CN103971061A (zh) * 2014-05-26 2014-08-06 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN103971061B (zh) * 2014-05-26 2017-06-30 中电长城网际系统应用有限公司 文本文件指纹获取方法及其装置、数据管理方法
CN105530227A (zh) * 2014-09-30 2016-04-27 亿阳信通股份有限公司 一种接口数据传输方法和装置
CN104811742A (zh) * 2015-04-28 2015-07-29 无锡天脉聚源传媒科技有限公司 一种视频数据的存储方法及装置
CN105138546A (zh) * 2015-07-10 2015-12-09 国家电网公司 基于Dom4J的IMS信息设备台账消重方法
CN105138546B (zh) * 2015-07-10 2018-11-06 国家电网公司 基于Dom4J的IMS信息设备台账消重方法
CN105225097A (zh) * 2015-10-10 2016-01-06 广东卓维网络有限公司 一种用于电子审计文件的归档系统及归档方法
CN107015978A (zh) * 2016-01-27 2017-08-04 广州市动景计算机科技有限公司 一种网页资源处理方法以及装置
CN107015978B (zh) * 2016-01-27 2020-07-07 阿里巴巴(中国)有限公司 一种网页资源处理方法以及装置
CN105892956B (zh) * 2016-06-13 2018-11-20 北京中电普华信息技术有限公司 一种高复用分布式存储方法及系统
CN105892956A (zh) * 2016-06-13 2016-08-24 北京中电普华信息技术有限公司 一种高复用分布式存储方法及系统
CN107529070A (zh) * 2016-06-21 2017-12-29 天脉聚源(北京)科技有限公司 一种实现弹幕的方法和系统
CN106572090A (zh) * 2016-10-21 2017-04-19 网宿科技股份有限公司 数据传输方法及系统
CN108733664A (zh) * 2017-04-13 2018-11-02 腾讯科技(深圳)有限公司 一种文件归类方法及装置
CN107330097A (zh) * 2017-07-05 2017-11-07 郑州云海信息技术有限公司 一种分布式重删装置、数据指纹存储、读取方法及系统
CN107330097B (zh) * 2017-07-05 2020-11-10 郑州云海信息技术有限公司 一种分布式重删装置、数据指纹存储、读取方法及系统
WO2020015220A1 (zh) * 2018-07-19 2020-01-23 平安科技(深圳)有限公司 基于pdf文档的数据下载方法及装置、存储介质、终端
CN112307033A (zh) * 2020-11-23 2021-02-02 杭州迪普科技股份有限公司 数据包文件的重构方法、装置及设备
CN112307033B (zh) * 2020-11-23 2023-04-25 杭州迪普科技股份有限公司 数据包文件的重构方法、装置及设备
CN114528258A (zh) * 2022-02-18 2022-05-24 北京百度网讯科技有限公司 文件异步处理方法、装置、服务器、介质、产品及系统
CN114528258B (zh) * 2022-02-18 2022-12-27 北京百度网讯科技有限公司 文件异步处理方法、装置、服务器、介质、产品及系统
WO2024037002A1 (zh) * 2022-08-15 2024-02-22 华为技术有限公司 一种数据的缩减方法、装置、设备、存储介质及处理器

Also Published As

Publication number Publication date
CN101777056B (zh) 2012-01-04

Similar Documents

Publication Publication Date Title
CN101777056B (zh) 数据存储方法及设备
CN110083805B (zh) 一种将Word文件转换为EPUB文件的方法及系统
US7836396B2 (en) Automatically collecting and compressing style attributes within a web document
CN103389969A (zh) 一种用于移动终端预览pdf文件的方法、装置和系统
Povar et al. Forensic data carving
US20140289394A1 (en) Method of and system for collecting network data
CN105653592A (zh) 一种基于hdfs的小文件合并工具和方法
EP1109104A1 (en) Deleting unused templates
CN104765849A (zh) 一种获取拷贝数据来源信息的方法和系统
US8805860B2 (en) Processing encoded data elements using an index stored in a file
CA2845279A1 (en) Methods for compressing web page menus and devices thereof
CN111368227A (zh) 一种url处理方法以及装置
US20140279842A1 (en) Inferring a sequence of editing operations to facilitate merging versions of a shared document
CN107844483B (zh) 文件管理方法及装置
CN104363237A (zh) 一种互联网媒体资源元数据的处理方法及其系统
CN108874856B (zh) 一种页面生成系统、方法及服务器
CN102591878A (zh) 技术标准的数字化处理方法
US20020087536A1 (en) Methods for reproducing and recreating original data
CN101374307A (zh) 一种移动设备中更新数字内容信息的方法及装置
CN111176901A (zh) 一种hdfs删除文件恢复方法、终端设备及存储介质
CN112752165B (zh) 字幕处理方法、装置、服务器及计算机可读存储介质
CN105095225A (zh) 文件数据的获取方法和装置
CN102831151B (zh) 电子文档的生成方法和装置
CN112925755A (zh) 一种文件系统超长路径智能存储方法及装置
CN107391655B (zh) 一种抽取试读文件的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee

Owner name: HUAWEI DIGITAL TECHNOLOGY (CHENGDU) CO., LTD.

Free format text: FORMER NAME: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES CO., LTD.

CP01 Change in the name or title of a patent holder

Address after: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee after: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Patentee after: TSINGHUA University

Address before: 611731 Chengdu high tech Zone, Sichuan, West Park, Qingshui River

Patentee before: CHENGDU HUAWEI SYMANTEC TECHNOLOGIES Co.,Ltd.

Patentee before: Tsinghua University

TR01 Transfer of patent right

Effective date of registration: 20221110

Address after: No. 1899 Xiyuan Avenue, high tech Zone (West District), Chengdu, Sichuan 610041

Patentee after: Chengdu Huawei Technologies Co.,Ltd.

Patentee after: TSINGHUA University

Address before: 611731 Qingshui River District, Chengdu hi tech Zone, Sichuan, China

Patentee before: HUAWEI DIGITAL TECHNOLOGIES (CHENG DU) Co.,Ltd.

Patentee before: TSINGHUA University

TR01 Transfer of patent right