CN105511814A - 一种静态数据文件的存储方法 - Google Patents
一种静态数据文件的存储方法 Download PDFInfo
- Publication number
- CN105511814A CN105511814A CN201510924014.7A CN201510924014A CN105511814A CN 105511814 A CN105511814 A CN 105511814A CN 201510924014 A CN201510924014 A CN 201510924014A CN 105511814 A CN105511814 A CN 105511814A
- Authority
- CN
- China
- Prior art keywords
- file
- fingerprint
- stored
- buffer memory
- store
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/061—Improving I/O performance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/0643—Management of files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
- G06F3/0674—Disk device
- G06F3/0676—Magnetic disk device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种静态数据文件的存储方法,包括步骤:S1、获取待存储文件的元数据信息;S2、通过所述元数据信息计算所述待存储文件的指纹;S3、将所述待存储文件的指纹与已保存文件的指纹进行匹配,判断所述待存储文件的指纹是否存在;若存在,则返回所述已保存文件的指纹缓存并结束存储;若不存在,则缓存所述待存储的指纹缓存并结束存储。能在进行静态数据文件存储时,仅读取文件的元数据信息,判断是否需要进行存储,从而缩减用户的数据保护窗口时间、网络带宽占用、磁盘存储空间占用、磁盘IO占用等。能积极有效的帮助用户更快、更及时的完成数据保护,从而节省更多的物力成本和人力成本。
Description
技术领域
本发明涉及文件存储领域,特别是涉及一种静态数据文件的存储方法。
背景技术
随着计算机的不断发展,数据保护也逐步在加强。然而随着数据的迅速增加,数据保护变得越来越难。磁盘IO瓶颈、网络带宽瓶颈、数据保护窗口时间均制约着大数据量数据的保护。
在很多场景下的大数据量数据均是静态数据文件,这些数据文件在产生后便不再发生数据的修改。这些数据在进行数据保护时会多次被存储到数据保护中心,从而造成了数据存储空间的浪费,同时也造成了网络带宽的占用,延长了数据保护窗口时间。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种静态数据文件的存储方法,用于解决现有技术中数据存储空间的浪费,同时也造成了网络带宽的占用,延长了数据保护窗口时间的问题。
为实现上述目的及其他相关目的,本发明提供一种静态数据文件的存储方法,包括步骤:S1、获取待存储文件的元数据信息;S2、通过所述元数据信息计算所述待存储文件的指纹;S3、将所述待存储文件的指纹与已保存文件的指纹进行匹配,判断所述待存储文件的指纹是否存在;若存在,则返回所述已保存文件的指纹缓存并结束存储;若不存在,则缓存所述待存储的指纹缓存并结束存储。
于本发明的一实施例中,所述元数据信息包括:创建时间、修改时间、文件基本属性、文件自定义元数据、文件绝对路径和文件名称。
于本发明的一实施例中,所述返回已保存文件的指纹缓存的步骤还包括步骤:S31、获取所述已保存文件的指纹缓存的唯一的第一存储ID;S32、通过所述第一存储ID获取所述已保存文件的指纹缓存;S33、返回所述已保存文件的指纹缓存。
于本发明的一实施例中,所述缓存所述待存储的指纹缓存的步骤还包括步骤:S31’、存储所述待存储文件的指纹;S32’、生成所述待存储文件的指纹缓存唯一的第二存储ID;S33’、根据所述第二存储ID存储所述待存储文件的指纹缓存。
于本发明的一实施例中,所述指纹为对应文件元数据信息的哈希值;通过哈希算法计算得出。
如上所述,本发明的静态数据文件的存储方法,具有以下有益效果:能在进行静态数据文件存储时,仅读取文件的元数据信息,判断是否需要进行存储,从而缩减用户的数据保护窗口时间、网络带宽占用、磁盘存储空间占用、磁盘IO占用等。能积极有效的帮助用户更快、更及时的完成数据保护,从而节省更多的物力成本和人力成本。
附图说明
图1显示为本发明静态数据文件的存储方法的一实施例中的流程方框示意图。
图2显示为本发明静态数据文件的存储方法的另一实施例中的流程方框示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1至2。如图1所示,图1显示为本发明静态数据文件的存储方法的一实施例中的流程方框示意图。本发明的一实施例中提供了一种静态数据文件的存储方法,包括步骤:S1、获取待存储文件的元数据信息;S2、通过所述元数据信息计算所述待存储文件的指纹;S3、将所述待存储文件的指纹与已保存文件的指纹进行匹配,判断所述待存储文件的指纹是否存在;若存在,则返回所述已保存文件的指纹缓存并结束存储;若不存在,则缓存所述待存储的指纹缓存并结束存储。能在进行静态数据文件存储时,仅读取文件的元数据信息,判断是否需要进行存储,从而缩减用户的数据保护窗口时间、网络带宽占用、磁盘存储空间占用、磁盘IO占用等。能积极有效的帮助用户更快、更及时的完成数据保护,从而节省更多的物力成本和人力成本。
如图2所示,图2显示为本发明静态数据文件的存储方法的另一实施例中的流程方框示意图。在本发明的另一实施例中,本发明静态数据文件的存储方法包括步骤:
S1、获取待存储文件的元数据信息;通常所述元数据信息包括:创建时间、修改时间、文件基本属性、文件自定义元数据、文件绝对路径和文件名称等。也可以根据需要选择相关元数据信息的内容,只要满足后续处理需要,均在本发明的保护范围之内。
S2、通过所述元数据信息计算所述待存储文件的指纹;进一步地,所述指纹为对应文件元数据信息的哈希值;哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上来说基本上是不可能的。哈希值是根据文件的内容的数据通过逻辑运算得到的数值,不同的文件(即使是相同的文件名)得到的哈希值是不同的,所以哈希值值就成了每一个文件的身份证。不同哈希值的文件被认为是不同的文件,相同的哈希值的文件的内容肯定是完全相同(即使文件名不同)。HASH值还有文件校验的功能,相当于文件的校验码。因此通过哈希值判断文件信息是否一致具有明显的可行性。
本实施例中,通过哈希算法计算得出对应文件元数据信息的哈希值。哈希算法将任意长度的二进制值映射为较短的固定长度的二进制值,这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。如果散列一段明文而且哪怕只更改该段落的一个字母,随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入,在计算上是不可能的,所以数据的哈希值可以检验数据的完整性。一般用于快速查找和加密算法。哈希表是根据设定的哈希函数H(key)和处理冲突方法将一组关键字映射到一个有限的地址区间上,并以关键字在地址区间中的象作为记录在表中的存储位置,这种表称为哈希表或散列,所得存储位置称为哈希地址或散列地址。作为线性数据结构与表格和队列等相比,哈希表无疑是查找速度比较快的一种。通过将单向数学函数(有时称为“哈希算法”)应用到任意数量的数据所得到的固定大小的结果。如果输入数据中有变化,则哈希也会发生变化。哈希可用于许多操作,包括身份验证和数字签名。也称为“消息摘要”。或者说,哈希(Hash)算法,即散列函数。它是一种单向密码体制,即它是一个从明文到密文的不可逆的映射,只有加密过程,没有解密过程。同时,哈希函数可以将任意长度的输入经过变化以后得到固定长度的输出。哈希函数的这种单向特征和输出数据长度固定的特征使得它可以生成消息或者数据。后续指纹即哈希值的生成均采用此方法。
S3、将所述待存储文件的指纹与已保存文件的指纹进行匹配,判断所述待存储文件的指纹是否存在;若存在,则返回所述已保存文件的指纹缓存并结束存储;若不存在,则缓存所述待存储的指纹缓存并结束存储。进一步地,所述返回已保存文件的指纹缓存的步骤还包括步骤:S31、获取所述已保存文件的指纹缓存的唯一的第一存储ID;S32、通过所述第一存储ID获取所述已保存文件的指纹缓存;S33、返回所述已保存文件的指纹缓存。所述缓存所述待存储的指纹缓存的步骤还包括步骤:S31’、存储所述待存储文件的指纹;S32’、生成所述待存储文件的指纹缓存唯一的第二存储ID;S33’、根据所述第二存储ID存储所述待存储文件的指纹缓存。
以下以一具体实施方式为例进行说明。本实例采用的操作系统为RedHatEnterpriseLinux5,数据采用1000个文件大小为1GB的静态数据文件。本实例包含如下步骤:
1、获取文件的元数据信息,包括创建时间、修改时间、文件基本属性、文件自定义元数据、文件绝对路径、文件名称。
2、根据步骤1获取的文件元数据信息计算其哈希值,亦称作为指纹。
3、根据步骤2获取的指纹与已存在的文件指纹进行匹配,查询指纹是否已存在。若指纹不存在则执行步骤7,若指纹存在则执行步骤4。
4、获取指纹对应的文件指纹缓存唯一存储ID。
5、根据步骤4获取的文件指纹缓存唯一存储ID获取文件指纹缓存。
6、将步骤5获取的文件指纹缓存返回。执行步骤10。
7、存储步骤2获取的指纹。
8、生成存储步骤2获取的指纹对应的文件指纹缓存的唯一存储ID。
9、根据步骤8生成的文件指纹缓存唯一存储ID存储步骤2获取的指纹对应的文件指纹缓存。
10、结束文件指纹查询。
11、重复执行上述步骤直到1000个数据文件全部完成文件指纹查询。
综上所述,本发明的静态数据文件的存储方法,能在进行静态数据文件存储时,仅读取文件的元数据信息,判断是否需要进行存储,从而缩减用户的数据保护窗口时间、网络带宽占用、磁盘存储空间占用、磁盘IO占用等。能积极有效的帮助用户更快、更及时的完成数据保护,从而节省更多的物力成本和人力成本。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (5)
1.一种静态数据文件的存储方法,其特征在于,包括步骤:
S1、获取待存储文件的元数据信息;
S2、通过所述元数据信息计算所述待存储文件的指纹;
S3、将所述待存储文件的指纹与已保存文件的指纹进行匹配,判断所述待存储文件的指纹是否存在;若存在,则返回所述已保存文件的指纹缓存并结束存储;若不存在,则缓存所述待存储的指纹缓存并结束存储。
2.根据权利要求1所述的静态数据文件的存储方法,其特征在于,所述元数据信息包括:创建时间、修改时间、文件基本属性、文件自定义元数据、文件绝对路径和文件名称。
3.根据权利要求1所述的静态数据文件的存储方法,其特征在于,所述返回已保存文件的指纹缓存的步骤还包括步骤:
S31、获取所述已保存文件的指纹缓存的唯一的第一存储ID;
S32、通过所述第一存储ID获取所述已保存文件的指纹缓存;
S33、返回所述已保存文件的指纹缓存。
4.根据权利要求1所述的静态数据文件的存储方法,其特征在于,所述缓存所述待存储的指纹缓存的步骤还包括步骤:
S31’、存储所述待存储文件的指纹;
S32’、生成所述待存储文件的指纹缓存唯一的第二存储ID;
S33’、根据所述第二存储ID存储所述待存储文件的指纹缓存。
5.根据权利要求1所述的静态数据文件的存储方法,其特征在于,所述指纹为对应文件元数据信息的哈希值;通过哈希算法计算得出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510924014.7A CN105511814A (zh) | 2015-12-11 | 2015-12-11 | 一种静态数据文件的存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510924014.7A CN105511814A (zh) | 2015-12-11 | 2015-12-11 | 一种静态数据文件的存储方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105511814A true CN105511814A (zh) | 2016-04-20 |
Family
ID=55719834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510924014.7A Pending CN105511814A (zh) | 2015-12-11 | 2015-12-11 | 一种静态数据文件的存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105511814A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391701A (zh) * | 2017-07-27 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种文件创建方法及装置 |
CN110019039A (zh) * | 2017-07-21 | 2019-07-16 | Emc知识产权控股有限公司 | 元数据分离的容器格式 |
CN110399348A (zh) * | 2019-07-19 | 2019-11-01 | 苏州浪潮智能科技有限公司 | 文件重删方法、装置、系统及计算机可读存储介质 |
CN111666421A (zh) * | 2020-06-03 | 2020-09-15 | 北京声智科技有限公司 | 数据处理方法、装置及电子设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033962A (zh) * | 2010-12-31 | 2011-04-27 | 中国传媒大学 | 一种快速去重的文件数据复制方法 |
CN102508916A (zh) * | 2011-11-21 | 2012-06-20 | 电子科技大学 | 一种海量数据的文件指纹分析方法 |
US20130086299A1 (en) * | 2011-10-03 | 2013-04-04 | Cisco Technology, Inc. | Security in virtualized computer programs |
CN103544275A (zh) * | 2013-10-22 | 2014-01-29 | 华为技术有限公司 | 一种处理数据的方法及装置 |
CN103780633A (zh) * | 2012-10-17 | 2014-05-07 | 腾讯科技(深圳)有限公司 | 移动终端、网络服务器上传文件的方法和装置 |
US20140164561A1 (en) * | 2012-12-12 | 2014-06-12 | Hon Hai Precision Industry Co., Ltd. | Compressed package upload management system and method |
WO2015067117A1 (zh) * | 2013-11-06 | 2015-05-14 | 乐视网信息技术(北京)股份有限公司 | 一种云上传方法及系统、调度设备、客户端 |
-
2015
- 2015-12-11 CN CN201510924014.7A patent/CN105511814A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033962A (zh) * | 2010-12-31 | 2011-04-27 | 中国传媒大学 | 一种快速去重的文件数据复制方法 |
US20130086299A1 (en) * | 2011-10-03 | 2013-04-04 | Cisco Technology, Inc. | Security in virtualized computer programs |
CN102508916A (zh) * | 2011-11-21 | 2012-06-20 | 电子科技大学 | 一种海量数据的文件指纹分析方法 |
CN103780633A (zh) * | 2012-10-17 | 2014-05-07 | 腾讯科技(深圳)有限公司 | 移动终端、网络服务器上传文件的方法和装置 |
US20140164561A1 (en) * | 2012-12-12 | 2014-06-12 | Hon Hai Precision Industry Co., Ltd. | Compressed package upload management system and method |
CN103544275A (zh) * | 2013-10-22 | 2014-01-29 | 华为技术有限公司 | 一种处理数据的方法及装置 |
WO2015067117A1 (zh) * | 2013-11-06 | 2015-05-14 | 乐视网信息技术(北京)股份有限公司 | 一种云上传方法及系统、调度设备、客户端 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019039A (zh) * | 2017-07-21 | 2019-07-16 | Emc知识产权控股有限公司 | 元数据分离的容器格式 |
CN110019039B (zh) * | 2017-07-21 | 2023-08-11 | Emc知识产权控股有限公司 | 元数据分离的容器格式 |
CN107391701A (zh) * | 2017-07-27 | 2017-11-24 | 郑州云海信息技术有限公司 | 一种文件创建方法及装置 |
CN110399348A (zh) * | 2019-07-19 | 2019-11-01 | 苏州浪潮智能科技有限公司 | 文件重删方法、装置、系统及计算机可读存储介质 |
CN111666421A (zh) * | 2020-06-03 | 2020-09-15 | 北京声智科技有限公司 | 数据处理方法、装置及电子设备 |
CN111666421B (zh) * | 2020-06-03 | 2024-05-10 | 北京声智科技有限公司 | 数据处理方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3561674B1 (en) | Method and apparatus for verifying block data in a blockchain | |
EP3886403B1 (en) | Block chain service acceptance and consensus method and device | |
CN106933854B (zh) | 短链接处理方法、装置及服务器 | |
EP3975474B1 (en) | Methods and apparatuses for chaining service data | |
WO2021068726A1 (zh) | 一种区块链中的交易哈希值存储和搜索方法及装置 | |
CN109032803B (zh) | 数据处理方法和装置、客户端 | |
CN105511814A (zh) | 一种静态数据文件的存储方法 | |
CN109815226B (zh) | 基于区块链的数据存储方法、装置、设备和存储介质 | |
WO2020228368A1 (zh) | 基于区块链的图片处理方法及装置 | |
KR102111871B1 (ko) | 랜덤 문자열을 생성하기 위한 방법 및 장치 | |
CN107766469A (zh) | 一种缓存处理方法和装置 | |
CN110391895B (zh) | 数据预处理方法、密文数据获取方法、装置和电子设备 | |
CN111580965A (zh) | 数据请求的处理方法及系统 | |
CN109145053B (zh) | 数据处理方法和装置、客户端、服务器 | |
CN112073444B (zh) | 数据集的处理方法、装置和服务器 | |
CN110620657A (zh) | 网页文字处理方法、系统及装置 | |
CN105827582A (zh) | 一种通信加密方法、装置和系统 | |
CN116578746A (zh) | 对象去重方法及装置 | |
CN110019205A (zh) | 一种数据存储、还原方法、装置及计算机设备 | |
CN108133026B (zh) | 一种多数据的处理方法、系统及存储介质 | |
CN105335530A (zh) | 一种提升大数据块重复数据删除性能的方法 | |
CN107391541B (zh) | 一种实时数据合并方法和装置 | |
CN110611568B (zh) | 基于多种加解密算法的动态加解密方法、装置、及设备 | |
CN110019357B (zh) | 数据库查询脚本生成方法及装置 | |
CN107832021A (zh) | 一种电子证据固定方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160420 |