CN112148687A - 一种对象存储中文件删除或归档的方法以及系统 - Google Patents

一种对象存储中文件删除或归档的方法以及系统 Download PDF

Info

Publication number
CN112148687A
CN112148687A CN202011030651.7A CN202011030651A CN112148687A CN 112148687 A CN112148687 A CN 112148687A CN 202011030651 A CN202011030651 A CN 202011030651A CN 112148687 A CN112148687 A CN 112148687A
Authority
CN
China
Prior art keywords
file
data library
temporary data
files
object storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011030651.7A
Other languages
English (en)
Inventor
孙超
郭浩
黄东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Qiniu Information Technology Co ltd
Original Assignee
Shanghai Qiniu Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Qiniu Information Technology Co ltd filed Critical Shanghai Qiniu Information Technology Co ltd
Priority to CN202011030651.7A priority Critical patent/CN112148687A/zh
Publication of CN112148687A publication Critical patent/CN112148687A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种对象存储中文件删除或归档的方法,其步骤包括:获取常用数据文库,通过权重算法计算产生常用数据文库列表,所述常用数据文库列表包括了常用数据文库出现的次数;对全量文件库中操作次数较少的临时数据文库进行区分,筛选;在所述全量文件库中筛选出临时数据文库并进行删除;完成上述步骤后,下一个访问常用文件到来时重复执行上述步骤。本发明能够快速筛选出对象存储中那些不再被访问的文件,进行分类归档或删除,保持对象存储中文件为常用且有效的缓存文件,降低存储成本,提高对象存储的使用率。

Description

一种对象存储中文件删除或归档的方法以及系统
技术领域
本发明涉及对象存储文件删除归档技术领域,具体为一种对象存储中文件删除或归档的方法以及系统。
背景技术
随着互联网的发展,特别是视频、图片等互联网应用的网站的出现,云计算CDN的发展对象存储以其分布式、可靠性、容易扩展、低成本等特点,越来越得到青睐,公有云服务商都不约而同支持对象存储,且越来越多的网站选择将非结构化的数据放置在对象存储中。
对象存储和常见的文件系统存储不同,它是一种多节点、易扩展、非结构化的存储,在对象存储中没有文件夹的概念,所有数据均存储在同一个层级中,只能通过RESTfu lAPI数据读写接口及丰富的SDK接口使用唯一的凭证访问数据,对象存储设计中屏蔽了底层文件系统,方便扩容以及存储和读取文件,淡化了文件和文件之间的关系,不能像文件系统一样直接修改对象存储上的文件,更不能通过文件属性归类查找文件。只能通过单一的文件获取文件和文件属性。
通常CDN系统中为了提高边缘节点性能和缓存效果,在对接视频网站中使用对象存储来达到永久存储的效果,提高命中减少回源。随着时间累积,对象存储中逐渐累积了大量的视频文件片段,且通常这些片段在首次访问过后将不在被用户访问,无效文件占据了大量的存储空间,使得存储成本不断增加。对象存储本身并不具备按访文件属性统计文件的特性。因此迫切需要一种可以筛选出对象存储中那些不再被访问的文件,进行分类归档或删除,保持对象存储中文件为常用且有效的缓存文件,降低存储成本,提高对象存储的使用率,为此,我们提出一种对象存储中文件删除或归档的方法。
发明内容
因此,本发明的目的是提供一种对象存储中文件删除或归档的方法,构建存储中文件删除或归档系统,快速筛选出对象存储中那些不再被访问的文件,进行分类归档或删除,保持对象存储中文件为常用且有效的缓存文件,降低存储成本,提高对象存储的使用率,大大降低使用成本,具体使用过程中,可针对所有厂商的对象存储,无绑定性,使用现有对像存储API即可实现,使用操作较为简单,提高实用性,并且外挂程序不影响对象存储和其上的业务运行,系统组件可快速分类筛选处理上亿级别存储文件。
为解决上述技术问题,根据本发明的一个方面,本发明提供了如下技术方案:
一种对象存储中文件删除或归档的方法,应用于存储系统,所述存储系统包括内部存储系统和外部存储系统,所述内部存储系统存储常用数据文库,外部存储系统存储常用数据文库和临时数据文库形成全量文件库,包括:
获取常用数据文库,通过权重算法计算产生常用数据文库列表,所述常用数据文库列表包括了常用数据文库出现的次数;
对全量文件库中操作次数较少的临时数据文库进行区分,筛选;
在所述全量文件库中筛选出临时数据文库并进行删除;
完成上述步骤后,下一个访问常用文件到来时重复执行上述步骤。
作为本发明所述的一种对象存储中文件删除或归档的方法的一种优选方案,其中,所述常用数据文库统计算法为:weight=m*((count1/instance1**2)+(count2/instance**2)+......),其中,记文件URL出现日期为首次数值,当天出现次数为count,首次数值距离现在天数为instance,自定义加权系数m,使用公式weight=m*count/(instance^^2)来代表文件出现当天的权重,累计该文件所有日期的权重和为总权重。
作为本发明所述的一种对象存储中文件删除或归档的方法的一种优选方案,其中,所述常用数据文库为收集一段时间内的访问日志,形成常用数据文库,然后计算得到临时数据文库,在一定的周期内,生成的常用数据文库列表为业务访问周期内的。
作为本发明所述的一种对象存储中文件删除或归档的方法的一种优选方案,其中,所述临时数据文库判断标准,未在常用数据文库列表中出现的文件定义为对应的文件为临时数据文库,统计所有出现的临时数据文库,并生成临时数据文库列表,此临时数据文库将对应到对象存储中的临时数据文库。
一种对象存储文件处理系统,包括;
文件获取模块,所述文件获取模块使用对象存储文件查询接口从对象存储中获取全量或者部分具有共同前缀特征的文件名,并将获取的文件名按照一定规律组织起来存放到队列或者数据库中,进行自由、批量、接续处理操作;
文件分析模块:将文件获取模块获取的文件进行分析并生成同一的文件列表;
文件对比模块,将上述模块存储的文件进行筛选,筛选出临时数据文库,统计所有出现的临时数据文库,并生成临时数据文库列表;
文件操作管理模块,进行删除/归档操作,将筛选出的临时数据文库进行归档或者删除处理。
还包括一种计算机可读存储介质,存储有程序文件,所述程序文件能够被执行以实现如权利要求1-4任意一项所述的定位方法。
与现有技术相比,本发明具有的有益效果是:构建存储中文件删除或归档系统,快速筛选出对象存储中那些不再被访问的文件,进行分类归档或删除,保持对象存储中文件为常用且有效的缓存文件,降低存储成本,提高对象存储的使用率,大大降低使用成本,具体使用过程中,可针对所有厂商的对象存储,无绑定性,使用现有对像存储API即可实现,使用操作较为简单,提高实用性,并且外挂程序不影响对象存储和其上的业务运行,系统组件可快速分类筛选处理上亿级别存储文件。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将将结合附图和详细实施方式对本发明进行详细说明,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一种对象存储中文件删除或归档的方法的流程示意图;
图2为本发明一种对象存储中文件删除或归档的方法的流程示意图;
图3为本发明一种对象存储文件处理系统的系统框架示意图;
图4为本发明一种计算机可读存储介质的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明的具体实施方式做详细的说明。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施方式的限制。
其次,本发明结合示意图进行详细描述,在详述本发明实施方式时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明提供一种对象存储中文件删除或归档的方法,构建存储中文件删除或归档系统,快速筛选出对象存储中那些不再被访问的文件,进行分类归档或删除,保持对象存储中文件为常用且有效的缓存文件,降低存储成本,提高对象存储的使用率,大大降低使用成本,具体使用过程中,可针对所有厂商的对象存储,无绑定性,使用现有对像存储API即可实现,使用操作较为简单,提高实用性,并且外挂程序不影响对象存储和其上的业务运行,系统组件可快速分类筛选处理上亿级别存储文件。
请参阅图1以及图2,图1为本发明一种对象存储中文件删除或归档的方法的流程示意图;图2为本发明一种对象存储中文件删除或归档的方法的流程示意图。具体步骤如下:
步骤S1,获取常用数据文库。
首先从对象存储中收集前一天的访问日志,并统计分析其中独立文件出现的次数,将统计分析独立文件出现的次数统计结果记录到常用数据文库,访问周期内文件,并从常用数据文库中提取记录的文件,汇总具体业务对应时间段内所有出现的文件统计结果,并根据weight=m*((count1/instance1**2)+(count2/instance**2)+......)公式算法,生成业务访问周期内的常用数据文库列表。
步骤S2,筛选临时数据文库,在全量数据文库中筛选出临时数据文库。
常用数据文库统计完毕后筛选临时数据文库,从对象存储查询文件列表接口中获取对应的文件列表中有未在常用数据文库列表中出现的文件即定义为对应的文件为临时数据文库,统计所有出现的临时数据文库,并生成临时数据文库列表,此临时数据文库将对应到对象存储中的临时数据文库。
步骤S3,对筛选出的临时数据文库进行归档和删除。
筛选完毕后进行删除/归档操作,根据指定的业务策略,根据上一步生成的临时数据文库列表批量处理对应到对象存储中的临时数据文库,将临时数据文库从对象存储中彻底删除或归档到低频存储。
步骤S4,重复上述S1、S2和S3步骤直至完成所有文件库的删除和归档操作。
经过上述筛选步骤,结束计算流程,下一个访问常用文件到来时重复执行上述步骤。
本实施方式的一种对象存储中文件删除或归档的方法,具体使用时,按照统计常用数据文库-比较常用数据文库进行筛选-将筛选后的文件进行归档或者删除流程进行,首先使用文件获取模块统计常用数据文库,常用数据文库统计完毕后使用文件对比模块,筛选临时数据文库,筛选完毕后通过使用文件操作管理模块,进行删除/归档操作,最后经过上述筛选步骤,结束计算流程,下一个访问常用文件到来时重复执行上述步骤,这样构建存储中文件删除或归档系统,快速筛选出对象存储中那些不再被访问的文件,进行分类归档或删除,保持对象存储中文件为常用且有效的缓存文件,降低存储成本,提高对象存储的使用率,大大降低使用成本,具体使用过程中,可针对所有厂商的对象存储,无绑定性,使用现有对像存储API即可实现,使用操作较为简单,提高实用性,并且外挂程序不影响对象存储和其上的业务运行,系统组件可快速分类筛选处理上亿级别存储文件。
请参阅图3,是本发明对象存储文件处理系统的系统框架示意图。
还提供了一种对象存储文件处理系统,包括:
文件获取模块1,文件获取模块使用对象存储文件查询接口从对象存储中获取全量或者部分具有共同前缀特征的文件名,并将获取的文件名按照一定规律组织起来存放到队列或者数据库中,进行自由、批量、接续处理操作,进行自由、批量、接续处理操作;
文件分析模块2:将文件获取模块1获取的文件进行分析并生成同一的文件列表;
文件对比模块3,将上述模块存储的文件进行筛选,筛选出临时数据文库,统计所有出现的临时数据文库,并生成临时数据文库列表;
文件操作管理模块4,进行删除和归档操作,将在常用数据文库中筛选出的临时数据文库进行归档或者删除处理。
请参阅图4,是本发明计算机可读存储介质的结构示意图。
还提供了一种计算机可读存储介质,包括:
计算机可读存储介质100包括计算机可读存储介质100上存储的计算机程序110,计算机程序100被上述互联网系统执行时实现上述任一方法实施例中的步骤或者上述方法实施例中系统模块对应执行的步骤。
具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取计算机可读存储介质100中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质100中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施方式方法的全部或部分步骤。而前述的计算机可读存储介质100包括:U盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
虽然在上文中已经参考实施方式对本发明进行了描述,然而在不脱离本发明的范围的情况下,可以对其进行各种改进并且可以用等效物替换其中的部件。尤其是,只要不存在结构冲突,本发明所披露的实施方式中的各项特征均可通过任意方式相互结合起来使用,在本说明书中未对这些组合的情况进行穷举性的描述仅仅是出于省略篇幅和节约资源的考虑。因此,本发明并不局限于文中公开的特定实施方式,而是包括落入权利要求的范围内的所有技术方案。

Claims (6)

1.一种对象存储中文件删除或归档的方法,应用于存储系统,所述存储系统包括内部存储系统和外部存储系统,所述内部存储系统存储常用数据文库,外部存储系统存储常用数据文库和临时数据文库形成全量文件库,其特征在于,包括:
获取常用数据文库,通过权重算法计算产生常用数据文库列表,所述常用数据文库列表包括了常用数据文库出现的次数;
对全量文件库中操作次数较少的临时数据文库进行区分,筛选;
在所述全量文件库中筛选出临时数据文库并进行删除;
完成上述步骤后,下一个访问常用文件到来时重复执行上述步骤。
2.根据权利要求1所述的一种对象存储中文件删除或归档的方法,其特征在于,所述常用数据文库统计算法为:weight=m*((count1/instance1**2)+(count2/instance**2)+......),其中,记文件URL出现日期为首次数值,当天出现次数为count,首次数值距离现在天数为instance,自定义加权系数m,使用公式weight=m*count/(instance^^2)来代表文件出现当天的权重,累计该文件所有日期的权重和为总权重。
3.根据权利要求1所述的一种对象存储中文件删除或归档的方法,其特征在于,所述常用数据文库为收集一段时间内的访问日志,形成常用数据文库,然后计算得到临时数据文库,在一定的周期内,生成的常用数据文库列表为业务访问周期内的。
4.根据权利要求1所述的一种对象存储中文件删除或归档的方法,其特征在于,所述临时数据文库判断标准,未在常用数据文库列表中出现的文件定义为对应的文件为临时数据文库,统计所有出现的临时数据文库,并生成临时数据文库列表,此临时数据文库将对应到对象存储中的临时数据文库。
5.一种对象存储文件处理系统,其特征在于,包括;
文件获取模块,所述文件获取模块使用对象存储文件查询接口从对象存储中获取全量或者部分具有共同前缀特征的文件名,并将获取的文件名按照一定规律组织起来存放到队列或者数据库中,进行自由、批量、接续处理操作,进行自由、批量、接续处理操作;
文件分析模块:将所述文件获取模块获取的文件进行分析并生成同一的文件列表;
文件对比模块,将上述模块存储的文件进行筛选,筛选出临时数据文库,统计所有出现的临时数据文库,并生成临时数据文库列表;
文件操作管理模块,进行删除/归档操作,将筛选出的临时数据文库进行归档或者删除处理。
6.一种计算机可读存储介质,其特征在于,存储有程序文件,所述程序文件能够被执行以实现如权利要求1-4任意一项所述的数据存储方法。
CN202011030651.7A 2020-09-27 2020-09-27 一种对象存储中文件删除或归档的方法以及系统 Pending CN112148687A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011030651.7A CN112148687A (zh) 2020-09-27 2020-09-27 一种对象存储中文件删除或归档的方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011030651.7A CN112148687A (zh) 2020-09-27 2020-09-27 一种对象存储中文件删除或归档的方法以及系统

Publications (1)

Publication Number Publication Date
CN112148687A true CN112148687A (zh) 2020-12-29

Family

ID=73895451

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011030651.7A Pending CN112148687A (zh) 2020-09-27 2020-09-27 一种对象存储中文件删除或归档的方法以及系统

Country Status (1)

Country Link
CN (1) CN112148687A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213265A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Clientless active remote archive
CN110716895A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 目标数据归档方法、装置、计算机设备及介质
CN111475102A (zh) * 2019-01-24 2020-07-31 天津易华录信息技术有限公司 一种基于蓝光的对象存储系统及其存储方法
CN111538699A (zh) * 2020-03-31 2020-08-14 首钢京唐钢铁联合有限责任公司 一种数据归档方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213265A1 (en) * 2018-01-08 2019-07-11 International Business Machines Corporation Clientless active remote archive
CN111475102A (zh) * 2019-01-24 2020-07-31 天津易华录信息技术有限公司 一种基于蓝光的对象存储系统及其存储方法
CN110716895A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 目标数据归档方法、装置、计算机设备及介质
CN111538699A (zh) * 2020-03-31 2020-08-14 首钢京唐钢铁联合有限责任公司 一种数据归档方法及装置

Similar Documents

Publication Publication Date Title
US9805077B2 (en) Method and system for optimizing data access in a database using multi-class objects
CN108846021B (zh) 一种基于用户访问偏好模型的海量小文件存储方法
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
JP2008525897A (ja) 適応型クエリ識別及び加速のためのシステム及び方法
US8171228B2 (en) Garbage collection in a cache with reduced complexity
JP2019204472A (ja) Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法
US9043327B1 (en) Performing flexible pivot querying of monitoring data using a multi-tenant monitoring system
EP2802979A2 (en) Processing store visiting data
US11803521B2 (en) Implementation of data access metrics for automated physical database design
US20140358867A1 (en) De-duplication deployment planning
Villalba et al. Constant-time sliding window framework with reduced memory footprint and efficient bulk evictions
CN108932288B (zh) 一种基于Hadoop的海量小文件缓存方法
Dam et al. Efficient top-k recently-frequent term querying over spatio-temporal textual streams
Gaurav et al. An outline on big data and big data analytics
US9817864B1 (en) Flexible pivot querying of monitoring data with zero setup
Whittier et al. Towards window stream queries over continuous phenomena
CN112148687A (zh) 一种对象存储中文件删除或归档的方法以及系统
CN113297245A (zh) 获取执行信息的方法及装置
Liu et al. Managing large multidimensional array hydrologic datasets: a case study comparing NetCDF and SciDB
Ezzati‐Jivan et al. Cube data model for multilevel statistics computation of live execution traces
US9104392B1 (en) Multitenant monitoring system storing monitoring data supporting flexible pivot querying
CN110874360A (zh) 一种基于固定容量的有序队列缓存方法及装置
US9087087B2 (en) Performing index scans in a database
JP2020154381A (ja) 情報処理システム、情報処理装置、情報処理方法およびプログラム
JP6562478B2 (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination