CN111459900A - 大数据生命周期设置方法、装置、存储介质及服务器 - Google Patents

大数据生命周期设置方法、装置、存储介质及服务器 Download PDF

Info

Publication number
CN111459900A
CN111459900A CN202010322840.5A CN202010322840A CN111459900A CN 111459900 A CN111459900 A CN 111459900A CN 202010322840 A CN202010322840 A CN 202010322840A CN 111459900 A CN111459900 A CN 111459900A
Authority
CN
China
Prior art keywords
data
storage
user operation
metadata
life cycle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010322840.5A
Other languages
English (en)
Other versions
CN111459900B (zh
Inventor
张佳煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202010322840.5A priority Critical patent/CN111459900B/zh
Publication of CN111459900A publication Critical patent/CN111459900A/zh
Application granted granted Critical
Publication of CN111459900B publication Critical patent/CN111459900B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/168Details of user interfaces specifically adapted to file systems, e.g. browsing and visualisation, 2d or 3d GUIs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1734Details of monitoring file system events, e.g. by the use of hooks, filter drivers, logs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种大数据生命周期设置方法、装置、存储介质及服务器,所述大数据生命周期设置方法包括:定期收集底层存储系统的元数据,提取所述元数据的状态信息;根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;根据汇聚图形的密集区域识别出热数据区域,根据热数据区域确定大数据存储系统的热数据,根据热数据设置用户操作存储数据的生命周期。本发明实现了大数据存储系统热数据的有效识别,并帮助用户设置用户操作存储数据最佳生命周期,简单易操作,且准确性高,并降低了大数据存储系统的存储成本。

Description

大数据生命周期设置方法、装置、存储介质及服务器
技术领域
本发明涉及互联网的数据处理技术领域,具体而言,本发明涉及一种大数据生命周期设置方法、装置、存储介质及服务器。
背景技术
随着用户数据的快速增长,大量的数据都通过存储系统存储然后再经过多链路的数据清洗,长久下来,存储系统出现了大量的临时数据、冗余数据及无用数据没有进行清理,导致存储成本越来越高,因此需要对用户操作存储数据的生命周期进行有效识别,以进行管理。
当前对于用户操作存储数据的生命周期的设置方式主要有两种,一种是人们根据自身对数据类型的理解来手动设定,效率及准确性都较低;另外一种是通过存储系统的上层对计算引擎解析来推导数据生命周期,但随着计算引擎的增加,通过上层解析推导数据生命周期的操作成本变得越来越大,因此缺少一个对底层存储系统的用户操作存储数据的生命周期进行有效设置的方法。
发明内容
本发明的目的旨在提供一种大数据生命周期设置方法,以解决当前手动设定用户操作存储数据的生命周期产生的效率及准确性较低的问题,及通过上层解析推导数据生命周期产生的操作成本较高的问题。
本发明提供的一种大数据生命周期设置方法,包括:
定期收集底层存储系统的元数据,提取所述元数据的状态信息;
根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;
根据所述汇聚图形的密集区域识别出热数据区域,根据所述热数据区域确定大数据存储系统的热数据,根据所述热数据设置用户操作存储数据的生命周期。
在一实施例中,所述状态信息包括存储路径及用户操作时间,提取所述元数据的状态信息的步骤,包括:
解析所述元数据,获取数据文件的存储路径及用户操作时间;
根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形的步骤,包括:
将各个数据文件的存储路径及用户操作时间进行聚合,存储路径格式化成统一的描述字段;
通过密度聚类算法对所述描述字段进行汇聚处理,绘制用户操作存储数据的二维图形。
在一实施例中,将各个数据文件的存储路径及用户操作时间进行聚合的步骤,包括:
从各个数据文件的存储路径及用户操作时间中提取出相同数据特征;
将具有所述相同数据特征的存储路径及用户操作时间聚合在同一数据区域。
在一实施例中,从各个数据文件的存储路径及用户操作时间中提取出相同数据特征的步骤,包括:
通过正则对特征提取方式从各个数据文件的存储路径及用户操作时间中提取出相同数据特征。
在一实施例中,通过密度聚类算法对所述描述字段进行汇聚处理的步骤,包括:
构建数据模型,通过密度聚类算法将描述字段汇聚在所述数据模型中。
在一实施例中,绘制用户操作存储数据的二维图形之前,还包括:
根据所述描述字段将用户操作存储数据在所述数据模型中以点的方式进行添加汇聚。
在一实施例中,绘制用户操作存储数据的二维图形的步骤,包括:
在所述数据模型中不断迭代用户操作存储数据,生成迭代次数满足预设要求的二维图形。
在一实施例中,根据所述汇聚图形的密集区域识别出热数据区域的步骤,包括:
计算所述汇聚图形中各个数据区域的密集度;
将密集度最大的数据区域确定为所述汇聚图形的热数据区域。
在一实施例中,根据所述热数据设置用户操作存储数据的生命周期之后,还包括:
根据所述生命周期对用户操作存储数据进行分层存储。
本发明提供的一种大数据生命周期识别装置,包括:
收集模块,用于定期收集底层存储系统的元数据,提取所述元数据的状态信息;汇聚模块,用于根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;
设置模块,用于根据所述汇聚图形的密集区域识别出热数据区域,根据所述热数据区域确定大数据存储系统的热数据,根据所述热数据设置用户操作存储数据的生命周期。
本发明提供的一种存储介质,其上存储有计算机程序,
所述计算机程序被处理器执行时实现上述任意一项技术方案所述的大数据生命周期设置方法。
本发明提供的一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项技术方案所述的大数据生命周期设置方法。
相对于现有技术,本发明具有以下优势:
本发明提供的大数据生命周期设置方法,通过定期收集底层存储系统的元数据,提取所述元数据的状态信息;根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;以根据所述汇聚图形的密集区域识别出热数据区域,再根据所述热数据区域确定大数据存储系统的热数据,最后根据所述热数据设置用户操作存储数据的生命周期。本发明实现了大数据存储系统热数据的有效识别,并帮助用户设置用户操作存储数据的最佳生命周期,简单易操作,且准确性高,从而有效处理无用数据及便于后续的数据分层存储,降低了大数据存储系统的存储成本。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明大数据生命周期设置方法一种实施例的流程框图;
图2为本发明一种实施例绘制成的用户操作存储数据的二维图形;
图3为本发明大数据生命周期识别装置一种实施例的模块框图;
图4为本发明一个实施例的服务器的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
大数据技术是由具有海量级数据负荷能力的存储运算平台,针对各种计算机网络服务运营当中产生的业务数据执行汇集、处理和分析,挖掘各种信息当中有意义的相互联系和变化规律,并加以实际应用。
随着社会不断的发展进步,依托大数据的智能分析,大家对于数据的存储越来越重视,因此需要对数据的生命周期进行管理。数据生命周期管理(data life cyclemanagement,DLM)是一种基于策略的方法,用于管理信息系统的数据在整个生命周期内的流动:从创建和初始存储,到它过时被删除。DLM产品将涉及的过程自动化,通常根据指定的策略将数据组织成各个不同的层,并基于那些关键条件自动地将数据从一个层移动到另一个层。数据生命周期管理的总体原则在数据的整个生命周期中,不同阶段的数据其性能、可用性、保存等要求也不一样。通常情况下,在其生命周期初期,数据的使用频率较高,需要使用高速存储,确保数据的高可用性。随着时间的推移,数据重要性会逐渐降低,使用频率会随之下降,应将数据进行不同级别的存储,为其提供适当的可用性存储空间,以降低管理成本和资源开销。最终大部分数据将不再会被使用,可以将数据清理后归档保存,以备临时需要时使用。
当前市场上对大数据存储的方式主要有两种:一种是用户根据自身对业务的理解来手动设定,但随着用户表个数的增加,用户手动设定的工作量越来越大,同时缺少准确的数据支撑,用户难以把数据的生命周期设置准确,因此用户对数据的生命周期的设置难度较大;第二种方式是在底层存储系统的上层即计算层对用户的行为进行分析,但是这个对上层应用解析挑战难度较大,大数据上层的计算引擎有presto、hive、spark等等、还有各种通过coding方式编写的代码,新的计算引擎加入都会对存储数据的使用产生较大的误判,如果我们能通过底层存储的系统的数据收集,在底层对存储数据进行直接识别,就无须关心上层计算引擎使用的是哪些,既不受上层的影响也能更加保证数据的准确性。因此,本发明提供了一种大数据生命周期设置方法,应用于对大数据底层存储系统存储数据的生命周期识别,通过生命周期识别对存储数据进行治理以及分层存储来降低存储系统的存储成本。
具体的,如图1所示,本发明提供的一种大数据生命周期设置方法,以解决当前手动设定用户操作存储数据的生命周期产生的效率及准确性较低的问题,以及通过上层解析推导数据生命周期产生的操作成本较高的问题。所述大数据生命周期设置方法包括:
S11、定期收集底层存储系统的元数据,提取所述元数据的状态信息;
元数据又称中介数据、中继数据,其为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。所述状态信息为表征元数据特征的相关信息,如存储路径、数据格式、用户访问次数及用户操作时间等等。
本发明可通过每天定时收集hdfs(Hadoop分布式文件系统)集群的fsimage文件,fsimage文件保存着namenode当前所有用户操作存储数据的状态信息,通过解析fsimage元数据,可以获取到所述元数据的状态信息。
其中,Hadoop是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。HDFS Hadoop的分布式文件系统,是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFSHadoop简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
对于文件来说,包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。fsimage保存了最新的元数据检查点,在HDFS启动时加载fsimage的信息,包含了整个HDFS文件系统的所有目录和文件的信息,即每个fsimage文件存储的都是文件系统元数据信息(文件及目录结构组成文件的块的信息副本数量信息),如果namenode发生故障,最近的fsimage文件会被载入到内存中,用来重构元数据的最近状态,再从相关点开始向前执行edits日志文件中记录的每个事务。
NameNode管理文件系统的命名空间。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息在系统启动时由数据节点重建。
S12、根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;
在本实施例中,所述汇聚图形可以是二维图形或三维图形,在此不做具体限定。本发明可根据元数据的状态信息对元数据进行聚合,将元数据汇聚在汇聚图形中,使具有相同特征的元数据汇聚在汇聚图形中的同一区域,从而根据汇聚图形了解元数据的分布情况,进而得到用户数据的访问情况。
S13、根据所述汇聚图形的密集区域识别出热数据区域,根据所述热数据区域确定大数据存储系统的热数据,根据所述热数据设置用户操作存储数据的生命周期。
对大数据底层存储的数据热度一般划分为两类:热数据和非热数据,在传统上大家对热数据的认知是:最近一个月有访问到的数据就是热数据,然而这种定义方式比较粗糙,无法对数据进行精细化的管理。例如,如果一个数据最近一个月只被访问过一次,则该数据也是在最近一个月访问到的数据,但由于被访问次数过少,实质上是冷数据,因此,传统的数据热度判断方式准确性较低。
本发明把热数据定义为有规律性可统计的数据访问规律,比如用户每天都会扫描最近两天的分区,那么该用户的热数据应该为最近两天的热数据,而不是最近一个月的数据。因此,为了提高热数据的识别精度,本发明可将用户的所有用户操作存储数据通过密度聚类算法汇聚成二维图形,并将二维图形中最密集的区域定义为热数据区域,将热数据区域作为用户操作存储数据的热数据,即为用户数据访问行为,意味着用户的数据访问行为每天在二维图形对应一个点,会有区域的数据是密集的,这个密集的区域为大数据存储系统存储的热数据,也为该数据的精确热数据,根据所述热数据帮助用户设置存储的最佳生命周期,以删除无用数据,从而减少大数据存储成本。
具体的,如图2所示,我们将用户的所有行为数据通过密度聚类算法汇聚出来后的二维图形,发现标记为A区域的数据最密集,且在N多个采集的周期里面,都是在密度最低反馈的这个经常访问的数据规律,比如会经常访问最近三天的数据,对应在二维图形上最近一个月的这张二维图形上3天的密度最聚集,最佳生命周期是三天。
本发明提供的大数据生命周期设置方法,通过定期收集底层存储系统的元数据,提取所述元数据的状态信息;根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;以根据所述二维图形的密集区域识别出热数据区域,再根据所述热数据区域确定大数据存储系统的热数据,最后根据所述热数据设置用户操作存储数据的生命周期。本发明实现了大数据存储系统热数据的有效识别,并帮助用户设置用户操作存储数据最佳生命周期,简单易操作,且准确性高,从而有效处理无用数据及便于后续数据的分层存储,降低了大数据存储系统的存储成本。
在一实施例中,本实施例提供了一种汇聚图形的生成方式,以精确地对元数据进行汇聚,生成用户操作存储数据的汇聚图形。具体的,所述状态信息包括存储路径及用户操作时间,提取所述元数据的状态信息的步骤,可具体包括:
解析所述元数据,获取数据文件的存储路径及用户操作时间;
根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形的步骤,可具体包括:
将各个数据文件的存储路径及用户操作时间进行聚合,存储路径格式化成统一的描述字段;
通过密度聚类算法对所述描述字段进行汇聚处理,绘制用户操作存储数据的二维图形。
本发明可将各个数据文件的存储路径及用户操作时间进行聚合,把所有路径格式化成库、表、日期分区等统一字段,每天持续收集集群的fsimage数据,以获取库、表、日期分区每天的数据访问情况。
然后基于密度的聚类算法是根据样本的密度分布来进行聚类。通常情况下,密度聚类从样本密度的角度出发,来考查样本之间的可连接性,并基于可连接样本不断扩展聚类簇,以获得最终的聚类结果。其中最著名的算法就是DBSCAN算法。例如,如果一个点的eps邻域内的点的总数小于阈值,那么该点就是低密度点。如果大于阈值,就是高密度点。如果一个高密度点在另外一个高密度点的邻域内,就直接把这两个高密度点相连,这是核心点。如果一个低密度点在高密度点的邻域内,就将低密度点连在距离它最近的高密度点上,这是边界点。不在任何高密度点的eps邻域内的低密度点,就是异常点。
具体操作时,可根据eps邻域和密度阈值MinPts,判断一个点是核心点、边界点或者异常点,并将异常点进行删除。如果核心点之间的距离小于MinPts,就将两个核心点连接在一起,这样就形成了若干组簇,将边界点分配到距离它最近的核心点范围内,以形成最终的聚类结果,并绘制成用户操作存储数据的二维图形。
在一实施例中,所述将各个数据文件的存储路径及用户操作时间进行聚合的步骤,可具体包括:
从各个数据文件的存储路径及用户操作时间中提取出相同数据特征;
将具有所述相同数据特征的存储路径及用户操作时间聚合在同一数据区域。
由于各个数据文件数据比较杂乱,因此,本申请根据特定的规则从存储路径及用户操作时间中提取出相同数据特征,获得具有共同特征的数据,并将具有所述相同数据特征的存储路径及用户操作时间聚合在同一数据区域,生成聚类簇。
具体地,例如针对数据表、日志文件这些不同类型的数据,可以设定两者需提取的特征均为时间维度和/或数据访问频次维度的特征。或者,针对数据表、日志文件这些不同类型的数据,还可以分别为其设定不同的需提取的特征,如对于数据表,可设定其需提取的特征为时间维度的特征、数据访问频次维度的特征以及价值维度的特征,对于日志文件,则可以设定其需提取的特征为时间维度的特征及数据访问频次维度的特征等。
在一实施例中,从各个数据文件的存储路径及用户操作时间中提取出相同数据特征的步骤,可具体包括:
通过正则对特征提取方式从各个数据文件的存储路径及用户操作时间中提取出相同数据特征。
在本实施例中,可通过正则对特征提取方式提取出相同数据特征,以下正则只为基于自身集群提供参考:
df=df.withColumn('par_day',f.regexp_replace(f.regexp_extrac t('path','(?:dt)?(?:tdate)?=(?:large-)?(?:small-)?(?:v6_)?(?:v51-)?(?:bak_)?(?:\s+)?(\d{2,4}[/-]?\d{2}[/-]?\d{2})',1),'-',”))。
在一实施例中,所述通过密度聚类算法对所述描述字段进行汇聚处理的步骤,可具体包括:
构建数据模型,通过密度聚类算法将描述字段汇聚在所述数据模型中。
本实施例通过密度聚类算法对数据进行聚类,汇聚在预先构建的数据模型中,生成聚类模型图,最密集的区域就是数据的生命周期,代表数据的访问密度,例如生命周期是四天,数据是比较集中的,即该数据为热数据,冷数据的话就是比较分散。
该数据模型为预先利用数据表或日志文件等类型的大批量数据所训练的模型,该数据模型能够描述数据的数据特征(如时间维度和/或访问频次维度的特征等)与其生命周期状态间的对应关系规律。
在一实施例中,所述绘制用户操作存储数据的二维图形之前,还可包括:
根据所述描述字段将用户操作存储数据在所述数据模型中以点的方式进行添加汇聚。
本实施例将用户操作存储数据在数据模型中以点的方式进行添加汇聚,生成二维图形,即用户的数据访问行为每天在二维图形对应一个点,会有区域的数据是密集的,这个密集的区域为大数据存储系统存储的热数据。
在一实施例中,所述绘制用户操作存储数据的二维图形的步骤,可具体包括:
在所述数据模型中不断迭代用户操作存储数据,生成迭代次数满足预设要求的二维图形。
本实施例建立了一个大数据存储数据使用模型后,基于此数据模型,可每天通过该数据模型将用户操作存储数据进行不断迭代,生成迭代次数满足预设要求的二维图形,例如生成一年用户操作存储数据的二维图形,从而提高用户热数据生命周期的识别准确性,以帮助用户设置存储的最佳生命周期,便于过滤无用数据,从而减少大数据存储成本。
在一实施例中,在步骤S13中,根据所述汇聚图形的密集区域识别出热数据区域的步骤,可具体包括:
计算所述汇聚图形中各个数据区域的密集度;
将密集度最大的数据区域确定为所述汇聚图形的热数据区域。
本实施例可通过计算汇聚图形中各个数据区域的密集度,根据该密集度确定热数据区域,即将最大密集度的数据区域确定为所述汇聚图形的热数据区域。具体的,可将汇聚图形划分多个同等大小的数据区域,计算各数据区域的用户操作存储数据的数量,将数量最多的数据区域确定为热数据区域。
在一实施例中,在步骤S13中,根据所述热数据设置用户操作存储数据的生命周期之后,还可包括:
根据所述生命周期对用户操作存储数据进行分层存储。
本实施例可利用数据仓库对用户操作存储数据进行分层存储。所述数据仓库采用分层架构,可分为缓冲层、操作数据层、明细数据层、汇总数据层、数据集市层。其中,缓冲层用于存储每天的增量数据和变更数据;操作数据层为数据仓库的细节数据层,对缓冲层数据进行沉淀,减小了抽取的复杂性;明细数据层属于分析的公共资源。本实施例通过分层存储,使数据结构更明确、便于数据血缘跟踪和管理、复杂问题简单化、减少了重复计算及屏蔽原始数据的异常和业务变更的影响。
如图3所示,本发明提供的一种大数据生命周期识别装置,一种本实施例中,包括收集模块11、汇聚模块12及设置模块13。其中,
收集模块11,用于定期收集底层存储系统的元数据,提取所述元数据的状态信息;元数据又称中介数据、中继数据,其为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。所述状态信息为表征元数据特征的相关信息,如存储路径、数据格式、用户访问次数及用户操作时间等等。
本发明可通过每天定时收集hdfs(Hadoop分布式文件系统)集群的fsimage文件,fsimage文件保存着namenode当前所有用户操作存储数据的状态信息,通过解析fsimage元数据,可以获取到所述元数据的状态信息。
其中,Hadoop是一个能够对大量数据进行分布式处理的软件框架,具有可靠、高效、可伸缩的特点。HDFS Hadoop的分布式文件系统,是Hadoop体系中数据存储管理的基础。它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行。HDFSHadoop简化了文件的一致性模型,通过流式数据访问,提供高吞吐量应用程序数据访问功能,适合带有大型数据集的应用程序。
对于文件来说包括了数据块描述信息、修改时间、访问时间等;对于目录来说包括修改时间、访问权限控制信息(目录所属用户,所在组)等。fsimage保存了最新的元数据检查点,在HDFS启动时加载fsimage的信息,包含了整个HDFS文件系统的所有目录和文件的信息,即每个fsimage文件存储的都是文件系统元数据信息(文件及目录结构组成文件的块的信息副本数量信息),如果namenode发生故障,最近的fsimage文件会被载入到内存中,用来重构元数据的最近状态,再从相关点开始向前执行edits日志文件中记录的每个事务。
NameNode管理文件系统的命名空间。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件和编辑日志文件。NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信息,因为这些信息在系统启动时由数据节点重建。
汇聚模块12,用于根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;
在本实施例中,所述汇聚图形可以是二维图形或三维图形,在此不做具体限定。本发明可根据元数据的状态信息对元数据进行聚合,将元数据汇聚在汇聚图形中,使具有相同特征的元数据汇聚在汇聚图形中的同一区域,从而根据汇聚图形了解元数据的分布情况,进而得到用户数据的访问情况。
设置模块13,用于根据所述汇聚图形的密集区域识别出热数据区域,根据所述热数据区域确定大数据存储系统的热数据,根据所述热数据设置用户操作存储数据的生命周期。
对大数据底层存储的数据热度一般划分为两类:热数据和非热数据,在传统上大家对热数据的认知是:最近一个月有访问到的数据就是热数据,然而这种定义方式比较粗糙,无法对数据进行精细化的管理。例如,如果一个数据最近一个月只被访问过一次,则该数据也是在最近一个月访问到的数据,但由于被访问次数过少,实质上是冷数据,因此,传统的数据热度判断方式准确性较低。
本发明把热数据定义为有规律性可统计的数据访问规律,比如用户每天都会扫描最近两天的分区,那么该用户的热数据应该为最近两天的热数据,而不是最近一个月的数据。因此,为了提高热数据的识别精度,本发明可将用户的所有用户操作存储数据通过密度聚类算法汇聚成二维图形,并将二维图形中最密集的区域定义为热数据区域,将热数据区域作为用户操作存储数据的热数据,即为用户数据访问行为,意味着用户的数据访问行为每天在二维图形对应一个点,会有区域的数据是密集的,这个密集的区域为大数据存储系统存储的热数据,也为该数据的精确热数据,根据所述热数据帮助用户设置存储的最佳生命周期,以删除无用数据,从而减少大数据存储成本。
具体的,如图2所示,我们将用户的所有行为数据通过密度聚类算法汇聚出来后的二维图形,发现标记为A区域的数据最密集,且在N多个采集的周期里面,都是在密度最低反馈的这个经常访问的数据规律,比如会经常访问最近三天的数据,对应在二维图形上最近一个月的这张二维图形上3天的密度最聚集,最佳生命周期是三天。
本发明提供的大数据生命周期设置装置,通过定期收集底层存储系统的元数据,提取所述元数据的状态信息;根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;以根据所述二维图形的密集区域识别出热数据区域,再根据所述热数据区域确定大数据存储系统的热数据,最后根据所述热数据设置用户操作存储数据的生命周期。本发明实现了大数据存储系统热数据的有效识别,并帮助用户设置用户操作存储数据最佳生命周期,简单易操作,且准确性高,从而有效处理无用数据及便于后续数据的分层存储,降低了大数据存储系统的存储成本。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明提供的一种存储介质,其上存储有计算机程序,
所述计算机程序被处理器执行时实现上述任意一项技术方案所述的大数据生命周期设置方法。
其中,所述存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random AcceSS Memory,随即存储器)、EPROM(EraSable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically EraSable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。可以是只读存储器,磁盘或光盘等。
本发明提供的一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项技术方案所述的大数据生命周期设置方法。
图4为本发明服务器的结构示意图,包括处理器420、存储装置430、输入单元440以及显示单元450等器件。本领域技术人员可以理解,图4示出的结构器件并不构成对所有服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储装置430可用于存储应用程序410以及各功能模块,处理器420运行存储在存储装置430的应用程序410,从而执行设备的各种功能应用以及数据处理。存储装置430可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、ZIP盘、U盘、磁带等。本发明所公开的存储装置包括但不限于这些类型的存储装置。本发明所公开的存储装置430只作为例子而非作为限定。
输入单元440用于接收信号的输入,以及用户输入的访问请求。输入单元440可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元450可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元450可采用液晶显示器、有机发光二极管等形式。处理器420是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储装置430内的软件程序和/或模块,以及调用存储在存储装置内的数据,执行各种功能和处理数据。
在一实施方式中,服务器包括一个或多个处理器420,以及一个或多个存储装置430,一个或多个应用程序410,其中所述一个或多个应用程序410被存储在存储装置430中并被配置为由所述一个或多个处理器420执行,所述一个或多个应用程序410配置用于执行以上实施例所述的大数据生命周期设置方法。
综上所述,本发明的最大有益效果在于:
本发明提供的大数据生命周期设置方法、装置、存储介质及服务器,通过定期收集底层存储系统的元数据,提取所述元数据的状态信息;根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;以根据所述二维图形的密集区域识别出热数据区域,再根据所述热数据区域确定大数据存储系统的热数据,最后根据所述热数据设置用户操作存储数据的生命周期。本发明实现了大数据存储系统热数据的有效识别,并帮助用户设置用户操作存储数据最佳生命周期,简单易操作,且准确性高,从而有效处理无用数据及便于后续数据的分层存储,降低了大数据存储系统的存储成本。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种大数据生命周期设置方法,其特征在于,包括:
定期收集底层存储系统的元数据,提取所述元数据的状态信息;
根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;
根据所述汇聚图形的密集区域识别出热数据区域,根据所述热数据区域确定大数据存储系统的热数据,根据所述热数据设置用户操作存储数据的生命周期。
2.根据权利要求1所述的大数据生命周期设置方法,其特征在于,所述状态信息包括存储路径及用户操作时间,提取所述元数据的状态信息的步骤,包括:
解析所述元数据,获取数据文件的存储路径及用户操作时间;
根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形的步骤,包括:
将各个数据文件的存储路径及用户操作时间进行聚合,存储路径格式化成统一的描述字段;
通过密度聚类算法对所述描述字段进行汇聚处理,绘制用户操作存储数据的二维图形。
3.根据权利要求2所述的大数据生命周期设置方法,其特征在于,将各个数据文件的存储路径及用户操作时间进行聚合的步骤,包括:
从各个数据文件的存储路径及用户操作时间中提取出相同数据特征;
将具有所述相同数据特征的存储路径及用户操作时间聚合在同一数据区域。
4.根据权利要求3所述的数据生命周期设置方法,其特征在于,从各个数据文件的存储路径及用户操作时间中提取出相同数据特征的步骤,包括:
通过正则对特征提取方式从各个数据文件的存储路径及用户操作时间中提取出相同数据特征。
5.根据权利要求2所述的数据生命周期设置方法,其特征在于,通过密度聚类算法对所述描述字段进行汇聚处理的步骤,包括:
构建数据模型,通过密度聚类算法将描述字段汇聚在所述数据模型中。
6.根据权利要求5所述的数据生命周期设置方法,其特征在于,绘制用户操作存储数据的二维图形之前,还包括:
根据所述描述字段将用户操作存储数据在所述数据模型中以点的方式进行添加汇聚。
7.根据权利要求6所述的数据生命周期设置方法,其特征在于,绘制用户操作存储数据的二维图形的步骤,包括:
在所述数据模型中不断迭代用户操作存储数据,生成迭代次数满足预设要求的二维图形。
8.根据权利要求1所述的数据生命周期设置方法,其特征在于,根据所述汇聚图形的密集区域识别出热数据区域的步骤,包括:
计算所述汇聚图形中各个数据区域的密集度;
将密集度最大的数据区域确定为所述汇聚图形的热数据区域。
9.根据权利要求1所述的数据生命周期设置方法,其特征在于,根据所述热数据设置用户操作存储数据的生命周期之后,还包括:
根据所述生命周期对用户操作存储数据进行分层存储。
10.一种大数据生命周期识别装置,其特征在于,包括:
收集模块,用于定期收集底层存储系统的元数据,提取所述元数据的状态信息;
汇聚模块,用于根据所述状态信息对元数据进行汇聚处理,生成用户操作存储数据的汇聚图形;
设置模块,用于根据所述汇聚图形的密集区域识别出热数据区域,根据所述热数据区域确定大数据存储系统的热数据,根据所述热数据设置用户操作存储数据的生命周期。
11.一种存储介质,其上存储有计算机程序,其特征在于:
所述计算机程序被处理器执行时实现如权利要求1至9中任意一项所述的大数据生命周期设置方法。
12.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至9中任意一项所述的大数据生命周期设置方法。
CN202010322840.5A 2020-04-22 2020-04-22 大数据生命周期设置方法、装置、存储介质及服务器 Active CN111459900B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010322840.5A CN111459900B (zh) 2020-04-22 2020-04-22 大数据生命周期设置方法、装置、存储介质及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010322840.5A CN111459900B (zh) 2020-04-22 2020-04-22 大数据生命周期设置方法、装置、存储介质及服务器

Publications (2)

Publication Number Publication Date
CN111459900A true CN111459900A (zh) 2020-07-28
CN111459900B CN111459900B (zh) 2023-07-18

Family

ID=71686108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010322840.5A Active CN111459900B (zh) 2020-04-22 2020-04-22 大数据生命周期设置方法、装置、存储介质及服务器

Country Status (1)

Country Link
CN (1) CN111459900B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112365244A (zh) * 2020-11-27 2021-02-12 深圳前海微众银行股份有限公司 数据生命周期管理方法和装置
CN113064930A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 数据仓库的冷热数据识别方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161780A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Hot data management method based on hit counter
CN103778148A (zh) * 2012-10-23 2014-05-07 阿里巴巴集团控股有限公司 Hadoop分布式文件系统数据文件的生命周期管理方法和设备
CN106874213A (zh) * 2017-01-12 2017-06-20 杭州电子科技大学 一种融合多种机器学习算法的固态硬盘热数据识别方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN110989937A (zh) * 2019-12-06 2020-04-10 浪潮电子信息产业股份有限公司 一种数据存储方法、装置、设备及计算机可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100161780A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Hot data management method based on hit counter
CN103778148A (zh) * 2012-10-23 2014-05-07 阿里巴巴集团控股有限公司 Hadoop分布式文件系统数据文件的生命周期管理方法和设备
CN106874213A (zh) * 2017-01-12 2017-06-20 杭州电子科技大学 一种融合多种机器学习算法的固态硬盘热数据识别方法
CN109815219A (zh) * 2019-02-18 2019-05-28 国家计算机网络与信息安全管理中心 支持多数据库引擎的数据生命周期管理的实现方法
CN110989937A (zh) * 2019-12-06 2020-04-10 浪潮电子信息产业股份有限公司 一种数据存储方法、装置、设备及计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄彬等: "固态盘热数据识别算法研究", 《浙江万里学院学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112269781A (zh) * 2020-11-13 2021-01-26 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112269781B (zh) * 2020-11-13 2023-07-25 网易(杭州)网络有限公司 数据生命周期管理方法、装置、介质及电子设备
CN112365244A (zh) * 2020-11-27 2021-02-12 深圳前海微众银行股份有限公司 数据生命周期管理方法和装置
CN112365244B (zh) * 2020-11-27 2024-04-26 深圳前海微众银行股份有限公司 数据生命周期管理方法和装置
CN113064930A (zh) * 2020-12-29 2021-07-02 中国移动通信集团贵州有限公司 数据仓库的冷热数据识别方法、装置及电子设备
CN113064930B (zh) * 2020-12-29 2023-04-28 中国移动通信集团贵州有限公司 数据仓库的冷热数据识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN111459900B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
US11816126B2 (en) Large scale unstructured database systems
CN104881424B (zh) 一种基于正则表达式的电力大数据采集、存储及分析方法
US11269911B1 (en) Using specified performance attributes to configure machine learning pipeline stages for an ETL job
US9507807B1 (en) Meta file system for big data
US9280381B1 (en) Execution framework for a distributed file system
US9489233B1 (en) Parallel modeling and execution framework for distributed computation and file system access
US20170193041A1 (en) Document-partitioned secondary indexes in a sorted, distributed key/value data store
CN111459900B (zh) 大数据生命周期设置方法、装置、存储介质及服务器
Narkhede et al. HMR log analyzer: Analyze web application logs over Hadoop MapReduce
Buddhika et al. Synopsis: A distributed sketch over voluminous spatiotemporal observational streams
JP2016100005A (ja) リコンサイル方法、プロセッサ及び記憶媒体
Bellini et al. Data flow management and visual analytic for big data smart city/IOT
CN109460345B (zh) 实时数据的计算方法及系统
US10776368B1 (en) Deriving cardinality values from approximate quantile summaries
CN103995828A (zh) 一种云存储日志数据分析方法
Cherubini et al. Cognitive storage for big data
Liu et al. Using provenance to efficiently improve metadata searching performance in storage systems
CN109947743A (zh) 一种优化的NoSQL大数据存储方法及系统
Guo et al. Data mining and risk prediction based on apriori improved algorithm for lung cancer
Xie et al. Efficient storage management for social network events based on clustering and hot/cold data classification
Mishra et al. Challenges in big data application: a review
Xie et al. Silverback: Scalable association mining for temporal data in columnar probabilistic databases
Chen et al. Analysis of plant breeding on hadoop and spark
US11537616B1 (en) Predicting query performance for prioritizing query execution
CN116628042A (zh) 数据处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant