CN111221824B - 存储空间的存储优化方法、装置、设备和介质 - Google Patents

存储空间的存储优化方法、装置、设备和介质 Download PDF

Info

Publication number
CN111221824B
CN111221824B CN202010002049.6A CN202010002049A CN111221824B CN 111221824 B CN111221824 B CN 111221824B CN 202010002049 A CN202010002049 A CN 202010002049A CN 111221824 B CN111221824 B CN 111221824B
Authority
CN
China
Prior art keywords
data
storage
type
storage space
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010002049.6A
Other languages
English (en)
Other versions
CN111221824A (zh
Inventor
陈仕明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN202010002049.6A priority Critical patent/CN111221824B/zh
Publication of CN111221824A publication Critical patent/CN111221824A/zh
Application granted granted Critical
Publication of CN111221824B publication Critical patent/CN111221824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种存储空间的存储优化方法、装置、设备和介质。该方法包括:确定在存储空间中存储的数据;确定所述数据的类型;按照所述类型对所述数据统计在所述存储空间中的存储指标;在所述存储空间中根据所述存储指标对所述数据进行存储优化。上述技术方案中,统计得到的存储数据的存储指标指明了数据存储空间存储优化的客观方向,进而实现了在宏观层面对整个存储系统进行有效且合理地存储优化。

Description

存储空间的存储优化方法、装置、设备和介质
技术领域
本发明实施例涉及数据处理技术,尤其涉及一种存储空间的存储优化方法、装置、设备和介质。
背景技术
随着大数据行业的发展,各个企业积累的数据量巨大,消耗了大量的存储成本,但其中一些数据是没有必要存储的,给企业的存储成本带来了浪费。
目前,为了节省数据存储成本,一般会为存储数据设置生命期。但是,存储数据的生命期通常是用户根据自身对数据业务的理解手动设定的,一旦设置得不合理,则直接影响数据存储治理的效果。
发明内容
本发明实施例提供一种存储空间的存储优化方法、装置、设备和介质,以对现有技术方案进行优化,实现对数据存储空间有效地数据存储治理。
第一方面,本发明实施例提供了一种存储空间的存储优化方法,该方法包括:
确定在存储空间中存储的数据;
确定所述数据的类型;
按照所述类型对所述数据统计在所述存储空间中的存储指标;
在所述存储空间中根据所述存储指标对所述数据进行存储优化。
第二方面,本发明实施例还提供了一种存储空间的存储优化装置,该装置包括:
数据确定模块,用于确定在存储空间中存储的数据;
数据类型确定模块,用于确定所述数据的类型;
存储指标统计模块,用于按照所述类型对所述数据统计在所述存储空间中的存储指标;
存储优化模块,用于在所述存储空间中根据所述存储指标对所述数据进行存储优化。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现任意实施例所述的存储空间的存储优化方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任意实施例所述的存储空间的存储优化方法。
本发明实施例中,首先确定出数据存储空间中存储数据的类型,然后根据存储数据的类型对这些存储数据统计其在数据存储空间中的存储指标,所述存储指标为对存储数据进行存储优化的依据,进而可以在数据存储空间中根据所述存储指标对所述存储数据进行存储优化。上述技术方案中,统计得到的存储数据的存储指标指明了数据存储空间存储优化的客观方向,进而实现了在宏观层面对整个存储系统进行有效且合理地存储优化。
附图说明
图1是本发明实施例一提供的一种存储空间的存储优化方法的流程图;
图2是本发明实施例一提供的一种数据血缘图示例;
图3是本发明实施例三提供的一种存储空间的存储优化方法的流程图;
图4是本发明实施例三提供的一种存储空间的存储优化系统的模块结构示意图;
图5是本发明实施例四提供的一种存储空间的存储优化装置的模块结构示意图;
图6是本发明实施例五提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在对本申请技术方案进行详细解释之前,首先对本申请中存储空间数据存储的本质目的以及本申请的发明构思进行阐述。其中,数据存储的本质目的不外乎有如下两种:
一种是用于存储原始信息。此处的“信息”和信息论中的信息为同一含义,如果两个文件中存储的字节内容不同,但他们描述的是同一内容,则表示他们存储的“信息”是相同的。在大数据中,例如存储了原始文件A,同时对原始文件A做了少量格式转换之后,数据无损地生成了B文件并存储,则此两个文件存储的信息是相同的,在进行数据存储优化时,可以删除其中一个文件,当要获取“信息”时,完全可以基于剩下一个文件完成查询操作。
另一种是使用存储空间来换取使用数据时的查询速度或者换取被使用数据的易用性。在大数据中,数据规模往往非常巨大,数据业务逻辑也非常复杂,为了便于用户在想要使用这些数据时,能够快速地找到目标数据(也即提高目标数据的易用性),或者在想要查询这些数据时,能够快速地完成查询操作(也即提高数据查询速度),往往会对数据进行再加工,让数据变得更易用或者更快地被查询到。当用户基于这些再加工的数据完成查询或使用数据时,能够更快地完成对应的数据操作。
针对数据存储的第一种目的,由于这些数据在未来随时可能会被用到,为了避免发生数据使用时无法获取的问题发生,在存储空间存储优化时这部分数据应该被保留。
针对数据存储的第二种目的,由于这些数据即使被删除之后,依然可以从原始信息中找到,所以对这些数据进行存储优化时,主要考虑其是否真正地实现了“存储空间换取使用数据时的查询速度或者换取被使用数据的易用性”的效果。直白来说,比如用户绝大多数场景下,都是查询最近一个月的数据,而数据管理系统中该数据却存储了一年,则对此数据是需要进行存储优化的;另一种情况,当想要查询数据时,发现数据已经被删除了,只能在原始数据中查找,则对此数据也是需要进行存储优化的。
实施例一
图1是本发明实施例一提供的一种存储空间的存储优化方法的流程图,本实施例可适用于对数据管理系统的进行存储优化的情况,该方法可以由本发明任意实施例提供的存储空间的存储优化装置来执行,该装置可由硬件和/或软件组成,并一般可集成在计算机设备中。
如图1所述,本实施例提供的存储空间的存储优化方法包括以下步骤:
S110、确定在存储空间中存储的数据。
具体的,可以是根据存储空间中的元数据来确定存储空间中的存储的数据。其中,元数据,又称中介数据、中继数据,为描述数据的数据,主要是描述数据属性的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。
S120、确定所述数据的类型。
所述数据的类型具体包括原始型、业务型和其他型。其中,所述原始型的数据用于记录原始的信息,所述业务型的数据用于生成业务信息且并非所述原始型的数据,所述其他型的数据为除所述原始型与所述业务型之外的数据。具体的,可以根据存储空间中的元数据来确定所述数据的类型。
作为本实施例一种可选的实施方式,可以将S120具体为:对所述数据生成血缘关系,其中,所述血缘关系具有多个节点,所述节点表示所述数据或业务信息,位于下游的节点依赖位于上游的节点生成。
若某个节点为根节点,则确定所述某个节点所表示的数据的类型为原始型;
若位于某个节点下游的节点表示业务信息,且所述某个节点并非根节点,则确定所述某个节点所表示的数据的类型为业务型;
若某个节点并非所述原始型与所述业务型,则确定所述某个节点所表示的数据的类型为其他型。
在大数据场景中,数据会被链条式地处理,对所述数据生成血缘关系,也即生成与所述数据对应的数据血缘图,位于下游节点上的数据依赖于位于上游节点上的数据生成。如图2所示的数据血缘图,数据A所在的节点为根节点,该节点所表示的数据(也即数据A)的类型为原始型;数据D是根据数据B和数据C一起加工得到的,同时数据D被用来做成报表或者报告展示,也通过API(Application Programming Interface,应用程序接口)被应用到的产品上的某些功能上,也即数据D所在节点下游的节点表示业务信息,且数据D所在节点并非根节点,因此,数据D所在的节点所表示的数据(也即数据D)的类型为业务型;数据C所在的节点为根节点,该节点所表示的数据(也即数据C)的类型为原始型;数据B是根据数据A加工得到的,数据B所在的节点不是根节点,其下游节点也不是业务信息,该节点所表示的数据(也即数据B)的类型为其他型。
综上所述,如图2所示的数据血缘图,处于头部第一层的数据的类型都是原始型,如数据A和数据C;下游节点表示业务信息的,如数据D和数据C,是被“用户”和“系统”所用到的,而数据C为原始型,故数据D为业务型;数据B既非原始型也非业务型,故其为其他型。
典型的,数据血缘图可以从大数据处理过程中经过分析SQL、代码等方式得到。目前大数据行业中,Hive,Spark等大数据计算引擎是被广泛使用的,均是使用SQL来处理数据,在这些计算引擎中提取SQL后进行分析,便可以得到数据之间的血缘关系。
可选的,构建一个目的识别模块,用于根据上述的血缘关系分析方式将数据管理系统的各存储数据划分为原始型数据、业务型数据以及其他型数据。
S130、按照所述类型对所述数据统计在所述存储空间中的存储指标。
根据数据存储的本质目的,无需针对原始型的数据进行存储优化,进而无需统计原始型的数据在存储空间中的存储指标。
根据数据存储的本质目的,业务型的数据用于实现“使用存储空间来换取使用数据时的查询速度或者换取被使用数据的易用性”,需要对其进行存储优化。具体的,针对业务型的数据,统计对其进行存储优化的存储指标时,可以统计所述业务型的数据在所述存储空间中的命中率和召回率,所述命中率表示查询到所述业务型的数据的概率,所述召回率表示在未查询到所述业务型的数据时召回所述原始型的数据的概率。
其他型的数据,位于数据血缘的中间过程,其下游节点不表示业务信息,故也需要对其进行存储优化。具体的,针对其他型的数据,统计其进行存储优化的存储指标时,可以统计所述其他型的数据在所述存储空间的存储占比。
S140、在所述存储空间中根据所述存储指标对所述数据进行存储优化。
在计算出原始型的数据以及其他型的数据的存储指标之后,可以根据各原始型的数据以及各其他型的数据的存储指标,计算整个数据存储空间对应的存储指标,或者是根据计算各原始型的数据以及各其他型的数据的存储指标的参数来计算整个数据管理系统对应的存储指标。进而,根据整个数据管理系统对应的存储指标对数据存储空间进行存储优化处理。
其中,根据存储指标的意义不同,存储指标值指示了不同的存储优化处理操作。例如,业务型的数据的命中率较低时,表明部分业务型的数据被过早地删除了,需要延长该业务型的数据的存储生命期时长;业务型的数据的召回率较高时,表明部分业务型的数据被过早地删除了,需要延长该业务型的数据的存储生命期时长;其他型的数据存储占比较高时,表明部分其他型的数据应该被删除,需要缩短该其他型的数据的存储生命期时长。
本发明实施例中,首先确定出数据存储空间中存储数据的类型,然后根据存储数据的类型对这些存储数据统计其在数据存储空间中的存储指标,所述存储指标为对存储数据进行存储优化的依据,进而可以在数据存储空间中根据所述存储指标对所述存储数据进行存储优化。上述技术方案中,统计得到的存储数据的存储指标指明了数据存储空间存储优化的客观方向,进而实现了在宏观层面对整个存储系统进行有效且合理地存储优化。
实施例二
本实施例以上述实施例为基础进行具体化,提供几种可选的按照数据的类型对所述数据统计在所述存储空间中的存储指标的实施方式。
首先对存储数据的使用信息数据进行解释说明,在大数据行业中,与数据相关的时间概念包括数据创建时间和数据生命期时长。
其中,数据创建时间,用于描述此数据所属的时间,如此文件中存储的是2019-01-01这一天用户产生的订单,不管这些数据是什么时候存进去的,描述数据所属的时间固定不变,该时间即为数据创建时间。
数据生命期时长,用于描述数据需要存储多久,该时长往往依托于数据创建时间来定义,如存储7天,可以预先记录在数据管理系统中。
数据使用时间,用于描述数据被使用的时间,也即哪一天数据被使用。此处需要注意的是,需要分清楚“数据创建时间”和“数据使用时间”的差异,举例来说,如2019-09-01这一天用到了2019-08-01这一天的数据。那么前者“2019-09-01”表示的是“数据使用时间”,后者“2019-08-01”描述的是“数据创建时间”。
典型的,可以构建数据收集模块,用于收集如上所述的数据。在大数据行业中,使用数据的方式各异,如在Hive和Spark中,我们往往通过分析SQL来获取,如SQL语句为:Select A,B from TableA where dt=‘2019-09-01’。
通过分析此SQL,我们可以得到:
数据创建时间为2019-09-01;使用的数据为TableA;数据使用时间为当前时间。
具体的,数据管理系统中会记录如表1和表2所示的信息。
表1数据生命期信息表的字段信息示例
字段名称 字段含义描述
DataName 数据的名称
DataLifeTime 数据需要保存多久,如几天
表2使用信息数据表的字段信息示例
字段名称 含义描述
DataName 被使用到的数据的名称
QueryDataTime 本次被使用到的数据创建时间
QueryTime 使用数据的当前时间(数据使用时间)
HavenData 要查询的数据是否不存在,是否已经被删除
作为一种可选的实施方式,可以将所述针对所述业务型的数据,统计所述数据在所述存储空间中的召回率,具体为:
确定查询所述业务型的数据的总查询量;确定在未查询到所述业务型的数据时召回所述业务型的数据的召回量;计算所述召回量与所述总查询量之间的比值,作为所述业务型的数据在所述存储空间中的召回率。
召回指的是当想要查询数据时,发现数据已经没有了,被删除了,此时只能从原始数据去召回。在依据所述业务型的数据的召回率对所述业务型的数据进行存储优化时,召回率越低,说明所述业务型的数据越不需要被存储治理。
例如,如果查询所需的数据已被删除,则在当次查询时将HavenData字段置为False(或者1或者0),则标识此数据需要召回,该数据的召回量计1。
针对业务型的数据D,统计查询数据D的总查询量,以及在未查询到数据D时召回数据D的召回量,计算数据D的召回量与数据D的总查询量的比值,作为数据D在数据存储空间中的召回率。也即,将count(if(HavenData=False,1,0))/count())作为业务型的数据的的召回率。
进一步的,在确定整个数据管理系统中所有业务型的数据的召回率时,统计所有业务型的数据的召回量总和,以及所有业务型的数据的总查询量总和,计算召回量总和与总查询量总和的比值,作为整个数据管理系统中所有业务型的数据的总召回率。
作为另一种可选的实施方式,可以将所述针对所述业务型的数据,统计所述业务型的数据在所述存储空间中的命中率,具体为:
确定查询所述业务型的数据的查询时间;确定在查询到所述业务型的数据时所述业务型的数据的存储时间;计算时间差值与所述业务型的数据的生命期之间的比值,作为所述业务型的数据在所述存储空间中的命中率,其中,所述时间差值为所述查询时间与所述存储时间之间的差值。
命中率,表示的是设置的数据生命期时长与数据热度时间范围的匹配度。举例说明,在绝大多数场景下,用户都是查询最近1一个月的数据,而存储中,该数据却存储了1年,则此数据的生命期设置得不精准,存储了大量极少概率会用到的数据。将该例子中所描述的“绝大部分只查询最近一个月的数据”中的“一个月”定义为“热度时间范围”,“数据被存储了1年”中的“1年”定义为“数据生命期时长”,而“热度时间范围”与“数据生命期时长”比值,即为命中率。在依据所述业务型的数据的召回率对所述业务型的数据进行存储优化时,命中率越高,说明所述业务型的数据越不需要被存储治理。
针对业务型的数据D,统计查询数据D的查询时间,以及在查询到数据D时数据D的存储时间,计算数据D的查询时间与数据D的存储时间的时间差值,计算该时间差值与数据D的生命期之间的比值,作为数据D在所述数据存储空间中的命中率。
业务型的数据D的使用时间QueryTime与创建时间QueryDataTime的时间差值即为上述的热度时间范围,计算该热度时间范围与业务型的数据D的生命期时长DataLifeTime的比值,即可得到业务型的数据D的命中率。命中率(QueryTime-QueryDataTime)/DataLifeTime)越接近1,说明数据D多余存储的天数越少。
进一步的,在确定整个数据管理系统中所有业务型的数据的总命中率时,计算所有业务型的数据的命中率的均值,并将该均值作为整个数据管理系统中所有业务型的数据的总命中率。
作为另一种可选的实施方式,可以将所述针对所述其他型的数据,统计所述其他型的数据在所述存储空间的存储占比,包括:
确定所述其他型的数据的存储空间占用量;计算所述存储空间占用量与存储空间总量的比值,作为所述其他型的数据在所述存储空间占用的存储占比。
获取其他型的数据B的占用存储空间大小,计算该占用存储空间大小与总存储空间大小的比值,该比值即为数据B的存储占比。在依据所述其他型的数据的存储占比对所述业务型的数据进行存储优化时,存储占比越低,说明所述其他型的数据越不需要被存储治理。
进一步的,在确定整个数据管理系统中所有其他型的数据的总存储占比时,计算所有其他型的数据的存储占比的累加和,并将该累加和作为整个数据管理系统中所有其他型的数据的总存储占比。
本实施例未尽详细解释说明之处,请详见前述实施例,在此不再赘述。
在本发明实施例中,以业务型的数据的命中率、业务型的数据的召回率以及其他型的数据的存储占比,作为对存储空间中数据进行存储优化的依据,其中,业务型的数据的命中率越大越接近1,表示数据生命期设置得越精准,业务型的数据的召回率越小越接近0,表示存储优化得越合理,其他型的数据的存储占比越小越好,表示存储优化得越合理,反之,业务型的数据的命中率越小表示数据生命期设置得不精准,业务型的数据的召回率越大表示存储优化过度,其他型的数据的存储占比越大,表示存储优化得越不合理。
实施例三
图3为本发明实施例三提供的一种存储空间的存储优化方法的流程图。本实施例以上述实施例为基础,提供了一种具体的实施方式。
如图3所示,本实施例提供的一种存储空间的存储优化方法包括以下步骤:
S310、收集数据管理系统中各存储数据的元数据,其中,所述元数据包括血缘关系数据、使用信息数据和存储空间数据。
可选的,在收集血缘关系数据时,除了收集数据与数据之间的依赖关系之外,还可以记录收集到这些信息的来源,例如是使用数据的用户是谁,一般可以通过用户ID来记录。例如,数据每使用一次,则记录如表3所述的信息到数据库中。
可选的,还可以根据使用数据的用户ID等级来确定数据的生命期时长,例如使用数据的用户等级越高,该数据的生命期时长越长。
S320、根据血缘关系数据将数据管理系统中各存储数据划分为原始型的数据、业务型的数据以及其他型的数据。
其中,原始型的数据不应被优化存储,而业务型的数据以及其他型的数据是否应该被优化存储是待定的。
表3信息记录表的字段信息示例
Figure BDA0002353846830000131
S330、根据使用信息数据,计算各业务型的数据的命中率和召回率。
业务型的数据的命中率为:
(QueryTime-QueryDataTime)/DataLifeTime),QueryTime为数据使用时间,QueryDataTime为数据创建时间,DataLifeTime为数据生命期时长。
业务型的数据的召回率为:
count(if(HavenData=False,1,0))/count(),count(if(HavenData=False,1,0))为业务型的数据的召回量,count()为业务型的数据的总查询量。
S340、根据存储空间数据,计算各其他型数据的存储占比。
S350、根据各所述业务型的数据的命中率,计算数据管理系统中业务型的数据的总命中率。
数据管理系统的业务型的数据的总命中率为:
AVG(QueryTime-QueryDataTime)/DataLifeTime),AVG为取均值函数。
S360、根据使用信息数据,计算数据管理系统的业务型的数据的总召回率。
数据管理系统的业务型的数据的总命中率为:数据管理系统中所有业务型的数据的召回量总和与所有业务型的数据的总查询量总和的比值。
S370、根据各所述其他型数据的存储占比,计算数据管理系统的其他型数据的总存储占比。
数据管理系统的其他型数据的总存储占比为:数据管理系统中所有其他型数据的存储占比的累加和。
S380、在所述存储空间中根据业务型的数据的命中率、业务型的数据的召回率以及其他型的数据的存储占比对所述数据进行存储优化。
本实施例中,在存储空间中对数据进行存储优化所依据的存储指标如表4所示。
作为一种具体的实施方式,执行数据存储优化时,在所述存储空间中对所述业务型的数据进行存储优化,以提高所述业务型的数据在所述存储空间中的命中率和/或降低所述业务型的数据在所述存储空间中的召回率。
表4存储优化指标示例
Figure BDA0002353846830000151
例如,在数据管理系统中业务型的数据的总命中率较大(接近1)时,则表示各业务型的数据的生命期时长设置得比较准确,无需再继续对其进行存储优化;在数据管理系统中业务型的数据的总命中率较小(比如为0.2)时,则表示各业务型的数据的生命期时长设置得不准确,需要对其进行存储优化。此时,可以获取各业务型的数据的命中率,对各业务型的数据的命中率进行判断,筛选出命中率小于命中率阈值(例如为0.6)的各业务型的数据,并对筛选出的这些业务型的数据的生命期时长进行降低设置,以提高这些业务型的数据的命中率。
再例如,在数据管理系统中业务型的数据的总召回率较小(比如为0.2)时,则表示各业务型的数据的生命期时长设置得比较准确,无需再继续对其进行存储优化;在数据管理系统中业务型的数据的总召回率较大(比如为0.6)时,则表示各业务型的数据的生命期时长设置得不准确,需要对其进行存储优化。此时,可以获取各业务型的数据的召回率,对各业务型的数据的召回率进行判断,筛选出召回率大于召回率阈值(例如为0.5)的各业务型的数据,并对筛选出的这些业务型的数据的生命期时长进行升高设置,以降低这些业务型的数据的召回率。
作为另一种具体的实施方法,执行数据存储优化时,在所述存储空间中对所述其他型的数据进行存储优化,以降低所述其他型的数据在所述存储空间中的存储占比。
又例如,在数据管理系统中其他型的数据的总存储占比较小(比如为0.01)时,则表示各其他型的数据存储比较合理,无需再继续对其进行存储优化;在数据管理系统中业务型的数据的总存储占比较大(比如为0.2)时,则表示各其他型的数据存储不合理,需要对其进行存储优化。此时,可以获取各其他型的数据的存储占比,对各其他型的数据的存储占比进行判断,筛选出存储占比大于存储占比阈值(例如为0.01)的各其他型的数据,并对筛选出的这些其他型的数据进行删除处理,以降低数据管理系统中其他型的数据的总存储占。
本实施例未尽详细解释说明之处,请详见前述实施例,在此不再赘述。
典型的,可以将本发明实施例提供的一种存储空间的存储优化方法包装成一个优化系统,如图4所示,该系统包括数据采集模块、目的识别模块和优化模块,其中,数据采集模块用于收集数据管理系统中各存储数据的元数据,所述元数据包括血缘关系数据、使用信息数据和存储空间数据;目的识别模块,用于将数据管理系统中的存储数据进行分类,划分为原始型的数据、业务型的数据和其他型的数据,划分依据即为前述提到的数据存储的本质目的,即为“存储原始信息”和“用存储空间换将来使用数据时的查询速度,或使用数据的易用性”;优化模块,用于根据业务型的数据的命中率、业务型的数据的召回率,以及其他型的数据的存储占比,对数据存储空间进行存储优化。
上述技术方案中,统计得到的存储数据的存储指标指明了数据存储空间存储优化的客观方向,进而实现了在宏观层面对整个存储系统进行有效且合理地存储优化。
实施例四
图5是本发明实施例四提供的一种存储空间的存储优化装置的模块结构示意图,本实施例可适用于对数据管理系统的进行存储优化的情况,该装置可以采用软件和/或硬件的方式实现,并一般可集成在计算机设备中。如图5所示,该装置包括:数据确定模块410、数据类型确定模块420、存储指标统计模块430和存储优化模块440。其中,
数据确定模块410,用于确定在存储空间中存储的数据;
数据类型确定模块420,用于确定所述数据的类型;
存储指标统计模块430,用于按照所述类型对所述数据统计在所述存储空间中的存储指标;
存储优化模块440,用于在所述存储空间中根据所述存储指标对所述数据进行存储优化。
本发明实施例中,首先确定出数据存储空间中存储数据的类型,然后根据存储数据的类型对这些存储数据统计其在数据存储空间中的存储指标,所述存储指标为对存储数据进行存储优化的依据,进而可以在数据存储空间中根据所述存储指标对所述存储数据进行存储优化。上述技术方案中,统计得到的存储数据的存储指标指明了数据存储空间存储优化的客观方向,进而实现了在宏观层面对整个存储系统进行有效且合理地存储优化。
进一步的,数据类型确定模块420,具体用于对所述数据生成血缘关系,其中,所述血缘关系具有多个节点,所述节点表示所述数据或业务信息,位于下游的节点依赖位于上游的节点生成;
若某个节点为根节点,则确定所述某个节点所表示的数据的类型为原始型;
若位于某个节点下游的节点表示业务信息,且所述某个节点并非根节点,则确定所述某个节点所表示的数据的类型为业务型;
若某个节点并非所述原始型与所述业务型,则确定所述某个节点所表示的数据的类型为其他型。
进一步的,所述类型包括原始型、业务型、其他型,所述原始型的数据用于记录原始的信息、所述业务型的数据用于生成业务信息且并非所述原始型的数据,所述其他型的数据为除所述原始型与所述业务型之外的数据;
存储指标统计模块430,具体包括:第一统计单元和第二统计单元,其中,
第一统计单元,用于针对所述业务型的数据,统计所述业务型的数据在所述存储空间中的命中率和召回率,所述命中率表示查询到所述业务型的数据的概率,所述召回率表示在未查询到所述业务型的数据时召回所述原始型的数据的概率;
第二统计单元,用于针对所述其他型的数据,统计所述其他型的数据在所述存储空间的存储占比。
进一步的,第一统计单元,具体用于确定查询所述业务型的数据的查询时间;确定在查询到所述业务型的数据时所述业务型的数据的存储时间;计算时间差值与所述业务型的数据的生命期之间的比值,作为所述业务型的数据在所述存储空间中的命中率,所述时间差值为所述查询时间与所述存储时间之间的差值。
进一步的,第一统计单元,具体用于确定查询所述业务型的数据的总查询量;确定在未查询到所述业务型的数据时召回所述业务型的数据的召回量;计算所述召回量与所述总查询量之间的比值,作为所述业务型的数据在所述存储空间中的召回率。
进一步的,第二统计单元,具体用于确定所述其他型的数据的存储空间占用量;计算所述存储空间占用量与存储空间总量的比值,作为所述其他型的数据在所述存储空间占用的存储占比。
进一步的,存储优化模块440,具体用于在所述存储空间中对所述业务型的数据进行存储优化,以提高所述业务型的数据在所述存储空间中的命中率和/或降低所述业务型的数据在所述存储空间中的召回率;和/或在所述存储空间中对所述其他型的数据进行存储优化,以降低所述其他型的数据在所述存储空间中的存储占比。
本发明实施例所提供的存储空间的存储优化装置可执行本发明任意实施例所提供的存储空间的存储优化方法,具备执行方法相应的功能模块和有益效果。
实施例五
图6是本发明实施例五提供的一种计算机设备的结构示意图,如图6所示,该计算机设备包括处理器50、存储器51、输入装置52和输出装置53;计算机设备中处理器50的数量可以是一个或多个,图6中以一个处理器50为例;计算机设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的存储空间的存储优化方法对应的程序指令/模块(例如,附图5所示的存储空间的存储优化装置中的数据确定模块410、数据类型确定模块420、存储指标统计模块430和存储优化模块440)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的存储空间的存储优化方法。
存储器51可主要包括存储程序区和存储数据表区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据表区可存储根据计算机设备的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种存储有计算机程序的计算机可读存储介质,计算机程序在由计算机处理器执行时用于执行一种存储空间的存储优化方法,该方法包括:
确定在存储空间中存储的数据;
确定所述数据的类型;
按照所述类型对所述数据统计在所述存储空间中的存储指标;
在所述存储空间中根据所述存储指标对所述数据进行存储优化。
当然,本发明实施例所提供的存储有计算机程序的计算机可读存储介质,其计算机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的存储空间的存储优化方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
值得注意的是,上述存储空间的存储优化装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种存储空间的存储优化方法,其特征在于,包括:
确定在存储空间中存储的数据;
确定所述数据的类型;
按照所述类型对所述数据统计在所述存储空间中的存储指标;
在所述存储空间中根据所述存储指标对所述数据进行存储优化;
所述确定所述数据的类型,包括:
对所述数据生成血缘关系,其中,所述血缘关系具有多个节点,所述节点表示所述数据或业务信息,位于下游的节点依赖位于上游的节点生成;
若某个节点为根节点,则确定所述某个节点所表示的数据的类型为原始型;
若位于某个节点下游的节点表示业务信息,且所述某个节点并非根节点,则确定所述某个节点所表示的数据的类型为业务型;
若某个节点并非所述原始型与所述业务型,则确定所述某个节点所表示的数据的类型为其他型;
所述按照所述类型对所述数据统计在所述存储空间中的存储指标,包括:
针对所述业务型的数据,统计所述业务型的数据在所述存储空间中的命中率和召回率,所述命中率表示查询到所述业务型的数据的概率,所述召回率表示在未查询到所述业务型的数据时召回所述原始型的数据的概率;
针对所述其他型的数据,统计所述其他型的数据在所述存储空间的存储占比。
2.根据权利要求1所述的方法,其特征在于,所述类型包括原始型、业务型、其他型,所述原始型的数据用于记录原始的信息、所述业务型的数据用于生成业务信息且并非所述原始型的数据,所述其他型的数据为除所述原始型与所述业务型之外的数据。
3.根据权利要求1所述的方法,其特征在于,所述针对所述业务型的数据,统计所述业务型的数据在所述存储空间中的命中率,包括:
确定查询所述业务型的数据的查询时间;
确定在查询到所述业务型的数据时所述业务型的数据的存储时间;
计算时间差值与所述业务型的数据的生命期之间的比值,作为所述业务型的数据在所述存储空间中的命中率,所述时间差值为所述查询时间与所述存储时间之间的差值。
4.根据权利要求1所述的方法,其特征在于,所述针对所述业务型的数据,统计所述数据在所述存储空间中的召回率,包括:
确定查询所述业务型的数据的总查询量;
确定在未查询到所述业务型的数据时召回所述业务型的数据的召回量;
计算所述召回量与所述总查询量之间的比值,作为所述业务型的数据在所述存储空间中的召回率。
5.根据权利要求1所述的方法,其特征在于,所述针对所述其他型的数据,统计所述其他型的数据在所述存储空间的存储占比,包括:
确定所述其他型的数据的存储空间占用量;
计算所述存储空间占用量与存储空间总量的比值,作为所述其他型的数据在所述存储空间占用的存储占比。
6. 根据权利要求1所述的方法,其特征在于,所述在所述存储空间中根据所述存储指标对所述数据进行存储优化,包括:
在所述存储空间中对所述业务型的数据进行存储优化,以提高所述业务型的数据在所述存储空间中的命中率和/或降低所述业务型的数据在所述存储空间中的召回率;和/或
在所述存储空间中对所述其他型的数据进行存储优化,以降低所述其他型的数据在所述存储空间中的存储占比。
7.一种存储空间的存储优化装置,其特征在于,包括:
数据确定模块,用于确定在存储空间中存储的数据;
数据类型确定模块,用于确定所述数据的类型;
存储指标统计模块,用于按照所述类型对所述数据统计在所述存储空间中的存储指标;
存储优化模块,用于在所述存储空间中根据所述存储指标对所述数据进行存储优化;
数据类型确定模块,具体用于对所述数据生成血缘关系,其中,所述血缘关系具有多个节点,所述节点表示所述数据或业务信息,位于下游的节点依赖位于上游的节点生成;
若某个节点为根节点,则确定所述某个节点所表示的数据的类型为原始型;
若位于某个节点下游的节点表示业务信息,且所述某个节点并非根节点,则确定所述某个节点所表示的数据的类型为业务型;
若某个节点并非所述原始型与所述业务型,则确定所述某个节点所表示的数据的类型为其他型;
存储指标统计模块,具体包括:第一统计单元和第二统计单元,其中,
第一统计单元,用于针对所述业务型的数据,统计所述业务型的数据在所述存储空间中的命中率和召回率,所述命中率表示查询到所述业务型的数据的概率,所述召回率表示在未查询到所述业务型的数据时召回所述原始型的数据的概率;
第二统计单元,用于针对所述其他型的数据,统计所述其他型的数据在所述存储空间的存储占比。
8.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的存储空间的存储优化方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的存储空间的存储优化方法。
CN202010002049.6A 2020-01-02 2020-01-02 存储空间的存储优化方法、装置、设备和介质 Active CN111221824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010002049.6A CN111221824B (zh) 2020-01-02 2020-01-02 存储空间的存储优化方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010002049.6A CN111221824B (zh) 2020-01-02 2020-01-02 存储空间的存储优化方法、装置、设备和介质

Publications (2)

Publication Number Publication Date
CN111221824A CN111221824A (zh) 2020-06-02
CN111221824B true CN111221824B (zh) 2023-05-26

Family

ID=70829291

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010002049.6A Active CN111221824B (zh) 2020-01-02 2020-01-02 存储空间的存储优化方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN111221824B (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109005056B (zh) * 2018-07-16 2020-06-23 网宿科技股份有限公司 基于cdn应用的存储容量评估方法和装置
CN109241178A (zh) * 2018-07-20 2019-01-18 华为技术有限公司 管理存储空间的方法和装置
CN109189785A (zh) * 2018-08-10 2019-01-11 平安科技(深圳)有限公司 数据存储方法、装置、计算机设备及存储介质
CN112084269B (zh) * 2018-12-25 2024-05-14 北京锐安科技有限公司 数据质量计算方法、装置、存储介质及服务器

Also Published As

Publication number Publication date
CN111221824A (zh) 2020-06-02

Similar Documents

Publication Publication Date Title
CN110008257B (zh) 数据处理方法、装置、系统、计算机设备和存储介质
CN108376143B (zh) 一种新型的olap预计算系统及生成预计算结果的方法
CN111127105A (zh) 用户分层模型构建方法及系统、运营分析方法及系统
US11636083B2 (en) Data processing method and apparatus, storage medium and electronic device
CN106383830B (zh) 一种数据检索方法及设备
CN110704675B (zh) 对象管理方法、装置、计算机设备和存储介质
US11455323B2 (en) Data processing method and system
CN107133367A (zh) 一种信息处理方法及系统、服务器
CN111737325A (zh) 一种基于大数据技术的电力数据分析方法和装置
CN112711614B (zh) 业务数据管理方法、装置
CN111221824B (zh) 存储空间的存储优化方法、装置、设备和介质
CN116611914A (zh) 一种基于分组统计的薪资预测方法及设备
CN116468011A (zh) 一种报表的生成方法、装置、设备及存储介质
CN109241048A (zh) 用于数据统计的数据处理方法、服务器及存储介质
CN110032615B (zh) 一种基于规则库实现gis空间数据在线统计的方法
CN115470279A (zh) 基于企业数据的数源转换方法、装置、设备及介质
CN113360553B (zh) 一种数据冷热程度评估方法及服务器
CN114996211A (zh) 一种日志管理方法、装置、电子设备及存储介质
CN110428627B (zh) 一种公交出行潜力区域识别方法及识别系统
CN111131393B (zh) 用户活跃度数据统计方法、电子装置及存储介质
CN111177188A (zh) 一种基于聚合边与时序聚合边的快速海量时序数据处理方法
CN114816770B (zh) 一种衡量计算机服务压力状态的通用系统及实现方法
CN112988542B (zh) 一种应用评分方法、装置、设备和可读存储介质
CN109145059A (zh) 用于数据统计的数据处理方法、服务器及存储介质
CN114943004B (zh) 属性图查询方法、属性图查询装置以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant