CN113360553B - 一种数据冷热程度评估方法及服务器 - Google Patents

一种数据冷热程度评估方法及服务器 Download PDF

Info

Publication number
CN113360553B
CN113360553B CN202010140501.5A CN202010140501A CN113360553B CN 113360553 B CN113360553 B CN 113360553B CN 202010140501 A CN202010140501 A CN 202010140501A CN 113360553 B CN113360553 B CN 113360553B
Authority
CN
China
Prior art keywords
data
target
target data
cold
hot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010140501.5A
Other languages
English (en)
Other versions
CN113360553A (zh
Inventor
曾丽
陈伟
邓娟
董敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Guizhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Guizhou Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010140501.5A priority Critical patent/CN113360553B/zh
Publication of CN113360553A publication Critical patent/CN113360553A/zh
Application granted granted Critical
Publication of CN113360553B publication Critical patent/CN113360553B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据冷热程度评估方法及服务器,用于解决现有的数据冷热程度评估方法对冷热数据的评估不精准的问题,该方法包括:获取数据仓库的源数据表中目标数据的访问信息;根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并确定所述目标业务对所述目标数据的需求程度;根据所述目标数据的被使用行为,确定数据冷热度评估要素;根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度。因此,本发明结合目标数据的业务需求程度和数据冷热度评估要素,来全方位评估目标数据的冷热程度,提升数据冷热度的评估准确性。

Description

一种数据冷热程度评估方法及服务器
技术领域
本发明实施例涉及大数据领域,尤其涉及一种数据冷热程度评估方法及服务器。
背景技术
在大数据领域中,数据仓库用于支持企业进行海量数据分析、决策而诞生的,且用于存储大量数据的一种存储系统。数据仓库中存储成千上万个表。每个表的访问行为、重要程度,导致表中数据的冷热程度不一样。企业根据数据的冷热程度,制定相关的存储策略以对数据进行存储,例如,热数据被存储在数据仓库的高配置系统上、冷数据被存储在数据仓库的低配置系统上,从而提升企业的管理效率和资源合理利用率。
现有的数据冷热程度评估方法通过采集企业数据仓库的数据库日志,基于采集的数据库日志建立解析框架,以解析数据库日志中数据的访问行为,对数据的访问行为进行统计分析,分析数据表周期内的访问频次,基于数据表周期内的访问频次,评估数据的冷热程度。例如,访问频次50/周期以下的数据为冷数据、访问频次在50/周期以上的数据为热数据。
但是,数据的访问行为不仅包括数据的访问次数,还包括数据被其他数据表引用、数据为不同的企业进行分发次数、数据被前端引用次数,等等。因此,现有的数据冷热程度评估方法对数据的冷热程度评估不精准,为企业进行数据管理提供了不可靠的决策依据。
发明内容
本发明实施例提供一种数据冷热程度评估方法及服务器,用于解决现有的数据冷热程度评估方法对冷热数据的识别不精准的问题。
本发明实施例采用下述技术方案:
第一方面,提供了一种数据冷热程度评估方法,所述方法包括:
获取数据仓库的源数据表中目标数据的访问信息;
根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并确定所述目标业务对所述目标数据的需求程度;
根据所述目标数据的被使用行为,确定数据冷热度评估要素,所述目标数据的被使用行为根据所述访问信息确定的;
根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度。
第二方面,提供了一种服务器,所述服务器包括:
获取模块,用于获取数据仓库的源数据表中目标数据的访问信息;
分析确定模块,用于根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并确定所述目标业务对所述目标数据的需求程度;
第一确定模块,用于根据所述目标数据的被使用行为,确定数据冷热度评估要素,所述目标数据的被使用行为根据所述访问信息确定的;
第二确定模块,用于根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度。
第三方面,提供了一种服务器,包括:存储器,存储有计算机程序指令;
处理器,当所述计算机程序被所述处理器执行时实现如上述所述的数据冷热程度评估方法。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行时实现如上述所述的数据冷热程度评估方法。
本发明实施例采用的上述至少一个技术方案能够达到以下有益效果:
本发明实施例提供的数据冷热程度评估方法,获取数据仓库的源数据表中目标数据的访问信息,根据目标数据的访问信息,分析目标数据被应用的目标业务,并确定目标业务对目标数据的需求程度,根据目标数据的被使用行为,确定数据冷热度评估要素,根据目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,确定目标数据的冷热值,以评估目标数据的冷热程度。因此,本发明结合目标数据的业务需求程度和数据冷热度评估要素,来全方位评估目标数据的冷热程度,提升数据冷热度的评估准确性。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书的一个实施例提供的数据冷热程度评估方法流程示意图;
图2为本说明书的一个实施例提供的数据冷热程度评估方法的实际应用场景示意图之一;
图3为本说明书的一个实施例提供的数据冷热程度评估方法的实际应用场景示意图之二;
图4为本说明书的一个实施例提供的服务器结构示意图之一;
图5为本说明书一个实施例提供的服务器结构示意图之二。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明实施例提供一种数据冷热程度评估方法及服务器,以解决现有的数据冷热程度评估方法对冷热数据的识别不精准的问题。本发明实施例提供一种数据冷热程度评估方法,该方法的执行主体,可以但不限于应用程序、服务器或能够被配置为执行本发明实施例提供的该方法的装置或系统。
为便于描述,下文以该方法的执行主体为能够执行该方法的服务器为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为服务器只是一种示例性的说明,并不应理解为对该方法的限定。
图1为本发明实施例提供的数据冷热程度评估方法的流程图,图1的方法可以由服务器执行,如图1所示,该方法可以包括:
步骤101、获取数据仓库的源数据表中目标数据的访问信息。
该访问信息可以包括访问时间、访问用户、访问方式、访问主机等其他的相关信息。
本步骤具体可实现为,对数据仓库中源数据表的访问日志进行采集,并对该访问日志进行解析分析,以获取数据仓库的源数据表中目标数据的访问信息。当然,还可以采用其他现有方式获取数据仓库的源数据表中目标数据的访问信息,本发明实施例不做具体限定。
步骤102、根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并确定所述目标业务对所述目标数据的需求程度。
由于任何数据最终都会被直接或间接的应用到实际业务中,因此,根据目标数据的访问信息,可找到该目标数据被应用的目标业务,具体可以为:
示例性的,如图2所示,假设场景为目标数据A形成了数据产品A,数据产品A被业务应用B进行应用。
本步骤可以根据目标数据A的访问信息,查找到根据目标数据A形成的数据产品A;根据数据产品A的被应用情况,查找到数据产品A的应用者业务应用B;根据数据产品A和业务应用B之间的合同关系、数据使用协议等,可直接获取到业务应用B对目标数据A的需求程度,也就可直接获取到目标数据A的业务价值,即目标数据A的业务需求程度。
步骤103、根据所述目标数据的被使用行为,确定数据冷热度评估要素。
其中,所述目标数据的被使用行为根据所述访问信息确定的。该被使用行为可包括API形式访问、数据分发、临时访问、程序引用等行为。
示例性的,若访问信息包括访问方式和访问用户,则可知目标数据的访问用户,及该访问用户所采用的访问方式,即可得到目标数据被访问用户访问的方式,也就是,目标数据的被使用行为。
本步骤中,根据所述目标数据的被使用行为,确定数据冷热度评估要素,具体可实现为:通过采用程序脚本的形式对所述目标数据进行引用的行为,确定所述数据冷热度评估要素至少包括程序引用要素;和/或,通过采用API的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括API调用要素;和/或,通过采用数据同步、FTP文件的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括数据分发要素;和/或,通过采用前端应用直接访问的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括前端应用要素;和/或,通过临时统计所述目标数据的访问行为的行为,确实所述数据冷热度评估要素至少包括临时统计要素。
步骤104、根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度。
其中,目标数据的业务需求程度的权重、数据冷热度评估要素的权重均可为预先定义的,也可以是采用层次分析法获得的。
本步骤具体可实现为:示例性的,假设,数据冷热度评估要素包括程序引用要素、API调用要素、数据分发要素、前端应用要素和临时统计要素。在目标业务中程序引用要素的权重为9.36%、目标数据的业务需求程度的权重为29.23%、前端应用引用要素的权重为27.05%、API调用要素的权重为14.21%、数据分发要素权重8.92%、临时统计要素的权重为11.23%。则,
目标数据的冷热值value(0-100)=程序依赖次数*0.93+业务需求程度*0.29+前端展示引用次数*0.27+API调用次数*0.14+数据分发次数*0.89+临时统计次数*0.11
根据目标数据的冷热值,按照预定规则可评估目标数据的冷热程度。该预定规则为预先定义的规则。
本发明实施例提供的数据冷热程度评估方法,获取数据仓库的源数据表中目标数据的访问信息,根据目标数据的访问信息,分析目标数据被应用的目标业务,并确定目标数据的业务需求程度,根据目标数据的被使用行为,确定数据冷热度评估要素,根据目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,确定目标数据的冷热值,以评估目标数据的冷热程度。因此,本发明结合目标数据的业务需求程度和数据冷热度评估要素,来全方位评估目标数据的冷热程度,提升数据冷热度的评估准确性。
作为一个实施例,在执行步骤101之前,本发明提供的数据冷热程度评估方法还包括:
步骤1、采集所述数据仓库中源数据表的访问日志。
本步骤具体可实现为,通过预设技术手段将数据仓库中源数据表的访问日志采集到指定的地方。示例性的,通过SFTP的文件传输协议方式进行采集,并将访问日志采集到日志存储主机,以便后续对访问日志进行解析。
步骤2、对所述访问日志进行清洗,以保留对统计结果有影响的信息。
本步骤具体可实现为,可采用java处理程序或linux相关清洗命令对访问日志进行清洗,将访问日志中不必要的信息进行剔除,只保留能够用于日志分析的信息,如访问方式、访问次数、访问用户、访问时间等关键信息。
步骤3、解析所述清洗后的访问日志,以得到解析结果文件。
本步骤具体可实现为,可采用java处理程序对访问日志进行解析,将访问日志里面的数据通过java数据处理,得到解析结果文件,即最终形成可入库到数据库的标准结构数据。对解析后的标准结构数据,通过load等方式入库到数据仓库中的源数据表,用于后续进行数据分析。
步骤4、对所述解析结果文件进行可视化分析,以统计所述源数据表的访问信息。
本步骤具体可实现为,可使用SQL及数据分析可视化技术,将解析结果文件进行可视化分析,分析出源数据表的访问频次、访问用户、访问周期、访问时间等访问信息,以统计所述源数据表的访问信息。
作为一个实施例,步骤102具体可实现为:
步骤1021、根据所述目标数据的访问信息,建立所述目标数据与其被应用的目标业务之间的发展脉络关系。
其中,目标数据与其被应用的目标业务之间的发展脉络关系,可以指数据生产的链路,也就是说,对原始数据进行多个步骤的各种加工会产生新的数据,在这个过程中所产生的多个表之间的链路关系。
沿用上述示例,目标数据A加工形成了数据产品A,数据产品A被业务应用B进行应用,在这里从目标数据A到业务应用B的整条链路,即目标数据A与业务应用B的发展脉络关系。
示例性的,用户需要分析企业最热门产品的销量,会需要对数据库中原始数据A进行加工处理:由原始数据A加工生成中间数据B,再由中间数据B关联原始数据C生产结果数据D。在这里从原始数据A到结果数据D的整条链路,即原始数据A与结果数据D的发展脉络关系。
本步骤中,对目标数据与其被应用的目标业务之间的发展脉络关系的分析可以采用脚本解析的方式进行分析,解析出目标数据的上下游父子关系,从而构建出目标数据与其被应用的目标业务之间的发展脉络关系。
示例性的,发展脉络关系中的父子关系分析方法为:在数据处理脚本中,存在数据的inster(数据插入)和select*from操作(数据来源),在数据处理语句中,insert后的表作为“子”关系,代码中from作为父关系,通过上述规则对代码进行解析。
步骤1022、根据所述发展脉络关系,确定从所述目标数据到其被应用的目标业务过程中产生的中间数据。
沿用上述示例,目标数据A加工形成了数据产品A,数据产品A被业务应用B进行应用,在这里数据产品A为中间数据。
步骤1023、根据所述中间数据与所述目标业务之间的数据使用协议,确定所述目标数据对所述目标业务产生的目标业务价值,以确定所述目标业务对所述目标数据的需求程度。
沿用上述示例,通过数据产品A和数据消费者B之间的合同关系、数据使用协议等,可直接获取到业务应用B对目标数据A的需求程度,也就可直接获取到目标数据A的业务价值,即目标数据A的业务需求程度。
作为一个实施例,在执行步骤104之前,本发明提供的数据冷热程度评估方法还包括:
采用层次分析法,获得所述目标数据的业务需求程度及所述数据冷热度评估要素的权重。
具体为,首先,使用1-9标度法构建矩阵,对目标数据的业务需求程度、程序引用要素、API调用要素、数据分发要素、前端应用要素和临时统计要素,这六个因素之间互相进行比对,如表1所示:
表1
Figure BDA0002398919010000081
然后,使用数据分析工具SPSSAU进行特征向量值、权重值,最大特征值,CI值,以及一致性判断,得到表2
表2
Figure BDA0002398919010000091
最终,得到在目标业务中程序引用要素的权重为9.36%、目标数据的业务需求程度的权重为29.23%、前端应用引用要素的权重为27.05%、API调用要素的权重为14.21%、数据分发要素权重8.92%、临时统计要素的权重为11.23%。
作为一个实施例,步骤104具体可实现为:
将所述目标数据的业务需求程度、所述数据冷热度评估要素作为数据冷热度评估模型的输入,输出所述目标数据的冷热值;
所述据冷热度评估模型基于目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,及目标业务应用的数据的冷热值训练得到的。
本发明实施例通过基于目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,及目标业务应用的数据的冷热值训练得到据冷热度评估模型,在对目标数据的冷热程度评估时,将目标数据的业务需求程度、数据冷热度评估要素作为数据冷热度评估模型的输入,数据冷热度评估模型输出目标数据的冷热值,即可评估目标数据的冷热度,提升数据冷热度评估的智能程度和准确度。
作为一个实施例,步骤102具体可实现为:
若所述目标数据被多个业务应用,则根据所述目标数据的访问信息,分析所述目标数据被应用的多个业务;
根据所述多个业务的重要等级,从所述多个业务中选取所述目标业务,并确定所述目标业务对所述目标数据的需求程度。
由于根据不同的业务分类以及企业对业务发展的不同需求,对企业上线的每一个业务(包括报表、指标、数据产品等)按照业务需求程度从1-10等级进行划分,例如:交通类数据产品8、政府类数据产品7、银行类数据产品9、对内4G数据产品8、对内宽带数据产品9、对内大众市场用户数据产品7等。
示例性的,如图3所示,假设场景为目标数据A加工生成了数据产品A,数据产品A被业务应用B进行应用;目标数据A加工生成了数据产品C,数据产品C被业务应用A进行应用。
结合上述示例,数据产品A为银行类数据产品或对内宽带数据产品,其等级为9级,相应的业务应用B的等级也为9级;数据产品B为政府类数据产品或对内大众市场用户数据产品,其等级为7级,相应的业务应用C的等级也为7级;数据产品C为交通类数据产品或对内4G数据产品,其等级为8级,相应的业务应用A的等级也为8级。
目标数据A被业务应用B和业务应用A应用,根据业务应用B和业务应用A应用的重要等级,选取等级最高的业务应用B作为目标业务,并将业务应用B等级确定为目标数据A的业务需求程度,即目标数据A的业务需求程度为9。
以上,结合图1~图3详细说明了本说明书实施例的数据冷热程度评估方法,下面,结合图4,详细说明本说明书实施例的服务器。
图4示出了本说明书实施例提供的服务器的结构示意图,如图4所示,该服务器400可以包括:
获取模块401,用于获取数据仓库的源数据表中目标数据的访问信息;
分析确定模块402,用于根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并确定所述目标业务对所述目标数据的需求程度;
第一确定模块403,用于根据所述目标数据的被使用行为,确定数据冷热度评估要素,所述目标数据的被使用行为根据所述访问信息确定的;
第二确定模块404,用于根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度。
在一实施例中,所述服务器400可以包括:
采集模块405,用于采集所述数据仓库中源数据表的访问日志;
清洗模块406,用于对所述访问日志进行清洗,以保留对统计结果有影响的信息;
解析模块407,用于解析所述清洗后的访问日志,以得到解析结果文件;
分析模块408,用于对所述解析结果文件进行可视化分析,以统计所述源数据表的访问信息。
在一实施例中,所述分析确定模块402包括:
建立单元,用于根据所述目标数据的访问信息,建立所述目标数据与其被应用的目标业务之间的发展脉络关系;
第一确定单元,用于根据所述发展脉络关系,确定从所述目标数据到其被应用的目标业务过程中产生的中间数据;
第二确定单元,用于根据所述中间数据与所述目标业务之间的数据使用协议,确定所述目标数据对所述目标业务产生的目标业务价值,以确定所述目标业务对所述目标数据的需求程度。
在一实施例中,所述第一确定模块403可以包括:
第三确定单元,用于通过采用程序脚本的形式对所述目标数据进行引用的行为,确定所述数据冷热度评估要素至少包括程序引用要素;和/或,
第四确定单元,用于通过采用API的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括API调用要素;和/或,
第五确定单元,用于通过采用数据同步、FTP文件的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括数据分发要素;和/或,
第六确定单元,用于通过采用前端应用直接访问的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括前端应用要素;和/或,
第七确定单元,用于通过临时统计所述目标数据的访问行为的行为,确实所述数据冷热度评估要素至少包括临时统计要素。
在一实施例中,所述服务器400还可以包括:
获得模块409,用于采用层次分析法,获得所述目标数据的业务需求程度及所述数据冷热度评估要素的权重。
在一实施例中,所述第二确定模块404可以包括:
输出单元,用于将所述目标数据的业务需求程度、所述数据冷热度评估要素作为数据冷热度评估模型的输入,输出所述目标数据的冷热值;
所述据冷热度评估模型基于目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,及目标业务应用的数据的冷热值训练得到的。
在一实施例中,所述分析确定模块402可以包括:
分析单元,用于若所述目标数据被多个业务应用,则根据所述目标数据的访问信息,分析所述目标数据被应用的多个业务;
第八确定单元,用于根据所述多个业务的重要等级,从所述多个业务中选取所述目标业务,并确定所述目标业务的需求程序。
本发明实施例提供的数据冷热程度评估方法,获取数据仓库的源数据表中目标数据的访问信息,根据目标数据的访问信息,分析目标数据被应用的目标业务,并确定目标业务对目标数据的需求程度,根据目标数据的被使用行为,确定数据冷热度评估要素,根据目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,确定目标数据的冷热值,以评估目标数据的冷热程度。因此,本发明结合目标数据的业务需求程度和数据冷热度评估要素,来全方位评估目标数据的冷热程度,提升数据冷热度的评估准确性。
下面将结合图5详细描述根据本发明实施例的服务器。参考图5,在硬件层面,服务器包括处理器,可选地,包括内部总线、网络接口、存储器。其中,如图5所示,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该服务器还可能包括实现其他目标业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外设部件互连标准(Peripheral Component Interconnect,PCI)总线或扩展工业标准结构(ExtendedIndustry Standard Architecture,EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成资源增值对象与资源对象的关联装置。处理器,执行存储器所存放的程序,并具体用于执行本说明书前文所述的方法实施例的操作。
上述图1至图4所示实施例揭示的方法、服务器执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
图5所示的服务器还可执行图1至图4的方法,实现数据冷热程度评估方法在图1至图3所示实施例的功能,本发明实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的服务器并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述各个方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种数据冷热程度评估方法,其特征在于,包括:
获取数据仓库的源数据表中目标数据的访问信息;
根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并确定所述目标业务对所述目标数据的需求程度;
根据所述目标数据的被使用行为,确定数据冷热度评估要素,所述目标数据的被使用行为根据所述访问信息确定的;
根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度;
确定所述目标业务对所述目标数据的需求程度,包括:
根据所述目标数据的访问信息,建立所述目标数据与其被应用的目标业务之间的发展脉络关系;
根据所述发展脉络关系,确定从所述目标数据到其被应用的目标业务过程中产生的中间数据;
根据所述中间数据与所述目标业务之间的数据使用协议,确定所述目标数据对所述目标业务产生的目标业务价值,以确定所述目标业务对所述目标数据的需求程度;
根据所述目标数据的被使用行为,确定数据冷热度评估要素,包括:
通过采用程序脚本的形式对所述目标数据进行引用的行为,确定所述数据冷热度评估要素至少包括程序引用要素;和/或,
通过采用API的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括API调用要素;和/或,
通过采用数据同步、FTP文件的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括数据分发要素;和/或,
通过采用前端应用直接访问的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括前端应用要素;和/或,
通过临时统计所述目标数据的访问行为的行为,确实所述数据冷热度评估要素至少包括临时统计要素。
2.根据权利要求1所述的方法,其特征在于,在获取数据仓库的源数据表中目标数据的访问信息之前,包括:
采集所述数据仓库中源数据表的访问日志;
对所述访问日志进行清洗,以保留对统计结果有影响的信息;
解析所述清洗后的访问日志,以得到解析结果文件;
对所述解析结果文件进行可视化分析,以统计所述源数据表的访问信息。
3.根据权利要求1所述的方法,其特征在于,在根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值之前,包括:
采用层次分析法,获得所述目标数据的业务需求程度及所述数据冷热度评估要素的权重。
4.根据权利要求1所述的方法,其特征在于,所述根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,包括:
将所述目标数据的业务需求程度、所述数据冷热度评估要素作为数据冷热度评估模型的输入,输出所述目标数据的冷热值;
所述据冷热度评估模型基于目标数据的业务需求程度及其权重,数据冷热度评估要素及其权重,及目标业务应用的数据的冷热值训练得到的。
5.根据权利要求1所述的方法,其特征在于,根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并所述目标业务对所述目标数据的需求程度,包括:
若所述目标数据被多个业务所应用,则根据所述目标数据的访问信息,分析所述目标数据被应用的多个业务;
根据所述多个业务的重要等级,从所述多个业务中选取所述目标业务,并确定所述目标业务对所述目标数据的需求程度。
6.一种服务器,其特征在于,包括:
获取模块,用于获取数据仓库的源数据表中目标数据的访问信息;
分析确定模块,用于根据所述目标数据的访问信息,分析所述目标数据被应用的目标业务,并所述目标业务对所述目标数据的需求程度;
第一确定模块,用于根据所述目标数据的被使用行为,确定数据冷热度评估要素,所述目标数据的被使用行为根据所述访问信息确定的;
第二确定模块,用于根据所述目标数据的业务需求程度及其权重,所述数据冷热度评估要素及其权重,确定所述目标数据的冷热值,以评估所述目标数据的冷热程度;
所述分析确定模块,包括:
建立单元,用于根据所述目标数据的访问信息,建立所述目标数据与其被应用的目标业务之间的发展脉络关系;
第一确定单元,用于根据所述发展脉络关系,确定从所述目标数据到其被应用的目标业务过程中产生的中间数据;
第二确定单元,用于根据所述中间数据与所述目标业务之间的数据使用协议,确定所述目标数据对所述目标业务产生的目标业务价值,以确定所述目标业务对所述目标数据的需求程度;
所述第一确定模块,包括:
第三确定单元,用于通过采用程序脚本的形式对所述目标数据进行引用的行为,确定所述数据冷热度评估要素至少包括程序引用要素;和/或,
第四确定单元,用于通过采用API的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括API调用要素;和/或,
第五确定单元,用于通过采用数据同步、FTP文件的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括数据分发要素;和/或,
第六确定单元,用于通过采用前端应用直接访问的形式对所述目标数据进行访问的行为,确定所述数据冷热度评估要素至少包括前端应用要素;和/或,
第七确定单元,用于通过临时统计所述目标数据的访问行为的行为,确实所述数据冷热度评估要素至少包括临时统计要素。
7.一种服务器,其特征在于,包括:
存储器,存储有计算机程序指令;
处理器,当所述计算机程序被所述处理器执行时实现如权利要求1至5任一项所述的数据冷热程度评估方法。
8.一种计算机可读存储介质,其特征在于,
所述计算机可读存储介质包括指令,当所述指令在计算机上运行时,使得计算机执行时实现如权利要求1至5任一项所述的数据冷热程度评估方法。
CN202010140501.5A 2020-03-03 2020-03-03 一种数据冷热程度评估方法及服务器 Active CN113360553B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010140501.5A CN113360553B (zh) 2020-03-03 2020-03-03 一种数据冷热程度评估方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010140501.5A CN113360553B (zh) 2020-03-03 2020-03-03 一种数据冷热程度评估方法及服务器

Publications (2)

Publication Number Publication Date
CN113360553A CN113360553A (zh) 2021-09-07
CN113360553B true CN113360553B (zh) 2022-12-06

Family

ID=77523141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010140501.5A Active CN113360553B (zh) 2020-03-03 2020-03-03 一种数据冷热程度评估方法及服务器

Country Status (1)

Country Link
CN (1) CN113360553B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891852A (zh) * 2022-11-30 2024-04-16 荣耀终端有限公司 一种数据价值评估方法及电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064902A (zh) * 2012-12-18 2013-04-24 厦门市美亚柏科信息股份有限公司 Hdfs中数据的存储方法、读取方法及存储系统、读取系统
CN107506843A (zh) * 2017-07-03 2017-12-22 国网上海市电力公司 一种短期负荷预测方法及装置
KR102017422B1 (ko) * 2018-05-08 2019-10-14 인하대학교 산학협력단 핫 앤 콜드 데이터 분류에 기반한 사용자 인지 품질을 고려한 비디오 스토리지 전력관리 방법 및 시스템
CN109783443A (zh) * 2018-12-25 2019-05-21 西安交通大学 一种分布式存储系统中海量数据的冷热判断方法
CN109739646A (zh) * 2018-12-28 2019-05-10 北京神州绿盟信息安全科技股份有限公司 一种数据处理方法及装置
CN109918448A (zh) * 2019-03-06 2019-06-21 电子科技大学 一种基于用户行为的云存储数据分级方法

Also Published As

Publication number Publication date
CN113360553A (zh) 2021-09-07

Similar Documents

Publication Publication Date Title
CN105051729B (zh) 数据记录的选择
CN109309596B (zh) 一种压力测试方法、装置及服务器
CN104679646B (zh) 一种用于检测sql代码缺陷的方法和装置
CN110795458B (zh) 交互式数据分析方法、装置、电子设备和计算机可读存储介质
CN111400288A (zh) 数据质量检查方法及系统
CN109271453B (zh) 一种数据库容量的确定方法和装置
CN111242318A (zh) 基于异构特征库的业务模型训练方法及装置
CN110377519A (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN113360553B (zh) 一种数据冷热程度评估方法及服务器
CN110008393B (zh) 一种用于获取网站信息的方法及设备
CN106648839A (zh) 数据处理的方法和装置
CN112526905B (zh) 一种针对指标异常的处理方法及系统
CN108334521B (zh) 一种数据库容量预测方法及装置
CN110765100B (zh) 标签的生成方法、装置、计算机可读存储介质及服务器
CN109189810B (zh) 查询方法、装置、电子设备及计算机可读存储介质
CN110019357B (zh) 数据库查询脚本生成方法及装置
CN116610700A (zh) 查询语句检测方法及装置、存储介质
CN110796178A (zh) 决策模型训练方法及样本特征选择方法、装置和电子设备
CN110661913A (zh) 一种用户排序方法、装置及电子设备
CN107562533B (zh) 一种数据加载处理方法及装置
CN115470279A (zh) 基于企业数据的数源转换方法、装置、设备及介质
CN113220530B (zh) 数据质量监控方法及平台
CN107092599B (zh) 一种用于为用户提供知识信息的方法与设备
CN110708414B (zh) 一种电话号码的排序方法、装置及电子设备
CN114528313A (zh) 数据处理方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant