CN116226104A - 数据表维护方法、装置、存储介质和电子设备 - Google Patents

数据表维护方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN116226104A
CN116226104A CN202211723610.5A CN202211723610A CN116226104A CN 116226104 A CN116226104 A CN 116226104A CN 202211723610 A CN202211723610 A CN 202211723610A CN 116226104 A CN116226104 A CN 116226104A
Authority
CN
China
Prior art keywords
data table
attribute value
ratio
value
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211723610.5A
Other languages
English (en)
Inventor
刘璐
蔡云帆
夏天宇
付晓聪
王旭鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xueqiu Beijing Technology Development Co ltd
Original Assignee
Xueqiu Beijing Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xueqiu Beijing Technology Development Co ltd filed Critical Xueqiu Beijing Technology Development Co ltd
Priority to CN202211723610.5A priority Critical patent/CN116226104A/zh
Publication of CN116226104A publication Critical patent/CN116226104A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据表维护方法、装置、存储介质和电子设备,该方法包括:获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,第一属性值根据该数据表的计算成本和总存储成本确定;第二属性值根据该数据表的用户查询价值和系统查询价值确定;计算第二属性值与第一属性值的比值;比较计算的比值和预设比值的大小;响应于比值小于预设比值,输出携带该比值的通知,并针对数据表设置定时器;响应于定时器定时过程中,接收到不删除该数据表的指令,删除针对该数据表设置的定时器;响应于定时器定时到时,且未接收到不删除该数据表的指令,删除数据表。该方法能够在低成本前提下,准确地进行数据表维护。

Description

数据表维护方法、装置、存储介质和电子设备
技术领域
本公开实施例涉及一种数据表维护方法、装置、存储介质和电子设备。
背景技术
在数据ETL链路中,随着需求越来越多,数据规模越来越大,计算和存储成本越来越高。
有些数据表是很久没被使用过,或使用很少的,如果一直还对该数据表进行存储和计算,会消耗很多的计算和存储成本。
相关技术中,一般通过人工去分析和梳理来优化数据表,进而节省数据表的计算和存储成本;但是人工维护数据表成本比较高,且易出错。
发明内容
有鉴于此,本申请提供一种数据表维护方法、装置、存储介质和电子设备,能够在低成本前提下,准确地进行数据表维护。
为解决上述技术问题,本申请的技术方案是这样实现的:
在一个实施例中,提供了一种数据表维护方法,所述方法包括:
一种数据表维护方法,其特征在于,所述方法包括:
获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,所述第一属性值根据所述数据表的计算成本和总存储成本确定;所述第二属性值根据所述数据表的用户查询价值和系统查询价值确定;
计算所述第二属性值与所述第一属性值的比值;
比较计算的所述比值和预设比值的大小;
响应于所述比值小于所述预设比值,输出携带所述比值的通知,并针对所述数据表设置定时器;
响应于所述定时器定时过程中,接收到不删除所述数据表的指令,删除针对所述数据表设置的定时器;
响应于所述定时器定时到时,且未接收到不删除所述数据表的指令,删除所述数据表。
其中,所述获取有向无环图中的数据表的第一属性值,包括:
获取所述数据表的总存储成本;其中,所述总存储成本根据所述数据表的自身存储成本和上游数据表的总存储成本确定;
获取所述数据表的计算成本;其中,所述计算成本根据计算所述数据表消耗的计算资源确定;所述计算资源由计算消耗的CPU和内存的时间累计值加权后获取的;
将所述数据表的所述总存储成本和所述计算成本加权求和获得所述数据表的第一属性值。
其中,所述方法进一步包括:
在获取所述数据表的总存储成本时,若所述数据表的上游数据表存在N个下游数据表,则使用所述上游数据表的1/N的总存储成本计算所述数据表的总存储成本;若所述数据表的上游数据表存在一个下游数据表,则使用所述上游数据表的总存储成本计算所述数据表的存储成本;其中,N为大于1的整数。
其中,获取所述有向无环图中的数据表的第二属性值,包括:
获取不同预设时间内用户查询所述数据表的次数,并对不同预设时间内的所述次数加权求和获得所述数据表的用户查询价值;
获取历史查询过所述数据表的系统和业务,并根据查询过所述数据表的系统和业务对应的权重确定所述数据表的系统查询价值;
将所述用户查询价值和所述系统查询价值加权求和获得所述数据表的第二属性值。
其中,所述方法进一步包括:
获取所述数据表的下游数据表的第二属性值,以及所述数据表的第二属性值;
获取所述数据表的第三属性值并记录;其中,所述第三属性值根据所述数据表的下游数据表的第二属性值和所述数据表的第二属性值确定;
响应于计算资源不足,优先满足所述第三属性值高的数据表的计算资源的使用。
其中,所述方法进一步包括:
获取当前更新周期中所述数据表的生成时间,以及所述当前更新周期中所述数据表最早被查询的查询时间;
计算所述查询时间与所述生成时间的差值;
比较计算的差值与预设差值的大小;
响应于计算的所述差值大于预设差值,在下一更新周期,延迟更新数据表的时间,且延迟后的更新数据表的时间不晚于当前周期的被查询时间。
其中,所述方法进一步包括:
响应于所述数据表的生成,记录生成所述数据表的生成时间;
响应于所述数据表被查询,记录被查询的时间,以及查询的主体,所述主体为用户或系统。
在另一个实施例中,提供了一种数据表维护装置,所述装置包括:
获取单元,被配置为执行获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,所述第一属性值根据所述数据表的计算成本和存储成本确定;所述第二属性值根据所述数据表的用户查询价值和系统查询价值确定;
计算单元,被配置为执行计算所述第二属性值与所述第一属性值的比值;
比较单元,被配置为执行比较计算的所述比值和预设比值的大小;
定时单元,被配置为执行响应于所述比值小于所述预设比值,针对所述数据表设置定时器;
输出单元,被配置为执行响应于所述比值小于所述预设比值,输出携带所述比值的通知;
删除单元,被配置为执行响应于所述定时器定时过程中,接收到不删除所述数据表的指令,删除针对所述数据表设置的定时器;响应于所述定时器定时到时,且未接收到不删除所述数据表的指令,删除所述数据表。
在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述数据表维护方法的步骤。
在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述数据表维护方法的步骤。
由上面的技术方案可见,上述实施例中通过获取每个数据表的第一属性值和第二属性值,确定该数据表的第二属性值与第一属性值的比值小于预设比值时,输出携带该比值的通知,并针对该数据表设置定时器;若在定时器定时过程中,接收到不删除所述数据表的指令,则删除定时器;若定时器定时到时,且未接收到不删除该数据表的指令,则删除所述数据表;其中,第一属性值根据数据表的计算成本和总存储成本确定;第二属性值根据数据表的用户查询价值和系统查询价值确定。这样针对成本比值(第二属性值与第一属性值的比)比较小的数据表确定是否要删除,能够大大节省存储成本和计算成本。该方案能够在低成本前提下,准确地进行数据表的维护。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种数据表维护流程示意图;
图2为本申请实施例中另一种数据表维护流程示意图;
图3为一个有向无环图示意图;
图4为本申请实施例中资源分配流程示意图;
图5为本申请实施例调整更新数据表时间流程示意图;
图6为本申请实施例中数据表维护装置结构示意图;
图7为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述目标的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
在ETL链路中,针对数据表基于数据的血缘关系生成有向无环图进行存储的。随着数据库中存储的数据表越来越多,计算、存储成本越来越高;相关技术中通过人工手动对数据库中的数据表进行维护,这样的维护方式成本高且易出错。
基于此,本申请实施例中提供一种数据表维护方法,基于数据的血缘关系,以及有向无环图对数据表进行维护。具体为通过获取每个数据表的第一属性值和第二属性值,确定该数据表的第二属性值与第一属性值的比值小于预设比值时,输出携带该比值的通知,并针对该数据表设置定时器;若在定时器定时过程中,接收到不删除所述数据表的指令,则删除定时器;若定时器定时到时,且未接收到不删除该数据表的指令,则删除所述数据表;其中,第一属性值根据数据表的计算成本和总存储成本确定;第二属性值根据数据表的用户查询价值和系统查询价值确定。这样针对成本比值(第二属性值与第一属性值的比)比较小的数据表确定是否要删除,能够大大节省存储成本和计算成本。该方案能够在低成本前提下,准确地进行数据表的维护。
本申请实施例中,数据库中多张数据表以有向无环图方式存储,具体实现时,获取数据加工过程中使用的SQL语句或者数据加工过程中使用的脚本,并通过SQL语句或加工脚本中所包含的SQL语句生成数据血缘关系,基于所述数据血缘关系形成有向无环图。
响应于数据表的生成,记录生成数据表的生成时间;
响应于数据表被查询,记录被查询的时间,以及查询的主体,主体为用户或系统。在具体实现时,一个系统对应多个业务时,还需记录系统查询时对应的业务。
本申请实施例中以有向无环图为单位维护数据表。下面结合附图,详细说明本申请实施例中实现数据表维护过程。
参见图1,图1为本申请实施例中一种数据表维护流程示意图。具体步骤为:
步骤101,获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,第一属性值根据数据表的计算成本和总存储成本确定;第二属性值根据数据表的用户查询价值和系统查询价值确定。
步骤102,计算第二属性值与第一属性值的比值。
步骤103,比较计算的比值与预设比值的大小。
步骤104,响应于比值小于预设比值,输出携带比值的通知,并针该对数据表设置定时器。
步骤105,响应于定时器定时过程中,接收到不删除该数据表的指令,删除针对该数据表设置的定时器。结束本流程。
步骤106,响应于定时器定时到时,且未接收到不删除该数据表的指令,删除该数据表。
本实施例中通过获取每个数据表的第一属性值和第二属性值,在确定该数据表的第二属性值与第一属性值的比值小于预设比值时,输出携带该比值的通知,并针对该数据表设置定时器;若在定时器定时过程中,接收到不删除所述数据表的指令,则删除定时器;若定时器定时到时,且未接收到不删除该数据表的指令,则删除所述数据表;其中,第一属性值根据数据表的计算成本和总存储成本确定;第二属性值根据数据表的用户查询价值和系统查询价值确定。这样针对成本比值(第二属性值与第一属性值的比)比较小的数据表确定是否要删除,能够大大节省存储成本和计算成本。该方案能够在低成本前提下,准确地进行数据表的维护。
对数据表的维护具体为优化了数据表,根据实际需要,将很少被使用,或基本不使用的数据表删除,节省存储成本和计算成本。
参见图2,图2为本申请实施例中另一种数据表维护流程示意图。具体步骤为:
步骤201,获取有向无环图中的数据表的总存储成本;其中,该总存储成本根据该数据表的自身存储成本和上游数据表的总存储成本确定。
每个数据表在存储的时候会占用存储资源,占用的存储资源所对应的成本称为该数据表的自身存储成本,如占用的存储资源为MGB,单位存储成本为K,则M×K为数据表的自身存储成本。
在获取数据表的总存储成本时,若数据表的上游数据表存在N个下游数据表,则使用上游数据表的1/N的总存储成本计算数据表的总存储成本;即将该数据成本的自身存储成本与上游数据表的1/N的总存储成本的和作为该数据表的总存储成本;其中,N为大于1的整数
若该数据表的上游数据表存在一个下游数据表,则使用上游数据表的总存储成本计算数据表的存储成本;即将该数据成本的自身存储成本与上游数据表的总存储成本的和作为该数据表的总存储成本。
参见图3,图3为一个有向无环图示意图。图3中数据表A和数据表B指向数据表C,即数据表C为数据表A和数据表B的上游数据表,数据表C指向数据表F,数据表F为数据表C的上游数据表;数据表E和数据表F指向数据表G,数据表G为数据表E和数据表F的上游数据表。
以数据表A计算存储成本RSCa为例:
RSCa=SCa+1/2RSCc;
其中,SCa为数据表A的自身存储成本,RSCc为数据表A的上游数据表C的总存储成本,由于数据表C有两个下游数据表,因此,分配到数据表A的存储成本为其总存储成本的一半。
步骤202,获取该数据表的计算成本;其中,计算成本根据计算数据表消耗的计算资源确定;该计算资源由计算消耗的CPU和内存的时间累计值加权后获取的。
如图3中,数据表C通过计算过程生成数据表A和数据表B;其中,数据表C在计算生成数据表A时会消耗CPU和内存,且持续一段时间;那么数据表A的计算成本是针对计算过程中消耗的CPU和内存的时间累计值,具体计算时,对CPU的累计值和内存的累计值进行加权求和获取数据表A的计算成本。
这里对CPU的累计值和内存的累计值设置的权值不进行具体限制,可以根据实际需要设置,如可以设置为1/5和4/5。
针对有向无环图中最下游数据表,因为计算的时候没被使用,则计算成本确定为0。
步骤203,将存储成本和计算成本加权求和获得该数据表的第一属性值。执行步骤207。
在具体实现时,可以先将存储成本和计算成本进行归一化处理,然后再加权求和获取数据表的第一属性值。
步骤201到步骤203给出了获取有向无环图中的数据表的第一属性值的具体过程。
步骤204,获取不同预设时间内用户查询该数据表的次数,并对不同预设时间内的次数加权求和获得该数据表的用户查询价值。
用户每次查询都会记录一次数据查询,以及查询的时间,这样可以基于当前时间获取多个不同预设时间内用户查询该数据表的次数,至于多少个不同预设时间可以根据实际应用场景设置,本申请实施例中对此不进行限制;
如获取最近7天内的,最近30天内的,以及最近60天内的用户查询次数。
这里加权的权重根据实际应用场景设置,不进行限制。
步骤205,获取历史查询过该数据表的系统和系统对应的业务,并根据查询过该数据表的系统对应的业务的权重确定数据表的系统查询价值。
系统针对某种业务查询过一个数据表时,记录查询过该数据表的系统,业务,重复查询的不需要重复记录。
针对一个数据表假设系统查询记录为:系统1、业务1;系统2、业务2和业务3,则对系统1业务1、系统2业务2,以及系统3业务3对应的权重求和作为该数据表的系统查询价值。
步骤206,将用户查询价值和系统查询价值加权求和获得该数据表的第二属性值。
具体实现时,对这里的加权的权重值不进行限制,根据实际应用场景进行设置。
步骤204到步骤206给出了获取有向无环图中的数据表的第二属性值的具体过程。
在该数据表未被用户或系统查询时,第二属性值确定为0。
步骤201到步骤203的执行过程,与步骤204到步骤206的执行过程可以先后执行,也可以同时执行,本申请实施例中对此不进行限制。
步骤207,计算第二属性值与第一属性值的比值。
第一属性值可以看作该数据表的实际总成本,第二属性值可以看作该数据表的总价值,则第二属性值与第一属性值的比值可以看作数据表的成本比。
步骤208,比较计算的比值与预设比值的大小。
第二属性值与第一属性值的比值小于预设比值时,说明该数据表的成本比比较低,被很少查询,或者很长时间不被查询。
步骤209,响应于比值小于预设比值,输出携带该比值的通知,并针对该数据表设置定时器。
响应于计算的比值不小于预设比值,不针对该数据表输出通知,也不设置定时器,按照之前的维护方式维护。
这里针对数据表输出携带该比值的通知为在某设备上输出,相关人员在该设备上能够通过文字或语音的方式接收到该通知,根据通知中携带的比值确定是否删除该数据表,而发送相应的指令。
步骤210,响应于定时器定时过程中,接收到不删除数据表的指令,删除针对该数据表设置的定时器。结束本流程。
这里删除针对数据表设置的定时器,即该数据表又回来了之前的维护方式进行维护,不进行额外处理。
步骤211,响应于定时器定时到时,且未接收到不删除数据表的指令,删除数据表。
在定时器定时结束时,也未收到不删除数据表的指令,表明不需要继续维护该数据表,直接将该数据表删除即可。
在具体实现时,该实施例可以按照维护周期执行维护。
本实施例中通过获取每个数据表的第一属性值和第二属性值,在确定该数据表的第二属性值与第一属性值的比值小于预设比值时,输出携带该比值的通知,并针对该数据表设置定时器;若在定时器定时过程中,接收到不删除所述数据表的指令,则删除定时器;若定时器定时到时,且未接收到不删除该数据表的指令,则删除所述数据表;其中,第一属性值根据数据表的计算成本和总存储成本确定;第二属性值根据数据表的用户查询价值和系统查询价值确定。这样针对成本比值(第二属性值与第一属性值的比)比较小的数据表确定是否要删除,能够大大节省存储成本和计算成本。该方案能够在低成本前提下,准确地进行数据表的维护。
参见图4,图4为本申请实施例中资源分配流程示意图。具体步骤为:
步骤401,获取有向无环图中的数据表的下游数据表的第二属性值,以及该数据表的第二属性值。
针对一个数据表的第二属性值的确定方式,具体如下:
第一步、获取不同预设时间内用户查询该数据表的次数,并对不同预设时间内的次数加权求和获得该数据表的用户查询价值。
用户每次查询都会记录一次数据查询,以及查询的时间,这样可以基于当前时间获取多个不同预设时间内用户查询该数据表的次数,至于多少个不同预设时间可以根据实际应用场景设置,本申请实施例中对此不进行限制;
如获取最近7天内的,最近30天内的,以及最近60天内的用户查询次数。
这里加权的权重根据实际应用场景设置,不进行限制。
第二步、获取历史查询过该数据表的系统和系统对应的业务,并根据查询过该数据表的系统对应的业务的权重确定数据表的系统查询价值。
系统针对某种业务查询过一个数据表时,记录查询过该数据表的系统,业务,重复查询的不需要重复记录。
针对一个数据表假设系统查询记录为:系统1、业务1;系统2、业务2和业务3,则对系统1业务1、系统2业务2,以及系统3业务3对应的权重求和作为该数据表的系统查询价值。
第三步、将用户查询价值和系统查询价值加权求和获得该数据表的第二属性值。
具体实现时,对这里的加权的权重值不进行限制,根据实际应用场景进行设置。
步骤402,获取数据表的第三属性值并记录;其中,第三属性值根据该数据表的下游数据表的第二属性值和该数据表的第二属性值确定。
如果一个数据有多个下游数据表时,将多个下游数据表的第二属性值均累加。
步骤403,响应于计算资源不足,优先满足第三属性值高的数据表的计算资源的使用。
响应于计算资源充足,则可以满足所有数据表的计算资源的使用。
本申请实施例中第三属性值可以看作该数据表的得分值,用于评价数据表的重要性。当计算资源不足时,优先级满足第三属性值高的数据表的计算资源的使用,能够满足整个计算链路的稳定。
参见图5,图5为本申请实施例调整更新数据表时间流程示意图。具体步骤为:
步骤501,获取当前更新周期中数据表的生成时间,以及当前更新周期该数据表中最早被查询的查询时间。
设置数据表的更新周期,在当前周期结束时,获取当前更新周期中数据表的生成时间,以及最早的被查询时间。
步骤502,计算查询时间与生成时间的差值。
步骤503,比较计算的差值与预设差值的大小。
在具体实现时,将差值转化为同预设差值相同单位的时间值,如预设差值为秒,则将差值转化为以秒为单位的时间值。
步骤504,响应于计算的差值大于预设差值,在下一更新周期,延迟更新数据表的时间,且延迟后的更新数据表的时间不晚于当前周期的被查询时间。
响应于计算的差值不大于预设差值,则在下一更新周期,不调整更新数据表的时间。
本申请实施例中基于当前更新周期的数据表的使用情况,确定下一更新周期中数据表的更新周期,能够调度有向无环图中一些数据表不在同一时间更新,避免资源使用调度高峰情况发生。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
基于同样的发明构思,本申请实施例中还提供一种数据表维护装置。参见图6,图6为本申请实施例中数据表维护装置结构示意图。该数据表维护装置包括:
获取单元601,被配置为执行获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,所述第一属性值根据所述数据表的计算成本和总存储成本确定;所述第二属性值根据所述数据表的用户查询价值和系统查询价值确定;
计算单元602,被配置为执行计算所述第二属性值与所述第一属性值的比值;
比较单元603,被配置为执行比较计算的所述比值和预设比值的大小;
定时单元604,被配置为执行响应于所述比值小于所述预设比值,针对所述数据表设置定时器;
输出单元605,被配置为执行响应于所述比值小于所述预设比值,输出携带所述比值的通知;
删除单元606,被配置为执行响应于所述定时器定时过程中,接收到不删除所述数据表的指令,删除针对所述数据表设置的定时器;响应于所述定时器定时到时,且未接收到不删除所述数据表的指令,删除所述数据表。
在另一个实施例中,
获取单元601,被配置为执行在获取所述数据表的总存储成本时,若所述数据表的上游数据表存在N个下游数据表,则使用所述上游数据表的1/N的总存储成本计算所述数据表的总存储成本;若所述数据表的上游数据表存在一个下游数据表,则使用所述上游数据表的总存储成本计算所述数据表的存储成本;其中,N为大于1的整数。
在另一个实施例中,
获取单元601,被配置为执行获取所述有向无环图中的数据表的第二属性值时,获取不同预设时间内用户查询所述数据表的次数,并对不同预设时间内的所述次数加权求和获得所述数据表的用户查询价值;获取历史查询过所述数据表的系统和业务,并根据查询过所述数据表的系统和业务对应的权重确定所述数据表的系统查询价值;将所述用户查询价值和所述系统查询价值加权求和获得所述数据表的第二属性值。
在另一个实施例中,该装置进一步包括:处理单元607;
获取单元601,进一步被配置为执行获取所述数据表的下游数据表的第二属性值,以及所述数据表的第二属性值;获取所述数据表的第三属性值并记录;其中,所述第三属性值根据所述数据表的下游数据表的第二属性值和所述数据表的第二属性值确定;
处理单元607,被配置为执行响应于计算资源不足,优先满足所述第三属性值高的数据表的计算资源的使用。
在另一个实施例中,
获取单元601,进一步被配置为执行获取当前更新周期中所述数据表的生成时间,以及所述当前更新周期中所述数据表最早被查询的查询时间;
计算单元602,进一步被配置为计算所述查询时间与所述生成时间的差值;
比较单元603,进一步被配置为比较计算的差值与预设差值的大小;
处理单元607,进一步被配置为响应于计算的所述差值大于预设差值,在下一更新周期,延迟更新数据表的时间,且延迟后的更新数据表的时间不晚于当前周期的被查询时间。
在另一个实施例中,
获取单元601,被配置为响应于所述数据表的生成,记录生成所述数据表的生成时间;响应于所述数据表被查询,记录被查询的时间,以及查询的主体,所述主体为用户或系统。
上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。
在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现数据表维护方法的步骤。
在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,指令被处理器执行时可实现数据表维护方法中的步骤。
图7为本发明实施例提供的电子设备的实体结构示意图。如图7所示,该电子设备可以包括:处理器(Processor)710、通信接口(Communications Interface)720、存储器(Memory)730和通信总线740,其中,处理器710,通信接口720,存储器730通过通信总线740完成相互间的通信。处理器710可以调用存储器730中的逻辑指令,以执行如下方法:
获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,第一属性值根据数据表的计算成本和总存储成本确定;第二属性值根据数据表的用户查询价值和系统查询价值确定;
计算第二属性值与第一属性值的比值;
比较计算的比值和预设比值的大小;
响应于比值小于预设比值,输出携带比值的通知,并针对数据表设置定时器;
响应于定时器定时过程中,接收到不删除数据表的指令,删除针对数据表设置的定时器;
响应于定时器定时到时,且未接收到不删除数据表的指令,删除数据表。
此外,上述的存储器730中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
本申请附图中的流程图和框图,示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如,两个连接地表示的方框实际上可以基本并行地执行,它们有时也可以按照相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或者流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本申请公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本申请中。特别地,在不脱离本申请精神和教导的情况下,本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,所有这些组合和/或结合均落入本申请公开的范围。
本文中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思路,并不用于限制本申请。对于本领域的技术人员来说,可以依据本发明的思路、精神和原则,在具体实施方式及应用范围上进行改变,其所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (10)

1.一种数据表维护方法,其特征在于,所述方法包括:
获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,所述第一属性值根据所述数据表的计算成本和总存储成本确定;所述第二属性值根据所述数据表的用户查询价值和系统查询价值确定;
计算所述第二属性值与所述第一属性值的比值;
比较计算的所述比值和预设比值的大小;
响应于所述比值小于所述预设比值,输出携带所述比值的通知,并针对所述数据表设置定时器;
响应于所述定时器定时过程中,接收到不删除所述数据表的指令,删除针对所述数据表设置的定时器;
响应于所述定时器定时到时,且未接收到不删除所述数据表的指令,删除所述数据表。
2.根据权利要求1所述的方法,其特征在于,所述获取有向无环图中的数据表的第一属性值,包括:
获取所述数据表的总存储成本;其中,所述总存储成本根据所述数据表的自身存储成本和上游数据表的总存储成本确定;
获取所述数据表的计算成本;其中,所述计算成本根据计算所述数据表消耗的计算资源确定;所述计算资源由计算消耗的CPU和内存的时间累计值加权后获取的;
将所述数据表的所述总存储成本和所述计算成本加权求和获得所述数据表的第一属性值。
3.根据权利要求2所述的方法,其特征在于,所述方法进一步包括:
在获取所述数据表的总存储成本时,若所述数据表的上游数据表存在N个下游数据表,则使用所述上游数据表的1/N的总存储成本计算所述数据表的总存储成本;若所述数据表的上游数据表存在一个下游数据表,则使用所述上游数据表的总存储成本计算所述数据表的存储成本;其中,N为大于1的整数。
4.根据权利要求1所述的方法,其特征在于,获取所述有向无环图中的数据表的第二属性值,包括:
获取不同预设时间内用户查询所述数据表的次数,并对不同预设时间内的所述次数加权求和获得所述数据表的用户查询价值;
获取历史查询过所述数据表的系统和业务,并根据查询过所述数据表的系统和业务对应的权重确定所述数据表的系统查询价值;
将所述用户查询价值和所述系统查询价值加权求和获得所述数据表的第二属性值。
5.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
获取所述数据表的下游数据表的第二属性值,以及所述数据表的第二属性值;
获取所述数据表的第三属性值并记录;其中,所述第三属性值根据所述数据表的下游数据表的第二属性值和所述数据表的第二属性值确定;
响应于计算资源不足,优先满足所述第三属性值高的数据表的计算资源的使用。
6.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
获取当前更新周期中所述数据表的生成时间,以及所述当前更新周期中所述数据表最早被查询的查询时间;
计算所述查询时间与所述生成时间的差值;
比较计算的差值与预设差值的大小;
响应于计算的所述差值大于预设差值,在下一更新周期,延迟更新数据表的时间,且延迟后的更新数据表的时间不晚于当前周期的被查询时间。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法进一步包括:
响应于所述数据表的生成,记录生成所述数据表的生成时间;
响应于所述数据表被查询,记录被查询的时间,以及查询的主体,所述主体为用户或系统。
8.一种数据表维护装置,其特征在于,所述装置包括:
获取单元,被配置为执行获取有向无环图中的数据表的第一属性值,以及第二属性值;其中,所述第一属性值根据所述数据表的计算成本和存储成本确定;所述第二属性值根据所述数据表的用户查询价值和系统查询价值确定;
计算单元,被配置为执行计算所述第二属性值与所述第一属性值的比值;
比较单元,被配置为执行比较计算的所述比值和预设比值的大小;
定时单元,被配置为执行响应于所述比值小于所述预设比值,针对所述数据表设置定时器;
输出单元,被配置为执行响应于所述比值小于所述预设比值,输出携带所述比值的通知;
删除单元,被配置为执行响应于所述定时器定时过程中,接收到不删除所述数据表的指令,删除针对所述数据表设置的定时器;响应于所述定时器定时到时,且未接收到不删除所述数据表的指令,删除所述数据表。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述的方法。
CN202211723610.5A 2022-12-30 2022-12-30 数据表维护方法、装置、存储介质和电子设备 Pending CN116226104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211723610.5A CN116226104A (zh) 2022-12-30 2022-12-30 数据表维护方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211723610.5A CN116226104A (zh) 2022-12-30 2022-12-30 数据表维护方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN116226104A true CN116226104A (zh) 2023-06-06

Family

ID=86586442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211723610.5A Pending CN116226104A (zh) 2022-12-30 2022-12-30 数据表维护方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN116226104A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975032A (zh) * 2023-07-14 2023-10-31 南京领行科技股份有限公司 数据对齐方法、系统和电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975032A (zh) * 2023-07-14 2023-10-31 南京领行科技股份有限公司 数据对齐方法、系统和电子设备及存储介质
CN116975032B (zh) * 2023-07-14 2024-04-12 南京领行科技股份有限公司 数据对齐方法、系统和电子设备及存储介质

Similar Documents

Publication Publication Date Title
Senderovich et al. Queue mining–predicting delays in service processes
Senderovich et al. Queue mining for delay prediction in multi-class service processes
CN106161525B (zh) 一种多集群管理方法与设备
EP2652909B1 (en) Method and system for carrying out predictive analysis relating to nodes of a communication network
CN103516585A (zh) 一种实现消息优先级分发的方法及系统
CN101754386A (zh) 多模基站系统的业务处理资源的调整方法及装置
CN116226104A (zh) 数据表维护方法、装置、存储介质和电子设备
CN111158999B (zh) 一种格式化时间的计算方法和装置
CN116860789A (zh) 一种数据分布优化方法及分布式数据库系统
CN114661463A (zh) 基于bp神经网络的系统资源预测方法及系统
CN115827646B (zh) 索引配置方法、装置和电子设备
CN111144659B (zh) 物流调度方法、装置、计算机设备及存储介质
CN109450684B (zh) 一种网络切片系统物理节点容量扩充方法及装置
CN110909072B (zh) 一种数据表建立方法、装置及设备
CN113918636B (zh) 一种基于etl的数据处理量分析方法
CN106528849B (zh) 面向完整历史记录的图查询开销方法
CN112003900B (zh) 实现分布式系统中高负载场景下服务高可用的方法、系统
CN109165257A (zh) 数据查询方法及相关系统、设备和存储介质
CN112380218B (zh) 一种基于etl进行数据仓库各层数据表汇总的自动触发方法
Lu et al. Towards efficient service composition in multi-cloud environment
KR20120004953A (ko) 웹 서비스의 사용자 체감 성능 모니터링 방법과 이를 위한 프로그램이 기록된 기록매체 및 컴퓨팅 장치
CN110597572B (zh) 一种服务调用关系分析方法和计算机系统
CN114372644B (zh) 排班方法、装置、电子设备及计算机可读存储介质
CN111291089A (zh) 业务处理方法以及装置
CN114090854B (zh) 基于信息熵的标签权重智能更新方法、系统及计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination