CN112817834B - 数据表评估方法及装置 - Google Patents

数据表评估方法及装置 Download PDF

Info

Publication number
CN112817834B
CN112817834B CN202110089164.6A CN202110089164A CN112817834B CN 112817834 B CN112817834 B CN 112817834B CN 202110089164 A CN202110089164 A CN 202110089164A CN 112817834 B CN112817834 B CN 112817834B
Authority
CN
China
Prior art keywords
data
target
data table
evaluated
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110089164.6A
Other languages
English (en)
Other versions
CN112817834A (zh
Inventor
胡峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bilibili Technology Co Ltd
Original Assignee
Shanghai Bilibili Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bilibili Technology Co Ltd filed Critical Shanghai Bilibili Technology Co Ltd
Priority to CN202110089164.6A priority Critical patent/CN112817834B/zh
Publication of CN112817834A publication Critical patent/CN112817834A/zh
Application granted granted Critical
Publication of CN112817834B publication Critical patent/CN112817834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供数据表评估方法及装置,其中所述数据表评估方法包括:接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;基于所述目标数据归属信息,确定待评估数据表集合;针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分。

Description

数据表评估方法及装置
技术领域
本申请涉及数据处理技术领域,特别涉及一种数据表评估方法。本申请同时涉及一种数据表评估装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网的发展,业务的复杂度越来越高,因此数据库中数据表的数量也越来越多(比如多达数万个或数十万个),然而这些数据表中,有些数据表被频繁使用,有些数据表则存在大量长尾未使用的情况,若不能对这些数据表的使用情况进行准确地使用评估,从而进行管理,随着时间的推移,越来越多的数据表会持续耗费管理、存储和计算资源,造成大量资源的浪费,因此,需要更准确地对数据表进行使用评估。
发明内容
有鉴于此,本申请实施例提供了一种数据表评估方法。本申请同时涉及一种数据表评估装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的评估方式单一,评估结果不全面的缺陷。
根据本申请实施例的第一方面,提供了一种数据表评估方法,包括:
接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;
基于所述目标数据归属信息,确定待评估数据表集合;
针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;
基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分。
根据本申请实施例的第二方面,提供了一种数据表评估装置,包括:
接收模块,被配置为接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;
确定模块,被配置为基于所述目标数据归属信息,确定待评估数据表集合;
获取模块,被配置为针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;
评估模块,被配置为基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分。
根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述计算机指令时实现所述数据表评估方法的步骤。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现所述数据表评估方法的步骤。
本申请提供的数据表评估方法,通过接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;基于所述目标数据归属信息,确定待评估数据表集合;针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分,实现了通过多种目标使用属性结合,对数据表的使用情况进行评估,并通过不同目标使用属性对应的使用权重,有效地根据目标使用属性的重要性,对数据表的使用情况进行评估,增加了针对数据表进行使用评估的准确性。
附图说明
图1是本申请一实施例提供的一种数据表评估方法的流程图;
图2是本申请一实施例提供的一种数据表评估方法的处理流程图;
图3是本申请一实施例提供的一种数据表评估方法的原理示意图;
图4是本申请一实施例提供的一种应用于数据仓库场景的数据表评估方法的处理流程图;
图5是本申请一实施例提供的一种数据表评估装置的结构示意图;
图6是本申请一实施例提供的一种计算设备的结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出业务的任何或所有可能组合。
应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
首先,对本申请一个或多个实施例涉及的名词术语进行解释。
数据仓库(Data Warehouse):数据仓库是信息的中央存储库。通常,数据定期从事务系统、关系数据库和其他来源通过提取-转换-加载(Extract-Transform-Load,ETL)的数据清洗工序引入到数据仓库中,并按照主题域、分层结构将数据归档有序存储在数据模型中。业务分析师、数据工程师、数据科学家和决策者通过商业智能(BusinessIntelligence,BI)工具、SQL(Structured Query Language,结构化查询语言)客户端和其他分析应用程序访问数据仓库中的数据模型进行查询、分析等工作。
数据模型(Data Model):数据模型是指使用实体、属性及其关系对企业运营和逻辑规则进行统一的定义、编码和命名,也常被称为数据库表。其主要作用是为信息系统提供数据的定义和格式。数据模型是数据库系统的核心和基础,现有的数据库/数据仓库系统都是基于各个数据模型而创建起来的。
min-max标准化(Min-Max Normalization):也称离差标准化,数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中min-max标准化计算公式为x'=(x-X_min)/(X_max-X_min),x表示当前的数据。
在本申请中,提供了一种数据表评估方法,本申请同时涉及一种数据表评估装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本申请一实施例提供的一种数据表评估方法的流程图,具体包括以下步骤:
步骤102:接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间。
其中,所述数据表评估指令,是指对数据表进行使用评估的评估指令;具体实施时,所述数据表评估指令,可以通过点击或调用数据表评估脚本触发数据表评估指令,此外,还可以通过点击指令控件发送数据表评估指令等,在此不做限制。进一步,在数据表所存储的计算设备(比如服务器)接收到数据表评估指令的情况下,对存储的数据表进行使用评估,即对数据表的使用价值进行评估。其中,所述数据表,可以理解为数据库表,也可以称为数据模型。
实际应用中,可能不需要对全部的数据表进行使用评估,而需要对数据库中特定的数据表进行使用评估,在这种情况下,可以根据数据表的归属情况(即目标数据归属信息)对数据表进行筛选,从而筛选出需要进行使用评估的待评估数据表,具体的,数据归属信息,可以是数据表所属的业务线或业务部门(比如制造业务、销售业务等),或者是数据表所属的数据类型(比如用户数据、交易数据)等表示数据表是归属于哪种数据的归属信息,此外,数据归属信息,还包括数据表的使用场景、调用用户(即调用数据表的用户)和/或调用部门(调用用户所属的部门)等表示数据如何被使用的使用属性,在此不做限制。
需要说明的是,所述目标数据归属信息也可以为空,在目标数据归属信息为空的情况下,表明不对数据表进行筛选,而直接对全部的数据表进行使用评估,而在此情况下,对待评估数据表进行使用评估的目标使用属性,可以采用预设的使用属性。
此外,还可以在数据表评估指令中携带评估时间区间,以指示对评估时间区间内所调用的数据表的使用情况进行使用评估,具体的,所述评估时间区间,可以是自定义的时间区间,比如:[2020/8/20-2020/9/1],此外,评估时间区间还可以是一个评估周期,比如一周、一月、一季度、或一年等,在此不做限制。
实际应用中,为了避免在进行数据表评估之时,临时统计针对数据表的使用情况,在接收数据表评估指令之前,还包括:
统计数据表的数据归属信息以及对应的调用次数;
将统计获得的数据归属信息以及所述调用次数,在使用统计表中进行存储。
其中,使用统计表,可是数据仓库或数据库中的中间表,中间表通常用于存储中间计算结果,具体的,该使用统计表中除了统计数据归属信息以及对应的调用次数,还可以统计数据表的表名、调用时间等,在此不做限制。
具体的,统计数据表的数据归属信息以及对应的调用次数的统计方式是多种多样的,可以根据统计人员下发的统计指令中携带统计时间区间进行统计,也可以按照预设的统计周期进行统计等,在此不做限制。
实际应用中,为了避免对计算设备造成计算压力,对数据表的使用情况的统计可以按照一个较短的时间周期进行周期性统计,并将统计的使用情况(比如各种使用属性、以及各种使用属性对应的调用次数等)存储于使用统计表,此外,通过使用统计表对数据表的数据归属信息以及对应的调用次数进行存储,不仅可以实现了基于数据归属信息对待评估的数据表进行筛选,也实现了在对数据表进行评估时,可以直接从使用统计表中获取针对待评估数据表统计完成的目标调用次数,避免了在评估过程中进行数据统计,提升了使用评估的评估效率。
进一步的,统计周期可以是每天、或每两天等,在此不做限制,本申请通过使用统计表对各个统计周期的统计结果进行存储,以便后续对各种使用属性下各个时间段内的数据表的调用次数进行追溯,也便于针对评估时间区间内调用的数据表和/或属于各种归属信息的数据表按照各种使用属性进行使用评估。
具体的,本申请实施例提供的一种可选实施方式中,所述接收数据表评估指令,包括:
接收针对数据仓库中数据表的数据表评估指令;
相应的,所述数据表评估指令中携带待评估数据表的目标数据归属信息,包括下述至少一项:
目标主题域信息、目标数据分层信息、目标业务信息、使用场景、调用用户、调用部门。
实际应用中,数据表评估指令,可以是针对数据仓库中的数据表进行使用评估的评估指令,数据仓库通过周期性地从事务系统、关系数据库和其他来源,采用提取-转换-加载(Extract-Transform-Load,ETL)的数据清洗工序引入到数据仓库中,并按照主题域、分层结构、业务线等将数据归档有序存储在数据模型(数据表)中。
其中,主题域、数据分层都是对数据仓库中数据表的一个描述维度,具体的,数据仓库中包含的主题域是一个在较高层次将数据归类的标准,每一个主题对应一个宏观的分析领域,可以是用户域、交易域、商品域、内容域等,不同的主题域的数据表中存储的数据的分类不同;数据仓库中的数据分层(即分层结构)可以是ODS(Operational Data Store,操作数据存储)层/DWD(data warehouse detail,数据仓库细节)层/DWB(data warehousebase,数据仓库基础)层/DWS(data warehouse service,数据仓库服务)层/ADS(Application Data Store,应用数据存储)层等,不同的数据分层表明数据表中存储的数据的,其中,ODS:原始数据层,很多情况下ODS存放的ETL之后的原始数据,用于在业务系统和数据仓库之间形成一个隔离层,保存的是原始数据或者ETL之后的原始数据。DWD:数据明细层,该层一般保持和ODS层一样的数据粒度,并且提供一定的数据质量保证。另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中,提高数据的可用性。DWB,是指基础数据层,存储的是客观数据,一般用作中间层,可以认为是大量指标的数据层。DWS:数据服务层,以DWD为基础,进行轻度汇总,一般聚集到以用户当日、设备当日、商家当日、商品当日等等的粒度。ADS:数据应用层,面向实际的数据需求,以DWD或者DWS层的数据为基础,组成的各种统计报表,具体实施时,数据表对应的表命名会按照固定格式进行,举例,如归属于DWD层的内容域(简称ctnt)数据,这些数据对应的表的命名格式如下:dwd.dwd_ctnt_xxx_xxx,此时可以通过命名规则去进行判定数据表的归属。
此外,在企业涉猎多种业务的情况下,各种业务数据汇聚在同一个数据仓库中进行存储,而业务信息,可以理解为业务种类,比如租借业务、培训业务等,并进一步通过业务信息对数据仓库中的数据表进行筛选。
进一步的,目标主题域信息是指需要进行数据表评估的待评估数据表所属的主题域;目标数据分层信息是指需要进行数据表评估的待评估数据表所属的数据分层;目标业务信息是指需要进行数据表评估的待评估数据表所属的业务线/业务部门等,比如A企业既做房产业务也做零售业务,则A企业共涉猎两种业务,若针对A企业的数据仓库中的数据表的数据评估指令中携带的目标数据归属信息为目标业务信息的情况下,该目标业务信息可以是零售业务和/或房产业务。
此外,还可以根据数据表的使用场景、调用用户、调用部门等信息对数据表进行筛选。
本申请实施例,通过在数据仓库中数据表的数据表评估指令中携带目标数据归属信息,以便从数据仓库的数据表中筛选出需要进行数据使用评估的待评估数据表,提高了针对数据仓库中数据表进行使用评估的灵活性。
步骤104:基于所述目标数据归属信息,确定待评估数据表集合。
具体的,基于目标数据归属信息,确定待评估数据表集合,可以理解为基于目标数据归属信息,对数据表进行筛选,从而筛选出属于所述目标数据归属信息,或与目标数据归属信息匹配的数据表作为待评估数据表,从而将筛选出的待评估数据表形成待评估数据表集合。
实际应用中,在目标数据归属信息包含一种数据归属信息情况下,可以根据该归属信息对数据表进行筛选,在目标数据归属信息包含两种或两种以上数据归属信息情况下,是指需要在数据仓库的数据表中筛选出满足全部数据归属信息的数据表作为待评估数据表。具体的,可以先针对一种数据归属信息先进行筛选,再从筛选出的数据表中根据另一种数据归属信息再进行筛选,以此类推,层层进行筛选。
具体实施时,所述基于所述目标数据归属信息,确定待评估数据表集合,包括:
通过将所述目标数据归属信息与所述使用统计表中的所述数据归属信息进行匹配,确定待评估数据表集合。
本说明书实施例,通过将目标数据归属信息与使用统计表中统计的数据归属信息进行匹配,将匹配到的至少一个数据表(即待评估数据表),形成待评估数据表集合,实现了根据目标数据归属信息在使用统计表中,筛选待进行使用评估的数据表的集合(即待评估数据表集合)。
步骤106:针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数。
其中,所述待评估数据表为所述待评估数据表集合中的至少一个数据表。
具体的,目标使用属性可以是目标数据归属信息中包含的:使用场景、调用用户和/或调用部门等使用属性,在此不做限制。
实际应用中,针对每种目标使用属性分别获取评估时间区间内调用的数据表的目标调用次数,以便对不同使用属性下数据表的使用情况更加了解。
在上述步骤102中,将统计获得的数据归属信息以及调用次数在使用统计表中进行存储的基础上,所述分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
从所述使用统计表分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数。
本说明书实施例,在对进行数据表使用评估时,直接从使用统计表中获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,提高了针对待评估数据表的评估效率。
实际应用中,可以通过上述已确定的待评估数据表集合中待评估数据表的标识信息(比如表名等)以及目标使用属性等信息,在使用统计表中筛选对应的目标调用次数。
具体实施时,本申请实施例提供的一种可选实施方式中,所述从所述使用统计表分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,通过如下步骤获得:
根据所述评估时间区间确定对应的目标统计周期;
根据所述目标统计周期,从所述使用统计表获取在所述至少两种目标使用属性下各个目标统计周期内统计的所述待评估数据表的调用次数;
将每种目标使用属性下所述各个目标统计周期内统计的所述待评估数据表的调用次数进行累加,获得所述评估时间区间内调用的待评估数据表的目标调用次数。
基于此,根据所述评估时间区间确定对应的目标统计周期,可以理解为确定评估时间区间对应的时间段内包含的统计周期,比如评估时间区间为[2020/8/20-2020/9/1],而统计周期为每天,则目标统计周期为2020/8/20-2020/9/1时间段内之间的每一天,进一步的,将每种目标使用属性下所述各个目标统计周期内统计的所述待评估数据表的调用次数进行累加,即可获得每种目标使用属性下评估时间区间内针对待评估数据表的目标调用次数。
本申请实施例提供的一种可选实施方式中,所述分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
分别获取在每种目标使用属性所述评估时间区间内调用的待评估数据表的目标调用次数以及调用者标识;
确定所述调用者标识对应的调用者所属的业务部门;
基于所述评估时间区间内调用的待评估数据表的目标调用次数,分别统计在每种目标使用属性下各个业务部门对应的业务调用次数;
通过所述业务调用次数以及对应的业务部门的业务权重进行计算,更新所述目标调用次数。
实际应用中,考虑到一个业务部门的数据表若被其他业务部门的业务人员调用的较多,也可以显示出这个数据表的使用价值较高,此外也可以将某一个或多个业务部门的调用情况视为更加重要,因此,统计每种目标使用属性(比如使用场景)下各个业务部门对应的业务调用次数,并通过对不同的业务部门设置不同的业务权重,使得对业务权重高的业务部门针对待评估数据表的业务调用次数,可以对等更高的调用次数,实现了基于不同业务部门的业务调用次数以及业务权重,确定调用次数,使得调用次数的统计更加符合业务需求。
本申请实施例提供的一种可选实施方式中,所述目标使用属性,包括目标使用场景;相应的,所述目标使用场景,包括:调度系统、开发窗口以及数据详情页面;
相应的,所述分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
获取所述评估时间区间内在所述调度系统运行的第一数据执行程序,对所述第一数据执行程序进行解析,获得所述第一数据执行程序调用的所述待评估数据表的目标调用次数;
获取所述评估时间区间内在所述开发窗口运行的第二数据执行程序,对所述第二数据执行程序进行解析,获得所述第二数据执行程序调用的所述待评估数据表的目标调用次数;
获取所述评估时间区间内所述数据详情页面对应的访问日志,对所述访问日志进行解析,确定通过所述数据详情页面调用的所述待评估数据表的目标调用次数。
具体的,使用场景,可以理解为对待评估数据表进行调用或查询的业务场景或业务平台,比如:针对数据表进行访问的数据详情页面、执行SQL语句进行数据表调用的调度系统等,在此不做限制,而目标使用场景,可以理解为目标数据归属信息中包含的用以对数据表进行使用评估的使用场景。
其中,所述调度系统,可以理解为周期性地运行第一数据执行程序以生成报表的系统;所述开发窗口,可以理解为通过运行第二数据执行程序对数据表进行调用的开发环境,实际应用中,可以通过在开发窗口中运行第二数据执行程序对调用系统中用于产出报表的第一数据执行程序进行探索,从而确定第一数据执行程序;所述数据详情页面,可以理解对数据表中包含的数据进行展示的页面,此页面可以采用浏览器中网页的形式进行展示,也可以采用软件页面的形式进行展示,在此不做限制。
其中,数据执行程序,可以理解为针对数据表进行调用(比如查询)的程序代码,比如SQL程序,Hive程序等,在此不做限制;相应的,所述第一数据执行程序,是指在调度系统中运行的数据执行程序;所述第二数据执行程序,是指在开发窗口中运行的数据执行程序,具体实施时,对数据执行程序进行解析,即可获得数据执行程序所调用的数据表的目标调用次数。
而对于数据详情页面,可以采用对数据表详情的入口(比如数据表的展示链接、或展示详情控件等)进行埋点的方式,收集针对数据表的表名、调用次数和/或调用用户标识等访问信息,并将收集到的访问信息记录在访问日志中,则对访问日志进行解析,可以理解为在访问日志中抽取其记录待评估数据表的目标调用次数、调用用户标识等信息。
需要说明的是,在调度系统以及开发窗口的使用场景下,会对在其中执行(即运行)过的数据执行程序进行记录,以便对数据表的调用情况进行追溯。
本申请实施例,通过在上述三种使用场景下对调用的数据表的目标调用次数进行获取,以便更准确地对数据表的使用情况进行评估。
本申请实施例提供的一种可选实施方式中,所述第一数据执行程序或所述第二数据执行程序,通过执行如下步骤进行解析:
确定所述第一数据执行程序或所述第二数据执行程序对应的程序类型;
基于所述程序类型确定对应的解析程序;
通过所述解析程序对所述第一数据执行程序或所述第二数据执行程序进行解析。
其中,程序类型,可以理解为编写数据执行程序的语言类型,比如Hive、Spark、Flink等语言类型,本申请实施例,通过程序类型确定不同的解释程序,从而对对应的数据执行程序进行解析,可以实现针对不同程序类型的数据执行程序进行解析,并获得正确的解析结果。
其中,解析程序,可以理解为可进行调用或执行的预先编码完成的代码程序。
步骤108:基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分。
其中,所述使用权重,可以理解为根据评估经验或业务需求等预先针对各个使用属性设置的权重系数,具体的,使用属性越重要,该使用属性对应的使用权重越高。
实际应用中,可以通过预设的数据表评估公式,对待评估数据表的使用评分进行计算,具体的,数据表评估公式为:x'=Min-Max Normalization(x),其中,x'表示任一待评估数据表的使用评分,x表示该任一待评估数据表针对至少两种目标使用属性的调用频次,比如x=(使用属性1调用频次*使用权重1…使用属性n调用频次*使用权重n),其中,使用属性1…使用属性n分别表示不同的使用属性,而使用权重1为使用属性1对应的使用权重,使用权重n为使用属性n对应的使用权重,而调用频次,可以理解为评估时间区间或单位时间的目标调用次数。
进一步的,使用属性1调用频次,可以理解为在使用属性1对待评估数据表的调用频次;所述使用属性n调用频次,可以理解为在使用属性n对待评估数据表的调用频次。
更进一步的,Min-Max Normalization,是指min-max标准化,也称离差标准化,数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中min-max标准化计算公式为x'=(x-X_min)/(X_max-X_min),其中,X_min可以为预先设置的针对数据表的最小的调用频次,而Xmax可以为预先设置针对数据表的最大的调用频次,此外,X_min/Xmax还可以是评估时间区间,全部待评估数据表中的数据表的(或数据库中全部数据表中的数据表)最小/最大的调用频次,在此不做限制。
以目标使用场景包括调度系统、开发窗口以及数据详情页面为例,可以通过数据表评估公式:数据模型使用分x'=Min-Max Normalization(调度系统调用频次*参数a+开发窗口调用频次*参数b+数据详情页调用频次*参数c)对数据表的使用评分进行计算。
其中,所述调度系统调用频次,可以理解为在调度系统对待评估数据表的调用频次;所述开发窗口调用频次,可以理解为在开发窗口对待评估数据表的调用频次,所述数据详情页调用频次,可以理解在数据详情页面对待评估数据表的调用频次(查询频次)。而参数a是指调度系统使用场景对应的使用权重,参数b是指开发窗口使用场景对应的使用权重,参数c是指数据详情页面使用场景对应的使用权重。
具体的,通过上述计算数据表评估公式计算获得的使用评分是以0-1之间的数值进行表示。
具体的,可以将上述获得的在调度系统下针对待评估数据表的调用次数以及调度系统对应的使用权重、在开发窗口针对待评估数据表的调用次数以及开发窗口对应的使用权重、并在数据详情页面针对待评估数据表的调用次数以及数据详情页面对应的使用权重输入上述数据表评估公式进行计算,获得针对待评估数据表的使用评分。
例如,表T1在调度系统中使用频次最高、开发环境使用频次最高、数据详情页的被查询情况也最多,那么通过上述数据表评估公式计算后,表T1的数据模型使用分值自然也是最高的;但对应的,表T2和表T3在调度系统、开发窗口、数据表详情页面这三个场景的使用频次互有高低,可能会因为各场景的参数a/b/c权重差异,使得加权计算后的模型(数据表)使用分值不同,以此来区分数据模型在企业当中使用程度的好坏。
如图2所示,针对数据表的使用评估可以采用的流程包括:进行收集表(数据模型,也即数据表)的归属情况,以便根据数据表评估指令中携带的目标数据归属信息筛选出待评估数据表,并进一步收集针对数据表的查询情况(通过数据详情页对数据表进行查询的查询日志),此外,还可以收集针对数据表的调用情况(比如通过调度系统以及开发窗口执行的数据执行程序),通过解析上述查询情况、调用情况对数据表(数据模型)的查询、调用关系,即操作人员在不同场景(台调度系统、数据开发窗口实时查询、数据表详情页等)下的调用情况,比如用户A在调度系统调用了表A,则针对数据表的调用关系可以是:用户A归属的部门-用户A-调度系统(使用场景)-表A-表A的归属信息(比如表A所属的数据分层等),并基于解析出的上述关系,生成数据模型调用中间数据(即生成对数据表进行调用的中间数据在中间表中进行存储),以便通过在中间表(使用统计表)记录的中间数据(比如数据表的表名、数据归属信息以及对应的调用次数等)针对数据表进行使用评估,生成评估结果。
也如图3所示,针对数据表的使用评估的原理,通过收集表归属情况,收集表查询情况以及收集表调用情况,将收集到的归属情况、查询情况以及调用情况作为中间数据在中间表(可以理解为上述使用统计表)中进行存储,并将存储的中间数据输入至数据表评估公式进行数据评估,从而生成评估结果。
进一步,本申请实施例提供的一种可选实施方式中,所述基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分,包括:
根据所述数据表评估指令中携带的评估用户的用户标识,确定所述评估用户所属的业务部门;
确定所述业务部门针对所述至少两种目标使用属性设置的使用权重;
将所述目标调用次数以及对应的目标使用属性的使用权重输入数据表评估公式进行计算,获得所述待评估数据表的使用评分。
其中,评估用户,可以理解为下发数据表评估指令的用户,根据评估用户的用户标识进行查询,则可以确定评估用户所属的业务部门,此处,业务部门也可以理解为业务类型,实际应用中,不同的业务部门可以根据业务需要,针对数据表的使用属性设置不同的使用权重,而基于不同的使用权重进行使用评分的计算,获得的使用评分也是不同的,实现了按照不同业务部门对不同使用属性的重视程度,对数据表进行使用评估,增加了使用评估的灵活性,并使针对使用评估的结果更加符合业务需要。
比如,两种目标使用属性,分别为第一使用场景和第二使用场景,业务部门A对第一使用场景设置的使用权重为0.8,对第二使用场景设置的使用权重为0.2,而业务部门B针对第一使用场景设置的使用权重为0.6,对第二使用场景设置的使用权重为0.4,则基于在不同使用场景下同样的调用次数,通过预设的数据表评估公式计算出的使用评分是不同的。
实际应用中,在获得数据表的使用评分之后,可以根据使用评分,对数据表进行针对性的管理,本申请实施例提供的一种可选实施方式中,所述对所述待评估数据表进行使用评估并获得使用评分之后,还包括:
在所述使用评分超过第一预设评分阈值的情况下,对针对目标数据表进行调用的数据执行程序的执行时间进行监控,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
在所述执行时间超过预设执行时间的情况下,发送针对所述目标数据表的调用异常通知;和/或,
在所述使用评分超过第一预设评分阈值的情况下,对所述目标数据表按照预设时间间隔统计的数据增量进行监控;
在所述数据增量不满足预设数据增量条件的情况下,发送针对所述目标数据表的数据增量异常通知。
所述第一预设评分阈值,是指预先设置的用于评判数据表是否经常使用或具有较高使用价值的评分阈值,若目标数据表的使用评分高于第一预设评分阈值,表明目标数据表经常使用或使用价值高,则需要对目标数据表的数据质量进行监控,以便基于对目标数据表的数据质量的把控,提高对目标数据表的使用效率或使用质量。
此外,若待评估数据表的使用评分低于或等于第一预设评分阈值,表明待评估数据表并非经常使用或并非使用价值高,则不做处理即可。
进一步的,在目标数据表的使用评分高于第一预设评分阈值的情况下,可以对针对目标数据表进行调用的数据执行程序的执行时间进行监控,若执行时间超过预设执行时间的情况下,表明针对目标数据表的调用可能存在问题,导致执行时间超时,则发送针对目标数据表的调用异常通知,其中,调用异常通知中可以包括:目标数据表的表名、数据执行程序和/或针对数据执行程序的执行时长等信息,在此不做限制,以便被通知的人员可以快速了解针对目标数据表的调用异常情况。
具体实施时,还可以针对所述目标数据表按照预设时间间隔统计的数据增量进行监控,其中,预设时间间隔,可以是每天,每周等,在此不做限制,比如,在预设时间间隔每天的情况下,目标数据表以往每天的数据增量在N条-M条之间,则可以将N条-M条作为预设的数据增量条件(即预设数据增量条件),若监控到某一天目标数据表的数据增量远远小于预设数据增量条件,表明目标数据表可能出现异常,则针对目标数据表发送数据增量异常通知,具体的,数据增量异常通知中可以包括:目标数据表的表名、预设数据增量条件、当前统计的数据增量等信息,在此不做限制,以便被通知的人员可以快速了解针对目标数据表的数据增量异常情况。
此外,本申请实施例提供的一种可选实施方式中,所述对所述待评估数据表进行使用评估并获得使用评分之后,还包括:
在所述使用评分低于第二预设评分阈值的情况下,将目标数据表在预设公示时长内进行删除公示,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
在基于所述删除公示未接收到针对所述目标数据表的保留建议的情况下,将所述目标数据表进行删除。
所述第二预设评分阈值,是指预先设置的用于评判数据表是否不常使用的评分阈值,若待评估数据表完成使用评估后对应的目标数据表的使用评分低于第二预设评分阈值,表明目标数据表不常使用或使用价值低,则为了避免对不常使用或不使用的数据表持续耗费管理、存储和计算资源,造成资源浪费,将目标数据表进行删除。
若待评估数据表完成使用评估后的目标数据表的使用评分高于或等于第二预设评分阈值,表明目标数据表具有使用价值,不做处理即可。
实际应用中,为了避免贸然删除目标数据表,从而对一些业务成员/业务部门的工作造成不良影响,因此,在对目标数据表进行删除之前,需在一段时间内(比如一周或一个月内),即预设公示时长内对即将对目标数据表的删除情况进行公示(即删除公示),比如在企业网站的首页公示:“将于一个月后对该目标数据表进行删除,若有异议,请积极反馈”。
相应的,所述保留建议,可以理解为针对删除公示中即将针对目标数据表进行的删除操作,所提交的针对目标数据表进行保留的消息,若未接收到保留建议的情况下,则对目标数据表进行删除。
需要说明的是,若数据库中不常使用的数据表的数量巨大,还会阻碍用户对有价值的数据表的查找效率,因此对不常使用或使用价值低的数据表予以删除,可以提高对其他数据表的查找效率。
此外,还可以对这些使用价值低的数据表进行下线、优化等管理操作,比如将其中的某些数据行或数据列进行删除等,本申请通过构建体系化、自动化、自迭代的数据模型评估体系,使得数据库或数据仓库可以提供更加高效的数据服务,同时定期优化长尾数据模型,节省数据建模开发中的维护人力、存储成本,提升数据查询效率。
本申请实施例提供的一种可选实施方式中,所述对所述待评估数据表进行使用评估并获得使用评分之后,还包括:
获取所述待评估数据表集合中完成使用评估的至少一个目标数据表的目标使用评分;
根据所述目标使用评分,对所述至少一个目标数据表进行使用排名。
实际应用中,在对待评估数据表集合中的待评估数据表完成使用评估之后,可以根据完成使用评估的数据表(即目标数据表)的目标使用评分从高到低的顺序或从低到高的顺序,对目标数据表进行使用排名,则无需人工比对使用评分的大小,使目标数据表的使用情况更加直观,并易于比较。
进一步的,还可以将排名后的数据表中排名靠前和/或排名靠后(比如排名前十和/或排名后十)的数据表的排名进行展示,以便对排名突出的数据表进行快速浏览。
综上所述,本申请提供的数据表评估方法,通过接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;基于所述目标数据归属信息,确定待评估数据表集合;针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分,实现了通过多种目标使用属性结合,对数据表的使用情况进行评估,并通过不同目标使用属性对应的使用权重,有效地根据目标使用属性的重要性,对数据表的使用情况进行评估,增加了针对数据表进行使用评估的准确性。
下述结合附图4,以本申请提供的数据表评估方法在数据仓库场景的应用为例,对所述数据表评估方法进行进一步说明。其中,图4示出了本申请一实施例提供的一种应用于数据仓库场景的数据表评估方法的处理流程图,具体包括以下步骤:
步骤402:接收针对数据仓库中数据表的数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间。
具体的,所述数据表评估指令中携带待评估数据表的目标数据归属信息,包括下述至少一项:
目标主题域信息、目标数据分层信息、目标业务信息、使用场景、调用用户、调用部门。
步骤404:通过将所述目标数据归属信息与使用统计表中数据表的数据归属信息进行匹配,确定待评估数据表集合。
步骤406:根据所述评估时间区间确定对应的目标统计周期。
步骤408:根据所述目标统计周期,从所述使用统计表获取在所述至少两种目标使用属性下各个目标统计周期内统计的所述待评估数据表的调用次数。
其中,所述待评估数据表为所述待评估数据表集合中的至少一个数据表。
步骤410:将每种目标使用属性下所述各个目标统计周期内统计的所述待评估数据表的调用次数进行累加,获得所述每种目标使用属性下评估时间区间内调用的待评估数据表的目标调用次数。
步骤412:通过将所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重输入数据表评估公式进行计算,对所述待评估数据表进行使用评估并获得使用评分。
步骤414:在所述使用评分超过第一预设评分阈值的情况下,对针对目标数据表进行调用的数据执行程序的执行时间进行监控,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表。
步骤416:在所述执行时间超过预设执行时间的情况下,发送针对所述目标数据表的调用异常通知。
步骤418:在所述使用评分低于第二预设评分阈值的情况下,将目标数据表在预设公示时长内进行删除公示。
具体的,所述目标数据表为使用评估并获得使用评分后的待评估数据表。
步骤420:在基于所述删除公示未接收到针对所述目标数据表的保留建议的情况下,将所述目标数据表进行删除。
综上所述,本申请提供的数据表评估方法,通过接收针对数据仓库中数据表的数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;基于所述目标数据归属信息,确定待评估数据表集合;针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分,实现了通过多种使用场景结合,对数据仓库中数据表的使用情况进行评估,并通过不同使用场景对应的使用权重,有效地根据使用场景的重要性,对数据仓库中数据表的使用情况进行评估,增加了对数据仓库中数据表进行使用评估的准确性。
与上述方法实施例相对应,本申请还提供了数据表评估装置实施例,图5示出了本申请一实施例提供的一种数据表评估装置的结构示意图。如图5所示,该装置包括:
接收模块502,被配置为接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;
确定模块504,被配置为基于所述目标数据归属信息,确定待评估数据表集合;
获取模块506,被配置为针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;
评估模块508,被配置为基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分。
可选地,所述数据表评估装置,还包括:
统计模块,被配置为统计数据表的数据归属信息以及对应的调用次数;
存储模块,被配置为将统计获得的数据归属信息以及所述调用次数,在使用统计表中进行存储;
相应的,所述确定模块504,进一步被配置为:
通过将所述目标数据归属信息与所述使用统计表中的所述数据归属信息进行匹配,确定待评估数据表集合;
相应的,获取模块506,进一步被配置为:
从所述使用统计表分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数。
可选地,所述获取模块506,进一步被配置为:
根据所述评估时间区间确定对应的目标统计周期;
根据所述目标统计周期,从所述使用统计表获取在所述至少两种目标使用属性下各个目标统计周期内统计的所述待评估数据表的调用次数;
在每种目标使用属性下将所述各个目标统计周期内统计的所述待评估数据表的调用次数进行累加,获得所述评估时间区间内调用的待评估数据表的目标调用次数。
可选地,所述评估模块508,进一步被配置为:
根据所述数据表评估指令中携带的评估用户的用户标识,确定所述评估用户所属的业务部门;
确定所述业务部门针对所述至少两种目标使用属性设置的使用权重;
将所述目标调用次数以及对应的目标使用属性的使用权重输入数据表评估公式进行计算,获得所述待评估数据表的使用评分。
可选地,所述获取模块506,进一步被配置为:
分别获取在每种目标使用属性所述评估时间区间内调用的待评估数据表的目标调用次数以及调用者标识;
确定所述调用者标识对应的调用者所属的业务部门;
基于所述评估时间区间内调用的待评估数据表的目标调用次数,分别统计在每种目标使用属性下各个业务部门对应的业务调用次数;
通过所述业务调用次数以及对应的业务部门的业务权重进行计算,更新所述目标调用次数。
可选地,所述数据表评估装置,还包括:
第一监控模块,被配置为在所述使用评分超过第一预设评分阈值的情况下,对针对目标数据表进行调用的数据执行程序的执行时间进行监控,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
第一发送模块,被配置为在所述执行时间超过预设执行时间的情况下,发送针对所述目标数据表的调用异常通知;和/或,
第二监控模块,被配置为在所述使用评分超过第一预设评分阈值的情况下,对所述目标数据表按照预设时间间隔统计的数据增量进行监控;
第二发送模块,被配置为在所述数据增量不满足预设数据增量条件的情况下,发送针对所述目标数据表的数据增量异常通知。
可选地,所述对所述待评估数据表进行使用评估并获得使用评分之后,还包括:
在所述使用评分低于第二预设评分阈值的情况下,将目标数据表在预设公示时长内进行删除公示,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
在基于所述删除公示未接收到针对所述目标数据表的保留建议的情况下,将所述目标数据表进行删除。
可选地,所述数据表评估装置,还包括:
获取评分模块,被配置为获取所述待评估数据表集合中完成使用评估的至少一个目标数据表的目标使用评分;
排名模块,被配置为根据所述目标使用评分,对所述至少一个目标数据表进行使用排名。
可选地,所述接收模块502,进一步被配置为:
接收针对数据仓库中数据表的数据表评估指令;
相应的,所述数据表评估指令中携带待评估数据表的目标数据归属信息,包括下述至少一项:
目标主题域信息、目标数据分层信息、目标业务信息、使用场景、调用用户、调用部门。
可选地,所述至少两种目标使用属性,包括目标使用场景;相应的,所述目标使用场景,包括:调度系统、开发窗口以及数据详情页面;
相应的,所述获取模块506,进一步被配置为:
获取所述评估时间区间内在所述调度系统运行的第一数据执行程序,对所述第一数据执行程序进行解析,获得所述第一数据执行程序调用的所述待评估数据表的目标调用次数;
获取所述评估时间区间内在所述开发窗口运行的第二数据执行程序,对所述第二数据执行程序进行解析,获得所述第二数据执行程序调用的所述待评估数据表的目标调用次数;
获取所述评估时间区间内所述数据详情页面对应的访问日志,对所述访问日志进行解析,确定通过所述数据详情页面调用的待评估数据表的目标调用次数。
可选地,所述第一数据执行程序或所述第二数据执行程序,通过运行如下子模块进行解析:
确定类型子模块,被配置为确定所述第一数据执行程序或所述第二数据执行程序对应的程序类型;
确定程序子模块,被配置为基于所述程序类型确定对应的解析程序;
解析子模块,被配置为通过所述解析程序对所述第一数据执行程序或所述第二数据执行程序进行解析。
综上所述,本申请提供的数据表评估装置,通过接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;基于所述目标数据归属信息,确定待评估数据表集合;针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分,实现了通过多种目标使用属性结合,对数据表的使用情况进行评估,并通过不同目标使用属性对应的使用权重,有效地根据目标使用属性的重要性,对数据表的使用情况进行评估,增加了针对数据表进行使用评估的准确性。
上述为本实施例的一种数据表评估装置的示意性方案。需要说明的是,该数据表评估装置的技术方案与上述的数据表评估方法的技术方案属于同一构思,数据表评估装置的技术方案未详细描述的细节内容,均可以参见上述数据表评估方法的技术方案的描述。
图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接,数据库650用于保存数据。
计算设备600还包括接入设备640,接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图6所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备600可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。
其中,处理器620通过执行计算机指令,实现所述的数据表评估方法的步骤。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据表评估方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据表评估方法的技术方案的描述。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,所述计算机指令被处理器执行时实现如前所述数据表评估方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据表评估方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据表评估方法的技术方案的描述。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (12)

1.一种数据表评估方法,其特征在于,包括:
接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;
基于所述目标数据归属信息,确定待评估数据表集合;
针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;
基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分;
在所述使用评分超过第一预设评分阈值的情况下,对针对目标数据表进行调用的数据执行程序的执行时间进行监控,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
在所述执行时间超过预设执行时间的情况下,发送针对所述目标数据表的调用异常通知;和/或,
在所述使用评分超过第一预设评分阈值的情况下,对所述目标数据表按照预设时间间隔统计的数据增量进行监控;
在所述数据增量不满足预设数据增量条件的情况下,发送针对所述目标数据表的数据增量异常通知。
2.根据权利要求1所述的数据表评估方法,其特征在于,所述接收数据表评估指令之前,还包括:
统计数据表的数据归属信息以及对应的调用次数;
将统计获得的数据归属信息以及所述调用次数,在使用统计表中进行存储;
相应的,所述基于所述目标数据归属信息,确定待评估数据表集合,包括:
通过将所述目标数据归属信息与所述使用统计表中的所述数据归属信息进行匹配,确定待评估数据表集合。
3.根据权利要求2所述的数据表评估方法,其特征在于,所述分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
从所述使用统计表分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数。
4.根据权利要求3所述的数据表评估方法,其特征在于,所述从所述使用统计表分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
根据所述评估时间区间确定对应的目标统计周期;
根据所述目标统计周期,从所述使用统计表获取在所述至少两种目标使用属性下各个目标统计周期内统计的所述待评估数据表的调用次数;
将每种目标使用属性下所述各个目标统计周期内统计的所述待评估数据表的调用次数进行累加,获得所述评估时间区间内调用的待评估数据表的目标调用次数。
5.根据权利要求1所述的数据表评估方法,其特征在于,所述基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分,包括:
根据所述数据表评估指令中携带的评估用户的用户标识,确定所述评估用户所属的业务部门;
确定所述业务部门针对所述至少两种目标使用属性设置的使用权重;
将所述目标调用次数以及对应的目标使用属性的使用权重输入数据表评估公式进行计算,获得所述待评估数据表的使用评分。
6.根据权利要求1所述的数据表评估方法,其特征在于,所述针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
分别获取在每种目标使用属性所述评估时间区间内调用的待评估数据表的目标调用次数以及调用者标识;
确定所述调用者标识对应的调用者所属的业务部门;
基于所述评估时间区间内调用的待评估数据表的目标调用次数,分别统计在每种目标使用属性下各个业务部门对应的业务调用次数;
通过所述业务调用次数以及对应的业务部门的业务权重进行计算,更新所述目标调用次数。
7.根据权利要求1-6任意一项所述的数据表评估方法,其特征在于,所述对所述待评估数据表进行使用评估并获得使用评分之后,还包括:
在所述使用评分低于第二预设评分阈值的情况下,将目标数据表在预设公示时长内进行删除公示,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
在基于所述删除公示未接收到针对所述目标数据表的保留建议的情况下,将所述目标数据表进行删除。
8.根据权利要求1-6任意一项所述的数据表评估方法,其特征在于,所述目标使用属性,包括目标使用场景;相应的,所述目标使用场景,包括:调度系统、开发窗口以及数据详情页面;
相应的,所述分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数,包括:
获取所述评估时间区间内在所述调度系统运行的第一数据执行程序,对所述第一数据执行程序进行解析,获得所述第一数据执行程序调用的所述待评估数据表的目标调用次数;
获取所述评估时间区间内在所述开发窗口运行的第二数据执行程序,对所述第二数据执行程序进行解析,获得所述第二数据执行程序调用的所述待评估数据表的目标调用次数;
获取所述评估时间区间内所述数据详情页面对应的访问日志,对所述访问日志进行解析,确定通过所述数据详情页面调用的所述待评估数据表的目标调用次数。
9.根据权利要求8所述的数据表评估方法,其特征在于,所述第一数据执行程序或所述第二数据执行程序,通过执行如下步骤进行解析:
确定所述第一数据执行程序或所述第二数据执行程序对应的程序类型;
基于所述程序类型确定对应的解析程序;
通过所述解析程序对所述第一数据执行程序或所述第二数据执行程序进行解析。
10.一种数据表评估装置,其特征在于,包括:
接收模块,被配置为接收数据表评估指令,其中,所述数据表评估指令中携带待评估数据表的目标数据归属信息以及评估时间区间;
确定模块,被配置为基于所述目标数据归属信息,确定待评估数据表集合;
获取模块,被配置为针对所述目标数据归属信息中包含的至少两种目标使用属性,分别获取在每种目标使用属性下所述评估时间区间内调用的待评估数据表的目标调用次数;
评估模块,被配置为基于所述待评估数据表的所述目标调用次数以及对应的目标使用属性的使用权重,对所述待评估数据表进行使用评估并获得使用评分;
第一监控模块,被配置为在所述使用评分超过第一预设评分阈值的情况下,对针对目标数据表进行调用的数据执行程序的执行时间进行监控,其中,所述目标数据表为使用评估并获得使用评分后的待评估数据表;
第一发送模块,被配置为在所述执行时间超过预设执行时间的情况下,发送针对所述目标数据表的调用异常通知;和/或,
第二监控模块,被配置为在所述使用评分超过第一预设评分阈值的情况下,对所述目标数据表按照预设时间间隔统计的数据增量进行监控;
第二发送模块,被配置为在所述数据增量不满足预设数据增量条件的情况下,发送针对所述目标数据表的数据增量异常通知。
11.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述计算机指令时实现权利要求1-9任意一项所述方法的步骤。
12.一种计算机可读存储介质,其存储有计算机指令,其特征在于,所述计算机指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。
CN202110089164.6A 2021-01-22 2021-01-22 数据表评估方法及装置 Active CN112817834B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110089164.6A CN112817834B (zh) 2021-01-22 2021-01-22 数据表评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110089164.6A CN112817834B (zh) 2021-01-22 2021-01-22 数据表评估方法及装置

Publications (2)

Publication Number Publication Date
CN112817834A CN112817834A (zh) 2021-05-18
CN112817834B true CN112817834B (zh) 2022-11-01

Family

ID=75858867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110089164.6A Active CN112817834B (zh) 2021-01-22 2021-01-22 数据表评估方法及装置

Country Status (1)

Country Link
CN (1) CN112817834B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113268477B (zh) * 2021-06-07 2023-06-23 中国联合网络通信集团有限公司 数据表清理方法、装置及服务器
CN113448944B (zh) * 2021-06-30 2022-03-18 未鲲(上海)科技服务有限公司 数据库的数据评估方法、装置、计算机设备和存储介质
CN116257563B (zh) * 2022-11-30 2023-11-21 荣耀终端有限公司 一种数据价值评估方法及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218403A (zh) * 2013-03-20 2013-07-24 中国联合网络通信集团有限公司 系统信息处理方法及平台
JP2018100010A (ja) * 2016-12-21 2018-06-28 東日本旅客鉄道株式会社 車両用空調装置の状態評価方法
CN109740914A (zh) * 2018-12-28 2019-05-10 武汉金融资产交易所有限公司 一种金融业务评估、推荐的方法、存储介质、设备及系统
CN109933436A (zh) * 2019-03-25 2019-06-25 联想(北京)有限公司 处理方法和处理装置
CN110888909A (zh) * 2018-09-07 2020-03-17 大唐移动通信设备有限公司 一种评估内容的数据统计处理方法及装置
CN111651479A (zh) * 2020-04-15 2020-09-11 山东中创软件工程股份有限公司 一种物品评估方法、装置及其相关设备
CN112000657A (zh) * 2019-05-27 2020-11-27 北京京东尚科信息技术有限公司 数据管理方法、装置、服务器及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201426578A (zh) * 2012-12-27 2014-07-01 Ind Tech Res Inst 匿名資料集的產生方法及裝置與風險評估方法及裝置
CN107870981B (zh) * 2017-09-30 2021-10-22 平安科技(深圳)有限公司 电子装置、数据表归档处理的方法及存储介质
CN109447474A (zh) * 2018-10-30 2019-03-08 国信优易数据有限公司 一种用户数据价值评估方法以及评估系统
CN109857922A (zh) * 2019-01-18 2019-06-07 深圳壹账通智能科技有限公司 数据评测模型建模方法、装置、计算机设备及存储介质
CN111162949A (zh) * 2019-12-31 2020-05-15 国网山西省电力公司信息通信分公司 一种基于Java字节码嵌入技术的接口监测方法
CN111369136A (zh) * 2020-03-03 2020-07-03 山东浪潮通软信息科技有限公司 业务数据集质量评估方法及装置及计算机可读介质
CN112035531B (zh) * 2020-09-02 2023-11-28 中国平安人寿保险股份有限公司 敏感数据处理方法、装置、设备及介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103218403A (zh) * 2013-03-20 2013-07-24 中国联合网络通信集团有限公司 系统信息处理方法及平台
JP2018100010A (ja) * 2016-12-21 2018-06-28 東日本旅客鉄道株式会社 車両用空調装置の状態評価方法
CN110888909A (zh) * 2018-09-07 2020-03-17 大唐移动通信设备有限公司 一种评估内容的数据统计处理方法及装置
CN109740914A (zh) * 2018-12-28 2019-05-10 武汉金融资产交易所有限公司 一种金融业务评估、推荐的方法、存储介质、设备及系统
CN109933436A (zh) * 2019-03-25 2019-06-25 联想(北京)有限公司 处理方法和处理装置
CN112000657A (zh) * 2019-05-27 2020-11-27 北京京东尚科信息技术有限公司 数据管理方法、装置、服务器及存储介质
CN111651479A (zh) * 2020-04-15 2020-09-11 山东中创软件工程股份有限公司 一种物品评估方法、装置及其相关设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
通用数据质量评分系统的研究与设计;田仲等;《标准科学》;20160516(第05期) *

Also Published As

Publication number Publication date
CN112817834A (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN112817834B (zh) 数据表评估方法及装置
CN107451149B (zh) 流量数据查询任务的监控方法及其装置
CN105868373B (zh) 电力业务信息系统关键数据处理方法及装置
US20120095956A1 (en) Process driven business intelligence
CN110928903B (zh) 数据提取方法及装置、设备和存储介质
AU2011204831B2 (en) Digital analytics platform
CN110689385A (zh) 一种基于知识图谱的电力客服用户画像构建方法
CN110851667A (zh) 一种多源头大量数据的整合分析方法及工具
US20140337274A1 (en) System and method for analyzing big data in a network environment
CN116797180A (zh) 投诉预警方法、装置、计算机设备和存储介质
CN111488263A (zh) 一种解析MySQL数据库中日志的方法和装置
CN116149947A (zh) 数据模型的质量评估方法、装置、电子设备及存储介质
US20160071135A1 (en) Method for obtaining business intelligence information from a large dataset
CN112494933B (zh) 游戏数据仓库构建方法及装置
CN115098029A (zh) 数据处理方法及装置
CN116089490A (zh) 数据分析方法、装置、终端和存储介质
CN115187122A (zh) 一种企业政策推演方法、装置、设备及介质
CN114969187A (zh) 数据分析系统及方法
CN114911769A (zh) 支持自定义动态标签构建的数据管理方法和系统
CN110928938B (zh) 一种接口中间件系统
CN114185878A (zh) 一种基于字段定义生成数据校验的方法及装置
Nohuddin et al. Trend mining in social networks: a study using a large cattle movement database
CN111552674A (zh) 日志处理方法及设备
US20220270024A1 (en) Method and system to predict stakeholder project impact
Wang The Design and Implementation of the Enterprise Customer Relationship Management System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant