CN118195379A - 指标模型构建方法、装置、设备、存储介质和程序产品 - Google Patents

指标模型构建方法、装置、设备、存储介质和程序产品 Download PDF

Info

Publication number
CN118195379A
CN118195379A CN202410278481.6A CN202410278481A CN118195379A CN 118195379 A CN118195379 A CN 118195379A CN 202410278481 A CN202410278481 A CN 202410278481A CN 118195379 A CN118195379 A CN 118195379A
Authority
CN
China
Prior art keywords
history
index
model
dimension
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410278481.6A
Other languages
English (en)
Inventor
龚文征
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
CCB Finetech Co Ltd
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202410278481.6A priority Critical patent/CN118195379A/zh
Publication of CN118195379A publication Critical patent/CN118195379A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据分析领域,尤其是一种指标模型构建方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括:接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;获取历史指标模型的历史事实表和历史维度表;基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式;基于所述构建方式构建指标模型。采用本方法能够避免指标模型的重复构建,降低存储空间占用。

Description

指标模型构建方法、装置、设备、存储介质和程序产品
技术领域
本申请涉及数据分析技术领域,特别是涉及一种指标模型构建方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着企业业务各行各业不断的深入和普及,科技水平不断的提高,业务系统对客群、风险、渠道、产品、财务的数据联系愈加紧密,需要提供丰富的数字化指标供管理者做运营决策分析。
传统技术中,针对多主题数据来源,根据各种业务或者数据模型进行指标加工,提供业务人员快速查询各种营业指标数据的能力。
然而,由于业务人员需要访问不同业务领域指标,对指标进行扩展或者变更等,但是目前的指标的扩展和变更均是人为进行的,这样不可避免的存在同一模型的重复构建的情况,占用了大量的存储空间。
发明内容
基于此,有必要针对上述技术问题,提供一种能够避免指标模型的重复构建,降低存储空间占用的指标模型构建方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供一种指标模型构建方法,所述方法包括:
接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;
获取历史指标模型的历史事实表和历史维度表;
基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式;
基于所述构建方式构建指标模型。
在其中一个实施例中,所述基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式,包括:
将所述当前事实表和所述历史事实表进行匹配;
若不存在与所述当前事实表匹配的所述历史事实表,则确定构建新模型的构建方式;
若存在与所述当前事实表匹配的历史事实表,获取匹配的所述历史事实表对应的历史维度表;
将所述当前维度表与所获取的所述历史维度表进行匹配;
若不存在与所述当前维度表匹配的所获取的所述历史维度表,则确定构建新模型的构建方式;
若存在与所述当前维度表匹配的所获取的所述历史维度表,且所述当前维度表的维度范围小于或等于匹配的所述历史维度表的维度范围时,则确定无需构建新的指标模型;
若存在与所述当前维度表匹配的所获取的所述历史维度表,且所述当前维度表的范围大于匹配的所述历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
在其中一个实施例中,所述基于所述构建方式构建指标模型之后,包括:
确定数据历史区间,并获取到所述指标模型的事实表;
从所述事实表中确定最新一期数据的数据量,并获取所述指标模型的模型索引数以及度量基数;
基于所述最新一期数据的数据量、所述模型索引数以及所述度量基数,确定所述指标模型的追数步长;
基于所述追数步长以及所述数据历史区间构建追数任务;
执行所述追数任务,得到与所述指标模型对应的数据。
在其中一个实施例中,所述基于所述最新一期数据的数据量、所述模型索引数以及所述度量基数,确定所述指标模型的追数步长,包括:
分别确定所述最新一期数据的数据量、所述模型索引数以及所述度量基数对应的单维度评价信息;
基于各所述单维度评价信息,得到综合评价信息;
确定所述综合评价信息对应的追数步长为所述指标模型的追数步长。
在其中一个实施例中,所述方法还包括:
确定历史查询语句清单,并获取所述历史查询语句清单对应的各所述指标模型;
获取所述历史查询语句清单中各查询语句对应的维度,并基于各所述查询语句对应的维度以及所述指标模型对应的查询语句,确定各所述指标模型对应的所述维度的出现次数;
构建与所述出现次数大于所述阈值的所述维度对应的索引;
基于配置的所述索引进行追数任务构建。
在其中一个实施例中,所述构建与所述出现次数大于所述阈值的所述维度对应的索引,包括:
基于所述维度从事实表中进行数据采样得到采样数据,确定所述采样数据对应的数据信息;
基于所述出现次数大于阈值的所述维度以及所述数据信息,进行索引构建。
第二方面,本申请还提供一种指标模型构建装置,所述装置包括:
构建指令接收模块,用于接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;
历史模型信息获取模块,用于获取历史指标模型的历史事实表和历史维度表;
匹配模块,用于基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式;
模型构建模块,用于基于所述构建方式构建指标模型。
第三方面,本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的任意一个实施例中的方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的任意一个实施例中的方法的步骤。
上述指标模型构建方法、装置、计算机设备、存储介质和计算机程序产品,在每次构建指标模型之前,将待构建模型的当前事实表和当前维度表与历史指标模型的历史事实表和历史维度表进行匹配,从而根据匹配结果确定构建方式,避免重复构建,降低存储空间占用,减少资源浪费。
附图说明
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中指标模型构建方法的应用环境图;
图2为一个实施例中指标模型构建方法的流程示意图;
图3为一个实施例中的构建方式确定步骤的流程图;
图4为一个实施例中追数步骤的流程图;
图5为一个实施例中索引自构建步骤的流程图;
图6为另一个实施例中指标模型构建方法的流程示意图;
图7为一个实施例中指标模型构建装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的指标模型构建方法,可以应用于如图1所示的应用环境中。其中,系统包括模型开发模块、资源加载模块以及索引构建模块。其中,模型开发模块用于指标模型的开发,资源加载模块则是用于数据的加载,包括全量加载和增量加载,索引构建模块则是用于根据业务查询历史,统计模型中高频维度涉及的索引,自动化增量进行索引的构建。其中该系统可以集成在服务器或终端中,在此不做具体限定。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
系统可以基于前端的配置来构建模型,具体地,系统接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;获取历史指标模型的历史事实表和历史维度表;基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式;基于构建方式构建指标模型。这样在每次构建指标模型之前,将待构建模型的当前事实表和当前维度表与历史指标模型的历史事实表和历史维度表进行匹配,从而根据匹配结果确定构建方式,避免重复构建,降低存储空间占用,减少资源浪费。
在一个示例性的实施例中,如图2所示,提供了一种指标模型构建方法,以该方法应用于图1中的系统为例进行说明,包括以下步骤S202至步骤S208。其中:
S202:接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表。
指标模型是用于进行数据处理的模型,其可以对原始数据进行处理得到需要的指标,该些指标可以表示业务的处理情况、系统的处理能力等等,在此不对指标的作用做具体的限制。
事实表是用于存放度量值、维度值的表。事实表中存储了所有基础数据,是所有分析结论的来源。一个维度可对应一个或者多个维表。一个维度对应一个维表时数据的组织方式就是采用的星型模式,对应多个维表时就是采用雪花模式。雪花模式是对星型模式的规范化。维度在数学中指代独立参数的数目,它是观察数据的某一个视角,是判断、说明、评价、确定、描述数据的多方位、多角度、多层次的条件和概念。常见的维度有时间、地域、机构部门、产品类型等。度量是指在实际业务场景中可衡量的、不可枚举穷尽的各类标准或统计数值,是一个可以进行运算、统计的数据。一个限定了范畴的业务对象、主体或者业务活动,都具有一组相应的度量能够对其进行描述。
其中每个指标模型都具有其对应的事实表和维度表。其中在构建新的指标模型时,可以先确定待构建的指标模型的事实表和维度表,进一步地,还可以确定模型中的关联方式等。
在其中一个可选的实施例中,系统接收到业务或者用户输入的关于指标模型的定义,然后基于一键构建方法,分析得到待构建指标模型的事实表和维度表。
S204:获取历史指标模型的历史事实表和历史维度表。
其中,历史指标模型是指系统中已有的指标模型,其中该历史指标模型的历史事实表和历史维度表的获取方式可以是通过KE4(Kyligence Enterprise4(以下简称:KE4))平台的REST API获取系统中的已有的历史指标模型,其中KE4平台API提供了历史指标模型的事实表、模型别名、度量信息、维度信息、维表相关信息等等。
S206:基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式。
其中构建方式包括新模型的构建和原模型的扩展。通过实时表以及维度表的比对,以确定待构建指标模型的构建方式,即若存在相同的指标模型,则无需构建,减少存储占用,若是不存在相同的模型,则基于模型的维度表确定是构建新模型,还是扩展模型即可。
为了方便理解,结合图3所示,图3为一个实施例中的构建方式确定步骤的流程图,在该实施例中,基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式,包括:将当前事实表和历史事实表进行匹配;若不存在与当前事实表匹配的历史事实表,则确定构建新模型的构建方式;若存在与当前事实表匹配的历史事实表,获取匹配的历史事实表对应的历史维度表;将当前维度表与所获取的历史维度表进行匹配;若不存在与当前维度表匹配的所获取的历史维度表,则确定构建新模型的构建方式;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的维度范围小于或等于匹配的历史维度表的维度范围时,则确定无需构建新的指标模型;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的范围大于匹配的历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
本实施例中先将当前事实表与各历史事实表进行比对,判定当前事实表是否已经存在,即是否存在与当前事实表对应的历史事实表,也即是否存在某一个历史事实表包括当前事实表的所有的数据,即当前事实表是某一个历史事实表的子集,若是不存在,则判定待构建指标模型为新的指标模型,因此构建方式为构建新模型的构建方式,这样通过系统KE4 API生成对应的指标模型。
若是存在对应的历史事实表,则记录匹配上的历史事实表对应的历史指标模型名称以及历史指标模型的个数,然后遍历匹配上的历史事实表对应的历史维度表和当前维度表进行比对,以判断当前维度表以及维表关联信息是否包含在匹配上的历史事实表对应的历史维度表中或者当前维度表以及维表关联信息是否包括匹配上的历史事实表对应的历史维度表,具体地,先从匹配上的历史事实表对应的历史维度表确定当前历史维度表,然后将当前历史维度表和当前维度表进行比对,即判断当前维度表是否与当前历史维度表的范围匹配,若是不匹配,则判定当前历史维度表对应的历史指标模型与待构建指标模型不是一个模型,然后获取下一个匹配上的历史事实表对应的历史维度表作为当前历史维度表,并记录循环次数,若循环次数小于或等于一开始记录的历史指标模型个数时,则继续执行判断当前维度表是否与当前历史维度表的范围匹配的步骤,否则判定待构建指标模型为新的指标模型,因此构建方式为构建新模型的构建方式,这样通过系统KE4 API生成对应的指标模型。
其中,若是存在历史维度表与当前维度表匹配,则比较历史维度表和当前维度表的范围,若是历史维度表的维度范围大于或等于当前维度表的维度范围,则说明历史指标模型包括了待构建指标模型,因此无需构建新的指标模型,若是历史维度表的维度范围小于当前维度表的维度范围,则确定构建方式为更新对应的历史指标模型。例如,基于当前维度表生成json文件,更新对应的历史指标模型即可。
S208:基于构建方式构建指标模型。
在本实施例中,构建指标模型可以包括:针对传入的模型信息,定义事实表的维度、度量信息以及维度表的类型(缓慢变化维度、快照表等等信息)、关联关系等信息;根据这些信息生成模型的配置文件json文件,以及提交KE4建立指标模型。
上述指标模型构建方法中,在每次构建指标模型之前,将待构建模型的当前事实表和当前维度表与历史指标模型的历史事实表和历史维度表进行匹配,从而根据匹配结果确定构建方式,避免重复构建,降低存储空间占用,减少资源浪费。且应用人员无需关心技术实现细节, 只需要根据业务需求进行建立(数仓)模型,降低业务用数对技术人员(应用和Kylin专家)的依赖,大幅度地减少KE建模和KE模型调优阶段的人力成本支出和时间成本支出,敏捷实现业务需求。此外,指标模型的变更只需要构建增量的部分,灵活添加新索引,降低了重复KE4模型下的存储空间,节约了空间成本的同时还提升了KE4的查询效率。
在其中一个可选的实施例中,基于构建方式构建指标模型之后,包括:确定数据历史区间,并获取到指标模型的事实表;从事实表中确定最新一期数据的数据量,并获取指标模型的模型索引数以及度量基数;基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长;基于追数步长以及数据历史区间构建追数任务;执行追数任务,得到与指标模型对应的数据。
在一个示例性的实施例中,如图4所示,该指标模型构建方法还包括追数步骤,该追数步骤是在业务或者用户在指标平台定义新指标或者模型环节,会相应的要求查询一段历史区间的数据进行查询验证,此模块会根据业务人员填写的历史区间进行智能追数。
其中,数据历史区间是由业务人员填写的历史区间,系统可以基于该历史区间获取到业务需要的追到的历史数据日期。系统还需要获取到指标模型,其中指标模型的获取方式与指标构建时获取历史指标模型的方式相同,均是通过KE的API接口获取到模型信息,然后查询事实表得到最新一期数据量或者是全量数据,该最新一期数据量或者是全量数据用于判断业务或用户需要的历史数据是否已经存在于事实表中,以构建最大的数据日期,以便确认构建范围。其中通过表名查询KE「获取表信息」接口,得到Hive表已采样的元数据。通过列名获取表信息中的列基数,KV存储列以及最大值。根据最新一期数据量,查询数据量大小。此外,查询KE返回索引列表接口,得到模型索引数。计算模型的COUNT DISTINCT度量。后续可以基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长。
在其中一个可选的实施例中,基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长,包括:分别确定最新一期数据的数据量、模型索引数以及度量基数对应的单维度评价信息;基于各单维度评价信息,得到综合评价信息;确定综合评价信息对应的追数步长为指标模型的追数步长。
其中单维度评价信息可以是分别确定最新一期数据的数据量、模型索引数以及度量基数对应的单维得分。为了方便理解,给出一个例子,但是在其他的例子中,单维得分的计算规则还可以是其他的规则,在此不做具体限定。
当期数据量得分判断规则:1-1千万:5分;1千万-5千万:10分;5千万-1亿:20分;1亿-5亿:30分;5亿-10亿:40分;10亿-20亿:60分;20亿-50亿:80分;大于50亿:100分。
索引数:10以内:5分;10-30:10分;30-50:20分;50-100:30分;100-200:50分;200-350:70分;350以上:100分。
度量得分:高基5分,超高基10分。
基于各单维度评价信息,得到综合评价信息可以是将各单维得分相加得到综合评价信息。由于预先存储有综合评价信息与追数步长的映射关系,从而基于综合评价信息即可以查询到追数步长,追数步长能够有效的防止构建跑批资源消耗过大,导致构建集群缓慢。
在其中一个可选的实施例中,在确定追数步长后,基于追数步长生成追数任务,例如生成空 segment 处理任务列表。任务列表记录了构建任务的任务名称、任务状态等信息。根据资源情况提交列表中的构建任务至KE4进行任务构建。定制获取任务列表中KE任务执行情况,获取监控任务执行结果信息,如果执行成功,则更新任务列表,将任务置完成,并剔除定时监控。如果失败或者终止,则重新进行任务构建,直至追数任务完成,实现了自动化的追数。
上述实施例中,可以实现追数步长自动化确定,通过数据量、索引数以及度量基数来确定,可以确定合适的步长,避免跑批资源消耗过大,导致集群缓慢,此外通过追数步长实现无人值守智能追跑历史数据,降低运维人力成本。
在其中一个实施例中,方法还包括:确定历史查询语句清单,并获取历史查询语句清单对应的各指标模型;获取历史查询语句清单中各查询语句对应的维度,并基于各查询语句对应的维度以及指标模型对应的查询语句,确定各指标模型对应的维度的出现次数;构建与出现次数大于阈值的维度对应的索引;基于配置的索引进行追数任务构建。
结合图5所示,图5为一个实施例中索引自构建步骤的流程图,在本实施例中根据业务查询历史,统计模型中高频维度涉及的索引,自动化增量进行索引的构建,提升业务查询效率。
其中本实施例中对于新模型、变更模型以及新加速查询效率建立的索引均在该模块实现。具体地,首先,获取用户提交KE后的历史查询的sql清单,即查询语句清单。根据KE4上历史sql清单获取到各sql对应的KE4指标模型。根据查询aql分析维度和度量信息,记录维度和度量出现在sql的具体位置(如:在SELECT字段列表中或者在WHERE过滤条件中),再根据同一模型中维度或者度量出现的次数进行登记。采集完成所有的信息后,将维度出现次数和需要加速阈值进行比较;如果高于阈值的维度或者度量,则为热维度标志,需要进行索引设计及构建;如果低于阈值的维度,则不做处理。
在其中一个可选的实施例中,构建与出现次数大于阈值的维度对应的索引,包括:基于维度从事实表中进行数据采样得到采样数据,确定采样数据对应的数据信息;基于出现次数大于阈值的维度以及数据信息,进行索引构建。也就是说在进行索引设计和构建时,基于所确定的维度和度量信息,结合KE4从HIVE采样的数据信息,进行KE索引的配置,增量建立新索引。
这样新建立的索引进行构建,写入任务构建表进行登记。提交KE后台进行任务构建。定制获取任务列表中KE任务执行情况,获取监控任务执行结果信息,如果执行成功,则更新任务列表,将任务置完成,并剔除定时监控。如果失败或者终止,则继续提交KE后台进行任务构建。
上述实施例中,通过一键构建,自主分析超高基索引,阻断人工配置超高基的索引,保证查询效率的前提下,降低低效存储空间使用率。
本申请中结合图6所示,图6为一个实施例中的模型构建的流程图,首先业务或者用户基于指标平台定义指标模型;触发一键构建的方法后,进入数据模型分析模块,数据模型分析模块完成指标模型和KE4模型比对后,智能的进行模型的新增、变更等操作,再根据业务或者用户所需查询的历史时间需求,进行智能历史追数模块;此外一键构建模块会根据KE4的历史查询sql清单,根据预设的阈值,对业务或者用户查询的sql进行热度查询区分,高于阈值的查询归为热度查询,再进行自动增量配置KE4索引并执行构建任务。
这样采用KE4提供的REST API,根据业务定义模型,比对KE4现有模型比对,对新增、变更做自动化优化模型优化。采用KE4提供的REST API,根据业务提供的访问历史时间区间进行索引的历史数据自动化构建。KE4索引自动化构建模块,根据业务查询历史,统计模型中高频维度涉及的索引,自动化增量进行索引的构建,提升业务查询效率。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的指标模型构建方法的指标模型构建装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个指标模型构建装置实施例中的具体限定可以参见上文中对于指标模型构建方法的限定,在此不再赘述。
在一个示例性的实施例中,如图7所示,提供了一种指标模型构建装置,包括:构建指令接收模块701、历史模型信息获取模块702、匹配模块703和模型构建模块704,其中:
构建指令接收模块701,用于接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;
历史模型信息获取模块702,用于获取历史指标模型的历史事实表和历史维度表;
匹配模块703,用于基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式;
模型构建模块704,用于基于构建方式构建指标模型。
在其中一个可选的实施例中,上述匹配模块703还用于将当前事实表和历史事实表进行匹配;若不存在与当前事实表匹配的历史事实表,则确定构建新模型的构建方式;若存在与当前事实表匹配的历史事实表,获取匹配的历史事实表对应的历史维度表;将当前维度表与所获取的历史维度表进行匹配;若不存在与当前维度表匹配的所获取的历史维度表,则确定构建新模型的构建方式;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的维度范围小于或等于匹配的历史维度表的维度范围时,则确定无需构建新的指标模型;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的范围大于匹配的历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
在其中一个可选的实施例中,上述装置还包括追数模块,用于确定数据历史区间,并获取到指标模型的事实表;从事实表中确定最新一期数据的数据量,并获取指标模型的模型索引数以及度量基数;基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长;基于追数步长以及数据历史区间构建追数任务;执行追数任务,得到与指标模型对应的数据。
在其中一个可选的实施例中,上述追数模块还用于分别确定最新一期数据的数据量、模型索引数以及度量基数对应的单维度评价信息;基于各单维度评价信息,得到综合评价信息;确定综合评价信息对应的追数步长为指标模型的追数步长。
在其中一个可选的实施例中,上述装置还包括索引构建模块,用于确定历史查询语句清单,并获取历史查询语句清单对应的各指标模型;获取历史查询语句清单中各查询语句对应的维度,并基于各查询语句对应的维度以及指标模型对应的查询语句,确定各指标模型对应的维度的出现次数;构建与出现次数大于阈值的维度对应的索引;基于配置的索引进行追数任务构建。
在其中一个可选的实施例中,上述索引构建模块还用于基于维度从事实表中进行数据采样得到采样数据,确定采样数据对应的数据信息;基于出现次数大于阈值的维度以及数据信息,进行索引构建。
上述指标模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个示例性的实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储指标模型。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种指标模型构建方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个示例性的实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;获取历史指标模型的历史事实表和历史维度表;基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式;基于构建方式构建指标模型。
在一个实施例中,处理器执行计算机程序时所实现的基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式,包括:将当前事实表和历史事实表进行匹配;若不存在与当前事实表匹配的历史事实表,则确定构建新模型的构建方式;若存在与当前事实表匹配的历史事实表,获取匹配的历史事实表对应的历史维度表;将当前维度表与所获取的历史维度表进行匹配;若不存在与当前维度表匹配的所获取的历史维度表,则确定构建新模型的构建方式;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的维度范围小于或等于匹配的历史维度表的维度范围时,则确定无需构建新的指标模型;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的范围大于匹配的历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
在一个实施例中,处理器执行计算机程序时所实现的基于构建方式构建指标模型之后,包括:确定数据历史区间,并获取到指标模型的事实表;从事实表中确定最新一期数据的数据量,并获取指标模型的模型索引数以及度量基数;基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长;基于追数步长以及数据历史区间构建追数任务;执行追数任务,得到与指标模型对应的数据。
在一个实施例中,处理器执行计算机程序时所实现的基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长,包括:分别确定最新一期数据的数据量、模型索引数以及度量基数对应的单维度评价信息;基于各单维度评价信息,得到综合评价信息;确定综合评价信息对应的追数步长为指标模型的追数步长。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定历史查询语句清单,并获取历史查询语句清单对应的各指标模型;获取历史查询语句清单中各查询语句对应的维度,并基于各查询语句对应的维度以及指标模型对应的查询语句,确定各指标模型对应的维度的出现次数;构建与出现次数大于阈值的维度对应的索引;基于配置的索引进行追数任务构建。
在一个实施例中,处理器执行计算机程序时所实现的构建与出现次数大于阈值的维度对应的索引,包括:基于维度从事实表中进行数据采样得到采样数据,确定采样数据对应的数据信息;基于出现次数大于阈值的维度以及数据信息,进行索引构建。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;获取历史指标模型的历史事实表和历史维度表;基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式;基于构建方式构建指标模型。
在一个实施例中,计算机程序被处理器执行时所实现的基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式,包括:将当前事实表和历史事实表进行匹配;若不存在与当前事实表匹配的历史事实表,则确定构建新模型的构建方式;若存在与当前事实表匹配的历史事实表,获取匹配的历史事实表对应的历史维度表;将当前维度表与所获取的历史维度表进行匹配;若不存在与当前维度表匹配的所获取的历史维度表,则确定构建新模型的构建方式;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的维度范围小于或等于匹配的历史维度表的维度范围时,则确定无需构建新的指标模型;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的范围大于匹配的历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
在一个实施例中,计算机程序被处理器执行时所实现的基于构建方式构建指标模型之后,包括:确定数据历史区间,并获取到指标模型的事实表;从事实表中确定最新一期数据的数据量,并获取指标模型的模型索引数以及度量基数;基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长;基于追数步长以及数据历史区间构建追数任务;执行追数任务,得到与指标模型对应的数据。
在一个实施例中,计算机程序被处理器执行时所实现的基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长,包括:分别确定最新一期数据的数据量、模型索引数以及度量基数对应的单维度评价信息;基于各单维度评价信息,得到综合评价信息;确定综合评价信息对应的追数步长为指标模型的追数步长。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定历史查询语句清单,并获取历史查询语句清单对应的各指标模型;获取历史查询语句清单中各查询语句对应的维度,并基于各查询语句对应的维度以及指标模型对应的查询语句,确定各指标模型对应的维度的出现次数;构建与出现次数大于阈值的维度对应的索引;基于配置的索引进行追数任务构建。
在一个实施例中,计算机程序被处理器执行时所实现的构建与出现次数大于阈值的维度对应的索引,包括:基于维度从事实表中进行数据采样得到采样数据,确定采样数据对应的数据信息;基于出现次数大于阈值的维度以及数据信息,进行索引构建。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;获取历史指标模型的历史事实表和历史维度表;基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式;基于构建方式构建指标模型。
在一个实施例中,计算机程序被处理器执行时所实现的基于当前事实表与历史事实表的第一匹配结果以及当前维度表与历史维度表的第二匹配结果,确定待构建指标模型的构建方式,包括:将当前事实表和历史事实表进行匹配;若不存在与当前事实表匹配的历史事实表,则确定构建新模型的构建方式;若存在与当前事实表匹配的历史事实表,获取匹配的历史事实表对应的历史维度表;将当前维度表与所获取的历史维度表进行匹配;若不存在与当前维度表匹配的所获取的历史维度表,则确定构建新模型的构建方式;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的维度范围小于或等于匹配的历史维度表的维度范围时,则确定无需构建新的指标模型;若存在与当前维度表匹配的所获取的历史维度表,且当前维度表的范围大于匹配的历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
在一个实施例中,计算机程序被处理器执行时所实现的基于构建方式构建指标模型之后,包括:确定数据历史区间,并获取到指标模型的事实表;从事实表中确定最新一期数据的数据量,并获取指标模型的模型索引数以及度量基数;基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长;基于追数步长以及数据历史区间构建追数任务;执行追数任务,得到与指标模型对应的数据。
在一个实施例中,计算机程序被处理器执行时所实现的基于最新一期数据的数据量、模型索引数以及度量基数,确定指标模型的追数步长,包括:分别确定最新一期数据的数据量、模型索引数以及度量基数对应的单维度评价信息;基于各单维度评价信息,得到综合评价信息;确定综合评价信息对应的追数步长为指标模型的追数步长。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定历史查询语句清单,并获取历史查询语句清单对应的各指标模型;获取历史查询语句清单中各查询语句对应的维度,并基于各查询语句对应的维度以及指标模型对应的查询语句,确定各指标模型对应的维度的出现次数;构建与出现次数大于阈值的维度对应的索引;基于配置的索引进行追数任务构建。
在一个实施例中,计算机程序被处理器执行时所实现的构建与出现次数大于阈值的维度对应的索引,包括:基于维度从事实表中进行数据采样得到采样数据,确定采样数据对应的数据信息;基于出现次数大于阈值的维度以及数据信息,进行索引构建。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种指标模型构建方法,其特征在于,所述方法包括:
接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;
获取历史指标模型的历史事实表和历史维度表;
基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式;
基于所述构建方式构建指标模型。
2.根据权利要求1所述的方法,其特征在于,所述基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式,包括:
将所述当前事实表和所述历史事实表进行匹配;
若不存在与所述当前事实表匹配的所述历史事实表,则确定构建新模型的构建方式;
若存在与所述当前事实表匹配的历史事实表,获取匹配的所述历史事实表对应的历史维度表;
将所述当前维度表与所获取的所述历史维度表进行匹配;
若不存在与所述当前维度表匹配的所获取的所述历史维度表,则确定构建新模型的构建方式;
若存在与所述当前维度表匹配的所获取的所述历史维度表,且所述当前维度表的维度范围小于或等于匹配的所述历史维度表的维度范围时,则确定无需构建新的指标模型;
若存在与所述当前维度表匹配的所获取的所述历史维度表,且所述当前维度表的范围大于匹配的所述历史维度表的范围时,则确定更新对应的历史指标模型的构建方式。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述构建方式构建指标模型之后,包括:
确定数据历史区间,并获取到所述指标模型的事实表;
从所述事实表中确定最新一期数据的数据量,并获取所述指标模型的模型索引数以及度量基数;
基于所述最新一期数据的数据量、所述模型索引数以及所述度量基数,确定所述指标模型的追数步长;
基于所述追数步长以及所述数据历史区间构建追数任务;
执行所述追数任务,得到与所述指标模型对应的数据。
4.根据权利要求3所述的方法,其特征在于,所述基于所述最新一期数据的数据量、所述模型索引数以及所述度量基数,确定所述指标模型的追数步长,包括:
分别确定所述最新一期数据的数据量、所述模型索引数以及所述度量基数对应的单维度评价信息;
基于各所述单维度评价信息,得到综合评价信息;
确定所述综合评价信息对应的追数步长为所述指标模型的追数步长。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
确定历史查询语句清单,并获取所述历史查询语句清单对应的各所述指标模型;
获取所述历史查询语句清单中各查询语句对应的维度,并基于各所述查询语句对应的维度以及所述指标模型对应的查询语句,确定各所述指标模型对应的所述维度的出现次数;
构建与所述出现次数大于所述阈值的所述维度对应的索引;
基于配置的所述索引进行追数任务构建。
6.根据权利要求5所述的方法,其特征在于,所述构建与所述出现次数大于所述阈值的所述维度对应的索引,包括:
基于所述维度从事实表中进行数据采样得到采样数据,确定所述采样数据对应的数据信息;
基于所述出现次数大于阈值的所述维度以及所述数据信息,进行索引构建。
7.一种指标模型构建装置,其特征在于,所述装置包括:
构建指令接收模块,用于接收指标模型构建指令,确定待构建指标模型对应的当前事实表和当前维度表;
历史模型信息获取模块,用于获取历史指标模型的历史事实表和历史维度表;
匹配模块,用于基于所述当前事实表与所述历史事实表的第一匹配结果以及所述当前维度表与所述历史维度表的第二匹配结果,确定所述待构建指标模型的构建方式;
模型构建模块,用于基于所述构建方式构建指标模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202410278481.6A 2024-03-12 2024-03-12 指标模型构建方法、装置、设备、存储介质和程序产品 Pending CN118195379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410278481.6A CN118195379A (zh) 2024-03-12 2024-03-12 指标模型构建方法、装置、设备、存储介质和程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410278481.6A CN118195379A (zh) 2024-03-12 2024-03-12 指标模型构建方法、装置、设备、存储介质和程序产品

Publications (1)

Publication Number Publication Date
CN118195379A true CN118195379A (zh) 2024-06-14

Family

ID=91407990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410278481.6A Pending CN118195379A (zh) 2024-03-12 2024-03-12 指标模型构建方法、装置、设备、存储介质和程序产品

Country Status (1)

Country Link
CN (1) CN118195379A (zh)

Similar Documents

Publication Publication Date Title
CN109117440B (zh) 一种元数据信息获取方法、系统和计算机可读存储介质
JP7502345B2 (ja) 製品不良要因を分析するシステム及び方法、コンピュータ可読媒体
CN110659282B (zh) 数据路由的构建方法、装置、计算机设备和存储介质
CN106293891B (zh) 多维投资指标监督方法
CN110377519B (zh) 大数据系统的性能容量测试方法、装置、设备及存储介质
CN106844320B (zh) 一种财务报表整合方法和设备
CN117271481B (zh) 数据库自动优化方法及设备
CN117033424A (zh) 慢sql语句的查询优化方法、装置和计算机设备
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN109471874A (zh) 数据分析方法、设备及存储介质
US8548980B2 (en) Accelerating queries based on exact knowledge of specific rows satisfying local conditions
CN115329011A (zh) 数据模型的构建方法、数据查询的方法、装置及存储介质
CN118195379A (zh) 指标模型构建方法、装置、设备、存储介质和程序产品
CN117290352A (zh) 索引建立方法、电子设备和计算机存储设备
CN114564501A (zh) 一种数据库数据存储、查询方法、装置、设备及介质
CN114218287A (zh) 一种面向时序数据库的查询时间预测方法
CN112667859A (zh) 基于内存的数据处理方法及装置
CN117312350B (zh) 钢铁行业碳排放数据管理方法及装置
CN118132566B (zh) 数据库索引优化方法
CN112286995B (zh) 一种数据分析方法、装置、服务器、系统及存储介质
CN110737679B (zh) 数据资源的查询方法、装置、设备及存储介质
CN118132091A (zh) 业务模型的处理方法、装置、计算机设备和存储介质
CN118673046A (zh) 物化视图生成方法、装置、电子设备、存储介质及程序产品
CN105141683A (zh) 一种MongoDB负载均衡优化方法
CN116880927A (zh) 规则管理方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination