CN108121780B

CN108121780B - 数据分析模型确定方法及装置

Info

Publication number: CN108121780B
Application number: CN201711348858.7A
Authority: CN
Inventors: 刘光伟
Original assignee: Unihub China Information Technology Co Ltd
Current assignee: Unihub China Information Technology Co Ltd
Priority date: 2017-12-15
Filing date: 2017-12-15
Publication date: 2021-10-08
Anticipated expiration: 2037-12-15
Also published as: CN108121780A

Abstract

本发明提供了一种数据分析模型确定方法及装置，方法包括：接收用户输入的分析参数，所述分析参数包括：维度、度量；根据所述分析参数以及预先建立的分析模型与分析参数的映射关系确定相关分析模型；根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数；确定支持度系数最高的模型为最优数据分析模型。本发明自动整和数据模型技术，不需要指定具体要访问的数据模型，只需要设定分析内容相关参数，系统会找到优选的分析模型，在报表的分析过程中，模型的选择会不断优化。

Description

数据分析模型确定方法及装置

技术领域

本发明涉及数据处理技术，具体的讲是一种数据分析模型确定方法及装置。

背景技术

报表生成过程中，通常是根据明确提出的统计或分析需求，通过系统开发生成一张分析报表。常规的做法是开发人员要根据经验选用一个数据模型来支持该分析报表需求，如果涉及多个模型时可能要产生新的工作量，预先对多模型间数据进行整合。

传统构建报表分析都是访问明确指定的某个数据模型。经过一段时间积累后，分析系统会构建大量的面向不同主题的数据分析模型，但这些不同时期构建的分析模型间彼此是独立的，彼此信息封闭，分析模型之间的数据关联关系也不能被利用，不能发挥分析系统数据整体优势。而需要关联时，通常要重新生成一个大的模型，形成对立很多冗余数据和额外的工作量。另外，进行数据分析时，需要人工选取数据模型，而人工选取数据模型存在人工经验的局限性和错误概率。

发明内容

为发挥整体积累的优势，充分发挥分析系统数据的整体优势，本发明实施例提供了一种数据分析模型确定方法，包括：

接收用户输入的分析参数，所述分析参数包括：维度、度量；

根据所述分析参数以及预先建立的分析模型与分析参数的映射关系确定相关分析模型；

根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数；

确定支持度系数最高的模型为最优数据分析模型。

本发明实施例中，所述的方法还包括：

对预先存储的分析模型的维度、度量进行统一编码；

将相同维度或度量的编码进行归并，建立分析模型与维度、度量编码的映射关系。

本发明实施例中，预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数包括：

所述的模型属性参数包括：模型的时间粒度、记录数以及模型维度数量；

所述模型访问记录参数包括：模型的最新访问日期、访问频度；

所述的模型访问性能记录参数包括：访问读取数量、查询耗时历史记录。

本发明实施例中，所述根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数包括：

预先设置所述模型属性参数、模型访问记录参数以及模型访问性能记录参数的权重值；

根据各相关分析模型的参数及其权重值确定各相关分析模型的支持度系数。

同时，本发明还公开一种数据分析模型确定装置，包括：

输入模块，用于接收用户输入的分析参数，所述分析参数包括：维度、度量；

相关模型确定模块，用于根据所述分析参数以及预先建立的分析模型与分析参数的映射关系确定相关分析模型；

支持度系数确定模块，用于根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数；

最优模型确定模块，确定支持度系数最高的模型为最优数据分析模型。

本发明实施例中，所述的装置还包括：

编码模块，用于对预先存储的分析模型的维度、度量进行统一编码；

映射关系确定模块，用于将相同维度或度量的编码进行归并，建立分析模型与维度、度量编码的映射关系。

本发明实施例中，所述支持度系数确定模块包括：

权重值设置单元，用于预先设置所述模型属性参数、模型访问记录参数以及模型访问性能记录参数的权重值；

系数计算单元，根据各相关分析模型的参数及其权重值确定各相关分析模型的支持度系数。

本发明还公开一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现上述的数据分析模型确定方法。

同时，一种计算机可读存储介质，计算机可读存储介质存储有执行数据分析模型确定方法的计算机程序。

本发明通过自动整和数据模型技术，构建报表时不需要指定具体要访问的数据模型，只需要设定分析内容相关参数，系统会找到优选的分析模型，在报表的分析过程中，模型的选择会不断优化。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开一种数据分析模型确定方法的流程图；

图2为本发明实施例建立编码与模型映射关系的示意图；

图3为本实施例中对模型的维度进行编码归并的示意图；

图4为本实施例中对模型的度量进行编码归并的示意图；

图5为本发明实施例中确定支持度系数的流程示意图；

图6为本发明实施例中建立确定专有逻辑模型的示意图；

图7为本发明实施方式的流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明公开一种数据分析模型确定方法，包括：

步骤S101，接收用户输入的分析参数，所述分析参数包括：维度、度量；

步骤S102，根据所述分析参数以及预先建立的分析模型与分析参数的映射关系确定相关分析模型；

步骤S103，根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数；

步骤S104，确定支持度系数最高的模型为最优数据分析模型。

本发明实施例中，所述的方法还包括：

对预先存储的分析模型的维度、度量进行统一编码；

本发明实施例的具体步骤如下：

1.对已有的各个独立模型的度量及维度进行统一编码。如图2所示所示为本发明实施例建立编码与模型映射关系的示意图，对维度、度量进行编码形成统一集合，建立集合中的模型与编码的映射关系。

维度、度量进行编码形成统一集合，与该集合做过映射的模型即纳入了分析模型集合整体。

本实施例中编码工作主要有两个步骤：

1)将各分散模型的维度、度量标识统一映射为规范编码(对原有模型结构不做修改)。

2)对于相同的维度或度量进行归并，即将不同模型中的同一维度或度量的编码进行统一。

图3、图4所示，为本实施例中对模型的维度、度量进行编码归并的示意图。

2.为每个模型建立查询支持系数，利用查询支持度系数判断某查询场景中模型的适合程度。图5所示，为本发明实施例中，确定支持度系数的流程示意图。

本实施例中，根据模型属性、访问行为数据、访问性能数据计算支持度系数，为自动寻找最优模型提供基础依据。

关于模型支持系数相关计算因子说明：

时间粒度的相辅度：例如统计年粒度数据，找模型时按年、月、日、时、分的次序选择，直接能提供年粒度汇总值的模型会优选，否则会增加计算量。

记录数：满足相同查询条件下，尽量选择记录数少的模型，这样查询效率会高。

模型中维度数量：优先选择模型中维度数量少的模型。

模型最后使用日期至当前日期距离：相同条件下优选选择访问日期离当前日期短的模型。

模型使用频度：优选访问使用频度高的模型。

访问读取数据量：因为不同数据模型可能是存在异构存储中，相同记录数可能有不同数据量。

查询耗时历史记录：因为不同数据模型可能是存在异构存储中，同数据量查询实际性能会有差异。

本实施例中，以上因子会根据经验按不同权重拟合成一个支持度系数。

本实施例中，支持度系数构建说明：

参量包括：

一次查询事件在各模型中覆盖的记录数(记录越少说明查询时间越少，支持度越高)。

模型访问数据量性能记录(各模型可能承载在异构存储上，相同数据量查询性能存在差异，优先选择性能高的模型)。

模型访问频度，冷热数据情况。(对于访问频度较高的模型提高支持度，通常使用较高的模型，数据质量维护比较及时)。

根据以上参量分配不同权重生成支持度系数。

3.根据前两项规则建立模型寻址策略。

可以根据查询场景找到最优模型，并对相关模型进行逻辑关联。逻辑关联是指：一次查询确定数据模型后，要对查询中的维度、度量、筛选条件与该模型进行映射，形成一个专有逻辑模型。因为某查询任务可能会在维度、度量不变化的情况下输入不同的查询条件(如选则不同节点：北京、上海，不同时间：2017、2016)，该情况直接访问专有逻辑模型就可以了，不用重复寻找最优模型，加快查询效率。

专有逻辑模型是在一次查询关系确认后在内存中生成的逻辑映射。查询任务通过映射关系直接读取物理模型。如图6所示，为本发明实施例中，建立确定专有逻辑模型的示意图，找到最优模型后，建立逻辑映射关系，直接通过映射关系访问模型，价款查询任务效率。

同时，本发明还公开一种数据分析模型确定装置，包括：

本发明装置的实现方式由前述的方法的实现方式可知，在此不再赘述。

本发明通过输入查询分析参数(维度、度量)，系统经过模型支持系数评估，选取最优的模型组合，实现查询准确型和查询效率的最大化。如图7所示，为本发明实施方式的流程示意图。

模型寻找过程说明：

根据查询参数找到适合的模型范围。由于维度、度量进行了统一定义，所以任一种维度、度量的组合都可以找到相关模型范围；

在适合的模型范围内，根据本次查询的支持度系数找到最优模型。一组维度、度量的组合在各模型上会计算出查询支持度系数。

本发明的技术方案在传统的分析模型，彼此信息封闭，需要关联时通常要重新生成一个大模型，形成了很多冗余数据和额外的工作量。采用该技术，单个模型的能力可以形成全局能力的一部分，综合分析能力随着专题模型的增加自然增长，不需要进行大规模重构。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种报表数据分析模型确定方法，其特征在于，所述的方法包括：

接收用户输入的分析参数，并对所述分析参数进行统一编码；所述分析参数包括：维度、度量；

根据所述分析参数以及预先建立的分析模型与分析参数的映射关系确定相关分析模型；其中，所述映射关系是在对所述维度、度量进行编码形成统一集合后，在所述分析模型与所述编码之间建立的；

根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数；所述的模型属性参数包括：模型的时间粒度、记录数以及模型维度数量；所述模型访问记录参数包括：模型的最新访问日期、访问频度；所述的模型访问性能记录参数包括：访问读取数量、查询耗时历史记录；

确定支持度系数最高的模型为最优数据分析模型；

建立所述最优数据分析模型与模型筛选条件、所述维度及所述度量之间的逻辑映射关系；

当所述模型筛选条件发生改变且所述维度及所述度量不变时，根据所述逻辑映射关系及变化后的模型筛选条件直接确定所述最优数据分析模型。

2.如权利要求1所述的报表数据分析模型确定方法，其特征在于，所述的方法还包括：

3.如权利要求2所述的报表数据分析模型确定方法，其特征在于，所述根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数包括：

4.一种报表数据分析模型确定装置，其特征在于，所述的装置包括：

输入模块，用于接收用户输入的分析参数，并对所述分析参数进行统一编码；所述分析参数包括：维度、度量；

相关模型确定模块，用于根据所述分析参数以及预先建立的分析模型与分析参数的映射关系确定相关分析模型；其中，所述映射关系是在对所述维度、度量进行编码形成统一集合后，在所述分析模型与所述编码之间建立的；

支持度系数确定模块，用于根据预先存储的模型属性参数、模型访问记录参数以及模型访问性能记录参数确定各相关分析模型的模型支持度系数；所述的模型属性参数包括：模型的时间粒度、记录数以及模型维度数量；所述模型访问记录参数包括：模型的最新访问日期、访问频度；所述的模型访问性能记录参数包括：访问读取数量、查询耗时历史记录；

最优模型确定模块，确定支持度系数最高的模型为最优数据分析模型；建立所述最优数据分析模型与模型筛选条件、所述维度及所述度量之间的逻辑映射关系；当所述模型筛选条件发生改变且所述维度及所述度量不变时，根据所述逻辑映射关系及变化后的模型筛选条件直接确定所述最优数据分析模型。

5.如权利要求4所述的报表数据分析模型确定装置，其特征在于，所述的装置还包括：

6.如权利要求5所述的报表数据分析模型确定装置，其特征在于，所述支持度系数确定模块包括：

7.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3任一所述方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至3任一所述方法的计算机程序。