CN109325648A - 基于指标的多维度数据流统计方法、服务器及存储介质 - Google Patents
基于指标的多维度数据流统计方法、服务器及存储介质 Download PDFInfo
- Publication number
- CN109325648A CN109325648A CN201810721455.0A CN201810721455A CN109325648A CN 109325648 A CN109325648 A CN 109325648A CN 201810721455 A CN201810721455 A CN 201810721455A CN 109325648 A CN109325648 A CN 109325648A
- Authority
- CN
- China
- Prior art keywords
- various dimensions
- data
- index
- dimension
- combination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Educational Administration (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了提供一种基于指标的多维度数据流统计方法、服务器及存储介质,所述方法包括:从指标信息中获取目标指标信息;识别提取所述目标指标信息中的度量信息,根据所述目标指标度量信息匹配多个维度,形成指标多维度组合;通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对,获取交叉指标多维度结果表。本发明通过为目标指标匹配多维度,形成指标多维度组合,从而根据指标多维度组合在数据集市中申请指标多维度结果表,对申请到的指标多维度表进行交叉聚合,在提高申请多维度结果表效率的前提下,得到精度更高的指标多维度结果表。
Description
技术领域
本发明涉及数据统计领域,尤其涉及一种基于指标的多维度数据流统计方法、服务器及存储介质。
背景技术
随着移动网络的发展,传统的性能统计对象,已经不能满足企业用户进行精细化运营的要求,应运而生的用户行为分析成为企业用户的关注目标和提高赢利能力的基础。用户行为分析可以通过对用户的事件日志和媒体报文内容进行统计,这些事件日志和媒体报文所包含的内容远远超过传统的性能统计对象,在事件日志和媒体报文的基础上进行统计和分析,能够对系统性能、用户行为等一系列指标进行深层分析,获得更有价值的信息。
在用户行为的分析应用中,企业用户需要能够从多个维度或组合维度、多指标对用户行为进行分析。
现有技术中以单个用户的行为为基础进行逐一统计和分析数据工作,不仅繁琐,而且导致分析效率低。
发明内容
本发明的目的是针对上述现有技术存在的缺陷,提供一种基于指标的多维度数据流统计方法、服务器及存储介质。
本发明采用的技术方案是,首先提供一种基于指标的多维度数据流统计方法,所述方法包括:
从指标信息中获取目标指标信息;
识别提取所述目标指标信息中的度量信息,根据所述目标指标度量信息匹配多个多维度组合,形成指标多维度组合;
通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对,获取交叉指标多维度结果表。
优选的,所述根据所述目标指标的度量信息匹配多个多维度组合,形成指标多维度组合包括:
根据所述目标指标度量信息在维度上的分布密度,获取定数个分布密度较高的维度进行组合,得到多个多维度组合,依据对多维度组合进行筛选匹配;
将匹配到的多个多维度组合与所述目标指标进行关联,形成多个所述指标多维度组合。
通过所述目标指标度量信息与多维度的属性相关度来对多维度进行筛选匹配,可以极大减少对多维度的筛选工作,从而提高匹配速度。另外,通过根据所述目标指标度量信息在维度上的分布密度获取到的维度属性具有一定的有序性,可通过此有序性对维度属性进行一个优先级排序。
优选的,所述方法还包括:
为所述多维度组合进行辨识标号,获得多维度组合标号;
对所述多维度组合中的各个维度进行辨识标号,与所述多维度组合标号进行关联获得维度标号。
通过对所述维度组合进行辨识标号,可以使得所述多维度组合更容易被识别,同时,更加便于所述维度组合在数据仓库中的存储及提取。同理,对所述多维度组合中的各个维度进行辨识标号也是一样的。
优选的,所述将匹配到的多维度与所述目标指标进行关联,形成指标多维度组合还包括:
根据所述多维度中各维度下的粒度的选取热度,按热度相关为多维度匹配各自的粒度;
将所述多维度的粒度关联到所述指标多维度组合;
为所述粒度进行辨识标号,与所述维度标号进行关联获得粒度标号。按粒度的选取热度进行匹配,选出热度高的粒度,可以提高粒度的匹配速度。
优选的,所述通过指标多维度组合从数据集市中申请指标多维度结果表之前,所述方法还包括:
从数据仓库中筛选有效数据构建数据集市;
通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表,根据筛选出的事实表及多维度表构建数据集市;
对数据集市中的数据进行管理包括事实表管理和多维度表管理;
根据不同维度属性及指标信息在所述数据集市中预设多个指标多维度结果表。构建数据集市,可以直接通过数据集市进行数据提取,以数据集市做为数据中转,可以提高数据提取的速度,并极大增加了数据提取的效率及精度。
优选的,在所述通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表之前包括:
从所述数据仓库中的提取维度表中的数据,根据所述维度表的数据,多次获取定数个维度数据进行组合,形成多个多维度组合数据;
根据所述多个多维度组合数据,形成多维度组合表数据及多维度组合表。
所述事实表用于提取所述目标指标的指标数据,所述维度表中提取所述多维度中的单个维度数据,使得单个维度数据具有组合基础。
优选的,所述通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表包括:
将所述多维度组合关联到所述数据仓库中的所述多维度组合表,并将所述多维度组合与所述多维度组合表进行对比筛选,得到构建所述数据集市所需要的多维度表;
根据事实表与多维度表进行聚合计算,得到指标多维度结果表,并存储在所述数据集市。
优选的,在所述根据事实表与多维度表进行聚合计算的同时,所述方法还包括:
为所述数据仓库中维度表中的维度数据进行标号,维度数据的标号与所述维度标号相对应;
在所述数据仓库中根据事实表与维度表进行聚合计算,得到指标维度表,根据所述指标维度表中的维度属性为所述指标维度表配置一个与所述维度标号相对应的指标维度标号。所述多个指标多维度结果表对应多个指标多维度组合,将指标多维度结果表预设好后,可以根据指标多维度组合直接进行调用,提高了申请结果表的速度。
其次,还提供一种服务器,包括处理器及存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项所述的基于指标的多维度数据流统计方法。
最后,还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项所述的基于指标的多维度数据流统计方法。
与现有技术相比,本发明至少具有以下有益效果:本发明通过为目标指标匹配多个维度,形成指标多维度组合,从而根据指标多维度组合在数据集市中申请指标多维度结果表,对申请到的指标多维度表进行交叉聚合,在提高申请多维度结果表效率的前提下,得到精度更高的指标多维度结果表。
附图说明
图1为本发明实施例的实施环境示意图;
图2为本发明实施例的方法流程图;
图3为本发明实施例的匹配多维度的方法流程图;
图4为本发明实施例的形成指标多维度组合方法流程图;
图5为本发明实施例的维度标号方法流程图;
图6为本发明实施例的粒度选取方法示意图;
图7为本发明实施例的数据集市构建流程图;
图8为本发明实施例的数据集市维度表构建流程图;
图9为本发明实施例的数据筛选方法示意图;
图10为本发明实施例聚合计算方法流程图。
具体实施方式
下面结合附图和实施例对本发明做进一步说明。
本发明首先提供一种基于指标的多维度数据流统计方法、服务器及存储介质。
如图1所示,本发明采用的技术方案是,首先提供一种基于指标的多维度数据流统计方法的实施环境,所述方法的实施环境包括:终端,所述终端可以是智能手机、智能机器人、平板及电脑等智能设备,但需要说明的是,所述终端并不限制于以上的智能手机、智能机器人、平板及电脑等智能设备,所述终端内置有指标拾取模块、数据提取模块及结果展示模块。除了终端外,所述实施环境还包括提供数据基础的数据仓库1b,基于所述数据仓库中的数据形成的数据集市2b,用于请求数据和计算数据的应用层3b及用于展示数据的展示层4b。
为更好示意本发明实施例的发明意图,所述实施环境可以具体为企业报表展示,部门人员向上级展示报表时,可以通过所述终端(比如手机)上进行展示。所述终端可以通过企业设置的数据仓库1b提取相关数据,根据维度及指标的数据构建表格,并在终端上将所述表格进行展示。
做为一种可能实施的环境,所述终端还可以通过云数据库提取相关数据做为数据源,根据提取的数据源构建企业数据仓库1b,再根据所述数据仓库中的数据构建数据集市2b。
如图2所示,所述基于指标的数据流统计方法包括步骤:
S11、从指标信息中获取目标指标信息;通过所述终端指标拾取模块从指标中拾取出目标指标,并获取目标指标的信息,所述目标指标的信息可以是人数、销售额等信息。
进一步的,为更容易的拾取目标指标,所述指标信息可以是在终端上设置的标签或标签集群,通过拾取目标标签获取目标指标信息,所述不同的标签对应不同的指标,并将所述标签关联到指标维度关系中。这样的设置,可以使指标信息直观化的展现在终端上,方便拾取。
做为一种可能实施的拾取目标指标方式,所述指标的拾取还可以采用语音进行,在所述终端内设置有语音识别模块,通过语音识别模块对语音中的关键词进行识别,从而获取目标指标,当然,所述关键词的语义与所述指标信息相关联。比如对终端输入“我想看访问量报表”中的关键词为“访问量”,其语义被识别后对应的指标为“访问量”,那么拾取访问量为目标指标。
S12、识别提取所述目标指标信息中的度量信息,根据所述目标指标度量信息匹配多个多维度组合,形成指标多维度组合;
进一步的,所述度量信息中包含有所述目标指标数据的结构及单位,可以为所述目标指标匹配到更精准的维度。需要说明的,因为一个指标所对的维度不止一个,比如用户数量增加指标可以对应的维度包括:时间维度、地域维度等,所以与所述目标指标度量信息匹配的单个属性的维度不止一个,因此,形成指标多维度组合也不止一个,但在这些组合中,目标指标始终不变,还是用户数量增加做为目标指标。
举例来说,目标指标信息中的度量信息是访问人数度量,通过这个访问人数,可以匹配到某个时间的访问人数,也可以匹配到某个地方的访问人数,甚至是可以匹配到某个年龄段的访问人数。
总的来说,当需要对访问人数做一个报表时,可以以访问人数为指标,对终端发出指令,使终端获取目标指标信息为访问人数,但由于没有指定维度属性,所以需要对所述目标指标信息进行一个关联分析,即是提取目标指标信息中的度量信息,上述例子中访问人数的度量信息为人数,那么就可以根据人数来匹配一个可以分布人数的维度属性,用于分布人数最常用的是时间及地域,也就是说,时间和地域与访问人数的关联度最高,可以进行组合后形成时间与地域的多维度组合,做为第一优先级进行匹配,一些关联度较低的,比如爱好、产品等维度可以做为第二优先级,当然,还有关联度更低的第三优先级及第四优先级。
进一步的,形成的多维度组合可以是时间及地域两个维度组合而成的多维度组合,也可以是时间、地域及产品种类三个维度组合而成的多维度组合。
在匹配多维度属性后,可以形成指标多维度组合,进行申请与指标多维度组合对应的指标多维度结果表。
所述指标与多维度之间的关系可以预设在所述数据仓库中的指标多维度组合表中,当然,为更快速的获取指标多维度组合,所述指标多维度组合还可以预设在所述终端内的指标多维度组合表中。
S13、通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对,获取交叉指标多维度结果表。
进一步的,配置多个数据集市,通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对的过程中,为使所述指标多维度结果表的相关度较高,可以采用相关度较高的多个数据集市进行申请。
做为一种可能的实施例,在需要检查所述指标多维度结果表的通用度时,可以采用相关度不高的多个数据集市进行申请,进而可以检查所述指标多维度结果表是否在所述多个数据集市中通用。
为了使数据范围更清楚,所述指标多维度结果表可以是预设在所述数据集市内的数据多面体,所述数据多面体包括有维度说明数据、指标事实数据及指标多维度模型数据。
做为一种可能的实施例,为了有效降低数据集市的存储压力,所述指标多维度表可以设置在所述数据仓库中,所述数据集市用于存储所述指标多维度结果表的索引目录表,所述索引目录表根据所述指标多维度结果表在所述数据仓库中的存储区域设置。进一步的,因为指标多维度结果表中包含有大量的数据信息,为了数据安全,在所述数据仓库中的所述存储区域设置有相应的第一权限锁。所述索引目录表中设置有调用所述数据仓库相应存储区的第一权限密钥及第二权限锁,第二权限密钥为用户的特征信息。所述第二权限密钥用于打开设置在所述数据集市中的第二权限锁,验证用户是否有权使用所述数据集市中的所述索引目录表,所述第一权限密钥用于打开设置在所述数据仓库中的第一权限锁,验证所述索引目录表是否有权限访问所述数据仓库中对应的数据存储区,比如,经过特征信息进行权限认证有权的用户,可以调用所述数据集市中的索引目录表对指标多维度结果表从所述数据仓库进行提取申请,在数据仓库中所述索引目录经过权限认证有权,可以从所述数据仓库中相应的存储区内提取所述指标多维度结果表。
当然,也可以只设置针对用户的权限认证,所述数据集市中索引目录通过一映射规则映射到所述数据仓库中相应的存储区。
需要说明的是,一个目标指标会对应多个维度,从而形成多个指标多维度组合,进而会向数据集市申请多个指标多维度结果表,比如,一个目标指标对应L个维度,L个维度可形成N个多维度组合,即存在N个指标多维度组合,向M个数据集市申请的指标多维度结果表数量为S=N*M个。
进一步的,为使结果的精度更高,在对所述指标多维度结果表进行交叉对比时可以包括:在相同多维度属性的前提下,因为目标指标是不会改变的,对不同数据集市中申请的相同多维度属性及粒度的指标多维度结果表进行交叉对比,获取交叉对比的结果。
更进一步的,所述交叉对比的结果可以是多个指标多维度结果表的交集,使所述维度指标结果表的精度得到极大的提升。
做为一种可能的实施例,需要在对数据进行模糊处理时,所述交叉对比的结果也可以是多个指标多维度结果表的并集,使所述指标多维度结果表的涵盖范围更大。
做为一种可能的实施例,在获取维度指标结果表时,有时候需要从多维指标结果表中获取部分指标多维度结果甚至是单维度指标结果,可以通过数据仓库或数据集市中预设的逻辑运算表在所述维度指标结果表中孤立某个维度指标结果或某部分指标多维度结果。进一步的,还可以对维度的属性进行标号,在指标多维度结果表申请出来时,通过终端显示维度的属性,在选择维度的属性后,转换成对应的维度属性的标号,用标号替换维度属性的数据流,可以降低在聚合或孤立的运算过程中数据流的流量压力。当然,在数据仓库中或数据集市中的存储的维度属性的数据也对应设置有相应的标号数据。
在本实施例中,需要说明的是,所述通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对的步骤中,为更快速的获取所述指标多维度表,所述指标多维度结果表可以预设在所述数据集市中。
为了更清楚地说明本发明实施例,需要对所述指标多维度结果表的预设进一步的说明,根据不同的指标与不同的维度属性间进行排列组合后,形成维度指标关系表和指标多维度关系表,根据指标的不同在数据事实表中提取到相应的事实数据,根据维度的不同在维度表和多维度表中提取到相应的维度数据,将所述事实数据与维度数据写入所述维度指标关系表和指标多维度关系表中分别形成维度指标结果表与指标多维度结果,并在所述数据集市中分别设置关于所述维度指标结果表和指标多维度结果表的分类索引目录。
如图3所示,在本发明实施例中,所述根据所述目标指标的度量信息匹配多个多维度组合,形成指标多维度组合包括包括步骤:
S21、根据所述目标指标度量信息在维度上的分布密度,获取定数个分布密度较高的维度进行组合,得到多个多维度组合,依据对多维度组合进行筛选匹配;需要说明的是,所述度量信息可分为绝对度量及相对度量,所述度量信息可以分为绝对数度量和相对数度量,所述绝对数度量反映的是规模大小的指标,如人口数、GDP、收入、用户数,而相对数度量主要用来反映质量好坏的指标,如利润率、留存率、覆盖率等。也可以说,指标分为绝对数指标和相对数指标,所述绝对数指标为聚合数据,比如人口数、GDP、收入、用户数在时间、地点、范围的聚合数据,所述相对数指标为在绝对数指标的聚合数据基础上的再加工聚合得到,比如利润率、留存率、覆盖率等,在一个利润率公式:利润率=利润÷成本×100%中,利润为一个绝对数指标,成本也为一个绝对数指标,利润率数据为利润数据与成本数据的聚合。
进一步的,在所述对多维度进行筛选匹配的步骤中,根据所述目标指标度量信息在维度上的分布密度获取定数个分布密度较高的维度进行组合,所述目标指标度量信息在维度上的分布密度即可表现出所述目标指标与各维度的相关度,换句话来说,一个度量信息在某个维度上相比于其他维度而言分布的越多,其在该维度上的密度就越大,该维度与所述目标指标的相关度就越大,在指标度量信息中,包括度量值与度量单位,从这些度量值与度量单位的信息可以筛选出相关度较大的多维度。比如,所述指标度量信息为利润率,那么可以筛选出与利润率指标相关度较大的如时间维度、地点维度、产品维度等进行匹配。
在一些可能的实施例中,所述指标度量信息与多维度的属性相关度可以从用户的事件日志中提取,具体而言,通过机器学习,分析事件日志中的指标度量信息与维度被提取的次数,获取目标指标度量条件下的提取次数在范围内的维度。
通过所述目标指标度量信息与多维度的属性相关度来对多维度进行筛选匹配,可以极大减少对多维度的筛选工作,从而提高匹配速度。另外,通过根据所述目标指标度量信息在维度上的分布密度获取到的维度属性具有一定的有序性,可通过此有序性对维度属性进行一个优先级排序。
S22、将匹配到的多个多维度组合与所述目标指标进行关联,形成多个所述指标多维度组合。
进一步的,通过预设的指标多维度组合表,将匹配到的多维度与所述目标指标进行关联,形成指标多维度组合。为了更快速的获取所述指标多维度组合,可以将所述指标多维度组合表预设在所述终端内,从而直接在所述终端内确定所述目标指标与多维度的组合关系,形成指标多维度组合。
做为一种可能的实施例,所述指标多维度组合表预设在所述数据集市中,通过将所述指标多维度组合映射到所述数据集市中的所述指标多维度组合表中,从而提取出指标多维度组合。这样可以降低所述终端的存储压力。
如图4所示,在本发明实施例中,所述根据所述目标指标的度量信息匹配多个多维度组合,形成指标多维度组合包括步骤:
S31、根据所述目标指标度量信息在维度上的分布密度,获取定数个分布密度较高的维度进行组合,得到多个多维度组合,依据对多维度组合进行筛选匹配。
S32、将匹配到的多个多维度组合与所述目标指标进行关联,形成多个所述指标多维度组合。
如图5所示,在本发明实施例中,所述方法还包括步骤:
S41、为所述多维度组合进行辨识标号,获得多维度组合标号。需要说明的是,所述多维度组合在终端上进行展示,通过所述多维度组合标号在终端与数据仓库或数据集市间形成数据流,在数据仓库中或数据集市中的存储的维度属性的数据也对应设置有相应的标号数据。
S42、对所述多维度组合中的各个维度进行辨识标号,与所述多维度组合标号进行关联获得维度标号。值得一提的是,所述维度标号是在所述多维度组合标号的基础上进行标号,在对指标多维度结果表进行聚合或孤立的运算过程中数据流的流量压力。
不仅如此,通过对所述维度组合进行辨识标号,可以使得所述多维度组合更容易被识别,同时,更加便于所述维度组合在数据仓库中的存储及提取。同理,对所述多维度组合中的各个维度进行辨识标号也是一样的。
如图6所示,在本发明实施例中,所述将匹配到的多维度与所述目标指标进行关联,形成指标多维度组合还包括步骤:
S51、根据所述多维度中各维度下的粒度的选取热度,按热度相关为多维度匹配各自的粒度。按粒度的选取热度进行匹配,选出热度高的粒度,可以提高粒度的匹配速度。需要说明的是,粒度是维度下的一个数据计算单位,数据的粒度主要针对指标数据的计算范围,以地点维度为例,如人口这个数据项在统计部门是以街区范围还是一个社区为范围统计的。人口数据细化程度越高,粒度级就越小,比如以社区为粒度对人口数据进行统计的范围就大于以居民楼为粒度对人口数据进行统计的范围;相反,细化程度越低,粒度级就越大。
进一步的,在根据所述目标指标度量信息与多维度的属性相关度,对多维度进行筛选匹配后,确定各维度的属性,在所述维度的粒度中进行筛选,筛选出相关热度较高的粒度进行。具体的粒度筛选可以是提取在所述维度属性下常用的粒度单位,并分析这些常用的粒度单位中被提取的次数,进行为这些常用的粒度单位配置优先级,根据优先级将粒度匹配到维度中。
在一些可能的实施例中,粒度的筛选还可以是根据时间来进行的,具体的,在从指标信息中获取目标指标信息的步骤中,同时获取当时的时间信息,根据获取所述当时的时间信息对粒度进行匹配。比如,在获取到当时的时间是某月一号,可能要做的报表是关于前面一个月中各周的各种报表,那么可以匹配“周”为粒度;又比如,在获取到所述当时的时间是十二月某号,可能要做的是年度报表,即是关于前面几个月的各种报表,那么可以匹配“月”为粒度。
在另一些可能的实施例中,粒度的筛选还可以通过结合用户的事件日志及时间来进行,具体的,在从指标信息中获取目标指标信息的步骤中,同时获取用户的事件日志信息,在所述用户的事件日志信息中提取相关时间的具体行为属性,通过所述具体行为属性来对粒度进行匹配。在此可能的实施例中,需要说明的是,所述相关时间是在一定的时间周期中进行关联的时间点,比如在某月一号获取目标指标信息,以月为周期,获取上月一号的所述用户的事件日志,并从当日的所述用户的事件日志信息中提取当日用户的具体行为属性,即在上个月的这天,用户做了一些什么表,从这些表中获取粒度信息,从而匹配相应的粒度。
当然,在时间点与周期的设置上,由于报表可能需要提前做,或者报表展示日延迟后推等情况的发生,可以对所述时间点设置一个模糊阈值,比如,所述模糊阈值可以时间点的前后两天,即获取上月一号及其的前后两天的所述用户的事件日志,并从这几天的事件日志信息中提取当日用户的具体行为属性,从而匹配相应的粒度。
S52、将所述多维度的粒度关联到所述指标多维度组合。将粒度关联到所述指标多维度组合中,使得指标数据可以被维度更好的描述。
进一步的,将所述多维度的粒度关联到所述指标多维度组合包括步骤:
根据多维度属性,在所述数据仓库中设置多维度表,根据不同的属性,在所述多维度表的下方设置粒度子表,所述粒度子表中存储有关于粒度的数据,从所述粒度表中提取相关的粒度数据,映射到所述指标维度组合中进行分布。
在一些可能的实施例中,所述多维度表及粒度子表设置在所述终端内以目录的形式存储,所述多维度表内的关于多维度的数据及所述粒度子表内的关于粒度的数据设置在数据仓库之中,可以根据终端内的多维度表及粒度子表对数据仓库之中的数据进行申请,在提高形成指标多维度组合速度的前提下,还能降低所述终端的存储压力。
在另一些可能的实施例中,所述多维度表及粒度子表可以配置在所述数据集市中,在所述数据集市中将所述粒度关联到所述指标多维度组合的速度比之于在所述数据仓库中将所述粒度关联到所述指标多维度组合的速度要快,所述数据集市的存储能力比之于所述终端的存储能力要更优秀。
当然,结合上述的实施例,所述多维度表及粒度子表还可以配置在所述终端中,所述多维度表内的关于多维度的数据及所述粒度子表内的关于粒度的数据配置在所述数据集市之中。
S53、为所述粒度进行辨识标号,与所述维度标号进行关联获得粒度标号。值得一提的是,所述这粒度标号是在所述维度标号基础上得到的,在指标多维度结果表申请出来时,通过终端显示粒度的属性,在选择粒度的属性后,转换成对应的粒度属性的标号,用标号替换粒度属性的数据流,可以降低在聚合或孤立的运算过程中数据流的流量压力。当然,在数据仓库中或数据集市中的存储的粒度属性的数据也对应设置有相应的标号数据。
如图7所示,在本发明实施例中,在所述通过指标多维度组合从数据集市中申请指标多维度结果表之前,所述方法还包括步骤:
S61、从数据仓库中筛选有效数据构建数据数据集市。构建数据数据集市,可以直接通过数据集市进行数据提取,以数据集市做为数据中转,可以提高数据提取的速度,并极大增加了数据提取的效率及精度。
进一步的,为更快地获取到指标多维度结果表,可以根据数据的类型及所述构建的数据集市的要求,在所述数据集市中对所述指标多维度结果表进行申请;在所述数据仓库中提取相关的数据做为数据源,根据提取到的数据源构建相应的数据集市。
为使提取的数据更加精准,可以对所述数据集市中的数据进行对比,具体的,将同一个指标多维度表分别在所述数据仓库及所述数据集市中进行申请,对比申请到的指标多维度结果表中的数据。
需要说明的是,所述数据集市相当于一个用于数据中转的数据仓库,相较于所述数据仓库而言,所述数据集市的数据针对性较强,数据查找范围也较小,所以在提取数据时速度会比较快。
S62、通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表,根据筛选出的事实表及多维度表构建数据集市。可以在所述事实表中提取所述目标指标的指标数据,可以在维度表中提取所述维度的维度数据。
需要说明的是,所述事实表及维度表是所述数据仓库中的数据载体,所述事实表存储有关于指标的度量数据,所述维度表存储有关于维度的说明数据。
进一步的,为获取想要的数据,可以在所述数据仓库中提取相关的数据,用提取出的数据在所述数据集市中构建事实表及维度表。
更进一步的,将维度表中的各个维度数据提取出来,构建成多维度组合表,根据所述多维度组合表与所述事实表进行聚合,可以得到指标多维度结果表,对所述指标多维度结果表进行筛选,可以得到符合条件的指标多维度结果表并存储在所述数据集市中。
在一些可能的实施例中,所述事实表及维度表可以直接从所述数据仓库中进行提取,这样可以使所述数据集市的构建更加快速,还能避免在构建所述数据集市时数据缺失。
S63、对数据集市中的数据进行管理包括事实表管理和维度表管理。
进一步的,对所述事实表管理包括事实表数据更新,增加或删除事实表中的数据类型;对所述维度表管理包括,增加或删除维度表中的事实数据。需要说明的是,所述事实表及维度表是制成所述指标多维度结果表的关键。
在一些可能的实施例中,所述数据集市中的数据只是关于所述指标多维度结果表的数据,而没有设置相关的事实表和维度表,所述指标多维度结果表中数据来源于数据仓库,所述事实表及所述维度表的数据在所述数据仓库中进行聚合,形成指标多维度结果表,所述数据集市根据需要,直接从所述数据仓库中提取所述指标多维度结果表进行存储,也就是说,此实施例中的数据集市只负责存储经过聚合的指标多维度结果表,并配置索引目录,在所述终端根据目标指标信息和维度形成的指标多维度组合对所述数据集市进行请求时,直接提取所述指标多维度结果表,无需在所述数据集市中对数据进行聚合。
S64、根据不同多维度属性及指标信息在所述数据集市中预设多个指标多维度结果表。所述多个指标多维度结果表对应多个指标多维度组合,将指标多维度结果表预设好后,可以根据指标多维度组合直接进行调用,提高了申请结果表的速度。
进一步的,在所述数据集市中预设多个指标多维度结果表的规则可以是将不同维度属性的维度及不同类型的指标进行排列组合,得到要要预设的所述多个指标多维度结果表。需要说明的是,在预设所述多个指标多维度结果表后,还要在所述多个指标多维度结果表中写入相关的数据及说明;所述相关的数据为所述指标的事实表数据,所述说明是在所述维度上对所述指标数据的说明数据。
在一些可能的实施例中,为降低所述数据集市的存储压力,所述相关的数据及说明可以在所述终端发出申请后,从所述数据仓库中再行提取。
如图8所示,在本发明实施例中,在所述通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表之前包括步骤:
S71、从所述数据仓库中的提取维度表中的数据,根据所述维度表的数据,多次获取定数个维度数据进行组合,形成多个多维度组合数据;需要说明的是,所述定数个维度数据的数量可以是预设的数量,也可以是临时添加的数量。比如,预设的数量为五个维度,根据所述目标指标度量信息在维度上的分布密度,多次获取五个分布密度较高的维度进行组合,得到多个五维度组合,而所述多个五维度组合在数据仓库或数据集市中,则是以数据的形式进行存储,也就是用于描述多个五维度组合的五维度组合数据,五维度组合与王维度组合数据之间存在一个映射关系。
S72、根据所述多个多维度组合数据,形成多维度组合表数据及多维度组合表。需要说明的是,所述多维度组合表聚合了多个多维度组合数据,所述多维度组合表数据用于说明所述多维度组合表,所述多维度组合表数据与所述多维度组合表之间存在一映射关系。
如图9所示,在本发明实施例中,所述通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表包括步骤:
S81、将所述多维度组合关联到所述数据仓库中的所述多维度组合表,并将所述多维度组合与所述多维度组合表进行对比筛选,得到构建所述数据集市所需要的多维度表。
进一步的,为降低所述数据集市的存储压力,所述数据集市所需要的多维度表中的数据可以是多维度组合标号;当然,为了方便对指标多维度结果表的聚合或孤立计算,所述数据集市所需要的多维度表中的数据可以是以维度标号为基础而形成的数据;另外,为进一步提高对指标多维度结果表的聚合或孤立计算的精度,所述数据集市所需要的多维度表中的数据还可以是以粒度标号为基础形成的数据。
S82、根据事实表与多维度表进行聚合计算,得到指标多维度结果表,并存储在所述数据集市。所述事实表用于提取所述目标指标的指标数据,所述维度表中提取所述多维度中的单个维度数据,使得单个维度数据具有组合基础。
如图10所示,在本发明实施例中,在所述根据事实表与多维度表进行聚合计算的同时,所述方法还包括步骤:
S91、为所述数据仓库中维度表中的维度数据进行标号,维度数据的标号与所述维度标号相对应。
需要说明的是,所述维度数据的标号是用于辨识维度数据的,所述维度标号是用于辨识维度属性的,所述维度数据的标号是在元数据层的层面进行,是说明数据的数据,所述维度标号可以在数据仓库中进行,是数据的一部分。
S92、在所述数据仓库中根据事实表与维度表进行聚合计算,得到指标维度表,根据所述指标维度表中的维度属性为所述指标维度表配置一个与所述维度标号相对应的指标维度标号。所述多个指标多维度结果表对应多个指标多维度组合,将指标多维度结果表预设好后,可以根据指标多维度组合直接进行调用,提高了申请结果表的速度。
其次,还提供一种服务器,包括处理器及存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项所述的基于指标的多维度数据流统计方法。
所述服务器中的处理器可以是计算芯片,用以计算处理数据库中的维度数据和指标数据的聚合,所述存储器可以是:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的存储装置。
最后,还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述任一项所述的基于指标的多维度数据流统计方法。
所述计算机可读存储介质包括:U盘、只读存储器(ROM)、随机存取存储器(RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述实施例仅用于说明本发明的具体实施方式。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和变化,这些变形和变化都应属于本发明的保护范围。
Claims (10)
1.一种基于指标的多维度数据流统计方法,其特征在于,所述方法包括:
从指标信息中获取目标指标信息;
识别提取所述目标指标信息中的度量信息,根据所述目标指标度量信息匹配多个多维度组合,形成指标多维度组合;
通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对,获取交叉指标多维度结果表。
2.如权利要求1所述的基于指标的多维度数据流统计方法,其特征在于,所述根据所述目标指标的度量信息匹配多个多维度组合,形成指标多维度组合包括:
根据所述目标指标度量信息在维度上的分布密度,获取定数个分布密度较高的维度进行组合,得到多个多维度组合,依据对多维度组合进行筛选匹配;
将匹配到的多个多维度组合与所述目标指标进行关联,形成多个所述指标多维度组合。
3.如权利要求2所述的基于指标的多维度数据流统计方法,其特征在于,所述方法还包括:
为所述多维度组合进行辨识标号,获得多维度组合标号;
对所述多维度组合中的各个维度进行辨识标号,与所述多维度组合标号进行关联获得维度标号。
4.如权利要求3所述的基于指标的多维度数据流统计方法,其特征在于,所述将匹配到的多维度与所述目标指标进行关联,形成指标多维度组合还包括:
根据所述多维度中各维度下的粒度的选取热度,按热度相关为多维度匹配各自的粒度;
将所述多维度的粒度关联到所述指标多维度组合;
为所述粒度进行辨识标号,与所述维度标号进行关联获得粒度标号。
5.如权利要求1-4任一所述的基于指标的多维度数据流统计方法,其特征在于,所述通过指标多维度组合从多个数据集市中申请指标多维度结果表进行交叉比对,获取最接近的指标多维度结果表之前,所述方法还包括:
从数据仓库中筛选有效数据构建数据集市;
通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表,根据筛选出的事实表及多维度表构建数据集市;
对数据集市中的数据进行管理包括事实表管理和多维度表管理;
根据不同维度属性及指标信息在所述数据集市中预设多个指标多维度结果表。
6.如权利要求5所述的基于指标的多维度数据流统计方法,其特征在于,在所述通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表之前包括:
从所述数据仓库中的提取维度表,根据所述维度表的数据,多次获取定数个维度数据进行组合,形成多个多维度组合数据;
根据所述多个多维度组合数据,形成多维度组合表数据及多维度组合表。
7.如权利要求6所述的基于指标的多维度数据流统计方法,其特征在于,所述通过多维度的属性对所述数据仓库中的数据进行筛选,进而筛选出构建所述数据集市所需的事实表及多维度表包括:
将所述多维度组合关联到所述数据仓库中的所述多维度组合表,并将所述多维度组合与所述多维度组合表进行对比筛选,得到构建所述数据集市所需要的多维度表;
根据事实表与多维度表进行聚合计算,得到指标多维度结果表,并存储在所述数据集市。
8.如权利要求7所述的基于指标的多维度数据流统计方法,其特征在于,在所述根据事实表与多维度表进行聚合计算的同时,所述方法还包括:
为所述数据仓库中维度表中的维度数据进行标号,维度数据的标号与所述维度标号相对应;
在所述数据仓库中根据事实表与维度表进行聚合计算,得到指标维度表,根据所述指标维度表中的维度属性为所述指标维度表配置一个与所述维度标号相对应的指标维度标号。
9.一种服务器,其特征在于,包括处理器及存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8中任一项所述的基于指标的多维度数据流统计方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至8中任一项所述的基于指标的多维度数据流统计方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810721455.0A CN109325648A (zh) | 2018-06-29 | 2018-06-29 | 基于指标的多维度数据流统计方法、服务器及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810721455.0A CN109325648A (zh) | 2018-06-29 | 2018-06-29 | 基于指标的多维度数据流统计方法、服务器及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109325648A true CN109325648A (zh) | 2019-02-12 |
Family
ID=65263618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810721455.0A Pending CN109325648A (zh) | 2018-06-29 | 2018-06-29 | 基于指标的多维度数据流统计方法、服务器及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325648A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377668A (zh) * | 2019-06-18 | 2019-10-25 | 深圳市华傲数据技术有限公司 | 数据分析方法和系统 |
CN111949743A (zh) * | 2020-07-31 | 2020-11-17 | 上海中通吉网络技术有限公司 | 网点运营数据获取方法、装置及设备 |
CN112307041A (zh) * | 2020-10-29 | 2021-02-02 | 山东浪潮通软信息科技有限公司 | 指标维度建模方法、装置和计算机可读介质 |
WO2021139427A1 (zh) * | 2020-07-23 | 2021-07-15 | 平安科技(深圳)有限公司 | 大数据指标构建方法、装置、设备及存储介质 |
CN114490667A (zh) * | 2022-02-15 | 2022-05-13 | 平安国际智慧城市科技股份有限公司 | 多维度的数据分析方法、装置、电子设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1508728A (zh) * | 2002-12-18 | 2004-06-30 | �Ҵ���˾ | 使用元数据在关系数据库中创建多维数据集的方法和系统 |
CN104361137A (zh) * | 2014-12-10 | 2015-02-18 | 用友软件股份有限公司 | 报表取数条件生成装置和方法 |
CN104657412A (zh) * | 2013-11-21 | 2015-05-27 | 商业对象软件有限公司 | 用于指定和实现目标的推荐系统 |
CN104933112A (zh) * | 2015-06-04 | 2015-09-23 | 浙江力石科技股份有限公司 | 分布式互联网交易信息存储处理方法 |
CN105354272A (zh) * | 2015-10-28 | 2016-02-24 | 中通服公众信息产业股份有限公司 | 一种基于维度组合的指标计算方法和系统 |
CN106776834A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于指标的数据分析自取数方法及系统 |
-
2018
- 2018-06-29 CN CN201810721455.0A patent/CN109325648A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1508728A (zh) * | 2002-12-18 | 2004-06-30 | �Ҵ���˾ | 使用元数据在关系数据库中创建多维数据集的方法和系统 |
CN104657412A (zh) * | 2013-11-21 | 2015-05-27 | 商业对象软件有限公司 | 用于指定和实现目标的推荐系统 |
CN104361137A (zh) * | 2014-12-10 | 2015-02-18 | 用友软件股份有限公司 | 报表取数条件生成装置和方法 |
CN104933112A (zh) * | 2015-06-04 | 2015-09-23 | 浙江力石科技股份有限公司 | 分布式互联网交易信息存储处理方法 |
CN105354272A (zh) * | 2015-10-28 | 2016-02-24 | 中通服公众信息产业股份有限公司 | 一种基于维度组合的指标计算方法和系统 |
CN106776834A (zh) * | 2016-11-28 | 2017-05-31 | 中通服公众信息产业股份有限公司 | 一种基于指标的数据分析自取数方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377668A (zh) * | 2019-06-18 | 2019-10-25 | 深圳市华傲数据技术有限公司 | 数据分析方法和系统 |
WO2021139427A1 (zh) * | 2020-07-23 | 2021-07-15 | 平安科技(深圳)有限公司 | 大数据指标构建方法、装置、设备及存储介质 |
CN111949743A (zh) * | 2020-07-31 | 2020-11-17 | 上海中通吉网络技术有限公司 | 网点运营数据获取方法、装置及设备 |
CN112307041A (zh) * | 2020-10-29 | 2021-02-02 | 山东浪潮通软信息科技有限公司 | 指标维度建模方法、装置和计算机可读介质 |
CN114490667A (zh) * | 2022-02-15 | 2022-05-13 | 平安国际智慧城市科技股份有限公司 | 多维度的数据分析方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109325648A (zh) | 基于指标的多维度数据流统计方法、服务器及存储介质 | |
CN109189861A (zh) | 基于指标的数据流统计方法、服务器及存储介质 | |
US10459940B2 (en) | Systems and methods for interest-driven data visualization systems utilized in interest-driven business intelligence systems | |
US20230031926A1 (en) | Method, medium, and system for surfacing recommendations | |
US10504120B2 (en) | Determining a temporary transaction limit | |
US9858326B2 (en) | Distributed data warehouse | |
US8983914B2 (en) | Evaluating a trust value of a data report from a data processing tool | |
CN107766568A (zh) | 使用列式数据库中的直方图进行有效查询处理 | |
CN107729519B (zh) | 基于多源多维数据的评估方法及装置、终端 | |
US20180336459A1 (en) | Unstructured key definitions for optimal performance | |
CN111079009A (zh) | 一种用于政务地图服务的用户兴趣检测方法及系统 | |
CN112818162A (zh) | 图像检索方法、装置、存储介质和电子设备 | |
CN109241197A (zh) | 指标展示的数据处理方法、服务器及存储介质 | |
CN114693409A (zh) | 产品匹配方法、装置、计算机设备、存储介质和程序产品 | |
CN110059749B (zh) | 重要特征的筛选方法、装置及电子设备 | |
CN116186119A (zh) | 用户行为分析方法、装置、设备及存储介质 | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
CN109241048A (zh) | 用于数据统计的数据处理方法、服务器及存储介质 | |
CN114860819A (zh) | 商业智能系统的构建方法、装置、设备和存储介质 | |
CN111160929B (zh) | 一种客户类型的确定方法及装置 | |
CN104636489B (zh) | 描述属性数据的处理方法和装置 | |
CN109145059A (zh) | 用于数据统计的数据处理方法、服务器及存储介质 | |
CN109086309A (zh) | 一种指标维度关系定义方法、服务器及存储介质 | |
Antonicelli et al. | Big data and official statistics: General Concepts and Statistical Instruments | |
CN117033765A (zh) | 业务推荐方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518000 R & D room 3501, block a, building 7, Vanke Cloud City Phase I, Xingke 1st Street, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Tubatu Group Co.,Ltd. Address before: 1001-a, 10th floor, bike technology building, No.9, Keke Road, high tech Zone, Nanshan District, Shenzhen, Guangdong 518000 Applicant before: SHENZHEN BINCENT TECHNOLOGY Co.,Ltd. |
|
CB02 | Change of applicant information | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190212 |
|
RJ01 | Rejection of invention patent application after publication |