CN106600067B - 多维立方体模型的优化方法和装置 - Google Patents
多维立方体模型的优化方法和装置 Download PDFInfo
- Publication number
- CN106600067B CN106600067B CN201611177900.9A CN201611177900A CN106600067B CN 106600067 B CN106600067 B CN 106600067B CN 201611177900 A CN201611177900 A CN 201611177900A CN 106600067 B CN106600067 B CN 106600067B
- Authority
- CN
- China
- Prior art keywords
- dimension
- optimization
- data
- user behavior
- multidimensional cube
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000005457 optimization Methods 0.000 claims abstract description 97
- 230000001172 regenerating effect Effects 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims description 28
- 230000002776 aggregation Effects 0.000 claims description 28
- 238000005065 mining Methods 0.000 claims description 18
- 238000007477 logistic regression Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 21
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 238000013461 design Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005259 measurement Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0633—Workflow analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Development Economics (AREA)
- Computing Systems (AREA)
- Educational Administration (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多维立方体模型的优化方法和装置。其中,多维立方体模型的优化方法包括:基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;基于采集到的用户行为数据根据预设的更新规则更新所述维度集;根据更新后的维度集重新生成多维立方体模型。本发明的技术方案,通过采集到的用户行为数据更新维度集,进而重新生成多维立方体,解决现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于数据库中的操作数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
Description
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种多维立方体模型的优化方法和装置。
背景技术
在常规的BI(Business Intelligence,商务智能)领域,多维立方体Cube设计是在充分理解业务的前提下,设计其维度及度量,供业务方使用。
针对销售数据分析,如图1所示,在Cube模型中,一共有商品、用户、区域、门店、销售员、支付渠道6个维度和购买数量、购买金额两个度量列,假设分别用A、B、C、D、E、F表示商品、用户、区域、门店、销售员、支付渠道6个维度,其中,在维度表设计时,维度表可包括一个主键(PK)和维度属性,对于层级维度则还可包括各个层级的维度字段。如区域维的主键为区域ID,而省、市、县又对应区域维的三个子维度。该Cube模型中,可以通过维度分析购买数量和购买金额等度量数据(MEASURE)。
{φ};
{A},{B},{C},{D},{E},{F};
{A,B},{A,C},{A,D},{A,E},{A,F},{B,C},{B,D},…,{C,F},{D,E}{D,F}{E,F};
……
{A,B,C,D,E,F}
根据预计算的思想,所有上述维度组合均需进行一次计算,即预计算需要进行一次全量计算,当数据有更新时,针对新数据的所有维度组合也均需进行计算,即需要再次进行全量计算。
现有的Cube设计的合理性过于依赖设计人员的经验,调优工作不仅对设计人员有较高要求,而且工作量大,耗时长;Cube设计合理性的评估难以量化。
发明内容
本发明提供一种了多维立方体模型的优化方法和装置,以解决现有的Cube设计过于依赖于设计人员以及合理性难以评估的问题,优化多维立方体模型。
第一方面,本发明实施例提供了一种多维立方体模型的优化方法,该方法包括:
基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
根据更新后的维度集重新生成多维立方体模型。
第二方面,本发明实施例还提供了一种多维立方体模型的优化装置,该装置包括:
多维立方体建立模块,用于基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
维度集更新模块,用于基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
多维立方体模型更新模块,用于根据更新后的维度集重新生成多维立方体模型。
本发明实施例的技术方案,通过对基于维度集构建的全维度的多维立方体模型,基于采集到的用户行为数据根据预设的更新规则更新维度集,进而根据更新后的维度集重新生成多维立方体,解决了现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于用户的行为数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
附图说明
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为现有技术所提供的一种多维立方体模型的构建方法的结构示意图;
图2为本发明实施例一所提供的一种多维立方体模型的优化方法的流程示意图;
图3A为本发明实施例二所提供的一种多维立方体模型的优化方法的流程示意图;
图3B为本发明实施例二所适用的一种多维立方体模型的优化方法实例的流程示意图;
图4是本发明实施例三所提供的一种多维立方体模型的优化装置的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图2为本发明实施例一提供的一种多维立方体模型的优化方法的流程示意图。如图2所示,本实施例的方法可以由一种多维立方体模型的优化装置来执行,该装置可通过软件的方式实现,并一般可独立的配置在用户终端或服务器中实现本实施例的方法。
本实施例的方法具体包括:
S110、基于维度集构建全维度的多维立方体模型,维度集包括业务模型中的所有数据维度。
一般地,多维立方体包含原始事实数据以及聚合数据,数据聚合后能够使得用户快速进行复杂的查询。在多维立方体的构建中,维度提供了分类描述,表示一类分析角度,用户可以通过维度分析度量数据,例如可以是时间、产品、地域。其中,度量一般表示用来聚合分析的数字信息,度量的集合组合成了一个特殊的维度,如数量、销售额等。还可以用级别表示一个维度上可以包含的层次结构,例如地域维度可以包含的级别层次级可包括国家、省、市等;时间维度包含的级别层次可包括年、季度、月、日等。
为了尽可能全面的进行数据统计及分析,可以在构建多维立方体时根据实际需求预先设置多个尽可能多的维度,以便更好更精确地分析度量数据。本操作中,可以获取业务模型中的所有数据维度构建维度集,进而基于维度集构建全维度的多维立方体模型。具体地,在设计完Cube后,首先做一次全量预计算,即包含所有维度集中所有维度组合的Cube预计算,并将预计算结果以关键值Key-Value的形式保存在HBase(Hadoop Database,分布式存储数据库)中,其中,保存在HBase中的行关键字Rowkey为各维度值经编码后连接而成的二进制字符串。
S120、基于采集到的用户行为数据根据预设的更新规则更新维度集。
在多维立方体模型的预计算过程中,每增加一个维度,计算量便会指数增长。为了提升多维立方体的预计算效率,可以根据预设的更新规则更新维度集。示例性地,预设的更新规则包括对采集到的用户行为数据进行聚合组优化和/或存储优化。其中,聚合组优化可以筛选出一些经常被组合在一起进行查询的维度组合;存储优化可以依据用户的查询行为优化数据库数据的存储的方法(如优化存储时的排序方法等),使得用户在查询时能够得到更快的响应。
在本操作中,用户行为数据可以通过对用户行为进行监测的方式获取,也可以是从网站行为日志中获取,或者还可以是通过JavaScript标记、包嗅探器等方式采集。可选地,用户行为数据可包括用户查询数据和用户访问数据等。
可以理解的是,基于采集到的用户行为数据根据预设的更新规则更新维度集,首先,维度集是依据用户行为数据进行更新,则可以充分地考虑到用户的行为,真正地满足用户的需求,而且可以动态地实现对维度集的更新,且能够根据用户行为数据对维度集进行实时更新;其次,根据预设的更新规则更新维度集,则可以筛选出符合设定要求的数据,节省不必要的计算,能够有效提升生成多维立方体模型的效率,优化多维立方体模型。
S130、根据更新后的维度集重新生成多维立方体模型。
具体地,可以是对更新后的维度集进行预计算生成多维立方体模型。如上所述,更新后的维度集可以是将维度集中各维度组合是否需要进行预计算进行分类,也可以是将维度组合中各维度的编码后的值在Rowkey中的存储次序进行重新排序等。可以理解的是,重新生成的多维立方体模型仍然是包括全部的维度组合,只是在重新生成多维立方体模型时对维度集进行调整,比如更新部分维度组合的预计算结果或者重新优化模型各维度组合中各维度的编码后的值在Rowkey中的排列顺序等。
本实施例的技术方案,通过对基于维度集构建的全维度的多维立方体模型,基于采集到的用户行为数据根据预设的更新规则更新维度集,进而根据更新后的维度集重新生成多维立方体,解决了现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于用户行为数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
实施例二
图3A为本发明实施例二提供的一种多维立方体模型的优化方法的流程示意图。如图3A所示,本实施例在上述各实施例的基础上,可选是所述基于采集到的用户行为数据根据预设的更新规则更新所述维度集,包括:对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集。
为了进一步提升优化多维立方体的查询效率,在此基础上,所述多维立方体模型的优化方法还可以包括:对多维立方体模型进行路由策略优化。
相应的,本实施例的方法具体包括:
S210、基于维度集构建全维度的多维立方体模型,维度集包括业务模型中的所有数据维度。
S220、对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新维度集。
可选地,对采集到的用户行为数据进行聚合组优化和/或存储优化,即可以对采集到的用户行为数据可以只进行聚合组优化或者只进行存储优化;也可以对采集到的用户行为数据同时进行聚合组优化和存储优化。例如可以是先对采集到的用户行为数据进行聚合组优化,进而基于聚合组优化后的优化结果进一步地进行存储优化。具体地,聚合组优化可以通过频繁项集挖掘实现,存储优化可以通过统计规则实现。
其中,对采集到的用户行为数据进行聚合组优化可以是基于采集的用户行为数据中用户每次查询操作的维度组合,对采集到的用户行为数据进行聚合组优化。表1是用户每次查询操作的维度组合的样例表。如表1所示,以全维度包括六个维度为例,可以统计用户n次总的查询操作的维度集合,其中用户每次查询的维度组合可能相同或不同,表格中维度A、维度B、维度C、维度D、维度E和维度F下对应的1或0分别用来表示该次查询操作的维度组合中是否包括该维度。例如第1查询操作的维度组合为维度A和维度D;第2次查询操作的维度组合为维度A、维度B和维度D;…;第n次查询操作的维度组合为维度B和维度D。其中查询次数可以根据时间的先后分别记录为1、2、…、n。可以理解的是,n的具体数值可以根据实际需求进行选取,为了更好地分析出用户行为特点以适应用户个性化需求可以尽可能地选取较大的n值,基于大数据进行用户行为数据的分析。
表1
查询次数(TID) | 维度A | 维度B | 维度C | 维度D | 维度E | 维度F |
1 | 1 | 0 | 0 | 1 | 0 | 0 |
2 | 1 | 1 | 0 | 1 | 0 | 0 |
… | … | … | … | … | … | … |
n | 0 | 1 | 0 | 1 | 0 | 0 |
具体地,所述对采集到用户行为数据进行聚合组优化包括:对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。进一步地,对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘可基于频繁项集挖掘算法来实现,如Apriori算法或FPGrowth,用于挖掘出用户行为数据中每次查询操作的维度组合。示例性地,对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘还可以包括:计算所述用户每次查询操作的维度组合中任意两个维度组合的支持度和置信度,并筛选出所述支持度和置信度满足预设阈值的维度组合。
示例性地,筛选出所述支持度和置信度满足预设阈值的维度组合具体可以是筛选出所述支持度和置信度均大于预设阈值的维度组合。在本实施例中,可以分别为支持度设置支持度阈值,为置信度设置置信度阈值,其中支持度阈值和置信度阈值的取值可以不同,也可以相同。由于支持度和置信度为概率值,预设阈值的取值范围在0-1之间,具体数值可以根据实际需求进行选取,例如可以取0.6、0.7或0.8等。
一般地,通过支持度来表示P(X∪Y),也就是说在总体的事件N中,出现了X,Y,X且Y事件的概率。具体地,可以根据公式
计算用户每次查询操作的维度组合中,任意两个维度组合X和Y的支持度。其中,s(X→Y)表示维度组合X和Y的支持度,σ(X∪Y)表示用户在总的查询操作的维度组合中维度组合X和Y至少有一个出现的事件的次数,N表示用户总的查询操作的所有维度组合出现的总次数。高支持度可代表用户经常一起分析的维度组合,低支持度可代表用户较少放在一起分析的维度组合。
置信度通常用于揭示X出现时,Y是否也会出现或有多大概率出现。具体可以根据公式
计算用户每次查询操作的维度组合中,任意两个维度组合X和Y的置信度。对于给定的规则X→Y,高置信度意味着Y在包含X的事务中出现的可能性越大,反之则代表Y在包含X的事务中出现的可能性越小。
由于多维立方体预计算的结果是保存在数据库HBase中的,且以行关键字Rowkey为维度集中维度组合的值,为此维度组合的存储的问题就变成一个维度排列的问题。可选地,对采集到用户行为数据进行存储优化具体可包括:基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次;根据所述访问频次对维度组合进行排序。进一步地,根据访问频次对维度组合进行排序具体可以是,高访问频次的维度以高优先级排在Rowkey的前面;在访问频次相等的情况下,低基数的维度以高优先级排在Rowkey的前面。具体地,可以根据所获取到的各数据维度的访问频次实时调整维度组合的排序,也可以是间隔设定时间调整维度组合的排序。
S230、根据更新后的维度集重新生成多维立方体模型。
S240、对多维立方体模型进行路由策略优化。
在实际操作中,通过聚合组优化等方式筛选出的无需预计算的维度组合可能也是用户所需要的,只是由于其时间复杂度并不高,无需进行预计算。因此,可以对多维立方体模型进行路由策略优化,即将用户每次查询的维度组合,确定该维度组合的查询方式,例如可以将需要进行预计算的维度组合分发到多维立方体中查询,不需要进行预计算的维度组合分发到原生的数据查询引擎进行查询。可以理解的是,多维立方体中的需要预计算的维度组合已经预先计算好对应的查询结果,因此,对多维立方体模型进行路由策略优化可以提升多维立方体模型的查询响应速度。
具体地,对多维立方体模型进行路由策略优化可包括:将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算;根据确定的结果将所述维度组合分发到多维立方体模型中或原生的数据查询引擎中进行查询。其中,逻辑回归模型实际上是一种分类方法,主要用于两分类问题,即输出只有两种,分别代表两个类别,可用于将训练集分成两类。
举例而言,逻辑回归模型的训练集的输入为每次查询操作的维度组合、查询响应时间和用户等待时间,输出为集合{1,0}中的一个,若输出结果为1,则代表该维度组合需要进行预计算;若输出结果为0,则代表该维度组合不需要进行预计算。具体地,可定义逻辑回归的假设函数为:
其中,X=(x1,x2,...,xn)为输入向量,θ为各个向量的参数值,其损失函数为:
采用随机梯度下降法可得到参数θ的迭代方式:
通过不断迭代,最终计算求得参数θ的值,进而得到逻辑回归的输出结果。
需要说明的是,S240的路由策略优化可以单独用于对多维立方体模型进行优化,也可以与S220的聚合组优化、存储优化中的至少一个组合用于对多维立方体模型进行优化,在此不做限定。
图3B为本实施例所适用的一种多维立方体模型的优化方法实例的流程示意图,如图3B所示,该方法具体包括:
首先,需要设计构建Cube的框架,可以理解为预先确定需要构建Cube的维度集,该维度集可包括业务模型中的所有数据维度,再基于维度集构建全维度的Cube。即在设计完Cube后,首先做一次包含所有维度组合的全量Cube预计算,并将预计算结果以Key-Value的形式保存在HBase中;
然后,收集用户数据,即根据优化目标或者说优化方式的不同,分别收集对应的用户行为数据。其中,聚合组优化需采集的用户行为数据可以为用户每次查询操作的维度组合,存储优化需采集的用户行为数据可以为各维度基数、用户每次查询操作的维度组合,路由策略优化需采集的用户行为数据可以为用户每次查询操作的维度组合、每次查询的响应时间以及每次查询的用户等待时间,用户行为数据中包括系统未响应用户已取消的查询操作;
进而,对采集到的用户行为数据进行聚合组优化,基于优化结果更新所述维度集,具体可以是,对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘,挖掘出用户经常组合在一起进行查询的维度组合,例如,可以分别计算出用户每次查询操作的维度组合中任意两个维度组合X和Y的支持度和置信度,并筛选出所述支持度和置信度大于预设阈值的高支持度和高置信度的维度组合,作为新的维度组合的集合,这样,需要进行预计算的维度组合即可根据实际情况进行删减,将那些低支持度和低置信度的维度组合排除在预计算的范围外,并更新原有维度集;
由于Cube维度组合预计算的结果是保存在HBase中的,且Rowkey为维度组合的值,为此维度组合的问题就变成一个排列的问题。通过收集各维度基数以及用户每次查询的维度集合,依次统计每个维度组合被查询的次数。本实例中可以通过统计用户行为数据,基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次,根据访问频次对维度组合进行排序,排序规则可如下:高访问频次的维度以高优先级排在Rowkey的前面;在访问频次相等的情况下,低基数维度以高优先级排在Rowkey的前面,从而实现对采集到的用户行为数据进行存储优化,并基于优化结果更新所述维度集,进而根据更新后的维度集重新生成多维立方体模型;
在对多维立方体模型进行查询时,为了提升查询结果的相应效率,可以对多维立方体进一步地进行路由策略优化。具体可以是,将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算,其中,逻辑回归模型的训练集的输入为用户每次查询操作的维度组合、查询响应时间和用户等待时间,输出为集合{1,0}中的一个,分别代表该维度组合是否需要预计算,然后将需要预计算的维度组合分发到多维立方体模型中进行查询,不需要进行预计算的维度集合分发到原生的数据查询引擎中进行查询,以便快速地显示查询结果。
可以理解的是,本实施例中的Cube优化方法可以分别采用聚合组优化、存储优化以及路由策略优化中的任意一种方式来实现,也可以是聚合组优化、存储优化以及路由策略优化中的任意两种方式组合来实现,当然也可以如上所述采用聚合组优化、存储优化和路由策略优化实现Cube优化。其中,聚合组优化和存储优化的顺序可以不分先后的并行方式执行,也可以是先进行聚合组优化后进行存储优化或者先进行存储优化后进行聚合组优化的串行方式执行,在此不做限定。
本实施例的多维立方体优化方法,通过对多维立方体进行聚合组优化、存储优化和路由策略优化,实现了对多维立方体的预计算的计算量、存储方式和查询路由三个方面的优化,且全部借助于用户行为数据,不仅减少了计算量,还避免了依靠设计人员经验的人工优化方法,有效提升了多维立方体的优化效率,而且实现了多维立方体的自动化动态调整,而且以用户行为数据为依据更能充分地考虑到用户的实际需求,更加智能化。
实施例三
图4所示为本发明实施例三提供的一种多维立方体模型的优化装置的结构示意图,该装置可通过软件的方式实现,并一般可独立的配置在用户终端或服务器中实现本实施例的方法。如图4所示,所述多维立方体模型的优化装置具体包括:多维立方体建立模块410、维度集更新模块420和多维立方体模型更新模块430。
其中,多维立方体建立模块410,用于基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;维度集更新模块420,用于基于采集到的用户行为数据根据预设的更新规则更新所述维度集;多维立方体模型更新模块430,用于根据更新后的维度集重新生成多维立方体模型。
本实施例的技术方案,通过对基于维度集构建的全维度的多维立方体模型,基于采集到的用户行为数据根据预设的更新规则更新维度集,进而根据更新后的维度集重新生成多维立方体,解决了现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于数据库中的操作数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
在上述实施例的基础上,所述维度集更新模块可用于:
对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集。在上述各实施例的基础上,所述维度集更新模块具体可包括:
频繁项集挖掘单元,用于对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;
聚合组优化单元,用于基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。
在上述各实施例的基础上,所述频繁项集挖掘单元具体可用于:
计算所述用户每次查询的维度组合中任意两个维度组合的支持度和置信度,并筛选出所述支持度和置信度满足预设阈值的维度组合。
在上述各实施例的基础上,所述维度集更新模块具体还可用于:
基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次;
根据所述访问频次对维度组合进行排序。
在上述各实施例的基础上,所述多维立方体的优化装置还包括:路由策略优化模块440,用于对多维立方体模型进行路由策略优化。
在上述各实施例的基础上,所述路由策略优化模块具体可用于:
将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算;
根据确定的结果将所述维度组合分发到多维立方体模型中或原生的数据查询引擎中进行查询。
上述实施例中提供的多维立方体模型的优化装置可执行本发明任意实施例所提供的多维立方体模型的优化方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的多维立方体模型的优化方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (7)
1.一种多维立方体模型的优化方法,其特征在于,包括:
基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
根据更新后的维度集重新生成多维立方体模型;
所述基于采集到的用户行为数据根据预设的更新规则更新所述维度集,包括:
对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集;
所述对采集到用户行为数据进行聚合组优化包括:
对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;
基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。
2.根据权利要求1所述的方法,其特征在于,所述对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘包括:
计算所述用户每次查询操作的维度组合中任意两个维度组合的支持度和置信度,并筛选出所述支持度和置信度满足预设阈值的维度组合。
3.根据权利要求2所述的方法,其特征在于,所述对采集到用户行为数据进行存储优化包括:
基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次;
根据所述访问频次对维度组合进行排序。
4.根据权利要求1-3任一所述的方法,其特征在于,所述方法还包括:
对多维立方体模型进行路由策略优化。
5.根据权利要求4所述的方法,其特征在于,所述对多维立方体模型进行路由策略优化包括:
将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算;
根据确定的结果将所述维度组合分发到多维立方体模型中或原生的数据查询引擎中进行查询。
6.一种多维立方体模型的优化装置,其特征在于,包括:
多维立方体建立模块,用于基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
维度集更新模块,用于基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
多维立方体模型更新模块,用于根据更新后的维度集重新生成多维立方体模型;
所述维度集更新模块用于:
对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集;
所述维度集更新模块具体包括:
频繁项集挖掘单元,用于对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;
聚合组优化单元,用于基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:对多维立方体模型进行路由策略优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611177900.9A CN106600067B (zh) | 2016-12-19 | 2016-12-19 | 多维立方体模型的优化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611177900.9A CN106600067B (zh) | 2016-12-19 | 2016-12-19 | 多维立方体模型的优化方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106600067A CN106600067A (zh) | 2017-04-26 |
CN106600067B true CN106600067B (zh) | 2020-11-03 |
Family
ID=58599501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611177900.9A Active CN106600067B (zh) | 2016-12-19 | 2016-12-19 | 多维立方体模型的优化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106600067B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10353923B2 (en) | 2014-04-24 | 2019-07-16 | Ebay Inc. | Hadoop OLAP engine |
WO2018209594A1 (en) * | 2017-05-17 | 2018-11-22 | Ebay Inc. | Olap cube optimization using weightings |
CN107229730A (zh) * | 2017-06-08 | 2017-10-03 | 北京奇虎科技有限公司 | 数据查询方法及装置 |
CN108052522B (zh) * | 2017-11-02 | 2020-08-25 | 上海跬智信息技术有限公司 | 一种对olap预计算模型进行动态优化的方法及系统 |
CN108829707A (zh) * | 2018-05-02 | 2018-11-16 | 国网浙江省电力有限公司信息通信分公司 | 跨业务域的大数据智能分析系统及方法 |
CN109285024B (zh) * | 2018-07-23 | 2021-05-11 | 北京三快在线科技有限公司 | 在线特征确定方法、装置、电子设备及存储介质 |
CN110032591A (zh) * | 2018-12-28 | 2019-07-19 | 国网浙江省电力有限公司信息通信分公司 | 一种资产大数据智能分析方法 |
CN109992594A (zh) * | 2019-03-22 | 2019-07-09 | 跬云(上海)信息科技有限公司 | 基于预计算优化的分布式执行优化方法及系统 |
CN110851442B (zh) * | 2019-10-23 | 2022-07-12 | 中国科学院国家空间科学中心 | 科学实验卫星任务数据的多维数据立方体构建系统及方法 |
CN112162971B (zh) * | 2020-09-24 | 2022-11-11 | 苏宁云计算有限公司 | 一种多维数据立方体生成方法、装置及系统 |
CN112598128B (zh) * | 2020-12-16 | 2024-08-23 | 北京三快在线科技有限公司 | 一种模型训练以及联机分析处理方法及装置 |
CN112860695B (zh) * | 2021-02-08 | 2023-08-04 | 北京百度网讯科技有限公司 | 监控数据查询方法、装置、设备、存储介质及程序产品 |
CN113297333A (zh) * | 2021-03-17 | 2021-08-24 | 无锡极数宝大数据科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN113535771B (zh) * | 2021-06-21 | 2023-11-28 | 跬云(上海)信息科技有限公司 | 持续迭代优化的预计算方法和装置 |
CN113760997B (zh) * | 2021-09-10 | 2023-04-28 | 成都知道创宇信息技术有限公司 | 数据置信度计算方法及装置、计算机设备和可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339448A (zh) * | 2011-09-30 | 2012-02-01 | 奇智软件(北京)有限公司 | 团购平台信息处理方法及装置 |
CN102360408A (zh) * | 2011-09-28 | 2012-02-22 | 国家计算机网络与信息安全管理中心 | 恶意代码的检测方法及其系统 |
CN104965886A (zh) * | 2015-06-16 | 2015-10-07 | 广州市勤思网络科技有限公司 | 数据维度处理方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768794B2 (en) * | 2011-09-26 | 2014-07-01 | Oracle International Corporation | Allocation manager |
-
2016
- 2016-12-19 CN CN201611177900.9A patent/CN106600067B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102360408A (zh) * | 2011-09-28 | 2012-02-22 | 国家计算机网络与信息安全管理中心 | 恶意代码的检测方法及其系统 |
CN102339448A (zh) * | 2011-09-30 | 2012-02-01 | 奇智软件(北京)有限公司 | 团购平台信息处理方法及装置 |
CN104965886A (zh) * | 2015-06-16 | 2015-10-07 | 广州市勤思网络科技有限公司 | 数据维度处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106600067A (zh) | 2017-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106600067B (zh) | 多维立方体模型的优化方法和装置 | |
CN110442516B (zh) | 信息处理方法、设备及计算机可读存储介质 | |
US20120130940A1 (en) | Real-time analytics of streaming data | |
US9785657B2 (en) | Method for synthetic data generation for query workloads | |
CN112052404B (zh) | 多源异构关系网络的群体发现方法、系统、设备及介质 | |
US11231970B2 (en) | Intelligent application programming interface (API) proxy design system | |
WO2017096892A1 (zh) | 索引构建方法、查询方法及对应装置、设备、计算机存储介质 | |
CN107870956B (zh) | 一种高效用项集挖掘方法、装置及数据处理设备 | |
CN111512283A (zh) | 数据库中的基数估算 | |
Andreis et al. | A large‐deviations principle for all the cluster sizes of a sparse Erdős–Rényi graph | |
CN112949914A (zh) | 一种产业集群的识别方法、装置、存储介质及电子设备 | |
CN116932321A (zh) | 日志数据监控方法、装置、电子设备及存储介质 | |
CN108073641B (zh) | 查询数据表的方法和装置 | |
CN105354336A (zh) | 一种处理交易事务数据库数据的方法和装置 | |
CN114661463A (zh) | 基于bp神经网络的系统资源预测方法及系统 | |
CN108280224B (zh) | 万级维度数据生成方法、装置、设备以及存储介质 | |
CN112162971B (zh) | 一种多维数据立方体生成方法、装置及系统 | |
CN114519073A (zh) | 一种基于图谱关系挖掘的产品配置推荐方法及系统 | |
CN110990401B (zh) | 一种酒店搜索方法及系统 | |
CN112927012A (zh) | 营销数据的处理方法及装置、营销模型的训练方法及装置 | |
CN113076344B (zh) | 一种基于用户App数据的个性化地点推荐方法及系统 | |
US11392572B2 (en) | Selectivity estimation using non-qualifying tuples | |
US11880366B2 (en) | Index-based, adaptive join size estimation | |
US11899555B2 (en) | System for application engagement composite index | |
CN111897889B (zh) | 一种面向电力行业业务系统的数据表完整性评价方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |