CN106600067A - 多维立方体模型的优化方法和装置 - Google Patents

多维立方体模型的优化方法和装置 Download PDF

Info

Publication number
CN106600067A
CN106600067A CN201611177900.9A CN201611177900A CN106600067A CN 106600067 A CN106600067 A CN 106600067A CN 201611177900 A CN201611177900 A CN 201611177900A CN 106600067 A CN106600067 A CN 106600067A
Authority
CN
China
Prior art keywords
dimension
data
optimization
collection
data cube
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611177900.9A
Other languages
English (en)
Other versions
CN106600067B (zh
Inventor
李寅威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201611177900.9A priority Critical patent/CN106600067B/zh
Publication of CN106600067A publication Critical patent/CN106600067A/zh
Application granted granted Critical
Publication of CN106600067B publication Critical patent/CN106600067B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0633Workflow analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种多维立方体模型的优化方法和装置。其中,多维立方体模型的优化方法包括:基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;基于采集到的用户行为数据根据预设的更新规则更新所述维度集;根据更新后的维度集重新生成多维立方体模型。本发明的技术方案,通过采集到的用户行为数据更新维度集,进而重新生成多维立方体,解决现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于数据库中的操作数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。

Description

多维立方体模型的优化方法和装置
技术领域
本发明实施例涉及人工智能技术领域,尤其涉及一种多维立方体模型的优化方法和装置。
背景技术
在常规的BI(Business Intelligence,商务智能)领域,多维立方体Cube设计是在充分理解业务的前提下,设计其维度及度量,供业务方使用。
针对销售数据分析,如图1所示,在Cube模型中,一共有商品、用户、区域、门店、销售员、支付渠道6个维度和购买数量、购买金额两个度量列,假设分别用A、B、C、D、E、F表示商品、用户、区域、门店、销售员、支付渠道6个维度,其中,在维度表设计时,维度表可包括一个主键(PK)和维度属性,对于层级维度则还可包括各个层级的维度字段。如区域维的主键为区域ID,而省、市、县又对应区域维的三个子维度。该Cube模型中,可以通过维度分析购买数量和购买金额等度量数据(MEASURE)。
该模型中所有的维度组合共有种,分别为:
{φ};
{A},{B},{C},{D},{E},{F};
{A,B},{A,C},{A,D},{A,E},{A,F},{B,C},{B,D},…,{C,F},{D,E}{D,F}{E,F};
……
{A,B,C,D,E,F}
根据预计算的思想,所有上述维度组合均需进行一次计算,即预计算需要进行一次全量计算,当数据有更新时,针对新数据的所有维度组合也均需进行计算,即需要再次进行全量计算。
现有的Cube设计的合理性过于依赖设计人员的经验,调优工作不仅对设计人员有较高要求,而且工作量大,耗时长;Cube设计合理性的评估难以量化。
发明内容
本发明提供一种了多维立方体模型的优化方法和装置,以解决现有的Cube设计过于依赖于设计人员以及合理性难以评估的问题,优化多维立方体模型。
第一方面,本发明实施例提供了一种多维立方体模型的优化方法,该方法包括:
基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
根据更新后的维度集重新生成多维立方体模型。
第二方面,本发明实施例还提供了一种多维立方体模型的优化装置,该装置包括:
多维立方体建立模块,用于基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
维度集更新模块,用于基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
多维立方体模型更新模块,用于根据更新后的维度集重新生成多维立方体模型。
本发明实施例的技术方案,通过对基于维度集构建的全维度的多维立方体模型,基于采集到的用户行为数据根据预设的更新规则更新维度集,进而根据更新后的维度集重新生成多维立方体,解决了现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于用户的行为数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
附图说明
为使本发明的目的、技术方案和优点更加清楚,以下将参照本发明实施例中的附图,通过实施方式清楚、完整地描述本发明的技术方案,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为现有技术所提供的一种多维立方体模型的构建方法的结构示意图;
图2为本发明实施例一所提供的一种多维立方体模型的优化方法的流程示意图;
图3A为本发明实施例二所提供的一种多维立方体模型的优化方法的流程示意图;
图3B为本发明实施例二所适用的一种多维立方体模型的优化方法实例的流程示意图;
图4是本发明实施例三所提供的一种多维立方体模型的优化装置的结构示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图2为本发明实施例一提供的一种多维立方体模型的优化方法的流程示意图。如图2所示,本实施例的方法可以由一种多维立方体模型的优化装置来执行,该装置可通过软件的方式实现,并一般可独立的配置在用户终端或服务器中实现本实施例的方法。
本实施例的方法具体包括:
S110、基于维度集构建全维度的多维立方体模型,维度集包括业务模型中的所有数据维度。
一般地,多维立方体包含原始事实数据以及聚合数据,数据聚合后能够使得用户快速进行复杂的查询。在多维立方体的构建中,维度提供了分类描述,表示一类分析角度,用户可以通过维度分析度量数据,例如可以是时间、产品、地域。其中,度量一般表示用来聚合分析的数字信息,度量的集合组合成了一个特殊的维度,如数量、销售额等。还可以用级别表示一个维度上可以包含的层次结构,例如地域维度可以包含的级别层次级可包括国家、省、市等;时间维度包含的级别层次可包括年、季度、月、日等。
为了尽可能全面的进行数据统计及分析,可以在构建多维立方体时根据实际需求预先设置多个尽可能多的维度,以便更好更精确地分析度量数据。本操作中,可以获取业务模型中的所有数据维度构建维度集,进而基于维度集构建全维度的多维立方体模型。具体地,在设计完Cube后,首先做一次全量预计算,即包含所有维度集中所有维度组合的Cube预计算,并将预计算结果以关键值Key-Value的形式保存在HBase(Hadoop Database,分布式存储数据库)中,其中,保存在HBase中的行关键字Rowkey为各维度值经编码后连接而成的二进制字符串。
S120、基于采集到的用户行为数据根据预设的更新规则更新维度集。
在多维立方体模型的预计算过程中,每增加一个维度,计算量便会指数增长。为了提升多维立方体的预计算效率,可以根据预设的更新规则更新维度集。示例性地,预设的更新规则包括对采集到的用户行为数据进行聚合组优化和/或存储优化。其中,聚合组优化可以筛选出一些经常被组合在一起进行查询的维度组合;存储优化可以依据用户的查询行为优化数据库数据的存储的方法(如优化存储时的排序方法等),使得用户在查询时能够得到更快的响应。
在本操作中,用户行为数据可以通过对用户行为进行监测的方式获取,也可以是从网站行为日志中获取,或者还可以是通过JavaScript标记、包嗅探器等方式采集。可选地,用户行为数据可包括用户查询数据和用户访问数据等。
可以理解的是,基于采集到的用户行为数据根据预设的更新规则更新维度集,首先,维度集是依据用户行为数据进行更新,则可以充分地考虑到用户的行为,真正地满足用户的需求,而且可以动态地实现对维度集的更新,且能够根据用户行为数据对维度集进行实时更新;其次,根据预设的更新规则更新维度集,则可以筛选出符合设定要求的数据,节省不必要的计算,能够有效提升生成多维立方体模型的效率,优化多维立方体模型。
S130、根据更新后的维度集重新生成多维立方体模型。
具体地,可以是对更新后的维度集进行预计算生成多维立方体模型。如上所述,更新后的维度集可以是将维度集中各维度组合是否需要进行预计算进行分类,也可以是将维度组合中各维度的编码后的值在Rowkey中的存储次序进行重新排序等。可以理解的是,重新生成的多维立方体模型仍然是包括全部的维度组合,只是在重新生成多维立方体模型时对维度集进行调整,比如更新部分维度组合的预计算结果或者重新优化模型各维度组合中各维度的编码后的值在Rowkey中的排列顺序等。
本实施例的技术方案,通过对基于维度集构建的全维度的多维立方体模型,基于采集到的用户行为数据根据预设的更新规则更新维度集,进而根据更新后的维度集重新生成多维立方体,解决了现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于用户行为数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
实施例二
图3A为本发明实施例二提供的一种多维立方体模型的优化方法的流程示意图。如图3A所示,本实施例在上述各实施例的基础上,可选是所述基于采集到的用户行为数据根据预设的更新规则更新所述维度集,包括:对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集。
为了进一步提升优化多维立方体的查询效率,在此基础上,所述多维立方体模型的优化方法还可以包括:对多维立方体模型进行路由策略优化。
相应的,本实施例的方法具体包括:
S210、基于维度集构建全维度的多维立方体模型,维度集包括业务模型中的所有数据维度。
S220、对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新维度集。
可选地,对采集到的用户行为数据进行聚合组优化和/或存储优化,即可以对采集到的用户行为数据可以只进行聚合组优化或者只进行存储优化;也可以对采集到的用户行为数据同时进行聚合组优化和存储优化。例如可以是先对采集到的用户行为数据进行聚合组优化,进而基于聚合组优化后的优化结果进一步地进行存储优化。具体地,聚合组优化可以通过频繁项集挖掘实现,存储优化可以通过统计规则实现。
其中,对采集到的用户行为数据进行聚合组优化可以是基于采集的用户行为数据中用户每次查询操作的维度组合,对采集到的用户行为数据进行聚合组优化。表1是用户每次查询操作的维度组合的样例表。如表1所示,以全维度包括六个维度为例,可以统计用户n次总的查询操作的维度集合,其中用户每次查询的维度组合可能相同或不同,表格中维度A、维度B、维度C、维度D、维度E和维度F下对应的1或0分别用来表示该次查询操作的维度组合中是否包括该维度。例如第1查询操作的维度组合为维度A和维度D;第2次查询操作的维度组合为维度A、维度B和维度D;…;第n次查询操作的维度组合为维度B和维度D。其中查询次数可以根据时间的先后分别记录为1、2、…、n。可以理解的是,n的具体数值可以根据实际需求进行选取,为了更好地分析出用户行为特点以适应用户个性化需求可以尽可能地选取较大的n值,基于大数据进行用户行为数据的分析。
表1
查询次数(TID) 维度A 维度B 维度C 维度D 维度E 维度F
1 1 0 0 1 0 0
2 1 1 0 1 0 0
n 0 1 0 1 0 0
具体地,所述对采集到用户行为数据进行聚合组优化包括:对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。进一步地,对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘可基于频繁项集挖掘算法来实现,如Apriori算法或FPGrowth,用于挖掘出用户行为数据中每次查询操作的维度组合。示例性地,对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘还可以包括:计算所述用户每次查询操作的维度组合中任意两个维度组合的支持度和置信度,并筛选出所述支持度和置信度满足预设阈值的维度组合。
示例性地,筛选出所述支持度和置信度满足预设阈值的维度组合具体可以是筛选出所述支持度和置信度均大于预设阈值的维度组合。在本实施例中,可以分别为支持度设置支持度阈值,为置信度设置置信度阈值,其中支持度阈值和置信度阈值的取值可以不同,也可以相同。由于支持度和置信度为概率值,预设阈值的取值范围在0-1之间,具体数值可以根据实际需求进行选取,例如可以取0.6、0.7或0.8等。
一般地,通过支持度来表示P(X∪Y),也就是说在总体的事件N中,出现了X,Y,X且Y事件的概率。具体地,可以根据公式
计算用户每次查询操作的维度组合中,任意两个维度组合X和Y的支持度。其中,s(X→Y)表示维度组合X和Y的支持度,σ(X∪Y)表示用户在总的查询操作的维度组合中维度组合X和Y至少有一个出现的事件的次数,N表示用户总的查询操作的所有维度组合出现的总次数。高支持度可代表用户经常一起分析的维度组合,低支持度可代表用户较少放在一起分析的维度组合。
置信度通常用于揭示X出现时,Y是否也会出现或有多大概率出现。具体可以根据公式
计算用户每次查询操作的维度组合中,任意两个维度组合X和Y的置信度。对于给定的规则X→Y,高置信度意味着Y在包含X的事务中出现的可能性越大,反之则代表Y在包含X的事务中出现的可能性越小。
由于多维立方体预计算的结果是保存在数据库HBase中的,且以行关键字Rowkey为维度集中维度组合的值,为此维度组合的存储的问题就变成一个维度排列的问题。可选地,对采集到用户行为数据进行存储优化具体可包括:基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次;根据所述访问频次对维度组合进行排序。进一步地,根据访问频次对维度组合进行排序具体可以是,高访问频次的维度以高优先级排在Rowkey的前面;在访问频次相等的情况下,低基数的维度以高优先级排在Rowkey的前面。具体地,可以根据所获取到的各数据维度的访问频次实时调整维度组合的排序,也可以是间隔设定时间调整维度组合的排序。
S230、根据更新后的维度集重新生成多维立方体模型。
S240、对多维立方体模型进行路由策略优化。
在实际操作中,通过聚合组优化等方式筛选出的无需预计算的维度组合可能也是用户所需要的,只是由于其时间复杂度并不高,无需进行预计算。因此,可以对多维立方体模型进行路由策略优化,即将用户每次查询的维度组合,确定该维度组合的查询方式,例如可以将需要进行预计算的维度组合分发到多维立方体中查询,不需要进行预计算的维度组合分发到原生的数据查询引擎进行查询。可以理解的是,多维立方体中的需要预计算的维度组合已经预先计算好对应的查询结果,因此,对多维立方体模型进行路由策略优化可以提升多维立方体模型的查询响应速度。
具体地,对多维立方体模型进行路由策略优化可包括:将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算;根据确定的结果将所述维度组合分发到多维立方体模型中或原生的数据查询引擎中进行查询。其中,逻辑回归模型实际上是一种分类方法,主要用于两分类问题,即输出只有两种,分别代表两个类别,可用于将训练集分成两类。
举例而言,逻辑回归模型的训练集的输入为每次查询操作的维度组合、查询响应时间和用户等待时间,输出为集合{1,0}中的一个,若输出结果为1,则代表该维度组合需要进行预计算;若输出结果为0,则代表该维度组合不需要进行预计算。具体地,可定义逻辑回归的假设函数为:
其中,X=(x1,x2,...,xn)为输入向量,θ为各个向量的参数值,其损失函数为:
采用随机梯度下降法可得到参数θ的迭代方式:
通过不断迭代,最终计算求得参数θ的值,进而得到逻辑回归的输出结果。
需要说明的是,S240的路由策略优化可以单独用于对多维立方体模型进行优化,也可以与S220的聚合组优化、存储优化中的至少一个组合用于对多维立方体模型进行优化,在此不做限定。
图3B为本实施例所适用的一种多维立方体模型的优化方法实例的流程示意图,如图3B所示,该方法具体包括:
首先,需要设计构建Cube的框架,可以理解为预先确定需要构建Cube的维度集,该维度集可包括业务模型中的所有数据维度,再基于维度集构建全维度的Cube。即在设计完Cube后,首先做一次包含所有维度组合的全量Cube预计算,并将预计算结果以Key-Value的形式保存在HBase中;
然后,收集用户数据,即根据优化目标或者说优化方式的不同,分别收集对应的用户行为数据。其中,聚合组优化需采集的用户行为数据可以为用户每次查询操作的维度组合,存储优化需采集的用户行为数据可以为各维度基数、用户每次查询操作的维度组合,路由策略优化需采集的用户行为数据可以为用户每次查询操作的维度组合、每次查询的响应时间以及每次查询的用户等待时间,用户行为数据中包括系统未响应用户已取消的查询操作;
进而,对采集到的用户行为数据进行聚合组优化,基于优化结果更新所述维度集,具体可以是,对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘,挖掘出用户经常组合在一起进行查询的维度组合,例如,可以分别计算出用户每次查询操作的维度组合中任意两个维度组合X和Y的支持度和置信度,并筛选出所述支持度和置信度大于预设阈值的高支持度和高置信度的维度组合,作为新的维度组合的集合,这样,需要进行预计算的维度组合即可根据实际情况进行删减,将那些低支持度和低置信度的维度组合排除在预计算的范围外,并更新原有维度集;
由于Cube维度组合预计算的结果是保存在HBase中的,且Rowkey为维度组合的值,为此维度组合的问题就变成一个排列的问题。通过收集各维度基数以及用户每次查询的维度集合,依次统计每个维度组合被查询的次数。本实例中可以通过统计用户行为数据,基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次,根据访问频次对维度组合进行排序,排序规则可如下:高访问频次的维度以高优先级排在Rowkey的前面;在访问频次相等的情况下,低基数维度以高优先级排在Rowkey的前面,从而实现对采集到的用户行为数据进行存储优化,并基于优化结果更新所述维度集,进而根据更新后的维度集重新生成多维立方体模型;
在对多维立方体模型进行查询时,为了提升查询结果的相应效率,可以对多维立方体进一步地进行路由策略优化。具体可以是,将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算,其中,逻辑回归模型的训练集的输入为用户每次查询操作的维度组合、查询响应时间和用户等待时间,输出为集合{1,0}中的一个,分别代表该维度组合是否需要预计算,然后将需要预计算的维度组合分发到多维立方体模型中进行查询,不需要进行预计算的维度集合分发到原生的数据查询引擎中进行查询,以便快速地显示查询结果。
可以理解的是,本实施例中的Cube优化方法可以分别采用聚合组优化、存储优化以及路由策略优化中的任意一种方式来实现,也可以是聚合组优化、存储优化以及路由策略优化中的任意两种方式组合来实现,当然也可以如上所述采用聚合组优化、存储优化和路由策略优化实现Cube优化。其中,聚合组优化和存储优化的顺序可以不分先后的并行方式执行,也可以是先进行聚合组优化后进行存储优化或者先进行存储优化后进行聚合组优化的串行方式执行,在此不做限定。
本实施例的多维立方体优化方法,通过对多维立方体进行聚合组优化、存储优化和路由策略优化,实现了对多维立方体的预计算的计算量、存储方式和查询路由三个方面的优化,且全部借助于用户行为数据,不仅减少了计算量,还避免了依靠设计人员经验的人工优化方法,有效提升了多维立方体的优化效率,而且实现了多维立方体的自动化动态调整,而且以用户行为数据为依据更能充分地考虑到用户的实际需求,更加智能化。
实施例三
图4所示为本发明实施例三提供的一种多维立方体模型的优化装置的结构示意图,该装置可通过软件的方式实现,并一般可独立的配置在用户终端或服务器中实现本实施例的方法。如图4所示,所述多维立方体模型的优化装置具体包括:多维立方体建立模块410、维度集更新模块420和多维立方体模型更新模块430。
其中,多维立方体建立模块410,用于基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;维度集更新模块420,用于基于采集到的用户行为数据根据预设的更新规则更新所述维度集;多维立方体模型更新模块430,用于根据更新后的维度集重新生成多维立方体模型。
本实施例的技术方案,通过对基于维度集构建的全维度的多维立方体模型,基于采集到的用户行为数据根据预设的更新规则更新维度集,进而根据更新后的维度集重新生成多维立方体,解决了现有的多维立方体的更新所存在的计算量大及依赖于设计人员的经验等问题,能够实现多维立方体的自动优化,而且基于数据库中的操作数据更新维度集,更加贴合用户的实际需要,使得更新后的多维立方体模型更加智能化,实用性更强。
在上述实施例的基础上,所述维度集更新模块可用于:
对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集。在上述各实施例的基础上,所述维度集更新模块具体可包括:
频繁项集挖掘单元,用于对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;
聚合组优化单元,用于基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。
在上述各实施例的基础上,所述频繁项集挖掘单元具体可用于:
计算所述用户每次查询的维度组合中任意两个维度组合的支持度和置信度,并筛选出所述支持度和置信度满足预设阈值的维度组合。
在上述各实施例的基础上,所述维度集更新模块具体还可用于:
基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次;
根据所述访问频次对维度组合进行排序。
在上述各实施例的基础上,所述多维立方体的优化装置还包括:路由策略优化模块440,用于对多维立方体模型进行路由策略优化。
在上述各实施例的基础上,所述路由策略优化模块具体可用于:
将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算;
根据确定的结果将所述维度组合分发到多维立方体模型中或原生的数据查询引擎中进行查询。
上述实施例中提供的多维立方体模型的优化装置可执行本发明任意实施例所提供的多维立方体模型的优化方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的多维立方体模型的优化方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种多维立方体模型的优化方法,其特征在于,包括:
基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
根据更新后的维度集重新生成多维立方体模型。
2.根据权利要求1所述的方法,其特征在于,所述基于采集到的用户行为数据根据预设的更新规则更新所述维度集,包括:
对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集。
3.根据权利要求2所述的方法,其特征在于,所述对采集到用户行为数据进行聚合组优化包括:
对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘;
基于所述频繁项集挖掘的结果对所述维度集中的数据维度进行聚合组优化。
4.根据权利要求3所述的方法,其特征在于,所述对采集到的用户行为数据中每次查询操作的维度组合进行频繁项集挖掘包括:
计算所述用户每次查询操作的维度组合中任意两个维度组合的支持度和置信度,并筛选出所述支持度和置信度满足预设阈值的维度组合。
5.根据权利要求4所述的方法,其特征在于,所述对采集到用户行为数据进行存储优化包括:
基于每次查询操作的数据维度组合以及各数据维度基数统计每个数据维度的访问频次;
根据所述访问频次对维度组合进行排序。
6.根据权利要求1-5任一所述的方法,其特征在于,所述方法还包括:
对多维立方体模型进行路由策略优化。
7.根据权利要求6所述的方法,其特征在于,所述对多维立方体模型进行路由策略优化包括:
将每次查询操作的维度组合、查询响应时间和用户等待时间输入预设的逻辑回归模型,确定所述维度组合是否需要进行预计算;
根据确定的结果将所述维度组合分发到多维立方体模型中或原生的数据查询引擎中进行查询。
8.一种多维立方体模型的优化装置,其特征在于,包括:
多维立方体建立模块,用于基于维度集构建全维度的多维立方体模型,所述维度集包括业务模型中的所有数据维度;
维度集更新模块,用于基于采集到的用户行为数据根据预设的更新规则更新所述维度集;
多维立方体模型更新模块,用于根据更新后的维度集重新生成多维立方体模型。
9.根据权利要求8所述的装置,其特征在于,所述维度集更新模块用于:
对采集到的用户行为数据进行聚合组优化和/或存储优化,基于优化结果更新所述维度集。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括:
对多维立方体模型进行路由策略优化。
CN201611177900.9A 2016-12-19 2016-12-19 多维立方体模型的优化方法和装置 Active CN106600067B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611177900.9A CN106600067B (zh) 2016-12-19 2016-12-19 多维立方体模型的优化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611177900.9A CN106600067B (zh) 2016-12-19 2016-12-19 多维立方体模型的优化方法和装置

Publications (2)

Publication Number Publication Date
CN106600067A true CN106600067A (zh) 2017-04-26
CN106600067B CN106600067B (zh) 2020-11-03

Family

ID=58599501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611177900.9A Active CN106600067B (zh) 2016-12-19 2016-12-19 多维立方体模型的优化方法和装置

Country Status (1)

Country Link
CN (1) CN106600067B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229730A (zh) * 2017-06-08 2017-10-03 北京奇虎科技有限公司 数据查询方法及装置
CN108052522A (zh) * 2017-11-02 2018-05-18 上海跬智信息技术有限公司 一种对olap预计算模型进行动态优化的方法及系统
CN108829707A (zh) * 2018-05-02 2018-11-16 国网浙江省电力有限公司信息通信分公司 跨业务域的大数据智能分析系统及方法
WO2018209594A1 (en) * 2017-05-17 2018-11-22 Ebay Inc. Olap cube optimization using weightings
CN109285024A (zh) * 2018-07-23 2019-01-29 北京三快在线科技有限公司 在线特征确定方法、装置、电子设备及存储介质
CN109992594A (zh) * 2019-03-22 2019-07-09 跬云(上海)信息科技有限公司 基于预计算优化的分布式执行优化方法及系统
CN110032591A (zh) * 2018-12-28 2019-07-19 国网浙江省电力有限公司信息通信分公司 一种资产大数据智能分析方法
CN110851442A (zh) * 2019-10-23 2020-02-28 中国科学院国家空间科学中心 科学实验卫星任务数据的多维数据立方体构建系统及方法
CN112162971A (zh) * 2020-09-24 2021-01-01 苏宁云计算有限公司 一种多维数据立方体生成方法、装置及系统
CN112860695A (zh) * 2021-02-08 2021-05-28 北京百度网讯科技有限公司 监控数据查询方法、装置、设备、存储介质及程序产品
CN113297333A (zh) * 2021-03-17 2021-08-24 无锡极数宝大数据科技有限公司 数据处理方法、装置、服务器及存储介质
CN113535771A (zh) * 2021-06-21 2021-10-22 跬云(上海)信息科技有限公司 持续迭代优化的预计算方法和装置
CN113760997A (zh) * 2021-09-10 2021-12-07 成都知道创宇信息技术有限公司 数据置信度计算方法及装置、计算机设备和可读存储介质
US11537635B2 (en) 2014-04-24 2022-12-27 Ebay Inc. Hadoop OLAP engine

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339448A (zh) * 2011-09-30 2012-02-01 奇智软件(北京)有限公司 团购平台信息处理方法及装置
CN102360408A (zh) * 2011-09-28 2012-02-22 国家计算机网络与信息安全管理中心 恶意代码的检测方法及其系统
US20130080299A1 (en) * 2011-09-26 2013-03-28 Oracle International Corporation Allocation manager
CN104965886A (zh) * 2015-06-16 2015-10-07 广州市勤思网络科技有限公司 数据维度处理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130080299A1 (en) * 2011-09-26 2013-03-28 Oracle International Corporation Allocation manager
CN102360408A (zh) * 2011-09-28 2012-02-22 国家计算机网络与信息安全管理中心 恶意代码的检测方法及其系统
CN102339448A (zh) * 2011-09-30 2012-02-01 奇智软件(北京)有限公司 团购平台信息处理方法及装置
CN104965886A (zh) * 2015-06-16 2015-10-07 广州市勤思网络科技有限公司 数据维度处理方法

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11537635B2 (en) 2014-04-24 2022-12-27 Ebay Inc. Hadoop OLAP engine
WO2018209594A1 (en) * 2017-05-17 2018-11-22 Ebay Inc. Olap cube optimization using weightings
CN107229730A (zh) * 2017-06-08 2017-10-03 北京奇虎科技有限公司 数据查询方法及装置
CN108052522A (zh) * 2017-11-02 2018-05-18 上海跬智信息技术有限公司 一种对olap预计算模型进行动态优化的方法及系统
CN108829707A (zh) * 2018-05-02 2018-11-16 国网浙江省电力有限公司信息通信分公司 跨业务域的大数据智能分析系统及方法
CN109285024A (zh) * 2018-07-23 2019-01-29 北京三快在线科技有限公司 在线特征确定方法、装置、电子设备及存储介质
CN110032591A (zh) * 2018-12-28 2019-07-19 国网浙江省电力有限公司信息通信分公司 一种资产大数据智能分析方法
CN109992594A (zh) * 2019-03-22 2019-07-09 跬云(上海)信息科技有限公司 基于预计算优化的分布式执行优化方法及系统
CN110851442B (zh) * 2019-10-23 2022-07-12 中国科学院国家空间科学中心 科学实验卫星任务数据的多维数据立方体构建系统及方法
CN110851442A (zh) * 2019-10-23 2020-02-28 中国科学院国家空间科学中心 科学实验卫星任务数据的多维数据立方体构建系统及方法
CN112162971A (zh) * 2020-09-24 2021-01-01 苏宁云计算有限公司 一种多维数据立方体生成方法、装置及系统
CN112162971B (zh) * 2020-09-24 2022-11-11 苏宁云计算有限公司 一种多维数据立方体生成方法、装置及系统
CN112860695A (zh) * 2021-02-08 2021-05-28 北京百度网讯科技有限公司 监控数据查询方法、装置、设备、存储介质及程序产品
CN112860695B (zh) * 2021-02-08 2023-08-04 北京百度网讯科技有限公司 监控数据查询方法、装置、设备、存储介质及程序产品
CN113297333A (zh) * 2021-03-17 2021-08-24 无锡极数宝大数据科技有限公司 数据处理方法、装置、服务器及存储介质
CN113535771A (zh) * 2021-06-21 2021-10-22 跬云(上海)信息科技有限公司 持续迭代优化的预计算方法和装置
CN113535771B (zh) * 2021-06-21 2023-11-28 跬云(上海)信息科技有限公司 持续迭代优化的预计算方法和装置
CN113760997A (zh) * 2021-09-10 2021-12-07 成都知道创宇信息技术有限公司 数据置信度计算方法及装置、计算机设备和可读存储介质
CN113760997B (zh) * 2021-09-10 2023-04-28 成都知道创宇信息技术有限公司 数据置信度计算方法及装置、计算机设备和可读存储介质

Also Published As

Publication number Publication date
CN106600067B (zh) 2020-11-03

Similar Documents

Publication Publication Date Title
CN106600067A (zh) 多维立方体模型的优化方法和装置
Yang et al. A spatiotemporal compression based approach for efficient big data processing on cloud
CN108764273A (zh) 一种数据处理的方法、装置、终端设备及存储介质
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN106372190A (zh) 实时olap查询方法和装置
CN106844407B (zh) 基于数据集相关性的标签网络产生方法和系统
CN106296305A (zh) 大数据环境下的电商网站实时推荐系统与方法
CN105205052B (zh) 一种数据挖掘方法及装置
CN101996102A (zh) 数据关联规则挖掘实现方法与系统
CN102667761A (zh) 可扩展的集群数据库
Rao et al. Flexible manufacturing system selection using a combinatorial mathematics-based decision-making method
CN107145526B (zh) 一种路网下地理社交关键字反最近邻查询处理方法
CN102737126A (zh) 云计算环境下的分类规则挖掘方法
Lin Optimal Web site reorganization considering information overload and search depth
CN106228263A (zh) 基于大数据的物流信息化方法
EP3076310A1 (en) Variable virtual split dictionary for search optimization
CN116501711A (zh) 一种基于“存算分离”架构的算力网络任务调度方法
CN111967521B (zh) 跨境活跃用户识别方法及装置
CN108460499A (zh) 一种融合用户时间信息的微博客用户影响力排名方法
CN112905340A (zh) 系统资源分配方法、装置及设备
CN115858168A (zh) 一种基于重要性排序的地球应用模型编排系统及其方法
CN103455509B (zh) 一种获取时间窗口模型参数的方法和系统
Theeten et al. Chive: Bandwidth optimized continuous querying in distributed clouds
Kang et al. Honeybee mating optimization algorithm for task assignment in heterogeneous computing systems
CN105956816A (zh) 物资运输信息智能处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant