CN115858699B - 数据仓库的构建方法、装置、电子设备和可读存储介质 - Google Patents

数据仓库的构建方法、装置、电子设备和可读存储介质 Download PDF

Info

Publication number
CN115858699B
CN115858699B CN202310174743.XA CN202310174743A CN115858699B CN 115858699 B CN115858699 B CN 115858699B CN 202310174743 A CN202310174743 A CN 202310174743A CN 115858699 B CN115858699 B CN 115858699B
Authority
CN
China
Prior art keywords
data
view
field
model
original star
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310174743.XA
Other languages
English (en)
Other versions
CN115858699A (zh
Inventor
张志勇
阮东东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Renke Interactive Network Technology Co Ltd
Original Assignee
Beijing Renke Interactive Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Renke Interactive Network Technology Co Ltd filed Critical Beijing Renke Interactive Network Technology Co Ltd
Priority to CN202310174743.XA priority Critical patent/CN115858699B/zh
Publication of CN115858699A publication Critical patent/CN115858699A/zh
Application granted granted Critical
Publication of CN115858699B publication Critical patent/CN115858699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供一种数据仓库的构建方法、装置、电子设备和可读存储介质,涉及数据处理技术领域,该方法包括:获取原始星型模型对应的视图属性信息,视图属性信息包括原始星型模型中的视图数量以及每个视图对应的视图属性参数;获取应用原始星型模型后得到的模型应用统计信息,模型应用统计信息包括原始星型模型中的每一组字段数据所对应的字段应用统计参数;基于视图数量、视图属性参数和字段应用统计参数对原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库,以解决现有技术中数据仓库的数据处理效果差的技术问题。

Description

数据仓库的构建方法、装置、电子设备和可读存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据仓库的构建方法、装置、电子设备和可读存储介质。
背景技术
目前,由于现有的数据存储计算等设备的价格比较昂贵,一般只应用于银行等特殊应用场景,因此难以应用于对移动端、PC端、以及物联网(Internet of Things,IoT)产生的大量数据的统计分析以及挖掘处理。
在现有技术中,通过人工构建数据仓库,以对移动端、PC端、以及物联网(Internetof Things,IoT)产生的大量数据进行统计分析以及挖掘处理,然而,由于人工构建的数据仓库只能满足基础的数据处理需求,而无法快速地对各种不同渠道来源的、不同类型的、结构化或者半结构化的数据进行提取、转化以及集成处理,因此,现有的数据仓库存在数据处理效果差的技术缺陷。
因此,如何提高数据仓库的数据处理效果,是相关领域技术人员亟待解决的技术问题。
发明内容
本发明提供一种数据仓库的构建方法、装置、电子设备和可读存储介质,用以解决现有技术中数据仓库的数据处理效果差的技术问题。
本发明提供一种数据仓库的构建方法,包括:
获取原始星型模型对应的视图属性信息,所述原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,所述视图属性信息包括所述原始星型模型中的视图数量以及每个视图对应的视图属性参数;
获取应用所述原始星型模型后得到的模型应用统计信息,所述模型应用统计信息包括所述原始星型模型中的每一组字段数据所对应的字段应用统计参数;
基于所述视图数量、所述视图属性参数和所述字段应用统计参数对所述原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库。
根据本发明提供的一种数据仓库的构建方法,所述视图属性参数包括所述视图对应的视图数据量和视图结构复杂度;所述字段应用统计参数包括所述字段数据对应的字段使用频率和字段查询时长;
所述基于所述视图数量、所述视图属性参数和所述字段应用统计参数对所述原始星型模型进行优化,包括:
基于所述视图数量、所述视图数据量、所述视图结构复杂度和所述字段使用频率,对所述原始星型模型进行逻辑优化;
和/或,基于所述视图数据量、所述视图结构复杂度、所述字段查询时长和所述字段使用频率,对所述原始星型模型进行存储优化。
根据本发明提供的一种数据仓库的构建方法,所述基于所述视图数量、所述视图数据量、所述视图结构复杂度和所述字段使用频率,对所述原始星型模型进行逻辑优化,包括:
以降低所述视图数量、所述视图数据量以及所述视图结构复杂度的数值为逻辑优化目标,以所述字段使用频率为逻辑优化参数,构建逻辑优化模型;
基于所述逻辑优化模型对所述原始星型模型进行迭代优化,直至所述视图数量、所述视图数据量以及所述视图结构复杂度的每一个参数的当前数值均小于其对应的数值阈值。
根据本发明提供的一种数据仓库的构建方法,所述字段数据包括单一字段数据和组合字段数据中的至少之一,所述单一字段数据由一个字段的数据构成,所述组合字段数据由至少两个字段的数据构成;所述基于所述逻辑优化模型对所述原始星型模型进行迭代优化,包括:
在所述视图数量、所述视图数据量以及所述视图结构复杂度中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下逻辑优化步骤:
在所述原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将所述至少两组字段数据整合至所述原始星型模型中的同一个视图中;
获取所述原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对所述原始星型模型中重复的多组所述目标字段数据进行合并处理。
根据本发明提供的一种数据仓库的构建方法,所述基于所述视图数据量、所述视图结构复杂度、所述字段查询时长和所述字段使用频率,对所述原始星型模型进行存储优化,包括:
以降低所述视图数据量、所述视图结构复杂度以及所述字段查询时长的数值为存储优化目标,以所述字段使用频率为存储优化参数,构建存储优化模型;
基于所述存储优化模型对所述原始星型模型进行迭代优化,直至所述视图数据量、所述视图结构复杂度以及所述字段查询时长的每一个参数的当前数值均小于其对应的数值阈值。
根据本发明提供的一种数据仓库的构建方法,所述字段数据包括单一字段数据和组合字段数据中的至少之一,所述单一字段数据由一个字段的数据构成,所述组合字段数据由至少两个字段的数据构成;所述基于所述存储优化模型对所述原始星型模型进行迭代优化,包括:
在所述视图数据量、所述视图结构复杂度以及所述字段查询时长中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下存储优化步骤:
在所述原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将所述至少两组字段数据整合至所述原始星型模型中的同一个视图中;
获取所述原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对所述原始星型模型中重复的多组所述目标字段数据进行合并处理。
根据本发明提供的一种数据仓库的构建方法,所述原始星型模型是基于以下方式构建得到的:
从平台即服务PaaS平台中获取至少一个租户对应的第一实体数据,以及每一个租户对应C端用户的元数据;
基于所述平台即服务PaaS平台对应的数据格式,对所述C端用户的元数据进行格式转换,得到所述C端用户对应的第二实体数据;
基于所述第一实体数据和所述第二实体数据确定目标贴源层数据,并基于所述目标贴源层数据和预设数据挖掘规则,构建所述原始星型模型。
本发明还提供一种数据仓库的构建装置,包括:
数据获取模块,用于获取原始星型模型对应的视图属性信息,所述原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,所述视图属性信息包括所述原始星型模型中的视图数量以及每个视图对应的视图属性参数;
数据统计模块,用于获取应用所述原始星型模型后得到的模型应用统计信息,所述模型应用统计信息包括所述原始星型模型中的每一组字段数据所对应的字段应用统计参数;
数仓构建模块,用于基于所述视图数量、所述视图属性参数和所述字段应用统计参数对所述原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的数据仓库的构建方法。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的数据仓库的构建方法。
本发明提供的数据仓库的构建方法、装置、电子设备和可读存储介质,通过基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建原始星型模型,以将数据仓库中的数据以结构化的视图形式进行展示,从而可以利用原始星型模型中视图的结构化特性对数据仓库的数据结构进行优化,具体地,基于原始星型模型对应的视图属性信息以及模型应用统计信息,对原始星型模型中的各个视图的视图结构进行优化,从而达到优化数据仓库的数据结构的目的,并将优化后的目标星型模型确定为目标数据仓库,以提高数据仓库的数据处理效果;另外,基于应用原始星型模型后得到的模型应用统计信息对原始星型模型进行负反馈优化,以消除原始星型模型中存在的各种不合理的数据结构,从而提高了对原始星型模型的优化效果,进而提高数据仓库的数据处理效果,解决了现有技术中数据仓库的数据处理效果差的技术问题。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的数据仓库的构建方法的流程示意图之一;
图2是本发明实施例提供的数据仓库的构建方法的流程示意图之二;
图3是本发明实施例提供的数据仓库的构建方法的流程示意图之三;
图4是本发明实施例提供的数据仓库的构建方法的流程示意图之四;
图5是本发明实施例提供的数据仓库的构建方法的流程示意图之五;
图6是本发明实施例提供的数据仓库的构建方法的流程示意图之六;
图7是本发明实施例提供的数据仓库的构建方法的流程示意图之七;
图8是本发明实施例提供的数据仓库的构建装置的结构示意图;
图9是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图7描述本发明提供的数据仓库的构建方法。如图1所示,本发明提供一种数据仓库的构建方法,包括:
步骤101,获取原始星型模型对应的视图属性信息,原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,视图属性信息包括原始星型模型中的视图数量以及每个视图对应的视图属性参数。
其中,原始星型模型包含至少一个视图。C端用户为租户的客户。C端(consumer)表示消费者或者个人用户,则C端用户表示终端用户。原始星型模型基于至少一个租户对应的第一实体数据以及至少一个C端用户对应的第二实体数据构建。
进一步地,第一实体数据中包含至少一个第一实体对应的实体数据,每一个第一实体代表一个业务对象,第一实体包括合同、订单等。第二实体数据中包含至少一个第二实体对应的行为数据,每一个第二实体代表一个C端用户,第二实体对应的行为数据即为C端用户的浏览、点击等行为数据。
进一步地,视图属性参数包括视图对应的视图数据量和视图结构复杂度。视图数据量表示视图中的数据量或者视图的数据体量。视图结构复杂度表示视图的结构层次的复杂度。
步骤102,获取应用原始星型模型后得到的模型应用统计信息,模型应用统计信息包括原始星型模型中的每一组字段数据所对应的字段应用统计参数。
进一步地,字段应用统计参数包括字段数据对应的字段使用频率和字段查询时长。字段查询时长表示在原始星型模型中查询或者搜索某一组字段数据所花费的时间。
在一个实施例中,字段数据包括单一字段数据和组合字段数据中的至少之一,单一字段数据由一个字段的数据构成,组合字段数据由至少两个字段的数据构成。
步骤103,基于视图数量、视图属性参数和字段应用统计参数对原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库。
上述步骤101至步骤103,通过基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建原始星型模型,以将数据仓库中的数据以结构化的视图形式进行展示,从而可以利用原始星型模型中视图的结构化特性对数据仓库的数据结构进行优化,具体地,基于原始星型模型对应的视图属性信息以及模型应用统计信息,对原始星型模型中的各个视图的视图结构进行优化,从而达到优化数据仓库的数据结构的目的,并将优化后的目标星型模型确定为目标数据仓库,以提高数据仓库的数据处理效果;另外,基于应用原始星型模型后得到的模型应用统计信息对原始星型模型进行负反馈优化,以消除原始星型模型中存在的各种不合理的数据结构,从而提高了对原始星型模型的优化效果,进而提高数据仓库的数据处理效果,解决了现有技术中数据仓库的数据处理效果差的技术问题。
在一个实施例中,视图属性参数包括视图对应的视图数据量和视图结构复杂度;字段应用统计参数包括字段数据对应的字段使用频率和字段查询时长。如图2所示,上述步骤103包括步骤201和/或步骤202,其中:
步骤201,基于视图数量、视图数据量、视图结构复杂度和字段使用频率,对原始星型模型进行逻辑优化。
需要说明的是,基于视图数量、视图数据量、视图结构复杂度和字段使用频率,对原始星型模型进行逻辑优化,以减少原始星型模型中的视图数量、单个视图的视图数据量以及降低视图结构复杂度,从而达到优化数据仓库的DWD(Data WareHouse Detail)数据明细层的数据结构的目的。
步骤202,和/或,基于视图数据量、视图结构复杂度、字段查询时长和字段使用频率,对原始星型模型进行存储优化。
需要说明的是,基于视图数据量、视图结构复杂度、字段查询时长和字段使用频率,对原始星型模型进行存储优化,以减少原始星型模型中的单个视图的视图数据量以及降低视图结构复杂度,从而减少原始星型模型中字段数据的字段查询时长,提高原始星型模型中字段数据的查询效率,最终达到优化数据仓库的DWS(Data Warehouse Summary)数据汇总层的数据结构的目的。
上述步骤101至步骤103,通过基于视图数量、视图数据量、视图结构复杂度和字段使用频率,对原始星型模型进行逻辑优化,以减少原始星型模型中的视图数量、单个视图的视图数据量以及降低视图结构复杂度,从而达到优化数据仓库的数据明细层的数据结构的目的,并基于视图数据量、视图结构复杂度、字段查询时长和字段使用频率,对原始星型模型进行存储优化,以减少原始星型模型中的单个视图的视图数据量以及降低视图结构复杂度,从而减少原始星型模型中字段数据的字段查询时长,提高原始星型模型中字段数据的查询效率,最终达到优化数据仓库的数据汇总层的数据结构的目的,进而使得数据仓库能够快速地对各种不同渠道来源的、不同类型的、结构化或者半结构化的数据进行提取、转化以及集成处理,进一步提高了数据仓库的数据处理效果。
在一个实施例中,如图3所示,上述步骤201包括步骤301至步骤302,其中:
步骤301,以降低视图数量、视图数据量以及视图结构复杂度的数值为逻辑优化目标,以字段使用频率为逻辑优化参数,构建逻辑优化模型。进一步地,逻辑优化模型基于无监督学习方法构建。
步骤302,基于逻辑优化模型对原始星型模型进行迭代优化,直至视图数量、视图数据量以及视图结构复杂度的每一个参数的当前数值均小于其对应的数值阈值。
进一步地,逻辑优化模型基于无监督学习方法对原始星型模型进行迭代优化,用于简化原始星型模型的逻辑结构,即减少原始星型模型的视图数量、视图数据量以及降低原始星型模型中视图的视图结构复杂度。
上述步骤301至步骤302,通过以降低视图数量、视图数据量以及视图结构复杂度的数值为逻辑优化目标,以字段使用频率为逻辑优化参数,构建逻辑优化模型,并基于逻辑优化模型对原始星型模型进行迭代优化,以减少原始星型模型中的视图数量、单个视图的视图数据量以及降低视图结构复杂度,从而达到优化数据仓库的数据明细层的数据结构的目的,进而进一步提高数据仓库的数据处理效果。
在一个实施例中,字段数据包括单一字段数据和组合字段数据中的至少之一,单一字段数据由一个字段的数据构成,组合字段数据由至少两个字段的数据构成。如图4所示,上述步骤302包括步骤401至步骤403,其中:
步骤401,在视图数量、视图数据量以及视图结构复杂度中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下逻辑优化步骤。
具体的,在视图数量、视图数据量以及视图结构复杂度中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下步骤402至步骤403。
步骤402,在原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将至少两组字段数据整合至原始星型模型中的同一个视图中。
在一个实施例中,由于字段数据包括单一字段数据和组合字段数据中的至少之一,因此,字段使用频率包括对单一字段的使用频率以及对组合字段的使用频率。
进一步地,可以将原始星型模型中字段使用频率的差值小于预设差值阈值的至少两组单一字段数据或者至少两组组合字段数据整合至同一个视图中。
步骤403,获取原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对原始星型模型中重复的多组目标字段数据进行合并处理。
在一个实施例中,目标字段数据包括目标单一字段数据和目标组合字段数据中的至少之一。
进一步地,可以将原始星型模型中字段使用频率大于预设频率阈值的至少两组重复的目标单一字段数据或者至少两组重复的目标组合字段数据合并处理。
上述步骤401至步骤403,通过将原始星型模型中字段使用频率的差值小于预设差值阈值的至少两组字段数据整合至原始星型模型中的同一个视图中,以减少原始星型模型中的视图数量;通过对原始星型模型中字段使用频率大于预设频率阈值的多组重复的目标字段数据进行合并处理,以减少原始星型模型中的单个视图的视图数据量以及降低视图结构复杂度,从而达到优化数据仓库的数据明细层的数据结构的目的,进而提高了数据仓库的数据处理效果。
在一个实施例中,如图5所示,上述步骤202包括步骤501至步骤502,其中:
步骤501,以降低视图数据量、视图结构复杂度以及字段查询时长的数值为存储优化目标,以字段使用频率为存储优化参数,构建存储优化模型。进一步地,存储优化模型基于回归算法构建。
步骤502,基于存储优化模型对原始星型模型进行迭代优化,直至视图数据量、视图结构复杂度以及字段查询时长的每一个参数的当前数值均小于其对应的数值阈值。
进一步地,存储优化模型基于回归算法对原始星型模型进行迭代优化,用于简化原始星型模型的存储结构,即减少原始星型模型的视图数据量以及降低视图结构复杂度,从而减少原始星型模型的字段查询时长。
上述步骤501至步骤502,通过以降低视图数据量、视图结构复杂度以及字段查询时长的数值为存储优化目标,以字段使用频率为存储优化参数,构建存储优化模型,并基于存储优化模型对原始星型模型进行迭代优化,以减少原始星型模型中的单个视图的视图数据量以及降低视图结构复杂度,以空间换时间,从而减少原始星型模型中字段数据的字段查询时长,提高原始星型模型中字段数据的查询效率,最终达到优化数据仓库的数据汇总层的数据结构的目的,进而进一步提高数据仓库的数据处理效果。
在一个实施例中,字段数据包括单一字段数据和组合字段数据中的至少之一,单一字段数据由一个字段的数据构成,组合字段数据由至少两个字段的数据构成。如图6所示,上述步骤502包括步骤601至步骤603,其中:
步骤601,在视图数据量、视图结构复杂度以及字段查询时长中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下存储优化步骤。
步骤602,在原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将至少两组字段数据整合至原始星型模型中的同一个视图中。
在一个实施例中,由于字段数据包括单一字段数据和组合字段数据中的至少之一,因此,字段使用频率包括对单一字段的使用频率以及对组合字段的使用频率。
进一步地,可以将原始星型模型中字段使用频率的差值小于预设差值阈值的至少两组单一字段数据或者至少两组组合字段数据整合至同一个视图中。
步骤603,获取原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对原始星型模型中重复的多组目标字段数据进行合并处理。
在一个实施例中,目标字段数据包括目标单一字段数据和目标组合字段数据中的至少之一。
进一步地,可以将原始星型模型中字段使用频率大于预设频率阈值的至少两组重复的目标单一字段数据或者至少两组重复的目标组合字段数据合并处理。
上述步骤601至步骤603,通过将原始星型模型中字段使用频率的差值小于预设差值阈值的至少两组字段数据整合至原始星型模型中的同一个视图中,以减少原始星型模型中的视图数量;通过对原始星型模型中字段使用频率大于预设频率阈值的多组重复的目标字段数据进行合并处理,以减少原始星型模型中的单个视图的视图数据量以及降低视图结构复杂度,进而减少原始星型模型中字段数据的字段查询时长,提高原始星型模型中字段数据的查询效率,最终达到优化数据仓库的数据汇总层的数据结构的目的,进一步提高了数据仓库的数据处理效果。
在一个实施例中,如图7所示,原始星型模型是基于以下方式构建得到的:
步骤701,从平台即服务PaaS平台中获取至少一个租户对应的第一实体数据,以及每一个租户对应C端用户的元数据。
其中,平台即服务PaaS平台表示基于平台即服务PaaS模式对外提供服务的业务服务平台。
步骤702,基于平台即服务PaaS平台对应的数据格式,对C端用户的元数据进行格式转换,得到C端用户对应的第二实体数据。
步骤703,基于第一实体数据和第二实体数据确定目标贴源层数据,并基于目标贴源层数据和预设数据挖掘规则,构建原始星型模型。
其中,目标贴源层数据为目标数据仓库的ODS(Operation Data Store) 数据准备区,也称为贴源层。预设数据挖掘规则包括目标贴源层数据的存储位置以及星型模型的结构。
进一步地,目标贴源层数据中包含至少一行字段数据。每一行字段数据对应一个租户,包含租户的至少一个业务对象的无意义字段信息。目标贴源层数据为贴源层数据表,贴源层数据表中的不同业务对象对应的同一类无意义字段所代表的含义各不相同。
例如,无意义字段varcher 1和无意义字段varcher 2为同一类无意义字段,其中,无意义字段varcher 1代表的是用户1的用户ID(identifier,身份标识)。无意义字段varcher 2代表的是用户2的用户名称。
下面对本发明提供的数据仓库的构建装置进行描述,下文描述的数据仓库的构建装置与上文描述的数据仓库的构建方法可相互对应参照。
如图8所示,本发明提供一种数据仓库的构建装置,数据仓库的构建装置100包括:
数据获取模块1001,用于获取原始星型模型对应的视图属性信息,原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,视图属性信息包括原始星型模型中的视图数量以及每个视图对应的视图属性参数。
数据统计模块1002,用于获取应用原始星型模型后得到的模型应用统计信息,模型应用统计信息包括原始星型模型中的每一组字段数据所对应的字段应用统计参数。
数仓构建模块1003,用于基于视图数量、视图属性参数和字段应用统计参数对原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库。
在一个实施例中,视图属性参数包括视图对应的视图数据量和视图结构复杂度;字段应用统计参数包括字段数据对应的字段使用频率和字段查询时长。数仓构建模块1003包括逻辑优化单元和存储优化单元,其中:
逻辑优化单元,用于基于视图数量、视图数据量、视图结构复杂度和字段使用频率,对原始星型模型进行逻辑优化。
存储优化单元,用于和/或,基于视图数据量、视图结构复杂度、字段查询时长和字段使用频率,对原始星型模型进行存储优化。
在一个实施例中,逻辑优化单元,还用于以降低视图数量、视图数据量以及视图结构复杂度的数值为逻辑优化目标,以字段使用频率为逻辑优化参数,构建逻辑优化模型;基于逻辑优化模型对原始星型模型进行迭代优化,直至视图数量、视图数据量以及视图结构复杂度的每一个参数的当前数值均小于其对应的数值阈值。
在一个实施例中,字段数据包括单一字段数据和组合字段数据中的至少之一,单一字段数据由一个字段的数据构成,组合字段数据由至少两个字段的数据构成。逻辑优化单元,还用于在视图数量、视图数据量以及视图结构复杂度中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下逻辑优化步骤:在原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将至少两组字段数据整合至原始星型模型中的同一个视图中;获取原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对原始星型模型中重复的多组目标字段数据进行合并处理。
在一个实施例中,存储优化单元,还用于以降低视图数据量、视图结构复杂度以及字段查询时长的数值为存储优化目标,以字段使用频率为存储优化参数,构建存储优化模型;基于存储优化模型对原始星型模型进行迭代优化,直至视图数据量、视图结构复杂度以及字段查询时长的每一个参数的当前数值均小于其对应的数值阈值。
在一个实施例中,字段数据包括单一字段数据和组合字段数据中的至少之一,单一字段数据由一个字段的数据构成,组合字段数据由至少两个字段的数据构成。存储优化单元,还用于在视图数据量、视图结构复杂度以及字段查询时长中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下存储优化步骤:在原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将至少两组字段数据整合至原始星型模型中的同一个视图中;获取原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对原始星型模型中重复的多组目标字段数据进行合并处理。
在一个实施例中,数据仓库的构建装置100还包括:模型构建模块,用于从平台即服务PaaS平台中获取至少一个租户对应的第一实体数据,以及每一个租户对应C端用户的元数据;基于平台即服务PaaS平台对应的数据格式,对C端用户的元数据进行格式转换,得到C端用户对应的第二实体数据;基于第一实体数据和第二实体数据确定目标贴源层数据,并基于目标贴源层数据和预设数据挖掘规则,构建原始星型模型。
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840,其中,处理器810,通信接口820,存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令,以执行上述各方法所提供的数据仓库的构建方法,该方法包括:获取原始星型模型对应的视图属性信息,原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,视图属性信息包括原始星型模型中的视图数量以及每个视图对应的视图属性参数;获取应用原始星型模型后得到的模型应用统计信息,模型应用统计信息包括原始星型模型中的每一组字段数据所对应的字段应用统计参数;基于视图数量、视图属性参数和字段应用统计参数对原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库。
此外,上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的数据仓库的构建方法,该方法包括:获取原始星型模型对应的视图属性信息,原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,视图属性信息包括原始星型模型中的视图数量以及每个视图对应的视图属性参数;获取应用原始星型模型后得到的模型应用统计信息,模型应用统计信息包括原始星型模型中的每一组字段数据所对应的字段应用统计参数;基于视图数量、视图属性参数和字段应用统计参数对原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种数据仓库的构建方法,其特征在于,包括:
获取原始星型模型对应的视图属性信息,所述原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,所述视图属性信息包括所述原始星型模型中的视图数量以及每个视图对应的视图属性参数;
获取应用所述原始星型模型后得到的模型应用统计信息,所述模型应用统计信息包括所述原始星型模型中的每一组字段数据所对应的字段应用统计参数;
基于所述视图数量、所述视图属性参数和所述字段应用统计参数对所述原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库;
其中,所述视图属性参数包括所述视图对应的视图数据量和视图结构复杂度;所述字段应用统计参数包括所述字段数据对应的字段使用频率和字段查询时长;
所述基于所述视图数量、所述视图属性参数和所述字段应用统计参数对所述原始星型模型进行优化,包括:
基于所述视图数量、所述视图数据量、所述视图结构复杂度和所述字段使用频率,对所述原始星型模型进行逻辑优化;
和/或,基于所述视图数据量、所述视图结构复杂度、所述字段查询时长和所述字段使用频率,对所述原始星型模型进行存储优化。
2.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述基于所述视图数量、所述视图数据量、所述视图结构复杂度和所述字段使用频率,对所述原始星型模型进行逻辑优化,包括:
以降低所述视图数量、所述视图数据量以及所述视图结构复杂度的数值为逻辑优化目标,以所述字段使用频率为逻辑优化参数,构建逻辑优化模型;
基于所述逻辑优化模型对所述原始星型模型进行迭代优化,直至所述视图数量、所述视图数据量以及所述视图结构复杂度的每一个参数的当前数值均小于其对应的数值阈值。
3.根据权利要求2所述的数据仓库的构建方法,其特征在于,所述字段数据包括单一字段数据和组合字段数据中的至少之一,所述单一字段数据由一个字段的数据构成,所述组合字段数据由至少两个字段的数据构成;所述基于所述逻辑优化模型对所述原始星型模型进行迭代优化,包括:
在所述视图数量、所述视图数据量以及所述视图结构复杂度中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下逻辑优化步骤:
在所述原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将所述至少两组字段数据整合至所述原始星型模型中的同一个视图中;
获取所述原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对所述原始星型模型中重复的多组所述目标字段数据进行合并处理。
4.根据权利要求1所述的数据仓库的构建方法,其特征在于,所述基于所述视图数据量、所述视图结构复杂度、所述字段查询时长和所述字段使用频率,对所述原始星型模型进行存储优化,包括:
以降低所述视图数据量、所述视图结构复杂度以及所述字段查询时长的数值为存储优化目标,以所述字段使用频率为存储优化参数,构建存储优化模型;
基于所述存储优化模型对所述原始星型模型进行迭代优化,直至所述视图数据量、所述视图结构复杂度以及所述字段查询时长的每一个参数的当前数值均小于其对应的数值阈值。
5.根据权利要求4所述的数据仓库的构建方法,其特征在于,所述字段数据包括单一字段数据和组合字段数据中的至少之一,所述单一字段数据由一个字段的数据构成,所述组合字段数据由至少两个字段的数据构成;所述基于所述存储优化模型对所述原始星型模型进行迭代优化,包括:
在所述视图数据量、所述视图结构复杂度以及所述字段查询时长中的至少一个参数的当前数值大于其对应的数值阈值的情况下,执行以下存储优化步骤:
在所述原始星型模型中存在至少两组字段数据的字段使用频率的差值小于预设差值阈值的情况下,将所述至少两组字段数据整合至所述原始星型模型中的同一个视图中;
获取所述原始星型模型中字段使用频率大于预设频率阈值的目标字段数据,并对所述原始星型模型中重复的多组所述目标字段数据进行合并处理。
6.根据权利要求1-5任一项所述的数据仓库的构建方法,其特征在于,所述原始星型模型是基于以下方式构建得到的:
从平台即服务PaaS平台中获取至少一个租户对应的第一实体数据,以及每一个租户对应C端用户的元数据;
基于所述平台即服务PaaS平台对应的数据格式,对所述C端用户的元数据进行格式转换,得到所述C端用户对应的第二实体数据;
基于所述第一实体数据和所述第二实体数据确定目标贴源层数据,并基于所述目标贴源层数据和预设数据挖掘规则,构建所述原始星型模型。
7.一种数据仓库的构建装置,其特征在于,包括:
数据获取模块,用于获取原始星型模型对应的视图属性信息,所述原始星型模型基于租户对应的第一实体数据以及C端用户对应的第二实体数据构建,所述视图属性信息包括所述原始星型模型中的视图数量以及每个视图对应的视图属性参数;
数据统计模块,用于获取应用所述原始星型模型后得到的模型应用统计信息,所述模型应用统计信息包括所述原始星型模型中的每一组字段数据所对应的字段应用统计参数;
数仓构建模块,用于基于所述视图数量、所述视图属性参数和所述字段应用统计参数对所述原始星型模型进行优化,得到优化后的目标星型模型,并将优化后的目标星型模型确定为目标数据仓库;
其中,所述视图属性参数包括视图对应的视图数据量和视图结构复杂度;所述字段应用统计参数包括字段数据对应的字段使用频率和字段查询时长;
所述数仓构建模块包括逻辑优化单元和存储优化单元,其中:
所述逻辑优化单元,用于基于视图数量、视图数据量、视图结构复杂度和字段使用频率,对原始星型模型进行逻辑优化;
所述存储优化单元,用于和/或,基于视图数据量、视图结构复杂度、字段查询时长和字段使用频率,对原始星型模型进行存储优化。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述的数据仓库的构建方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的数据仓库的构建方法。
CN202310174743.XA 2023-02-28 2023-02-28 数据仓库的构建方法、装置、电子设备和可读存储介质 Active CN115858699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310174743.XA CN115858699B (zh) 2023-02-28 2023-02-28 数据仓库的构建方法、装置、电子设备和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310174743.XA CN115858699B (zh) 2023-02-28 2023-02-28 数据仓库的构建方法、装置、电子设备和可读存储介质

Publications (2)

Publication Number Publication Date
CN115858699A CN115858699A (zh) 2023-03-28
CN115858699B true CN115858699B (zh) 2023-05-09

Family

ID=85659307

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310174743.XA Active CN115858699B (zh) 2023-02-28 2023-02-28 数据仓库的构建方法、装置、电子设备和可读存储介质

Country Status (1)

Country Link
CN (1) CN115858699B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257436A1 (zh) * 2021-06-08 2022-12-15 网络通信与安全紫金山实验室 基于无线通信网络数据仓库构建方法、系统、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115640274A (zh) * 2021-07-19 2023-01-24 中兴通讯股份有限公司 数据库模型动态调整的方法、设备及存储介质
CN115525724A (zh) * 2022-09-30 2022-12-27 阿里巴巴(中国)有限公司 应用于数据仓库的建模方法、系统以及电子设备

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022257436A1 (zh) * 2021-06-08 2022-12-15 网络通信与安全紫金山实验室 基于无线通信网络数据仓库构建方法、系统、设备及介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Proposed Techniques to Optimize the DW and ETL Query for Enhancing data warehouse efficiency;Abhishek Gupta et al.;《 IEEE Xplore》;全文 *

Also Published As

Publication number Publication date
CN115858699A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110147437B (zh) 一种基于知识图谱的搜索方法及装置
US9330129B2 (en) Organizing, joining, and performing statistical calculations on massive sets of data
US9317557B2 (en) Answering relational database queries using graph exploration
CN110362544B (zh) 日志处理系统、日志处理方法、终端及存储介质
US8301650B1 (en) Bloom filter compaction
US9477974B2 (en) Method and systems for flexible and scalable databases
US9396448B2 (en) Distributed and open schema interactions management system and method
Duong et al. Sharding social networks
CN106815260B (zh) 一种索引建立方法及设备
CN110766438B (zh) 一种通过人工智能对电网用户的用户行为进行分析的方法
US20150286679A1 (en) Executing a query having multiple set operators
Chen et al. Community-based network alignment for large attributed network
CN103473036A (zh) 一种输入法皮肤推送方法及系统
CN112667860A (zh) 一种子图匹配方法、装置、设备及存储介质
CN109753573B (zh) 一种基于图数据库构建预设模型的处理方法及装置
CN114880522A (zh) 基于图数据库实现ID Mapping的方法及装置
CN113256163B (zh) 智慧城市政务云平台网外运算方法及系统
CN115858699B (zh) 数据仓库的构建方法、装置、电子设备和可读存储介质
CN115329078B (zh) 文本数据处理方法、装置、设备以及存储介质
CN115827646A (zh) 索引配置方法、装置和电子设备
CN115982177A (zh) 一种基于树形维度的数据归集的方法、装置、设备及介质
CN117009430A (zh) 数据管理方法、装置和存储介质及电子设备
CN115237783A (zh) 一种测试数据生成方法及装置
CN109063201B (zh) 一种基于混合存储方案的impala在线交互式查询方法
CN112035581A (zh) 基于模型的任务处理方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant