CN109947861A - 用于数据仓库生成目标表的方法、装置和计算机可读介质 - Google Patents

用于数据仓库生成目标表的方法、装置和计算机可读介质 Download PDF

Info

Publication number
CN109947861A
CN109947861A CN201711110871.9A CN201711110871A CN109947861A CN 109947861 A CN109947861 A CN 109947861A CN 201711110871 A CN201711110871 A CN 201711110871A CN 109947861 A CN109947861 A CN 109947861A
Authority
CN
China
Prior art keywords
dimension
key
value pair
specific
project
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711110871.9A
Other languages
English (en)
Other versions
CN109947861B (zh
Inventor
张宁
刘业辉
王彦明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201711110871.9A priority Critical patent/CN109947861B/zh
Publication of CN109947861A publication Critical patent/CN109947861A/zh
Application granted granted Critical
Publication of CN109947861B publication Critical patent/CN109947861B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开提供了一种用于数据仓库生成目标表的方法。所述目标表包括至少一条记录。每条记录包括至少一个项目。不同项目对应于不同索引。所述方法包括:根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值;从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据,其中,所述键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,所述键值对中的关键字包括维度值,所述键值对中的值包括与所述维度值对应的项目数据;以及使用所述特定项目数据填充所述特定项目。本公开还提供了一种用于数据仓库生成目标表的装置。

Description

用于数据仓库生成目标表的方法、装置和计算机可读介质
技术领域
本公开涉及计算机技术领域领域,更具体地,涉及一种用于数据仓库生成目标表的方法、装置和计算机可读介质。
背景技术
随着互联网技术突飞猛进导致数据大爆炸,数据量呈指数级增长。数据仓库为海量数据的处理提供了一种解决方案。在通过数据仓库进行数据加工时,往往需要频繁甚至反复地根据各个维度表中的维度值获取相应的维度属性(即维度值对应的描述性信息)。在数据仓库中根据维度值获取相应的维度属性的方法主要包括join操作、map join操作或者case when语句操作。
在实现本发明构思的过程中,发明人发现现有技术中至少存在如下问题:使用join操作时,通过在map reduce实现,其中首先会集中进行维度值到维度属性的map映射操作,然后再进行整合reduce操作,这样容易产生严重的数据倾斜;使用map join操作时,在需要关联多个维度表的情况下,需要多个map join,从而需要执行多次map映射操作,导致计算量急剧增加;使用case when语句时灵活性比较差,且不易维护。
发明内容
有鉴于此,本公开提供了一种能够有效避免数据倾斜、且计算量较少、灵活易用的用于数据仓库生成目标表的方法、装置和计算机可读介质。
本公开的一个方面提供了一种用于数据仓库生成目标表的方法。所述目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引。所述方法包括:根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值;从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据,其中,所述键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,所述键值对中的关键字包括维度值,所述键值对中的值包括与所述维度值对应的项目数据;以及使用所述特定项目数据填充所述特定项目。
根据本公开的实施例,所述方法还包括将原始维度表转换为所述键值对维度表,其中所述原始维度表以字段形式存储所述维度值和所述维度值对应的项目数据。
根据本公开的实施例,在从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据之前,所述方法还包括将对应于不同维度的所述键值对维度表存储于同一个Hive蜂巢文件的不同分区中,以及加载所述同一个Hive蜂巢文件。
根据本公开的实施例,根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值,包括获取与该特定索引相关联的至少一个中间表,以及从所述至少一个中间表获取该特定索引所对应的特定项目的特定维度值。其中,所述中间表包括事实数据表,
根据本公开的实施例,加载所述同一个Hive蜂巢文件,包括在分布式内存中加载所述同一个Hive蜂巢文件。
本公开的另一方面提供了一种用于数据仓库生成目标表的装置。所述目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引。所述装置包括维度值获取模块、项目数据确定模块、和项目数据填充模块。维度值获取模块用于根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值。项目数据确定模块用于从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据,其中,所述键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,所述键值对中的关键字包括维度值,所述键值对中的值包括与所述维度值对应的项目数据。项目数据填充模块用于使用所述特定项目数据填充所述特定项目。
根据本公开的实施例,所述装置还包括维度表转换模块。维度表转换模块用于将原始维度表转换为所述键值对维度表,其中所述原始维度表以字段形式存储所述维度值和所述维度值对应的项目数据。
根据本公开的实施例,所述装置还包括Hive蜂巢文件存储模块和Hive蜂巢文件加载模块。所述Hive蜂巢文件存储模块用于在从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据之前,将对应于不同维度的所述键值对维度表存储于同一个Hive蜂巢文件的不同分区中。Hive蜂巢文件加载模块用于加载所述同一个Hive蜂巢文件。
根据本公开的实施例,维度值获取模块包括中间表获取子模块和维度值获取子模块。中间表获取子模块用于获取与该特定索引相关联的至少一个中间表,其中,所述中间表包括事实数据表。维度值获取子模块用于从所述至少一个中间表获取该特定索引所对应的特定项目的特定维度值。
根据本公开的实施例,所述Hive蜂巢文件加载模块加载所述同一个Hive蜂巢文件,包括在分布式内存中加载所述同一个Hive蜂巢文件。
本公开的另一方面提供了一种用于数据仓库生成目标表的装置,包括一个或多个处理器,以及存储装置。所述存储装置用于存储一个或多个程序。其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上所述的方法。
本公开的另一实施例提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,可以至少部分地避免产生数据倾斜的问题,并且可以至少部分地减少计算过程的资源消耗,并因此可以实现提升通过数据仓库进行数据处理时的计算时效性的技术效果。
根据本公开的实施例,通过数据仓库进行数据处理时,不需要再进行维度值到维度属性的映射,而是可以以键值对访问方式直接从该键值对维度表中获取维度值对应的维度属性,并据此获得数据处理结果。以此方式,能够避免现有技术中join操作中通过mapreduce产生的数据倾斜,以及map join操作中需要多次进行维度值到维度属性的映射而带来的计算量增加,从而有效地提高计算时效性。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的用于数据仓库生成目标表的方法和装置的示例性系统架构;
图2示意性示出了根据本公开实施例的用于数据仓库生成目标表的方法的流程图;
图3示意性示出了根据本公开实施例的获得特定维度值的方法的流程图;
图4示意性示出了根据本公开另一实施例的用于数据仓库生成目标表的方法的流程图;
图5示意性示出了根据本公开另一实施例的用于数据仓库生成目标表的方法的流程图;
图6示意性示出了根据本公开实施例的用于数据仓库生成目标表的方法的实现场景图;
图7示意性示出了根据本公开实施例的用于数据仓库生成目标表的装置的方框图;以及
图8示意性示出了根据本公开实施例的用于数据仓库生成目标表的计算机系统的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。本领域技术人员还应理解,实质上任意表示两个或更多可选项目的转折连词和/或短语,无论是在说明书、权利要求书还是附图中,都应被理解为给出了包括这些项目之一、这些项目任一方、或两个项目的可能性。例如,短语“A或B”应当被理解为包括“A”或“B”、或“A和B”的可能性。
数据仓库进行数据处理的一种情况可以是根据已有数据或数据表及其之间的关系获得相应的目标表。之后,数据仓库可以根据需要,或者对该目标表进一步处理获得更复杂的目标表等,或者将该目标表直接提供给用户。
本公开的实施例提供了一种用于数据仓库生成目标表的方法、装置和计算机可读介质。该目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引。该方法包括:根据该目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值;从至少一个键值对维度表中确定与该特定维度值对应的特定项目数据,其中,该键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,该键值对中的关键字包括维度值,该键值对中的值包括与该维度值对应的项目数据;以及使用该特定项目数据填充该特定项目。
根据本公开的实施例,通过数据仓库进行数据处理时,可以以键值对访问方式从该键值对维度表中获取维度值对应的项目数据(即该维度值对应的描述性信息),并据此获得数据处理结果。以此方式,不需要再进行维度值到该维度值对应的项目数据的map映射操作,能够避免现有技术中join操作中通过map reduce产生的数据倾斜,以及map join操作中需要多次进行map映射操作而带来的计算量增加,有效地提高计算时效性,并能够节约计算资源。
图1示意性示出了根据本公开实施例的用于数据仓库生成目标表的方法和装置的示例性系统架构100。
需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
服务器105也可以是云端服务器、和/或分布式服务器集群。服务器105还可以对用户利用终端设备101、102、103进行操作所产生的各种数据进行收集、整理和处理分析等。
服务器105可以具有数据仓库,或者服务器105可以与具有数据仓库的其他服务器或服务器集群藕接通信。
需要说明的是,本公开实施例所提供的用于数据仓库生成目标表的方法一般可以由服务器105执行。相应地,本公开实施例所提供的用于数据仓库生成目标表的装置一般可以设置于服务器105中。本公开实施例所提供的用于数据仓库生成目标表的方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的用于数据仓库生成目标表的装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开实施例的用于数据仓库生成目标表的方法的流程图。
如图2所示,根据本公开实施例的用于数据仓库生成目标表的方法包括操作S210~操作S230。该目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引。
在操作S210,根据该目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值。
在操作S220,从至少一个键值对维度表中确定与该特定维度值对应的特定项目数据,其中,该键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,该键值对中的关键字包括维度值,该键值对中的值包括与该维度值对应的项目数据。
在操作S230,使用该特定项目数据填充该特定项目。
目标表可以是用户根据分析需要选取的包括至少一条记录的数据表。目标表中的每条记录包括至少一个项目。该至少一个项目中的每个项目可以用于描述至少一个事实的一个维度的属性。相应地,每个项目的项目数据可以是该至少一个事实对应的一个维度的描述性信息。
例如,一条一次购买行为的记录可以包括该购买行为发生的时间、对应的客户、购买的货物、订单、配送站、或配送方式等中的一个项目或任意多个项目。每个项目的项目数据就是该购买行为的对应维度的描述性信息。
通过数据仓库生成目标表,可以是从数据仓库中已有的数据或数据表中获取到目标表各个项目数据,并利用各个项目数据对应填充相应的项目。
在数据仓库中,维度表是用来存放维度的描述性信息的数据表。其中,对于目标表而言,该维度值对应的描述性信息就是要填充于目标表中的与该维度值对应的项目数据。键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,该键值对中的关键字包括维度值,该键值对中的值包括与该维度值对应的项目数据。
根据本公开的实施例,在生成目标表的过程中,可以以键值对方式访问键值对维度表。从而,对于目标表中的的特定项目,可以根据该特定项目确定的特定维度值快速获取到与该特定维度值对应的特定项目数据,然后使用该特定项目数据填充该特定项目,从而生成目标表中的对应部分的信息。以此方式,不需要再进行以维度值到该维度值对应的项目数据的map映射操作,并且省去了reduc整合操作,从而有效地避免join操作中通过mapreduce产生的数据倾斜,以及map join操作中的计算量增加,极大地提高了数据仓库进行数据处理的时效性。并且通过键值对方式访问键值对维度表,还能够实现case when语句的条件访问功能,使得获取维度值对应的项目数据的过程灵活简便。
根据本公开的实施例,操作S210根据该目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值。
具体可以是,从目标表中直接获取到特定项目的特定维度值。例如,对于某些项目,其维度值可以直接从目标表的行标题和/列标题等处读取到。
或者,也可以是,借助于数据仓库中的其他数据表间接获取到该特定项目的特定维度值。
图3示意性示出了根据本公开实施例的获得特定维度值的方法的流程图。
根据本公开的实施例,操作S210可以包括操作S211和操作S212。
在操作S211,获取与该特定索引相关联的至少一个中间表,其中,该中间表包括事实数据表。
在操作S212,从该至少一个中间表获取该特定索引所对应的特定项目的特定维度值。
每个数据仓库都包括一个或多个事实数据表。事实数据表的特点是包含数字数据,这些数据包括反映至少一个事实的各个维度的维度值。事实数据表不包含描述性信息,也不包含除了维度值字段以及事实与维度表中对应项的相关索引字段之外的任何数据。
以下参考表1~表7对根据本公开实施例的用于数据仓库生成目标表的方法进行示例性描述。
表1为一种待填充项目数据的空白目标表的示例。
时间维度值 时间信息 订单信息 配送站信息 客户信息
001
002
003
表1待填充项目数据的空白目标表
在表1的示例中,该空白目标表的列标题的数据为时间维度值,且时间维度值从小到大排列。在一种可能的实施例中,该目标表中的时间维度值越小对应的时间信息越早,时间维度值越大对应的时间信息越晚。从而,表1所示的空白目标表的目的是获取一天内从早到晚以时间排序所发生的运营数据。
表1所示的空白目标表的表格的每一行就是一条记录。每条记录包括该行的时间维度值对应的时间信息、订单信息、配送站信息和客户信息等多个项目。
不同项目对应于不同的索引。其中,每个项目的索引包括该项目对应的行标题和列标题。具体的,例如,对于项目“时间维度值002对应的配送站信息”,其索引就包括时间维度值002和配送站信息两部分。
表2为数据仓库中与表1的各个项目的索引相关联的一个事实数据表的示例。
时间维 订单维 配送站维 客户维
001 D2 S1 P1
002 D1 S3 P2
003 D3 S2 P3
表2事实数据表示例
表2的事实数据表中同一行的数字数据表示了一个事实的多个维度的维度值。
可以理解,为了便于说明,表2所示的事实数据表的行标题和列标题与表1所示的空白目标表的行标题和列标题相对应。
当然可以理解,与表2的不同项目的索引相关联的事实数据表可以是不同的事实数据表。
各个维度的键值对维度表如表3~表6所示。
其中表3示例性示出了时间维的键值对维度表,表4示例性示出了订单维的键值对维度表,表5示例性示出了配送站维的键值对维度表,以及表6示例性示出了客户维的键值对维度表。
表3~表6示例性示出的键值对维度表中,每个键值对包括一个关键字和与该关键字对应的值。该键值对中的关键字为维度值,该键值对中的值为该维度值对应的项目数据。具体地在表3~表6中,每个键值对中维度值与该维度值对应的项目数据以逗号分隔开示例,其中逗号之前的数据为维度值,逗号之后的数据为该维度值对应的项目数据。
表3~表6示例性示出的键值对维度表以键值对方式存储,并可以通过键值对方式进行访问。
每个维度值对应的项目数据可以仅包括一个字段的数据,如表3时间维的键值对维度表。或者,每个维度值对应的项目数据也可以包括多个字段的数据,例如表6示例的客户维的键值对维度表中,每个维度值对应的项目数据就包括客户姓名(或ID)、性别、和/或年龄等多个字段的描述性信息。
(001,8:00am) (002,8:40am) (003,9:00am)
表3时间维的键值对维度表
表4订单维的键值对维度表
(S1,海淀配送站) (S2,丰台配送站) (S3,朝阳配送站)
表5配送站维的键值对维度表
表6客户维的键值对维度表
生成目标表时,对表1所示的空白目标表的各个项目填充相应的项目数据。
例如,要填充的特定项目是时间维度值为001对应的“时间信息”。
此时,在操作S210中,根据目标表中该特定项目的特定索引获得该特定索引对应的特定项目的特定维度值。
该特定项目的特定索引包括时间维度值001和时间信息。从该特定索引中可以直接获得该特定项目对应的特定维度值,具体为时间维度值001。
接着在操作S220中,将时间维度值001作为关键字,以键值对访问方式对表3所示的时间维的键值对维度表进行访问,可以获得该时间维度值001对应的项目数据为“8:00am”。
然后在操作S230中使用“8:00am”填充该时间维度值为001对应的“时间信息”这一特定项目。
相应地,对于“时间信息”所在列的其他项目可以通过类似的方法获得每个项目对应的项目数据
又例如,要填充的特定项目该特定项目是时间维度值为001对应的“订单信息”。
该特定项目是时间维度值为001对应的“订单信息“时,该特定项目的特定索引包括时间维度值001和订单信息。对该特定项目,其对应的特定维度值是订单维度值。在这种情况下,可以通过从与该特定索引相关联的中间表获取对应的特定维度值。即,操作S210的实现过程可以包括操作S211和操作S212。
具体地,在操作S211中可以获取同时包括时间维度值001以及订单维度值的中间表,如表2所示的事实数据表。然后在操作S212中,从表2所示的事实数据表中,读取与时间维度值001对应的订单维度值。具体地从表2中可以获得的该订单维度值为D2。
在操作S220中,将订单维度值D2作为关键字,以键值对访问方式对表4所示的订单维的键值对维度表进行访问,可以获得该特定项目的项目数据为“食品一份、服装两件”。
在操作S230中使用“食品一份、服装两件”填充该订单维度值为D2的“订单信息”这一特定项目。
相应地,对于“订单信息”所在列的其他项目,以及“配送站信息”、和“客户信息”等对应的项目,都可以通过类似的方法获得其中每个项目对应的项目数据。
最终生成的目标表如表7所示。
时间维度值 时间信息 订单信息 配送站信息 客户信息
001 8:00am 食品一份、服装两件 海淀配送站 张力、女、29
002 8:40am 婴儿食品3份 朝阳配送站 李立维、男、43岁
003 9…00am 家用电器一套 丰台配送站 赵辛初、男、35岁
表7目标表
根据本公开的实施例,在通过维度值获取该维度值对应的项目数据时,可以通过键值对访问的方式,快速地获取到该维度值对应的项目数据,避免了在生成表7所示的目标表的过程中进行维度值和该维度值对应的项目数据的map映射操作,提高了生成目标表的时效性。
可以理解,表1和表7所示的目标表仅是一种简单的示例。在实际应用中,对于一些更为复杂的目标表往往需要更为频繁甚至反复地根据各个维度表中的维度值获取维度值对应的项目数据。从而,根据本公开的实施例,以键值对方式访问键值对维度表快速获取对应的项目数据,可以满足数据仓库层面对数据处理时效性的要求,能够更快地生成目标表,方便用户更快地制定策略,从而避免了因决策不及时造成的损失。
而且,根据本公开的实施例,由于不需要频繁且反复地进行map映射操作,可以减少计算过程,降低资源消耗,能够及早地释放资源给其他业务使用,节省了设备的采购成本。
图4示意性示出了根据本公开另一实施例的用于数据仓库生成目标表的方法的流程图。
如图4所示,根据本公开实施例的用于数据仓库生成目标表的方法除操作S210~操作S230外,还包括操作S410。
在操作410,将原始维度表转换为该键值对维度表,其中该原始维度表以字段形式存储该维度值和该维度值对应的项目数据。
以客户维为例,表8示例性示出了客户维的原始维度表。通过将原始维度表里的数据转换成(key,value)键值对的形式,获得对应的键值对维度表。从而可以将表8所示的客户维的原始维度表转换为表6所示的键值对维度表。
维度值 客户姓名 性别 年龄
P1 张力 29
P2 李立维 43
P3 赵辛初 35
表8客户维的原始维度表
可以理解,图4中所示的操作S410在操作S210之前仅是多种实施例中的一种。在其他一些实施例中,操作S410只要在操作S220之前即可。甚至,在一些实施例中,操作S410可以与操作S220并行执行。
根据本公开的实施例,将以字段存储的原始维度表转换为键值对维度表,从而使得通过数据仓库生成目标表的过程中,可以以键值对访问方式从该键值对维度表中获取维度值对应的项目数据,并据此填充目标表中的相应项目,快速获得数据处理结果。
以此方式,数据仓库进行数据处理生成目标表的过程中,不需要不需要频繁且反复地进行map映射操作,并且省去了reduce整合操作,从而能够有效避免现有技术中join操作中通过map reduce产生的数据倾斜,以及map join操作中中需要多次进行map映射操作,有效地提高计算时效性。
图5示意性示出了根据本公开另一实施例的用于数据仓库生成目标表的方法的流程图。
如图5所示,根据本公开实施例的用于数据仓库生成目标表的方法的除操作S210~操作S230外,还包括操作S510和操作S520。
在操作S510,将对应于不同维度的该键值对维度表存储于同一个Hive蜂巢文件的不同分区中。
在操作S520,加载该同一个Hive蜂巢文件。
根据本公开的实施例,将对应于不同维度的该键值对维度表存储于同一个Hive蜂巢文件的不同分区中,使得在生成目标表的过程中,可以只加载一次该Hive蜂巢文件,就能够实现对不同维度的该键值对维度表的加载。并且,访问多个不同维度的键值对维度表时,可以仅通过针对该同一个Hive蜂巢文件的访问机制(例如访问函数)对该Hive蜂巢文件的不同区域进行访问来实现,从而提高了访问的效率,增加了访问机制复用性,节省大量维护所需人力资源成本,并且降低了维护故障概率,极大的节约了研发和维护成本。
需要说明的是,图5所示的操作S510和操作S520之前仅是多种实施例中的一种。在其他一些实施例中,操作S510和操作S520可以仅在操作S220之前执行即可,甚至在一些实施例中操作S510和操作S520可以与操作S220并行执行。
根据本公开的实施例,操作S520加载该同一个Hive蜂巢文件,可以是在分布式内存中加载该同一个Hive蜂巢文件。
根据本公开的实施例,生成目标表的过程可以,通过分布式计算实现,能够扩大计算量、同时提升计算效率。
图6示意性示出了根据本公开实施例的用于数据仓库生成目标表的方法的实现场景图。
如图6所示,在操作S410中根据实际业务需要,将不同维度的原始维度表(即原始维度表1,原始维度表2,...,以及原始维度表n)里的数据转换成(key,value)键值对的形式,获得对应的键值对维度表。通过将原始维度表转换为键值对维度表,以(key,value)键值对方式存储和访问,能够实现case when语句的条件访问功能,灵活易用。并且该键值对维度表可以是从原始维度表转换而来,使得键值对维度表的数据稳定,易于维护,可以大大降低了维护故障概率。。
然后可以在操作S510中,将对应于不同维度的键值对维度表存储于同一个Hive蜂巢文件的不同分区中,例如图6中的分区1、分区2,...,以及分区n中。Hive蜂巢文件的不同分区分别对应不同的维度。
在操作S520中,将该Hive蜂巢文件加载到分布式内存中。从而,将对应于不同维度的键值对维度表加载到分布式内存中。换言之,这些键值对维度表中的维度值和维度值对应的项目数据以(key,value)键值对的形式加载到分布式内存中,并以内存形式参与关联,从而可以直接在内存中通过键值对访问方式进行数据匹配。以此方式,不需要再进行维度值到维度值对应的项目数据的map映射操作,并且省去了reduce整合操作,从而避免了在reduce整合阶段可能因大部分数据被分配到同一个机器上处理而导致的数据倾斜。
在操作S210中,根据目标表的特定项目的特定索引获取该特定项目的特定维度值。
具体地,在图6的示意中的场景中是在操作S211获得与该特定索引相关联的中间表,然后在操作S212通过该中间表获得与该特定索引相关联的关键字(即特定维度值)。
接下来,可以在操作S220通过该关键字对加载到分布式内存中的对应的键值对维度表进行访问,以获得键值对中的值(即该特定维度值对应的特定项目数据)。
然后在操作S230中,使用该特定项目数据填充目标表中的特定项目。
对于目标表中的多个不同的项目中的每个项目,都相应执行操作S210、操作S220和操作S230,填充每个项目的项目数据,待所有项目填充完成后随即生成目标表。
图6的示例中,在进行键值对访问时,根据输入的关键字key值,获取到对应的value值字段,从而省略了map映射操作和reduce操作,避免了数据倾斜,进而减少了计算过程,降低资源消耗,提升了任务时效性。
图7示意性示出了根据本公开实施例的用于数据仓库生成目标表的装置的方框图。
如图7所示,根据本公开实施例的用于数据仓库生成目标表的装置700包括维度值获取模块710、项目数据确定模块720和项目数据填充模块730。其中该目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引。装置700可以用于实现参考图2~图6所描述的用于数据仓库生成目标表的方法。
维度值获取模块710用于根据该目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值.
项目数据确定模块720用于从至少一个键值对维度表中确定与该特定维度值对应的特定项目数据,其中,该键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,该键值对中的关键字包括维度值,该键值对中的值包括与该维度值对应的项目数据。
项目数据填充模块730用于使用该特定项目数据填充该特定项目。
根据本公开的实施例,装置700还包括维度表转换模块740。
维度表转换模块740用于将原始维度表转换为该键值对维度表,其中该原始维度表以字段形式存储该维度值和该维度值对应的项目数据。
根据本公开的实施例,装置700还包括Hive蜂巢文件存储模块750和Hive蜂巢文件加载模块760。
Hive蜂巢文件存储模块750用于在从至少一个键值对维度表中确定与该特定维度值对应的特定项目数据之前,将对应于不同维度的该键值对维度表存储于同一个Hive蜂巢文件的不同分区中。
Hive蜂巢文件加载模块760用于加载该同一个Hive蜂巢文件。
根据本公开的实施例,该Hive蜂巢文件加载模块760加载该同一个Hive蜂巢文件,可以是在分布式内存中加载该同一个Hive蜂巢文件。
根据本公开的实施例,维度值获取模710可以包括中间表获取子模块711和维度值获取子模块712。
中间表获取子模块711用于获取与该特定索引相关联的至少一个中间表,其中,该中间表包括事实数据表。
维度值获取子模块712用于从该至少一个中间表获取该特定索引所对应的特定项目的特定维度值。
根据本公开实施例的用于数据仓库生成目标表的装置700,在生成目标表的过程中,可以以键值对方式访问键值对维度表。从而,对于目标表中的的特定项目,可以根据该特定项目确定的特定维度值快速获取到与特定维度值对应的特定项目数据,然后使用该特定项目数据填充该特定项目,从而生成目标表中的对应部分的信息。以此方式,不需要再进行以维度值到该维度值对应的项目数据的map映射操作,并且省去了reduc整合操作,从而有效地避免join操作中通过map reduce产生的数据倾斜,以及map join操作中的计算量增加,极大地提高了数据仓库进行数据处理的时效性。并且通过键值对方式访问键值对维度表,还能够实现case when语句的条件访问功能,使得获取维度值对应的项目数据的过程灵活简便。
可以理解的是,维度值获取模块710、项目数据确定模块720、和项目数据填充模块730、维度表转换模块740、Hive蜂巢文件存储模块750和Hive蜂巢文件加载模块760可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本发明的实施例,维度值获取模块710、项目数据确定模块720、和项目数据填充模块730、维度表转换模块740、Hive蜂巢文件存储模块750和Hive蜂巢文件加载模块760中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以以对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式的适当组合来实现。或者,维度值获取模块710、项目数据确定模块720、和项目数据填充模块730、维度表转换模块740、Hive蜂巢文件存储模块750和Hive蜂巢文件加载模块760中的至少一个可以至少被部分地实现为计算机程序模块,当该程序被计算机运行时,可以执行相应模块的功能。
图8示意性示出了根据本公开实施例的用于数据仓库生成目标表的计算机系统的方框图。图8示出的计算机系统仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,根据本公开实施例的计算机系统800包括处理器801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。
处理器801例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行参考图2~图6描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 803中,存储有系统800操作所需的各种程序和数据。处理器801、ROM 802以及RAM 803通过总线804彼此相连。处理器801通过执行ROM 802和/或RAM 803中的程序来执行以上参考图2~图6描述的用于数据仓库生成目标表的方法的各种操作。需要注意,所述程序也可以存储在除ROM 802和RAM 803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行以上参考图2~图6描述的用于数据仓库生成目标表的方法的各种操作。
根据本公开的实施例,系统800还可以包括输入/输出(I/O)接口805,输入/输出(I/O)接口805也连接至总线804。系统800还可以包括连接至I/O接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
根据本公开的实施例,上文参考流程图描述的方法可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。根据本公开的实施例,计算机可读介质可以包括上文描述的ROM 802和/或RAM 803和/或ROM 802和RAM 803以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本公开还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备执行根据本公开实施例的用于数据仓库生成目标表的方法。所述目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引。所述方法包括:根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值;从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据,其中,所述键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,所述键值对中的关键字包括维度值,所述键值对中的值包括与所述维度值对应的项目数据;以及使用所述特定项目数据填充所述特定项目。
根据本公开的实施例,所述方法还包括将原始维度表转换为所述键值对维度表,其中所述原始维度表以字段形式存储所述维度值和所述维度值对应的项目数据。
根据本公开的实施例,在从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据之前,所述方法还包括将对应于不同维度的所述键值对维度表存储于同一个Hive蜂巢文件的不同分区中,以及加载所述同一个Hive蜂巢文件。
根据本公开的实施例,根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值,包括获取与该特定索引相关联的至少一个中间表,以及从所述至少一个中间表获取该特定索引所对应的特定项目的特定维度值。其中,所述中间表包括事实数据表,
根据本公开的实施例,加载所述同一个Hive蜂巢文件,包括在分布式内存中加载所述同一个Hive蜂巢文件。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

Claims (12)

1.一种用于数据仓库生成目标表的方法,所述目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引,所述方法包括:
根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值;
从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据,其中,所述键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,所述键值对中的关键字包括维度值,所述键值对中的值包括与所述维度值对应的项目数据;以及
使用所述特定项目数据填充所述特定项目。
2.根据权利要求1所述的方法,还包括:
将原始维度表转换为所述键值对维度表,其中所述原始维度表以字段形式存储所述维度值和所述维度值对应的项目数据。
3.根据权利要求1所述的方法,在从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据之前,还包括:
将对应于不同维度的所述键值对维度表存储于同一个Hive蜂巢文件的不同分区中;以及
加载所述同一个Hive蜂巢文件。
4.根据权利要求1所述的方法,其中,根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值,包括:
获取与该特定索引相关联的至少一个中间表,其中,所述中间表包括事实数据表;以及
从所述至少一个中间表获取该特定索引所对应的特定项目的特定维度值。
5.根据权利要求3所述的方法,其中,加载所述同一个Hive蜂巢文件,包括:
在分布式内存中加载所述同一个Hive蜂巢文件。
6.一种用于数据仓库生成目标表的装置,所述目标表包括至少一条记录,每条记录包括至少一个项目,不同项目对应于不同索引,所述装置包括:
维度值获取模块,用于根据所述目标表中的特定索引获得该特定索引所对应的特定项目的特定维度值;
项目数据确定模块,用于从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据,其中,所述键值对维度表是以键值对方式存储的维度表,每个键值对包括一个关键字和与该关键字对应的值,所述键值对中的关键字包括维度值,所述键值对中的值包括与所述维度值对应的项目数据;以及
项目数据填充模块,用于使用所述特定项目数据填充所述特定项目。
7.根据权利要求6所述的装置,还包括:
维度表转换模块,用于将原始维度表转换为所述键值对维度表,其中所述原始维度表以字段形式存储所述维度值和所述维度值对应的项目数据。
8.根据权利要求6所述的装置,还包括:
Hive蜂巢文件存储模块,用于在从至少一个键值对维度表中确定与所述特定维度值对应的特定项目数据之前,将对应于不同维度的所述键值对维度表存储于同一个Hive蜂巢文件的不同分区中;以及
Hive蜂巢文件加载模块,用于加载所述同一个Hive蜂巢文件。
9.根据权利要求6所述的装置,其中,维度值获取模块包括:
中间表获取子模块,用于获取与该特定索引相关联的至少一个中间表,其中,所述中间表包括事实数据表;以及
维度值获取子模块,用于从所述至少一个中间表获取该特定索引所对应的特定项目的特定维度值。
10.根据权利要求8所述的装置,其中,所述Hive蜂巢文件加载模块加载所述同一个Hive蜂巢文件,包括:
在分布式内存中加载所述同一个Hive蜂巢文件。
11.一种用于数据仓库生成目标表的装置,包括:
一个或多个处理器;以及
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1~5任意一项所述的方法。
12.一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行根据权利要求1~5任意一项所述的方法。
CN201711110871.9A 2017-11-09 2017-11-09 用于数据仓库生成目标表的方法、装置和计算机可读介质 Active CN109947861B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711110871.9A CN109947861B (zh) 2017-11-09 2017-11-09 用于数据仓库生成目标表的方法、装置和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711110871.9A CN109947861B (zh) 2017-11-09 2017-11-09 用于数据仓库生成目标表的方法、装置和计算机可读介质

Publications (2)

Publication Number Publication Date
CN109947861A true CN109947861A (zh) 2019-06-28
CN109947861B CN109947861B (zh) 2021-06-29

Family

ID=67003984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711110871.9A Active CN109947861B (zh) 2017-11-09 2017-11-09 用于数据仓库生成目标表的方法、装置和计算机可读介质

Country Status (1)

Country Link
CN (1) CN109947861B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307041A (zh) * 2020-10-29 2021-02-02 山东浪潮通软信息科技有限公司 指标维度建模方法、装置和计算机可读介质
CN113962202A (zh) * 2021-09-06 2022-01-21 北京房江湖科技有限公司 一种录入页面的填充方法及计算机程序产品
CN115934801A (zh) * 2022-12-12 2023-04-07 国家电网有限公司大数据中心 统计类数据模型构建方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111838A (zh) * 2004-11-30 2008-01-23 科格洛斯公司 多维企业软件系统中的自动关系模式生成
KR101255639B1 (ko) * 2012-01-18 2013-04-16 홍익대학교 산학협력단 컬럼 기반 데이터베이스 시스템 및 데이터베이스 시스템의 조인 인덱스를 이용한 조인 처리 방법
CN103064689A (zh) * 2013-01-04 2013-04-24 大唐软件技术股份有限公司 一种动态生成报表页面的实现方法及系统
CN103294805A (zh) * 2013-05-30 2013-09-11 华为技术有限公司 数据仓库个性化维度表的创建方法和装置
CN104462430A (zh) * 2014-12-12 2015-03-25 北京国双科技有限公司 关系型数据库的数据处理方法及装置
WO2016022019A1 (en) * 2014-08-05 2016-02-11 Mimos Berhad Method for data input into a database
CN107229718A (zh) * 2017-05-31 2017-10-03 北京京东尚科信息技术有限公司 处理报表数据的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101111838A (zh) * 2004-11-30 2008-01-23 科格洛斯公司 多维企业软件系统中的自动关系模式生成
KR101255639B1 (ko) * 2012-01-18 2013-04-16 홍익대학교 산학협력단 컬럼 기반 데이터베이스 시스템 및 데이터베이스 시스템의 조인 인덱스를 이용한 조인 처리 방법
CN103064689A (zh) * 2013-01-04 2013-04-24 大唐软件技术股份有限公司 一种动态生成报表页面的实现方法及系统
CN103294805A (zh) * 2013-05-30 2013-09-11 华为技术有限公司 数据仓库个性化维度表的创建方法和装置
WO2016022019A1 (en) * 2014-08-05 2016-02-11 Mimos Berhad Method for data input into a database
CN104462430A (zh) * 2014-12-12 2015-03-25 北京国双科技有限公司 关系型数据库的数据处理方法及装置
CN107229718A (zh) * 2017-05-31 2017-10-03 北京京东尚科信息技术有限公司 处理报表数据的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307041A (zh) * 2020-10-29 2021-02-02 山东浪潮通软信息科技有限公司 指标维度建模方法、装置和计算机可读介质
CN113962202A (zh) * 2021-09-06 2022-01-21 北京房江湖科技有限公司 一种录入页面的填充方法及计算机程序产品
CN115934801A (zh) * 2022-12-12 2023-04-07 国家电网有限公司大数据中心 统计类数据模型构建方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109947861B (zh) 2021-06-29

Similar Documents

Publication Publication Date Title
US20180357255A1 (en) Data transformations with metadata
US11210131B2 (en) Method and apparatus for assigning computing task
CN110096344A (zh) 任务管理方法、系统、服务器集群和计算机可读介质
US10037329B2 (en) System and method for automatically capturing and recording lineage data for big data records
CN107844371A (zh) 任务处理方法、系统及电子设备
Anselin et al. Metadata and provenance for spatial analysis: the case of spatial weights
CN108897874B (zh) 用于处理数据的方法和装置
CN109978650B (zh) 构建决策树的方法及系统
CN110019087A (zh) 数据处理方法及其系统
CN109947861A (zh) 用于数据仓库生成目标表的方法、装置和计算机可读介质
US10055471B2 (en) Integrated big data interface for multiple storage types
CN110400201A (zh) 信息展示方法、装置、电子设备以及介质
CN110427304A (zh) 用于银行系统的运维方法、装置、电子设备以及介质
CN109961331A (zh) 页面处理方法及其系统、计算机系统和可读存储介质
CN110020376A (zh) 数据联动方法和系统
CN109087138A (zh) 数据处理方法及系统、计算机系统和可读存储介质
CN109901987A (zh) 一种生成测试数据的方法和装置
Stanimirović et al. Decomposition of Catalan numbers and convex polygon triangulations
CN110019242A (zh) 用于数据表的处理方法、装置和系统
CN107562941A (zh) 数据处理方法及其系统
CN109960212A (zh) 任务发送方法和装置
CN110060075B (zh) 用于预测销量的方法、装置、系统及介质
CN103455518A (zh) 一种数据处理方法及装置
CN112102043B (zh) 物品推荐页面生成方法、装置、电子设备和可读介质
CN112036990B (zh) 物品信息推送方法、装置、电子设备和计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant