CN112364041A

CN112364041A - 一种数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112364041A
Application number: CN202011387151.9A
Authority: CN
Inventors: 张飞虎
Original assignee: Suning Financial Technology Nanjing Co Ltd
Current assignee: Suning Financial Technology Nanjing Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-02-12
Anticipated expiration: 2040-12-01
Also published as: CN112364041B; CA3140854A1

Abstract

本发明公开了一种数据处理方法、装置、计算机设备及存储介质，该方法包括：解析第一数据表，识别出第一字段及第二字段，并获取所述第一字段的第一字段值以及第二字段的第二字段值，所述第一数据表包括二维表，根据所述第一字段值生成第一键值，根据所述第二字段生成第二键值，根据所述第二字段值生成数据值，根据所述第一键值、第二键值以及所述数据值生成第二数据表，并将所述第二数据表存储至关系型数据库中，以便根据所述第一键值以及第二键值查询所述数据值，通过在物理层按照键值对存放数据，从而实现各个列的数据可以按照键值对的方式独立更新，每个单独的任务可以独立并行的方式向表中插入数据，减少了任务之间的耦合性。

Description

一种数据处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

随着大数据的发展和普及，目前各企业都有自己的画像系统。如为每个主体(如会员)打上各种标签，然后下一步基于标签做主体的各种维度画像分析，大大的提高了对数据的利用效率。如会员标签就提供了会员的分析和支撑营销数据工作。但是这种标签都是基于数据仓库的各种零散的数据源加工计算后汇总为一张或者少数几张宽表，以方便下游系统使用这些经过高度集成化的数据；由于这样的画像体系具有的“功能零散”和“数据源分散”的现实原因，导致为每个会员打上标签，然后再汇总成一张字段很多的表的过程非常难以设计、控制和保证加工效率等。

目前常见的关系型数据库的表存储方式基本为行存储或者列存储。但不管是哪种存储方式，对于数据的更新都是按照行的效果进行读写，特别像Hive这种适合海量数据分析，但是对数据的更新不是很友好的数据库。对于一张字段很多的表，以大数据行业的常见画像数据为例，一个表有时会涉及到上千个字段更新数据是一件很麻烦的事情。

因此，亟需提出一种新的数据处理方法，以解决上述问题。

发明内容

为了解决现有技术的问题，本发明实施例提供了一种数据处理方法、装置、计算机设备以及存储介质，以克服现有技术中存在的问题。

为解决上述一个或多个技术问题，本发明采用的技术方案是：

第一方面，提供了一种数据处理方法，该方法包括如下步骤：

解析第一数据表，识别出第一字段及第二字段，并获取所述第一字段的第一字段值以及第二字段的第二字段值，所述第一数据表包括二维表；

根据所述第一字段值生成第一键值，根据所述第二字段生成第二键值，根据所述第二字段值生成数据值；

根据所述第一键值、第二键值以及所述数据值生成第二数据表，并将所述第二数据表存储至关系型数据库中，以便根据所述第一键值以及第二键值查询所述数据值。

在一些实施例中，所述方法还包括：

接收待处理数据，根据所述待处理数据以及预设规则生成第一数据表，所述第一数据表包括第一字段和对应的第一字段值以及第二字段和对应的第二字段值。

在一些实施例中，所述方法还包括：

接收并解析数据处理请求，获取所述数据处理请求对应的数据表类型，所述数据表类型包括二维表和/或键值对表；

根据所述数据表类型确定目标数据表，所述目标数据表包括第一数据表和第二数据表；

根据所述数据处理请求对所述目标数据表中的数据进行处理。

在一些实施例中，所述数据处理请求包括数据读请求，所述根据所述数据处理请求对所述目标数据表中的数据进行处理包括：

根据所述数据读请求从所述目标数据表中获取目标数据，并将所述目标数据返回给数据请求方。

在一些实施例中，所述数据处理请求还包括数据更新请求，所述根据所述数据处理请求对所述目标数据表中的数据进行处理包括：

根据所述数据更新请求对所述目标数据表中的数据进行更新处理。

在一些实施例中，所述第一字段包括所述第一数据表的主键。

第二方面，提供了一种数据处理装置，所述装置包括：

数据解析模块，用于解析第一数据表，识别出第一字段及第二字段，并获取所述第一字段的第一字段值以及第二字段的第二字段值，所述第一数据表包括二维表；

第一处理模块，用于根据所述第一字段值生成第一键值，根据所述第二字段生成第二键值，根据所述第二字段值生成数据值；

表格生成模块，用于根据所述第一键值、第二键值以及所述数据值生成第二数据表，并将所述第二数据表存储至关系型数据库中，以便根据所述第一键值以及第二键值查询所述数据值。

在一些实施例中，所述装置还包括第二处理模块，所述第二处理模块包括：

请求接收单元，用于接收并解析数据处理请求，获取所述数据处理请求对应的数据表类型，所述数据表类型包括二维表和/或键值对表；

表格确定单元，用于根据所述数据表类型确定目标数据表，所述目标数据表包括第一数据表和第二数据表；

数据处理单元，用于根据所述数据处理请求对所述目标数据表中的数据进行处理。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下步骤：

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

本发明实施例提供的技术方案带来的有益效果是：

本发明实施例提供的数据处理方法、装置、计算机设备及存储介质，通过解析第一数据表，识别出第一字段及第二字段，并获取所述第一字段的第一字段值以及第二字段的第二字段值，所述第一数据表包括二维表，根据所述第一字段值生成第一键值，根据所述第二字段生成第二键值，根据所述第二字段值生成数据值，根据所述第一键值、第二键值以及所述数据值生成第二数据表，并将所述第二数据表存储至关系型数据库中，以便根据所述第一键值以及第二键值查询所述数据值，在物理层按照键值对存放数据，从而实现各个列的数据可以按照键值对的方式独立更新，每个单独的任务可以独立并行的方式向表中插入数据，减少了任务之间的耦合性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的数据处理系统的架构图；

图2是根据一示例性实施例示出的数据处理方法的流程图；

图3是根据一示例性实施例示出的数据处理装置的结构示意图；

图4是根据一示例性实施例示出的计算机设备的内部结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

如背景技术所述，以常见的会员标签加工体系为例，目前主流的做法都是用Hive、HBASE等技术，其中离线型的会员标签主要是使用Hive这种能进行海量数据计算的技术进行计算。但是基于目前Hive的功能，只能先按照最底层的数据源计算出具有一个或者多个列的数据表，然后再层层汇总，最后汇总到一个字段很多的以会员为主键维度的表。在这个过程中，计算任务多，层级复杂，计算方式多样化，绝大多数都是一个列对应一个或者多个数据源，有很多标签需要把列式存储的数据转换成行形式存储的数据，所有针对同一个会员的标签，最后要汇总成一条横向的一条记录。总的评估来看，目前市面上的数据技术，没有一个相对理想的技术能解决这种针对多数据源汇总加工的问题。

为解决上述问题，本发明实施例中创造性的提出了一种数据处理方法，通过该方法，一张数据表既可以按照行的方式读写数据，也可以按照列的方式(按照行数据行列转化后的效果)读写数据。该方法结合Hive数据库技术，尤其适用于关系型数据库，可从逻辑层面就体现行列互换的表数据存储方式和元数据管理方式。比如在使用Hive为数据仓库的会员标签加工过程中，如果是使用这种存储方式管理数据，那么就可以既按照行的方式读写，也可以按照对应数据的列方式进行数据读写。

图1是根据一示例性实施例示出的数据处理系统的架构图，参照图1所示，该系统展示了双元数据与物理文件的关系，该数据处理系统中设计物理存储时使用键值对方式存放数据，键包含行键(第一键值)和列键(第二键值)。在逻辑层使用两套兼容物理层的驱动，其中一套驱动为行驱动，数据逻辑呈现如下表1所示，和平常关系型二维表一样，按照行的逻辑方式对物理层进行数据读写，另一套驱动则为列方式驱动，数据逻辑呈现如下表2所示，按照行列转换后的列形式对数据进行读写操作，两种驱动方式共用的是同一份物理数据文件。

表一关系型二维表

学号	语文	数学	英语	物理	化学	生物	历史	地理	思政
										001	90	89	88	87	86	85	84	83	82
002	88	87	86	85	84	83	82	81	80
										003	86	85	84	83	82	81	80	79	78
004	84	83	82	81	80	79	78	77	76
										005	82	81	80	79	78	77	76	75	74
006	80	79	78	77	76	75	74	73	72
										007	78	77	76	75	74	73	72	71	70

表二键值对方式存储数据表

具体的，上述方案可通过如下步骤实现：

步骤一、根据待存储数据生成第一数据表，其中第一数据表包括但不限于关系型二维表；

具体的，以会员画像为例，会员画像需要对每个会员打上各种标签，在实际的业务中，往往一个系统需要为会员打上成百上千个标签，最终却要汇总成一张字段很多的表。以Hive数据库为例，在接收到待存储的数据后，可以指定以“行存储”格式第一次创建一张内部表(即第一数据表)，如上述表二。第一数据表中至少包括第一字段、与第一字段对应的第一字段值、第二字段以及与第二字段对应的第二字段值，其中，第一字段为第一数据表的主键，第二字段的数量可以是一个，也可以是多个，这里不做限制。

步骤二、根据第一数据表，创建第二数据表，其中，第二数据表为以键值对形式存储的数据的数据表，第二数据表包括第一键值、第二键值以及数据值；

具体的，以使用Hive作为数仓为例，由于数据源分散，可能会有成百上千个数据源的数据需要汇总到一张表。这对于数仓工作人员来说，是巨大的加工计算量。并且Hive数仓不支持行级别更新或者只更新某几个字段，现有技术中，通常只能把无数张表关联起来。这样做有两个缺点：1)每次新增字段都需要改动代码；2)数据源越多，关联就会越多，关联计算量就越大。针对上述问题，本发明实施例中，还利用“列存储”格式的外部表方式用第一次创建的物理存储文件创建列格式的表(即第二数据表)，这样两张表(指第一数据表和第二数据表)共用的是同一份数据文件。这里需要说明的是，第一数据表的实现方式可以用来对外提供数据，第二数据表的方式可以设计成为按照“列键”分区，然后兼容Hive技术可以按照分区独立更新数据的特性，从而实现各个列的数据可以按照键值对的方式独立更新，每个单独的任务可以独立并行的方式向表中插入数据，减少了任务之间的耦合性，同时也可以按照列转行之后的效果对外提供数据。

步骤三、接收数据更新请求，根据对应的数据表类型，确定对应的接口进行数据更新。

具体的，本发明实施例中，需要预先提供接口，如按照H ive提供，分别实现行、列各自对应的读、写驱动包。即在逻辑层使用两套兼容物理层的驱动，其中一套驱动为行驱动，和平常关系型二维表一样，按照行的逻辑方式对物理层进行数据读写，另一套驱动则为列方式驱动，按照行列转换后的列形式对数据进行读写操作。后续接收数据更新请求后，对接收数据更新请求进行解析，获取数据更新请求对应的数据表类型，如果数据源是行形式的数据集，则可以用第一数据表为入口对数据方式更新，如果数据源是列格式的，则可以用第二数据表进行数据更新。这里需要说明的是，本发明实施例中，当需要读取表里面的行或者列的数据集，同样可以用对应的表作为入口即可查询出来。

实施例二

图2是根据一示例性实施例示出的数据处理方法的流程图，参照图2所示，该方法包括如下步骤：

S1：解析第一数据表，识别出第一字段及第二字段，并获取所述第一字段的第一字段值以及第二字段的第二字段值，所述第一数据表包括二维表。

具体的，本发明实施例中，第一数据表包括但不限于二维表，如关系型二维表，其中，第一字段为第一数据表的主键，第二字段的数量可以是一个，也可以是多个。利用第一数据表可以提供按照行的逻辑方式对物理层进行数据读写。

S2：根据所述第一字段值生成第一键值，根据所述第二字段生成第二键值，根据所述第二字段值生成数据值。

具体的，本发明实施例中，为了提供按照行列转换后的列形式对数据进行读写操作，还需要根据第一数据表生成以键值对方式存储数据的第二数据表。具体实施时，以第一数据表中的第一字段值作为第一键值(也可以成为行键)，第二字段作为第二键值(也可以成为列键)，第二字段值作为对应的数据值。

S3：根据所述第一键值、第二键值以及所述数据值生成第二数据表，并将所述第二数据表存储至关系型数据库中，以便根据所述第一键值以及第二键值查询所述数据值。

具体的，在生成第二数据表后，即将第二数据表存储于该关系型数据库中，此时，第一数据表和第二数据表共用同一份数据文件。利用第二数据表可以提供按照行列转换后的列形式对数据进行读写操作。

作为一种较优的实施方式，本发明实施例中，所述方法还包括：

作为一种较优的实施方式，本发明实施例中，所述数据处理请求包括数据读请求，所述根据所述数据处理请求对所述目标数据表中的数据进行处理包括：

作为一种较优的实施方式，本发明实施例中，所述数据处理请求还包括数据更新请求，所述根据所述数据处理请求对所述目标数据表中的数据进行处理包括：

作为一种较优的实施方式，本发明实施例中，所述第一字段包括所述第一数据表的主键。

图3是根据一示例性实施例示出的数据处理装置的结构示意图，该装置包括：

作为一种较优的实施方式，本发明实施例中，所述装置还包括第二处理模块，所述第二处理模块包括：

作为一种较优的实施方式，本发明实施例中，所述表格生成模块还用于：

作为一种较优的实施方式，本发明实施例中，所述数据处理单元具体用于：

图4是根据一示例性实施例示出的计算机设备的内部结构示意图，参照图4所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种执行计划的优化方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

作为一种较优的实施方式，本发明实施例中，计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

作为一种较优的实施方式，本发明实施例中，处理器执行计算机程序时还实现以下步骤：

本发明实施例中，还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如下步骤：

作为一种较优的实施方式，本发明实施例中，所述计算机程序被处理器执行时，还实现如下步骤：

综上所述，本发明实施例提供的技术方案带来的有益效果是：

需要说明的是：上述实施例提供的数据处理装置在触发数据处理业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，即该装置是基于该数据处理方法的，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

3.根据权利要求1或2所述的数据处理方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的数据处理方法，其特征在于，所述数据处理请求包括数据读请求，所述根据所述数据处理请求对所述目标数据表中的数据进行处理包括：

5.根据权利要求3所述的数据处理方法，其特征在于，所述数据处理请求还包括数据更新请求，所述根据所述数据处理请求对所述目标数据表中的数据进行处理包括：

6.根据权利要求1或2所述的数据处理方法，其特征在于，所述第一字段包括所述第一数据表的主键。

7.一种数据处理装置，其特征在于，所述装置包括：

8.根据权利要求7所述的数据处理装置，其特征在于，所述装置还包括第二处理模块，所述第二处理模块包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。