CN115840539A

CN115840539A - 数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN115840539A
Application number: CN202310107307.0A
Authority: CN
Inventors: 李宇豪; 刘梦真; 李晨光
Original assignee: Tianjin Nankai University General Data Technologies Co ltd
Current assignee: Tianjin Nankai University General Data Technologies Co ltd
Priority date: 2023-01-31
Filing date: 2023-02-14
Publication date: 2023-03-24
Anticipated expiration: 2043-02-14
Also published as: WO2024159575A1; CN115840539B

Abstract

本申请实施例公开了一种数据处理方法、装置、电子设备及存储介质。该方法包括：在获取到数据处理请求的情况下，确定数据处理请求对应的目标处理类型；若目标处理类型为读处理，根据数据处理请求确定出待读取数据在持久化数据文件中的物理行号及物理列号；基于预先将持久化数据文件切分的子表格的表格描述，确定包含物理行号对应的数据的目标子表格；利用物理行号以及数据单元的描述信息，从预先对目标子表格的物理列号对应的目标列划分的数据单元中，确定出包含物理行号对应的数据的目标数据单元；利用物理行号，确定出待读取数据在目标数据单元的逻辑行号；读取目标数据单元中逻辑行号记录的数据，以完成对待读取数据的读取处理。

Description

数据处理方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及数据库技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着大数据时代的到来，无论是工作还是生活，都会产生大量的数据，数据量呈爆发式增长，随之而来产生了越来越多的数据存储方式以及数据存储平台，不同的数据存储方式以及不同的数据存储平台对于数据的存储格式也是不尽相同。

目前，常用的大数据存储平台有Hadoop，该平台非常适合存储TB、PB级大型数据，其一般使用hdfs作为文件存储系统，数据存储为RCFile、ORCFile、ParquetFile等。

对于不同数据源的数据，其通常是在数据库中建表，然后将不同数据源加载到数据库后再对数据进行处理，操作繁琐，而且进行数据读写时，通常会有延时。

发明内容

本申请实施例提供一种数据处理方法、装置、电子设备及存储介质，以提高对不同数据源数据的处理效率。

第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

在获取到数据处理请求的情况下，确定所述数据处理请求对应的目标处理类型；

若所述目标处理类型为读处理，根据所述数据处理请求确定出待读取数据在持久化数据文件中的物理行号及物理列号；

基于预先将所述持久化数据文件切分的子表格的表格描述，确定包含所述物理行号对应的数据的目标子表格；

利用所述物理行号以及数据单元的描述信息，从预先对所述目标子表格的物理列号对应的目标列划分的数据单元中，确定出包含所述物理行号对应的数据的目标数据单元；

利用所述物理行号，确定出所述待读取数据在所述目标数据单元的逻辑行号；

读取所述目标数据单元中所述逻辑行号记录的数据，以完成对所述待读取数据的读取处理。

第二方面，本申请实施例提供了一种数据处理装置，所述装置包括：

处理类型确定模块，用于在获取到数据处理请求的情况下，确定所述数据处理请求对应的目标处理类型；

物理行列确定模块，用于若所述目标处理类型为读处理，根据所述数据处理请求确定出待读取数据在持久化数据文件中的物理行号及物理列号；

子表格确定模块，用于基于预先将所述持久化数据文件切分的子表格的表格描述，确定包含所述物理行号对应的数据的目标子表格；

数据单元确定模块，用于利用所述物理行号以及数据单元的描述信息，从预先对所述目标子表格的物理列号对应的目标列划分的数据单元中，确定出包含所述物理行号对应的数据的目标数据单元；

逻辑行号确定模块，用于利用所述物理行号，确定出所述待读取数据在所述目标数据单元的逻辑行号；

读取模块，用于读取所述目标数据单元中所述逻辑行号记录的数据，以完成对所述待读取数据的读取处理。

第三方面，本申请实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本申请任一实施例提供的数据处理方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如本申请任一实施例提供的数据处理方法。

本申请实施例的技术方案，在知道物理行号和物理列号之后，利用划分的子表格的描述文件以及数据单元的描述文件确定出物理行号和物理列号对应的目标数据单元中待读取数据的逻辑行号，并基于预先划分的目标数据单元的逻辑行号来读取数据。基于此，本申请的实施例并不会将持久化数据文件加载在计算节点中进行处理，得到数据单元之后再进行读取，而是预先划分数据单元，借助其逻辑上的描述信息实现数据的读取，避免了计算节点对于持久化数据文件的实际处理，从而避免了因不同数据源的处理所带来的降低效率的影响，提高了对于不同数据源数据进行处理的效率。

附图说明

图1为本申请实施例一提供的数据处理方法的流程示意图；

图2为本申请的实施例一提供的一种数据管理层次架构的示意图；

图3为本申请的实施例一提供的抽象描述信息的从属示意图；

图4为本申请实施例二提供的一种数据处理装置的结构示意图；

图5为本申请实施例三提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1为本申请实施例一提供的数据处理方法的流程示意图，本实施例从第一平台端进行说明，方法可适用于数据处理的场景。该方法可以由数据处理装置来执行，该装置可采用硬件和/或软件的方式实现,并一般可以集成在具有数据运算能力的计算机等电子设备中，具体包括如下步骤：

步骤101、在获取到数据处理请求的情况下，确定数据处理请求对应的目标处理类型。

本步骤中，数据处理请求对应的目标处理类型可能是读处理，也可能是写入处理，本实施例先以读处理为例进行说明。

步骤102、若目标处理类型为读处理，根据数据处理请求确定出待读取数据在持久化数据文件中的物理行号及物理列号。

本步骤中，数据处理请求可以包含SQL语句，该SQL语句中指定显示某几列并且无过滤条件时，将该某几列的列号确定为本步骤中的物理列号，并将持久化数据文件中的所有的行号确定为物理行号。

该SQL语句中指定对某几列进行过滤时，只需要将该某几列确定为本步骤中的物理列号，并将过滤完成后命中的行号确定为本步骤中的物理行号。

在一个具体的例子中，持久化数据文件的表格可以如下表1所示。

表1（即后续SQL语句中的T）

	A	B	C	D
					行1	2	2	7	2
行2	5	3	2	6
					行3	8	6	2	5
行4	9	5	7	2

SQL语句如下：

Select A，B；

From T；

Where（C=7）and（D=2）。

此时将过滤条件所指示的列取出，即C和D，查看满足（C=7）and（D=2）的行是行1和行4，此时行1和行4为本步骤中的物理行号，而实际过滤的列为A和B，那么A和B即为本步骤中的物理列号。

步骤103、基于预先将持久化数据文件切分的子表格的表格描述，确定包含物理行号对应的数据的目标子表格。

为了便于说明，先对预先划分的过程进行说明，具体的，本实施例还包括预先对持久化数据文件进行逻辑抽象，得到多个子表格以及各子表格每列所包含的数据单元。

需要说明的是，可以先按行将持久化数据文件进行切分，得到多个子表格；对于任一子表格，记录持久化数据文件的存储位置、子表格的数据在持久化数据文件中的起止行号、子表格的编号以及子表格的数据版本号和数据统计信息作为子表格的描述信息；

再对于任一子表格中的任一列，按照预设行数划分为多个数据单元；对于任一数据单元，将数据单元的列号、所属的子表格的编号、数据单元的编号以及数据单元的数据版本号和数据统计信息确定为数据单元的描述信息。

为了实现对上述逻辑抽象的管理，可以设计相应的数据管理层次，具体可以参阅图2，图2为本申请的实施例一提供的一种数据管理层次架构的示意图。如图2所示，其持久化数据中拥有不同的数据源的数据文件（DataFile），比如RC数据源（在图2的持久化数据中表示为RCFile）、ORC数据源（在图2的持久化数据中表示为ORCFile）以及Parquet数据源（在图2的持久化数据中表示为ParquetFile），抽象对象层则保存了对于不同数据源划分的子表格的描述信息（DataDesc）以及数据单元（DataCell）的描述信息（DataCellDesc），其中，图2中的ParquetDataDesc指的是Parquet数据源中子表格的描述信息，ORCDataDesc指的是ORC数据源中子表格的描述信息，ParquetDataCell指的是Parquet数据源中子表格的数据单元，ORCDataCell指的是ORC数据源中子表格的数据单元。

另外，图2中计算引擎中所包含的表对象PATable和列对象PAAttr则指的是所读或者所写的表及列。而在缓存池中，则是读写过程中所需缓存的缓存数据，比如不同数据源的数据文件的缓存数据（DataFileCache）、子表格的描述信息的缓存数据（DataCellCache）、数据单元的缓存数据（DataFileCache）、表对象的缓存数据（PATableCache）等。

其中，DataCell为读取数据的接口类，通过指定行号，读取DataCell所映射的一组数据。

其中，按行将持久化数据文件进行切分时，可以参照各计算节点的计算能力来确定每个子表格划分的行数，当然，每个子表格的行数也是可以不同的，具体可以根据当前要分配给的计算节点的空闲程度来划分。其中，空闲程度可以为计算节点运行内存的空闲部分所占运行内存的比例。

在一个具体的例子中，可以按照空闲程度对各计算节点排序，空闲程度越大，计算节点的排序越靠前。预先设置最大行数，然后按照一定的比例，从最大行数开始减少，每减少一次，将减少的行数作为下一计算节点分配得到的子表格的行数，直至持久化数据文件的所有行都划分完成。

另外，由于计算几点的引擎通常使用数据单元的方式对数据进行使用和管理，通常，一个数据单元为一列65536行，因此，本实施例将子表格中的每一列划分为多个数据单元。

需要说明的是，数据单元的描述信息可以记录在相应的子表格的描述信息中，其抽象描述的从属关系可以参阅图3，图3为本申请的实施例一提供的抽象描述信息的从属示意图。

本步骤中，可以通过以下方式确定目标子表格：对于任一子表格，确定物理行号是否在子表格的表格描述中的起止行号之间；若是，确定子表格为目标子表格。

需要说明的是，物理行号为多个时，逐一进行目标子表格的确定即可，此处不再赘述。

在一个具体的例子中，物理行号为655361，子表格0的终止行号为655359，子表格1的起始行号为655360，终止行号为666378，由于655361在起始行号为655360，终止行号为666378之间，目标子表格即为子表格1，对应的子表格编号即为1。

步骤104、利用物理行号以及数据单元的描述信息，从预先对目标子表格的物理列号对应的目标列划分的数据单元中，确定出包含物理行号对应的数据的目标数据单元。

本步骤中，可以先利用物理行号除以预设行数后进行取整，得到目标数据单元的编号；然后筛选出描述信息中包含目标子表格编号以及目标数据单元的编号的目标描述信息，并将目标描述信息对应的数据单元确定为目标数据单元。

在一个具体的例子中，物理行号为655361，预设行数为65536（即数据单元最大行数），相除取整得到10，因此，目标数据单元的编号即为10，综合步骤103的例子，目标数据单元即为编号为1的子表格中，列号为物理列号的列中编号为10的数据单元。

需要说明的是，本实施例在划分子表格以及数据单元时，编号均为按照行的顺序定义的正整数。基于该划分规则，本步骤中取整的方式才能找到正确的数据单元的编号。

步骤105、利用物理行号，确定出待读取数据在目标数据单元的逻辑行号。

本步骤中，可以利用物理行号除以预设行数后进行取余，得到待读取数据在目标数据单元的逻辑行号。

在一个具体的例子中，物理行号为655361，预设行数为65536（即数据单元最大行数），相除取余得到1，即为目标数据单元中的第一行。

步骤106、读取目标数据单元中逻辑行号记录的数据，以完成对待读取数据的读取处理。

本步骤中按照该逻辑行号对目标数据单元中的数据进行读取即可。

另外，若目标处理类型为写入处理，获取待写入数据；对于任一待写入数据，确定待写入数据单元，并更新待写入数据单元的描述信息；基于更新后的待写入数据单元的描述信息以及待写入数据单元的待写入子表格的描述信息，将待写入数据写入到对应的持久化数据文件中，以完成对待写入数据的写入处理。

需要说明的是，上述过程中通过待写入子表格的描述信息写入数据可以由该待写入子表格的描述信息具体的子类实现写入持久化数据文件（比如ParquetFile数据写入方法由ParquetDataDesc类实现），最后计算节点将新生成的待写入子表格的描述信息返回给管理节点，由管理节点统一提交到元数据服务。

本实施例中，在知道物理行号和物理列号之后，利用划分的子表格的描述文件以及数据单元的描述文件确定出物理行号和物理列号对应的目标数据单元中待读取数据的逻辑行号，并基于预先划分的目标数据单元的逻辑行号来读取数据。基于此，本申请的实施例并不会将持久化数据文件加载在计算节点中进行处理，得到数据单元之后再进行读取，而是预先划分数据单元，借助其逻辑上的描述信息实现数据的读取，避免了计算节点对于持久化数据文件的实际处理，从而避免了因不同数据源的处理所带来的降低效率的影响，提高了对于不同数据源数据进行处理的效率。

实施例二

图4为本申请实施例二提供的一种数据处理装置的结构示意图。本申请实施例所提供的数据处理装置可执行本申请任意实施例所提供的数据处理方法，具备执行方法相应的功能模块和有益效果。该装置可采用软件和/或硬件的方式实现，如图4所示，BMC异常重启的故障定位装置具体包括：处理类型确定模块401、物理行列确定模块402、子表格确定模块403、数据单元确定模块404、逻辑行号确定模块405、读取模块406。

其中，处理类型确定模块，用于在获取到数据处理请求的情况下，确定所述数据处理请求对应的目标处理类型；

本申请实施例的技术方案中，在知道物理行号和物理列号之后，利用划分的子表格的描述文件以及数据单元的描述文件确定出物理行号和物理列号对应的目标数据单元中待读取数据的逻辑行号，并基于预先划分的目标数据单元的逻辑行号来读取数据。基于此，本申请的实施例并不会将持久化数据文件加载在计算节点中进行处理，得到数据单元之后再进行读取，而是预先划分数据单元，借助其逻辑上的描述信息实现数据的读取，避免了计算节点对于持久化数据文件的实际处理，从而避免了因不同数据源的处理所带来的降低效率的影响，提高了对于不同数据源数据进行处理的效率。

进一步地，所述装置还包括：

逻辑抽象模块，用于预先对所述持久化数据文件进行逻辑抽象，得到多个子表格以及各子表格每列所包含的数据单元。

进一步地，逻辑抽象模块包括：

第一切分单元，用于按行将所述持久化数据文件进行切分，得到多个子表格；

第一描述单元，用于对于任一子表格，记录所述持久化数据文件的存储位置、所述子表格的数据在所述持久化数据文件中的起止行号、所述子表格的编号以及所述子表格的数据版本号和数据统计信息作为所述子表格的描述信息；

第二切分单元，用于对于任一子表格中的任一列，按照预设行数划分为多个数据单元；

第二描述单元，用于对于任一数据单元，将所述数据单元所述的列号、所属的子表格的编号、所述数据单元的编号以及所述数据单元的数据版本号和数据统计信息确定为所述数据单元的描述信息。

进一步地，所述子表格的表格描述包括所述子表格的数据在所述持久化数据文件中的起止行号；

子表格确定模块包括：

行号判断单元，用于对于任一子表格，确定所述物理行号是否在所述子表格的表格描述中的起止行号之间；

子表格确定单元，用于若是，确定所述子表格为目标子表格。

进一步地，所述数据单元的描述信息包括所属的子表格的编号和所述数据单元的编号；

数据单元确定模块包括：

取整单元，用于利用所述物理行号除以预设行数后进行取整，得到所述目标数据单元的编号；

数据单元确定单元，用于筛选出描述信息中包含所述目标子表格编号以及所述目标数据单元的编号的目标描述信息，并将所述目标描述信息对应的数据单元确定为目标数据单元。

进一步地，逻辑行号确定模块包括：

取余单元，用于利用所述物理行号除以预设行数后进行取余，得到所述待读取数据在所述目标数据单元的逻辑行号。

进一步地，装置还包括：

获取模块，用于若所述目标处理类型为写入处理，获取待写入数据；

写入数据单元确定模块，用于对于任一待写入数据，确定待写入数据单元，并更新所述待写入数据单元的描述信息；

描述信息更新模块，用于基于更新后的所述待写入数据单元的描述信息以及所述待写入数据单元所述的待写入子表格的描述信息，将所述待写入数据写入到对应的持久化数据文件中，以完成对所述待写入数据的写入处理。

实施例三

图5为本申请实施例三提供的一种电子设备的结构示意图，如图5所示，该电子设备包括处理器510、存储器520、输入装置530和输出装置540；电子设备中处理器510的数量可以是一个或多个，图5中以一个处理器510为例；电子设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器520作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的数据处理方法对应的程序指令/模块。处理器510通过运行存储在存储器520中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述的数据处理方法：

在知道物理行号和物理列号之后，利用划分的子表格的描述文件以及数据单元的描述文件确定出物理行号和物理列号对应的目标数据单元中待读取数据的逻辑行号，并基于预先划分的目标数据单元的逻辑行号来读取数据。基于此，本申请的实施例并不会将持久化数据文件加载在计算节点中进行处理，得到数据单元之后再进行读取，而是预先划分数据单元，借助其逻辑上的描述信息实现数据的读取，避免了计算节点对于持久化数据文件的实际处理，从而避免了因不同数据源的处理所带来的降低效率的影响，提高了对于不同数据源数据进行处理的效率。

存储器520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

本申请实施例四还提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种数据处理方法，该方法包括：

当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本申请任意实施例所提供的数据处理方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本申请可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器（Read-Only Memory, ROM）、随机存取存储器（RandomAccess Memory, RAM）、闪存（FLASH）、硬盘或光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例的方法。

值得注意的是，上述搜索装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

预先对所述持久化数据文件进行逻辑抽象，得到多个子表格以及各子表格每列所包含的数据单元。

3.根据权利要求2所述的方法，其特征在于，所述预先对所述持久化数据文件进行逻辑抽象，得到多个子表格以及各子表格每列所包含的数据单元，包括：

按行将所述持久化数据文件进行切分，得到多个子表格；

对于任一子表格，记录所述持久化数据文件的存储位置、所述子表格的数据在所述持久化数据文件中的起止行号、所述子表格的编号以及所述子表格的数据版本号和数据统计信息作为所述子表格的描述信息；

对于任一子表格中的任一列，按照预设行数划分为多个数据单元；

对于任一数据单元，将所述数据单元所述的列号、所属的子表格的编号、所述数据单元的编号以及所述数据单元的数据版本号和数据统计信息确定为所述数据单元的描述信息。

4.根据权利要求1所述的方法，其特征在于，所述子表格的表格描述包括所述子表格的数据在所述持久化数据文件中的起止行号；

所述基于预先将所述持久化数据文件切分的子表格的表格描述，确定包含所述物理行号对应的数据的目标子表格，包括：

对于任一子表格，确定所述物理行号是否在所述子表格的表格描述中的起止行号之间；

若是，确定所述子表格为目标子表格。

5.根据权利要求1所述的方法，其特征在于，所述数据单元的描述信息包括所属的子表格的编号和所述数据单元的编号；

所述利用所述物理行号以及数据单元的描述信息，从预先对所述目标子表格的物理列号对应的目标列划分的数据单元中，确定出包含所述物理行号对应的数据的目标数据单元，包括：

利用所述物理行号除以预设行数后进行取整，得到所述目标数据单元的编号；

筛选出描述信息中包含所述目标子表格编号以及所述目标数据单元的编号的目标描述信息，并将所述目标描述信息对应的数据单元确定为目标数据单元。

6.根据权利要求1所述的方法，其特征在于，所述利用所述物理行号，确定出所述待读取数据在所述目标数据单元的逻辑行号，包括：

利用所述物理行号除以预设行数后进行取余，得到所述待读取数据在所述目标数据单元的逻辑行号。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述目标处理类型为写入处理，获取待写入数据；

对于任一待写入数据，确定待写入数据单元，并更新所述待写入数据单元的描述信息；

基于更新后的所述待写入数据单元的描述信息以及所述待写入数据单元的待写入子表格的描述信息，将所述待写入数据写入到对应的持久化数据文件中，以完成对所述待写入数据的写入处理。

8.一种数据处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据处理方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一所述的数据处理方法。