CN110457281A

CN110457281A - 数据处理方法、装置、设备及介质

Info

Publication number: CN110457281A
Application number: CN201910749829.4A
Authority: CN
Inventors: 程捷; 张念礼; 陈俞朋; 朱成岗
Original assignee: Beijing Bo Hongyuan Data Polytron Technologies Inc
Current assignee: Beijing Bo Hongyuan Data Polytron Technologies Inc
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-15

Abstract

本发明实施例公开了一种数据处理方法、装置、设备及介质。所述方法包括：获取客户端发送的至少一个待存储数据，并确定所述存储器中用于存储所述至少一个待存储数据的目标索引节点；依据所述待存储数据和所述目标索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写数据请求，以使所述目标数据节点服务将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中。利用该方法，能够解决由于文件系统使用的内存容量或Inode节点数量的限制，而导致的文件系统能存储的数据量会大幅下降的问题。

Description

数据处理方法、装置、设备及介质

技术领域

本发明实施例涉及分布式存储技术领域，尤其涉及一种数据处理方法、装置、设备及介质。

背景技术

在大数据时代的背景下，数据的高效存储和查询成为一个需要普遍考虑的问题，尤其是对于非结构化数据的存储问题。

目前，对于大数据量的非结构化数据，可以通过文件的方式存储到分布式文件系统中，然后根据文件目录进行访问，比如目前流行的HDFS或者NFS。

但是，如果存储的大部分数据都比较小，分布式文件系统中会产出大量的文件索引，由于文件系统使用的内存容量或Inode节点数量的限制，这会导致文件系统能存储的数据量会大幅下降。因此，如何对小数据量的文件数据进行高效存储是十分必要的。

发明内容

本发明实施例中提供了一种数据处理方法、装置、设备及介质，以实现对小数据量的文件数据进行存储。

第一方面，本发明实施例中提供了一种数据处理方法，由分布式文件系统中的管理节点服务执行，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象；所述方法包括：

获取客户端发送的至少一个待存储数据，并确定所述存储器中用于存储所述至少一个待存储数据的目标索引节点；

依据所述待存储数据和所述目标索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写数据请求，以使所述目标数据节点服务将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中。

第二方面，本发明实施例中还提供了一种数据处理方法，由分布式文件系统中的数据节点服务执行，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象；所述方法包括：

接收分布式文件系统中的管理节点服务发送的写数据请求；所述写数据请求包括至少一个待存储数据和目标索引节点的节点信息；所述待存储数据由所述管理节点服务获取客户端发送的数据得到，所述目标索引节点由所述管理节点服务确定所述存储器中用于存储所述待存储数据的索引节点得到；

依据所述写数据请求，将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中，以实现在所述存储器中存储所述待存储数据。

第三方面，本发明实施例中还提供了一种设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明实施例中提供的数据处理方法。

第四方面，本发明实施例中还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明实施例中提供的数据处理方法。

本发明实施例中提供了一种数据处理方案，首先针对存储器中的每一个索引节点预先创建一个文件抽象，分布式文件系统中的管理节点服务在获取客户端发送的待存储数据后，可以将获取的待存储数据发送给分布式文件系统中的目标数据节点服务，然后目标数据节点服务可以将待存储数据直接存储在存储器的索引节点关联的文件抽象中，采用本案的方式可以解决由于文件系统使用的内存容量或Inode节点数量的限制，而导致文件系统能存储的数据量会大幅下降的问题；同时，由于在写入存储数据时将多个待存储数据存储在同一个索引节点对应文件抽象下，实现了写数据过程中的数据合并，可以避免后续由于在写入数据后再对写入的在多个索引节点的文件数据进行重新合并，而导致数据写入操作繁琐，以及造成写入效率低等问题。

上述发明内容仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例中提供的一种数据处理方法的流程图；

图2是本发明实施例中提供的另一种数据处理方法的流程图；

图3是本发明实施例中提供的一种数据处理装置的结构框图；

图4是本发明实施例中提供的另一种数据处理装置的结构框图；

图5是本发明实施例中提供的一种电子设备的结构示意图；

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

图1是本发明实施例中提供的一种数据处理方法的流程图。本发明实施例的方案适用于对数据进行写入存储的情况，尤其是对海量小文件数据进行写入的情况。该方法可由数据处理装置执行，该装置可采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。该电子设备可以为部署在分布式文件系统中的服务器和云平台设备。如图1所示，本发明实施例中提供的数据处理方法具体包括以下步骤：

S110、获取客户端发送的至少一个待存储数据，并确定存储器中用于存储至少一个待存储数据的目标索引节点；其中，分布式文件系统中包含至少一个存储器，且存储器中的每一个索引节点预先创建有一个文件抽象。

在本实施例中，分布式文件系统中可以包括一个或多个管理节点RegionNode以及包括一个或多个数据节点DataNode，两种节点可以进行独立部署。当需要对分布式文件系统进行升级时可以一次对每个节点进行升级，这样不会影响系统的可用性，做到热升级。分布式文件系统依赖Zookeeper开源软件进行节点间的协调管理。分布式文件系统中可以包括一个或多个存储器，例如该存储器可以为磁盘(包括硬盘和软盘中的至少一项)等存储介质，且每一个存储器均有对应的索引节点Inode。分布式文件系统中的底层文件操作系统能够对存储器对应的Inode信息进行管理。

在本实施例中，在存储器中进行存储数据时，可以将数据以文件的形式进行存储，且每一个文件都必须要有一个Inode节点，这样就会造成Inode节点已经用光，但是存储器却还未存满数据的情况。此时，由于存储器中的Inode节点已经用光，从而无法继续在存储器上创建新文件，进而导致分布式件系统所能存储的数据量大幅下降。

基于上述情况，本申请方案中，分布式文件系统中的底层文件操作系统可以对其所属的存储器对应的Inode节点进行处理，针对存储器中的每一个索引节点在存储器上预先创建一个文件抽象。其中，该文件抽象可以理解为一个存储容量比较大的大文件。

在本实施例中，管理节点RegionNode服务可以获取客户端发送的大量的待存储数据中的至少一个待存储数据。其中，待存储数据是指一些小数据量的数据，即每一个待存储数据所占用的文件体积小，且数量非常多。例如，待存储数据可以为快照、图片、语音等数据量大小在1KB-50KB的数据。在获取待存储数据后，RegionNode服务可以先确定分布式文件系统的存储器中用于存储该至少一个待存储数据所要使用的索引节点Inode，并将该确定的索引节点Inode作为目标索引节点Inode。

在本实施例的一种可选方式中，获取客户端发送的至少一个待存储数据，具体包括以下步骤A1～A2：

步骤A1、当接收到客户端发送的待存储数据时，将接收到的待存储数据缓存到数据队列中。

在本实施方式中，客户端可以向分布式文件系统中发送大量的待存储数据以使分布式文件系统对其进行存储，可以采用分布式文件系统中的管理节点RegionNode和数据节点DataNode进行配合写入存储。同时，考虑到客户端发送的待存储数据的数量非常多，如果来一个待存储数据就写入一次，会造成存储效率降低。

基于上述考虑，当分布式文件系统中的管理节点服务接收到客户端发送的大量待存储数据后，可以先将待存储数据依次缓存到预设的数据队列中，这样就可以利用数据队列先入先出的特性对一定数量的待存储数据进行写入。

在本实施方式中，不同待存储数据可以具有不同的业务类型或者不同的待存储数据的数据种类不相同，在存储时如果不按照类型进行存储可能导致已经存储的待存储数据非常混乱。换言之，分布式文件系统通常会保存很多类型的数据，而不仅仅是同一类型的数据，如果把这些数据进行分开存储有利于数据的管理并能提高数据读取的效率。

为此，可以预先对分布式文件系统中的至少一个存储器进行逻辑分区，以将分布式文件系统中的存储器逻辑划分为多个逻辑存储区域，这样每一个逻辑存储区域均有其所属的一个或多个数据队列。

可以理解的是，上述逻辑分区不是传统意义上存储器的位置进行分区，而是从逻辑的角度将分布式文件系统中的存储器划分到不同的区域。逻辑存储区域是一个存放用户数据的逻辑概念，提供了类似文件系统中目录的功能。可选地，分布式文件系统的任一存储器可以被划分为一个或多个逻辑存储区域，和/或，分布式文件系统的多个存储器可以对应一个逻辑存储区域。

在本实施方式中，客户端发送到分布式文件系统的每一待存储数据均关联有一个逻辑存储信息。逻辑存储信息可以用于指示将待存储数据缓存的数据队列的队列信息，即用于指示将待存储信息缓存到哪一个数据队列中。

在本实施方式中，通过逻辑存储信息可以对待存储数据进行划分，使相同种类或相同业务的数据进行集中写入存储。管理节点服务可以依据待存储数据关联的逻辑存储信息，将接收到待存储数据缓存到与逻辑存储信息指示的逻辑存储区域相匹配的数据队列中。

步骤A2、通过数据消费者从数据队列中获取预设数据量的待存储数据，并确定为获取的至少一个待存储数据。

采用上述方式的好处在于，在进行合并写入待存储数据时，可以将属于同一逻辑存储区域的一定数量的待存储数据统一从数据队列中取出，进而按照业务类型统一将多个待存储数据发送到数据节点服务进行统一写入存储，在缓存到数据队列时进行提前分类缓存，能够有效避免后续待存储数据的无序写入，以及有效避免后续对缓存到数据队列中的待存储数据进行分类写入时造成的写入效率低等问题。

在本实施例的一种可选方式中，确定存储器中用于存储至少一个待存储数据的目标索引节点，具体包括：依据待存储数据关联的逻辑存储信息，从逻辑存储信息指示的逻辑存储区域所关联的多个索引节点中，选取目标索引节点。

在本实施方式中，分布式文件系统中的存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域关联有存储器对应的多个索引节点，每一个索引节点关联的文件抽象所能存储的待存储数据的业务类型不相同，即每一个索引节点关联的文件抽象所适配的逻辑存储区域不同。为此，管理节点服务可以依据待存储数据关联的逻辑存储信息，从逻辑存储信息指示的逻辑存储区域所关联的多个索引节点中，选取目标索引节点，这样的话可以保证数据节点服务可以将待存储数据写入到合适的存储器的索引节点对应的文件抽象中。

在本实施方式中，可选地，每一个索引节点关联的文件抽象所能存储的数据量大小不相同，为此，管理节点服务可以对存储器的每一个索引节点关联的文件抽象中的剩余存储量进行检测，确定哪些索引节点关联的文件抽象可以存储从数据对列中获取的预设数量的待存储数据。

S120、依据待存储数据和目标索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写数据请求，以使目标数据节点服务将待存储数据直接写入到存储器的目标索引节点关联的文件抽象中。

在本实施例中，管理节点服务在确定目标索引节点后，可以依据待存储数据和目标索引节点的节点信息生成针对待存储数据的写数据请求，并将该写数据请求发送至分布式文件系统的目标数据节点DataNode服务上。目标数据节点DataNode服务可以接收管理节点服务发送的写数据请求，并依据接收的写数据请求将待存储数据直接写入到存储器的目标索引节点关联的文件抽象中。

在本实施例中，可选地，分布式文件系统的管理节点服务部署有各索引节点的数据节点服务配置信息。在数据节点服务配置信息中包含有每一个数据节点服务与多个索引节点的关联关系。在向分布式文件系统中的目标数据节点服务发送写数据请求之前，管理节点服务可以将目标索引节点的节点信息与部署的数据节点服务配置信息进行匹配，确定数据节点服务配置信息中目标索引节点关联的数据节点服务，并记为目标数据节点服务。可以理解的是，管理节点服务主要用于管理逻辑存储区域的元信息、管理数据节点服务以及将多个待存储数据合理分配到不同的数据节点服务上进行写入处理。

采用上述方式的好处在于，可以在接收待存储数据的过程中，将多个待存储数据合并写入到存储器的索引节点对应的文件抽象中，即在写入过程中合并，在写入数据时不需要将各个待存储数据先转换成文件，只需要将待存储数据直接放入到文件抽象对应的大文件中即可，在写入每一个待存储数据的过程中不需要为每一个待存储数据分配一个索引节点，从而节省了Inode节点数量。

在本实施例中，当目标数据节点服务将待存储数据写入到存储器的目标索引节点关联的文件抽象中后，可以根据待存储数据在文件抽象中的具体写入情况，生成待存储数据的数据存储标志信息FID，并将数据存储标志信息FID发送给客户端,以便客户端可以依据数据存储标志信息FID在分布式文件系统中读取已存储的上述待存储数据。

在本实施例中，数据存储标志信息FID中包含有待存储数据所在的文件抽象的路径信息、待存储数据在文件抽象中的偏移量以及待存储数据在文件抽象中所占用的数据长度。其中，表1是本实施例中提供的一种FID的编码格式的格式表；表2是针对上述FID的编码格式中部分符号的说明。

表1

表2

符号	说明
		StorageRegion	存储空间名称(用于区分不同的业务)
uuid	文件唯一标识
		time	时间串(精确到分钟)
serverId	服务标识
		offset	当前文件所在大文件里的偏移量
size	当前文件的长度

在本实施例中，表3是本实施例中提供的一种待存储数据的存储格式，其中存储格式的说明为：表3中示意了一个大文件(即文件抽象)包含的两个小文件(即待存储数据)的待存储数据的内容编码。可选地，待存储数据的存储路径：/brfs/StorageRegion/yyyyMM/dd/hh/mm/uuid_serverId。其中，time为时间戳上的后五位(秒与毫秒)对应的数据值。对于time的说明：每天1亿文件,每个5k,共500G,每秒有6M左右,我们一个大文件64M,大概每10s生成一个文件。待存储数据中的整数类型采用PB中的VInt格式进行存储，可以减少存储空间。

表3

本发明实施例中提供了一种数据处理方案，首先针对存储器中的每一个索引节点预先创建一个文件抽象，分布式文件系统中的管理节点服务在获取客户端发送的待存储数据后，可以将获取的待存储数据发送给分布式文件系统中的目标数据节点服务，然后目标数据节点服务可以将待存储数据直接存储在存储器的索引节点关联的文件抽象中，采用本案的方式可以解决由于文件系统使用的内存容量或Inode节点数量的限制，而导致文件系统能存储的数据量会大幅下降的问题，能够合理管理文件以有效利用磁盘空间；同时，由于在写入存储数据时将多个待存储数据存储在同一个索引节点对应文件抽象下，实现了写数据过程中的数据合并，可以避免后续由于在写入数据后再对写入的在多个索引节点的文件数据进行重新合并，而导致数据写入操作繁琐，以及造成写入效率低等问题，提高了待存储数据的写入存储效率。

在上述实施例的基础上，可选地，本发明实施例的数据处理方法具体还包括以下步骤B1～步骤B2：

步骤B1、在确定目标索引节点时，确定存储器中用于存储至少一个待存储数据的副本的至少一个副本索引节点。

步骤B2、依据待存储数据和至少一个副本索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写副本请求，以使目标数据节点服务将待存储数据的副本写入到存储器的至少一个副本索引节点关联的文件抽象中。

在本实施例中，分布式文件系统还具有副本写入功能，写入分布式文件系统中的每一待存储数据可以有多个副本数据，不同的副本数据需要写入到不同的存储器中。因此，当分布式文件系统中的管理节点服务在确定目标索引节点时，还会确定存储器中用于存储至少一个待存储数据的副本所需要的至少一个副本索引节点，即声明需要将待存储数据的副本写入哪几个索引节点，并将确定的用于写入待存储数据副本的索引节点记为副本索引节点。

在本实施例中，在向分布式文件系统中的目标数据节点服务发送写数据请求的同时，可以同时依据待存储数据和至少一个副本索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写副本请求。目标数据节点服务可以依据写副本请求，将待存储数据的副本写入到存储器的至少一个副本索引节点关联的文件抽象中。可选地，写数据请求中可以包含写副本请求信息，当目标数据节点服务在目标索引节点关联的文件抽象写入待存储数据时，同时会将待存储数据写入声明的副本索引节点关联的文件抽象中。可选地，只要有一个副本写入成功就会返回数据存储标志信息FID，如果某个副本写入失败，则待存储数据的副本写入过程会进入同步状态，以在后续的流程中对待存储数据的副本内容进行写入恢复。

在本实施例中，可选地，RegionNode服务可以负责管理待存储数据的副本索引节点的分配及待存储数据的元数据信息的维护，真正的写入操作仍由DataNode服务来完成。DataNode服务在将待存储数据写入文件抽象时会维护两个文件，一个是数据文件，另一个是记录文件。其中，数据文件保存大待存储数据，记录文件保存数据的写入记录，在将待存储数据写入文件前，会先在记录文件中生成一条写入记录，然后才会写入数据文件；记录文件中的内容可以帮助待存储数据的同步模块对异常待存储数据进行内容恢复。

在本实施例中，可选地，在对待存储数据的副本进行管理可以采用记录路由信息的方式实现，能够在保存尽量少的数据的情况下管理文件抽象之后保存的待存储数据的副本。可选地，通过收集各个数据节点服务所在设备的负载信息，可以在待存储数据的读写以及副本迁移的过程中动态调整数据节点，达到有效利用系统资源的目的。可选地，分布式文件系统中通常会有很多的定时任务，比如检测副本完整性的任务，对过期待存储数据进行删除的任务等，这些任务通过统一的任务模块进行管理，把这些任务用不同的优先级进行标记，并在适当的时候进行执行。

图2是本发明实施例中提供的另一种数据处理方法的流程图，本发明实施例在上述实施例的基础上进行进一步优化，本发明实施例可以与上述一个或者多个实施例中各个可选方案结合，本实施例的方案由分布式文件系统中的数据节点服务执行。如图2所示，本发明实施例中提供的数据处理方法具体包括以下步骤：

S210、接收分布式文件系统中的管理节点服务发送的写数据请求；写数据请求包括至少一个待存储数据和目标索引节点的节点信息；待存储数据由所述管理节点服务获取客户端发送的数据得到，目标索引节点由所述管理节点服务确定所述存储器中用于存储所述待存储数据的索引节点得到；所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象。

S220、依据所述写数据请求，将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中，以实现在所述存储器中存储所述待存储数据。

在上述实施例的技术方案的基础上，可选地，在将所述待存储数据直接写入到所述存储器的索引节点关联的文件抽象中之后，还包括：

根据待存储数据在所述文件抽象中的写入情况，生成所述待存储数据的数据存储标志信息，并将所述数据存储标志信息发送给客户端。

在上述实施例的技术方案的基础上，可选地，所述数据存储标志信息包括以下一项或多项：逻辑存储信息、待存储数据的唯一标识、待存储数据在所述文件抽象中的偏移量以及所述待存储数据的数据长度。

本发明实施例中所提供的数据处理方法具备前述实施例中数据处理方法相应的功能和有益效果，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例中所提供的数据处理方法。

图3是本发明实施例中提供的一种数据处理装置的结构框图。本发明实施例的方案适用于对数据进行写入存储的情况，尤其是对海量小文件数据进行写入的情况。该装置可采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。其中，该装置具体配置在分布式文件系统中的管理节点服务，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象。如图3所示，本发明实施例中提供的数据处理装置具体包括：索引节点确定模块310和写入请求发送模块320。其中：

索引节点确定模块310，用于获取客户端发送的至少一个待存储数据，并确定所述存储器中用于存储所述至少一个待存储数据的目标索引节点；

写入请求发送模块320，用于依据所述待存储数据和所述目标索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写数据请求，以使所述目标数据节点服务将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中。

在上述实施例的技术方案的基础上，可选地，索引节点确定模块310包括：

数据缓存单元，用于当接收到客户端发送的待存储数据时，将接收到的所述待存储数据缓存到数据队列中；

数据获取单元，用于通过数据消费者从所述数据队列中获取预设数据量的待存储数据，确定为所述至少一个待存储数据。

在上述实施例的技术方案的基础上，可选地，所述至少一个存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域匹配有一个数据队列；

相应地，数据缓存单元用于：依据所述待存储数据关联的逻辑存储信息，将接收到所述待存储数据缓存到与所述逻辑存储信息指示的逻辑存储区域相匹配的数据队列中。

在上述实施例的技术方案的基础上，可选地，所述至少一个存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域关联有多个索引节点；

相应地，数据获取单元用于：依据所述待存储数据关联的逻辑存储信息，从所述逻辑存储信息指示的逻辑存储区域所关联的多个索引节点中，选取所述目标索引节点。

在上述实施例的技术方案的基础上，可选地，所述管理节点服务部署有各索引节点的数据节点服务配置信息；所述数据节点服务配置信息中一个数据节点服务关联有多个索引节点；相应地，所述装置还包括：

数据节点分配模块330，用于将目标索引节点的节点信息与部署的所述数据节点服务配置信息进行匹配，确定目标索引节点关联的目标数据节点服务。

在上述实施例的技术方案的基础上，可选地，

所述索引节点确定模块310，还用于在确定所述目标索引节点时，确定所述存储器中用于存储所述至少一个待存储数据的副本的至少一个副本索引节点；

所述写入请求发送模块320，还用于依据所述待存储数据和所述至少一个副本索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写副本请求，以使所述目标数据节点服务将所述待存储数据的副本写入到所述存储器的至少一个副本索引节点关联的文件抽象中。

本发明实施例中所提供的数据处理装置可执行上述本发明任意实施例中所提供的数据处理方法，具备执行该数据处理方法相应的功能和有益效果，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例中所提供的数据处理方法。

图4是本发明实施例中提供的另一种数据处理装置的结构框图。本发明实施例可适用于对数据进行写入存储的情况，尤其是对海量小文件数据进行写入的情况。该装置可采用软件和/或硬件的方式实现，并集成在任何具有网络通信功能的电子设备上。其中，该装置具体配置在分布式文件系统中的数据节点服务上，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象。如图4所示，本发明实施例中的数据处理装置具体包括：写数据请求接收模块410和待存储数据写入模块420。其中：

写数据请求接收模块410，用于接收分布式文件系统中的管理节点服务发送的写数据请求；所述写数据请求包括至少一个待存储数据和目标索引节点的节点信息；所述待存储数据由所述管理节点服务获取客户端发送的数据得到，所述目标索引节点由所述管理节点服务确定所述存储器中用于存储所述待存储数据的索引节点得到；

待存储数据写入模块420，用于依据所述写数据请求，将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中，以实现在所述存储器中存储所述待存储数据。

在上述实施例的技术方案的基础上，可选地，所述装置还包括：

数据存储标志确定模块430，用于根据待存储数据在所述文件抽象中的写入情况，生成所述待存储数据的数据存储标志信息，并将所述数据存储标志信息发送给客户端。

图5是本发明实施例中提供的一种电子设备的结构示意图。如图5所示结构，本发明实施例中提供的电子设备包括：一个或多个处理器510和存储装置520；该电子设备中的处理器510可以是一个或多个，图5中以一个处理器510为例；存储装置520用于存储一个或多个程序；所述一个或多个程序被所述一个或多个处理器510执行，使得所述一个或多个处理器510实现如本发明实施例中任一项所述的数据处理方法。

该电子设备还可以包括：输入装置530和输出装置540。

该电子设备中的处理器510、存储装置520、输入装置530和输出装置540可以通过总线或其他方式连接，图5中以通过总线连接为例。

该电子设备中的存储装置520作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中所提供的数据处理方法对应的程序指令/模块。处理器510通过运行存储在存储装置520中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中数据处理方法。

存储装置520可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储装置520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置520可进一步包括相对于处理器510远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置530可用于接收输入的数字或字符信息，以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置540可包括显示屏等显示设备。

并且，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器510执行时，程序进行如下操作：

此外，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器510执行时，程序还可以进行如下操作：

当然，本领域技术人员可以理解，当上述电子设备所包括一个或者多个程序被所述一个或者多个处理器510执行时，程序还可以进行本发明任意实施例中所提供的数据处理方法中的相关操作。

本发明实施例中提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时用于执行数据处理方法，该方法包括：

可选地，该程序被处理器执行时还可以用于执行本发明任意实施例中所提供的数据处理方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(Random AccessMemory，RAM)、只读存储器(Read Only Memory，ROM)、可擦式可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于：电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、无线电频率(RadioFrequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理方法，其特征在于，由分布式文件系统中的管理节点服务执行，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取客户端发送的至少一个待存储数据，包括：

当接收到客户端发送的待存储数据时，将接收到的所述待存储数据缓存到数据队列中；

通过数据消费者从所述数据队列中获取预设数据量的待存储数据，确定为所述至少一个待存储数据。

3.根据权利要求2所述的方法，其特征在于，所述至少一个存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域匹配有一个数据队列；

相应地，将接收到的所述待存储数据缓存到数据队列中，包括：

依据所述待存储数据关联的逻辑存储信息，将接收到所述待存储数据缓存到与所述逻辑存储信息指示的逻辑存储区域相匹配的数据队列中。

4.根据权利要求2所述的方法，其特征在于，所述至少一个存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域关联有多个索引节点；

相应地，确定所述存储器中用于存储所述至少一个待存储数据的目标索引节点，包括：

依据所述待存储数据关联的逻辑存储信息，从所述逻辑存储信息指示的逻辑存储区域所关联的多个索引节点中，选取所述目标索引节点。

5.根据权利要求1所述的方法，其特征在于，所述管理节点服务部署有各索引节点的数据节点服务配置信息；所述数据节点服务配置信息中一个数据节点服务关联有多个索引节点；

相应地，在向分布式文件系统中的目标数据节点服务发送写数据请求的步骤之前，还包括：

将所述目标索引节点的节点信息与部署的所述数据节点服务配置信息进行匹配，确定所述目标索引节点关联的目标数据节点服务。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在确定所述目标索引节点时，确定所述存储器中用于存储所述至少一个待存储数据的副本的至少一个副本索引节点；

依据所述待存储数据和所述至少一个副本索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写副本请求，以使所述目标数据节点服务将所述待存储数据的副本写入到所述存储器的至少一个副本索引节点关联的文件抽象中。

7.一种数据处理方法，其特征在于，由分布式文件系统中的数据节点服务执行，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象；所述方法包括：

8.根据权利要求7所述的方法，其特征在于，在将所述待存储数据直接写入到所述存储器的索引节点关联的文件抽象中之后，还包括：

9.根据权利要求8所述的方法，其特征在于，所述数据存储标志信息包括以下一项或多项：逻辑存储信息、待存储数据的唯一标识、待存储数据在所述文件抽象中的偏移量以及所述待存储数据的数据长度。

10.一种数据处理装置，其特征在于，配置于分布式文件系统中的管理节点服务，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象；所述装置包括：

索引节点确定模块，用于获取客户端发送的至少一个待存储数据，并确定所述存储器中用于存储所述至少一个待存储数据的目标索引节点；

写入请求发送模块，用于依据所述待存储数据和所述目标索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写数据请求，以使所述目标数据节点服务将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中。

11.根据权利要求10所述的装置，其特征在于，索引节点确定模块包括：

12.根据权利要求11所述的装置，其特征在于，所述至少一个存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域匹配有一个数据队列；

13.根据权利要求11所述的装置，其特征在于，所述至少一个存储器被逻辑划分为多个逻辑存储区域，每一个逻辑存储区域关联有多个索引节点；

14.根据权利要求10所述的装置，其特征在于，所述管理节点服务部署有各索引节点的数据节点服务配置信息；所述数据节点服务配置信息中一个数据节点服务关联有多个索引节点；相应地，所述装置还包括：

数据节点分配模块，用于将所述目标索引节点的节点信息与部署的所述数据节点服务配置信息进行匹配，确定目标索引节点关联的目标数据节点服务。

15.根据权利要求10所述的装置，其特征在于，

所述索引节点确定模块，还用于在确定所述目标索引节点时，确定所述存储器中用于存储所述至少一个待存储数据的副本的至少一个副本索引节点；

所述写入请求发送模块，还用于依据所述待存储数据和所述至少一个副本索引节点的节点信息，向分布式文件系统中的目标数据节点服务发送写副本请求，以使所述目标数据节点服务将所述待存储数据的副本写入到所述存储器的至少一个副本索引节点关联的文件抽象中。

16.一种数据处理装置，其特征在于，配置于分布式文件系统中的数据节点服务，所述分布式文件系统中包含至少一个存储器，且所述存储器中的每一个索引节点预先创建有一个文件抽象；所述装置包括：

写数据请求接收模块，用于接收分布式文件系统中的管理节点服务发送的写数据请求；所述写数据请求包括至少一个待存储数据和目标索引节点的节点信息；所述待存储数据由所述管理节点服务获取客户端发送的数据得到，所述目标索引节点由所述管理节点服务确定所述存储器中用于存储所述待存储数据的索引节点得到；

待存储数据写入模块，用于依据所述写数据请求，将所述待存储数据直接写入到所述存储器的目标索引节点关联的文件抽象中，以实现在所述存储器中存储所述待存储数据。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

数据存储标志确定模块，用于根据待存储数据在所述文件抽象中的写入情况，生成所述待存储数据的数据存储标志信息，并将所述数据存储标志信息发送给客户端。

18.根据权利要求17所述的装置，其特征在于，所述数据存储标志信息包括以下一项或多项：逻辑存储信息、待存储数据的唯一标识、待存储数据在所述文件抽象中的偏移量以及所述待存储数据的数据长度。

19.一种设备，其特征在于，包括：

一个或多个处理装置；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理装置执行，使得所述一个或多个处理装置实现权利要求1-9中任一所述的数据处理方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1-9中任一所述的数据处理方法。