CN100375093C

CN100375093C - 多线程元数据的处理方法

Info

Publication number: CN100375093C
Application number: CNB2005100552991A
Authority: CN
Inventors: 史小冬; 宋冬梅; 刘洋; 肖利民
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2005-03-18
Filing date: 2005-03-18
Publication date: 2008-03-12
Anticipated expiration: 2025-03-18
Also published as: CN1834956A

Abstract

本发明公开了一种多线程元数据的处理方法，客户端分别将文件服务的元数据请求发送给元数据服务器，文件服务的数据请求发送给数据服务器；元数据服务器中的元数据服务进程控制多个文件服务线程对元数据请求进行处理。本发明对两类请求分别使用不同的服务器进行处理，提高了机群系统的可扩展性；简化了存储服务器的结构，增强了整个机群文件系统的稳定性和机群文件系统对读写操作的处理能力。本发明采用多线程处理元数据请求，提高了元数据服务器CPU的利用率，能够支持更多的客户端并发访问。本发明有效地解决了共享文件的处理问题，保证了共享文件元数据的一致性，提高了线程处理元数据请求的吞吐率。

Description

多线程元数据的处理方法

技术领域

本发明涉及一种多线程元数据的处理方法，特别是指一种在机群文件系统中，采用多文件服务线程对文件的元数据的进行处理的方法，属于计算机信息技术。

背景技术

在网络文件系统(Network File System，简称NFS)中数据的处理量很大，为了提高网络文件系统的读写带宽，需要将文件的元数据和文件的实际存储数据分开进行处理。由于NFS只有一个服务器，这个服务器既要处理客户端的元数据请求，又要处理客户端的数据请求。当并发的客户端数量大于一定数量时，例如：32个，该服务器的读写带宽就会急剧下降，因此，NFS的扩展性很差。

解决上述问题的一种途径是将客户端的请求分为元数据请求和数据请求，分别对元数据请求和数据请求进行处理。但是，为了保证元数据的一致性，现有技术都采用单进程的方式来处理元数据请求，这样会影响具有多CPU的服务器的处理能力的发挥，降低了元数据服务器的吞吐率。

机群文件系统(Cluster File System，简称CFS)是高性能服务器的组成部分，用于解决大规模科学计算中的密集输入/输出(INPUT/OUTPUT，简称I/O)的处理问题。在I/O密集型的科学计算环境中，文件的读写强度很大。为了提高CFS的读写带宽，在技术上，CFS需要采用上述将文件元数据和文件实际存储数据分开进行处理的方式。在CFS中，文件的元数据由元数据服务器进行处理，文件的实际存储数据由存储服务器进行处理。由于文件的元数据是文件属性的描述，因此，必须保证元数据的一致性。有鉴于此，元数据服务器的一般采用单服务进程来对文件元数据进行处理，元数据服务进程通过顺序处理的方式，对所有的服务请求进行响应，因此，能够保证元数据的一致性。但是，这种处理方式在机群中客户端的数量增加到一定程度的时候，例如：64、128等，单线程元数据服务器就成了大量元数据处理的瓶颈。

发明内容

本发明的主要目的是提供一种多线程数据处理的方法，解决现有技术中单线程元数据服务器在处理元数据时遇到的瓶颈问题，同时保证在多线程处理共享元数据时能够保证元数据的一致性。

本发明的目的通过如下的技术方案实现：

一种多线程元数据的处理方法，当客户端发送文件服务请求时，分别将文件服务的元数据请求发送给元数据服务器，文件服务的数据请求发送给数据服务器；所述的元数据服务器中的元数据服务进程控制多个文件服务线程对所接收的元数据请求进行处理；

元数据服务进程控制多个文件服务线程的处理包括：

步骤10：元数据服务进程检测是否接收到客户端发送的元数据请求；

步骤11：如果没有，执行步骤10；否则启动一个处于空闲状态的文件服务线程对元数据请求进行处理；执行步骤10；

文件服务线程对元数据请求进行的处理包括：

步骤20：根据所述元数据请求所对应的被处理文件的唯一编号，生成被处理文件的处理状态值；

步骤21：察看在处理状态值存储区中是否保存有所述被处理文件的处理状态值，如果在处理状态值存储区中未保存有该处理状态值，则将该处理状态值存放到处理状态值存储区，建立元数据请求队列，用于保存当前被处理文件的元数据请求的后续元数据请求；否则执行步骤25；

步骤22：根据当前被处理的元数据请求对被处理文件进行相应的处理；

步骤23：在完成对当前元数据请求的处理后，察看当前被处理文件的元数据请求队列中是否还有后续元数据请求，如果当前被处理文件的元数据请求队列中还有后续元数据请求，则向元数据服务进程发起请求队列保存的所有后续元数据请求中最先保存的后续元数据请求；执行步骤26；

步骤24：如果当前被处理文件的元数据请求队列中没有后续元数据请求，则从处理状态值存储区删除该被处理文件的处理状态值，执行步骤26；

步骤25：将元数据请求作为后续元数据请求保存到当前被处理文件的元数据请求队列中；

步骤26：结束该文件服务线程，并向所述空闲文件服务线程队列中加入该文件服务线程。

为了使得本发明中的多个文件服务线程能够均衡地负荷元数据处理任务，本发明中的元数据服务进程采用轮转方式启动多个文件服务线程对元数据请求进行处理；具体包括：

当一个或多个文件服务线程处于空闲状态时，所述元数据服务进程将处于空闲状态的所述一个或多个文件服务线程依次记录在这个空闲文件服务线程队列之中；

当元数据服务进程启动一个文件服务线程时，如果空闲文件服务线程队列中还保存有空闲的文件服务线程，则总是启动排列在空闲文件服务线程队列中第一个空闲的文件服务线程，并将被启动的文件服务线程从所述空闲文件服务线程队列中删除。

本发明与现有技术相比具有如下的优点：

首先，将客户端的文件服务请求分为元数据请求和数据请求，对两类请求分别使用不同的服务器进行处理，提高了机群系统的可扩展性；将元数据请求剥离，简化了存储服务器的结构，从设计上增强了整个机群文件系统的稳定性、增强了机群文件系统对读写操作的处理能力。

本发明采用多线程处理元数据请求，提高了元数据服务器CPU的利用率，能够支持更多的客户端并发访问。

本发明采用被处理文件的处理状态值来标识被处理文件的状态，有效地解决了共享文件的处理问题，保证了共享文件元数据的一致性。本发明使用元数据请求队列，提高了线程处理元数据请求的吞吐率。

附图说明

图1为本发明将元数据服务请求剥离的示意图；

图2为本发明多服务线程的元数据服务进程的处理流程图；

图3为本发明文件服务线程的文件inode信息处理流程图；

图4为本发明文件服务线程处理元数据请求队列的流程图。

具体实施方式

以下结合附图和具体的实施例对本发明作进一步的详细说明：

本发明的客户端在向服务器发出文件服务请求之前，先将该文件服务请求进行分类，将元数据服务请求与数据请求剥离。由于客户端向服务器发送文件服务请求时，它本身是知道这个请求是属于元数据请求还是属于数据请求，因此，可以将元数据请求和数据请求分开发送，将元数据请求发给元数据服务器去处理，而把数据请求发给数据服务器去处理。

参见图1，客户端可以将机群文件系统服务器操作中的元数据操作请求分离出来，发送给专门的元数据服务器来处理，而文件的数据存储，则发送给存储服务器去处理。

参见图2，本发明的元数据服务进程在启动和初始化后，首先要创建一个文件元数据服务的工作线程池，该工作线程池中创建有多个文件服务线程，用于处理客户端发送的各种元数据操作请求；在创建好工作线程池之后，该元数据服务进程负责完成如下的任务：

1、监听是否有元数据请求；所谓的监听是指元数据服务进程通过访问一个监听队列检测客户端发送的元数据请求，在这个监听队列中保存着客户端发送的、需要处理的请求信息。

2、如果有元数据请求，元数据服务进程根据所有文件服务线程的状态采用轮转法进行任务分配。这里的分配实际上是指：启动一个处于空闲状态的文件服务线程，使其响应并处理相应的元数据请求。如果没有元数据请求，元数据服务进程则继续监听。

元数据服务进程创建的所有文件服务线程之间是完全对等的，一个元数据服务请求到达之后，元数据服务进程会寻找一个处于空闲状态的文件服务线程对该元数据服务请求进行处理。以下是一个文件服务线程处理一个元数据服务请求的实例：

参见图3、图4，当一个文件服务线程被元数据服务进程启动，开始处理一个元数据请求时，先是根据这个元数据请求所对应的被处理文件的唯一编号，生成该被处理文件的处理状态值；这个状态值一般被称为元数据属性记录(inode)，用于控制访问共享文件。这个被称为inode的状态值是每个文件都具有一个描述该文件自身属性的记录信息，该记录信息中包括描述这个文件的长度、创建时间等内容。

当多个客户端需要同时对一个共享文件进行操作时，需要利用上述的inode对这些操作进行控制，使得在某一时刻只能允许一个客户端对这个共享文件进行操作。具体的方法可以是：当一个客户端对共享文件进行修改，将该文件的inode设置为表示正在被处理的状态值，当其他客户端发出元数据请求，使得元数据服务进程启动其他文件服务线程对其处理时，其他的文件服务线程首先检测这个inode是否被设置为表示该文件正处于被处理的状态。如果属于这种情况，其他的文件服务线程就会自动地将其处理的元数据请求挂起，直到这个inode被设置为表示该文件处于未被处理的状态。

在本实例中，为了方便管理，上述的inode可以被存放在一个存储区中，而这些存放在存储区中状态值构成了一个inode集合，这个inode集合则可以是一个以所有被处理文件的inode为键值的哈希(hash)表。

接下来，是在上述的处理状态值存储区(hash表)中察看：是否保存有上述被处理文件的inode；如果没有，则将该inode存放到处理状态值存储区(hash表)；同时，建立此被处理文件的元数据请求队列，用于保存当前被处理文件的后续元数据请求；然后，执行上述文件服务线程的功能，根据当前被处理的元数据请求对所述的被处理文件进行相应的处理；在完成对元数据请求的处理后，该文件服务线程察看上述被处理文件的元数据请求队列中是否还有后续元数据请求，如果有，该文件服务线程则向元数据服务进程发起请求队列保存的所有后续元数据请求中最先保存的后续元数据请求，然后结束该文件服务线程；文件服务线程向元数据服务进程发起请求队列保存的所有后续元数据请求中最先保存的后续元数据请求，使得元数据服务进程可以据此启动一个其他的文件服务线程，来处理这个后续元数据请求。

如果元数据请求队列中没有后续元数据请求，则从所述处理状态值存储区(hash表)中删除这个被处理文件的处理状态值(inode)后，结束该文件服务线程。

如果在处理状态值存储区中保存有上述被处理文件的处理状态值(inode)，则说明该文件正在被一个在先启动的文件服务线程处理，此时，该文件服务线程仅仅将元数据请求作为后续元数据请求保存到此被处理文件的元数据请求队列中，然后结束该文件服务线程。

采用上述文件服务线程的处理流程，可以保证在某一时刻只有一个文件服务线程处理该文件的元数据，从而保证了文件元数据的一致性。

本发明中，采用了一个元数据请求队列，用于在一个文件服务线程结束了对一个共享文件的处理后，元数据服务进程可以启动其他文件服务线程对后续的其他客户端发送的元数据请求进行处理。当有多个文件服务线程同时处理一个文件时，由于第一个线程会将此文件的inode设置为表示该文件正处于被处理的状态；这样，其他的文件服务线程的请求就会被放到这个元数据请求队列进行等待。参见图4，当一个文件服务线程处理完一个文件的元数据请求后，它会判断是否有其他的元数据请求正在等待着处理，如没有，它将释放该文件的inode。否则，就向元数据服务进程发送一个用于启动一个其他文件服务线程处理正在等待处理的元数据请求。如上所述，元数据服务进程会将当前线程池中一个空闲的文件服务线程启动，来处理元数据请求队列中的第一个元数据请求。

为了使得本发明中的多个文件服务线程能够均衡地负荷元数据处理任务，本发明中的元数据服务进程采用轮转方式启动多个文件服务线程对元数据请求进行处理：元数据服务进程采用轮转方式启动所述多个文件服务线程对所述的元数据请求进行处理；

当元数据服务进程在创建所述多个文件服务线程时，同时建立一空闲文件服务线程队列，当文件服务线程处于空闲状态时，将其依次记录在的空闲文件服务线程队列之中；当元数据服务进程在启动一个文件服务线程时，如果所述空闲文件服务线程队列中还保存有空闲的文件服务线程，则总是启动排列在空闲文件服务线程队列中第一个空闲的文件服务线程，同时，将被启动的文件服务线程从所述空闲文件服务线程队列中删除。而当文件服务线程结束对元数据请求的处理时，则将自己添加到空闲文件服务线程队列之中，以准备下次被启动。

最后应说明的是：以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案；因此，尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明，但是，本领域的普通技术人员应当理解，仍然可以对本发明进行修改或者等同替换；而一切不脱离本发明的精神和范围的技术方案及其改进，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种多线程元数据的处理方法，其特征在于：当客户端发送文件服务请求时，分别将文件服务的元数据请求发送给元数据服务器，文件服务的数据请求发送给数据服务器；所述的元数据服务器中的元数据服务进程在创建所述多个文件服务线程时，同时建立一空闲文件服务线程队列，所述元数据服务进程控制多个文件服务线程对所接收的元数据请求进行处理；

所述元数据服务进程控制多个文件服务线程的处理包括：

步骤11：如果没有，执行步骤10；否则启动一个处于空闲状态的文件服务线程对所述的元数据请求进行处理；执行步骤10；

所述文件服务线程对所接收的元数据请求进行的处理包括：

步骤20：根据所述元数据请求所对应的被处理文件的唯一编号，生成所述被处理文件的处理状态值；

步骤21：察看在处理状态值存储区中是否保存有所述被处理文件的处理状态值，如果在处理状态值存储区中未保存有该处理状态值，则将该处理状态值存放到处理状态值存储区，建立元数据请求队列，用于保存当前被处理文件的后续元数据请求；否则执行步骤25；

步骤22：根据当前被处理的元数据请求对所述的被处理文件进行相应的处理；

步骤23：在完成对当前元数据请求的处理后，察看当前被处理文件的元数据请求队列中是否还有后续元数据请求，如果当前被处理文件的元数据请求队列中还有后续元数据请求，则向所述的元数据服务进程发起所述请求队列保存的所有后续元数据请求中最先保存的后续元数据请求；执行步骤26；

步骤24；如果当前被处理文件的元数据请求队列中没有后续元数据请求，则从所述处理状态值存储区删除该被处理文件的处理状态值，执行步骤26；

步骤25：将所述的元数据请求作为后续元数据请求保存到当前被处理文件的元数据请求队列中；

2.根据权利要求1所述的多线程元数据的处理方法，其特征在于：所述步骤11中，元数据服务进程启动处于空闲状态的文件服务线程时采用轮转方式；具体包括：

当一个或多个文件服务线程处于空闲状态时，所述元数据服务进程将处于空闲状态的所述一个或多个文件服务线程依次记录在所述的空闲文件服务线程队列之中；

所述元数据服务进程在启动一个文件服务线程时，如果所述空闲文件服务线程队列中还保存有空闲的文件服务线程，则总是启动排列在所述空闲文件服务线程队列中第一个空闲的文件服务线程，并将被启动的文件服务线程从所述空闲文件服务线程队列中删除。