CN1700177A - 构建基于软流水结构的Web服务器的方法及其服务器 - Google Patents

构建基于软流水结构的Web服务器的方法及其服务器 Download PDF

Info

Publication number
CN1700177A
CN1700177A CNA200510031746XA CN200510031746A CN1700177A CN 1700177 A CN1700177 A CN 1700177A CN A200510031746X A CNA200510031746X A CN A200510031746XA CN 200510031746 A CN200510031746 A CN 200510031746A CN 1700177 A CN1700177 A CN 1700177A
Authority
CN
China
Prior art keywords
data
socket
http
threads
thread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200510031746XA
Other languages
English (en)
Other versions
CN100359474C (zh
Inventor
谭郁松
戴华东
卢凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CNB200510031746XA priority Critical patent/CN100359474C/zh
Publication of CN1700177A publication Critical patent/CN1700177A/zh
Application granted granted Critical
Publication of CN100359474C publication Critical patent/CN100359474C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种构建基于软流水结构的Web服务器的方法及其服务器,该方法为:将Web服务器中完成HTTP请求处理的完整流程依序分解为四个流水栈,每个流水栈内所包含的线程组只完成HTTP请求处理的特定环节并将控制数据依次传递给与之相连的后序流水栈,前后序的流水栈之间通过受控内存区传递自洽的控制数据信息,通过数据缓存区对用户所访问的对象数据进行存储,并利用Socket区来管理用于数据接收和发送的Socket。根据该方法并将之高效实现,得到高性能的Web服务器。该Web服务器包括主线程、四个流水栈、受控内存区、数据缓存区和Socket区,它能够降低Web请求处理的并发粒度,提高服务器的并行处理能力,使之能高性能、稳定地运行于服务器平台,满足高负载的Web环境需求。

Description

构建基于软流水结构的Web服务器的方法及其服务器
技术领域
本发明主要涉及到计算机领域中Web服务器,特指一种构建基于软流水结构的Web服务器的方法及其服务器。
背景技术
近来Internet上Web应用一直处于爆炸型增长阶段,目前以Web形式发布的信息海量,种类繁多。因此,用户以Web方式访问信息的频率高,访问数据量大,据统计Web流量在Internet总流量中的比例已经超过了60%。HTTP请求具有猝发特点,经常以猝发、自相似流的形式访问Web服务器,高峰时的HTTP请求率超过平均值的8~10倍,故而大型Web站点经常出于服务器超载的现象。已有研究表明,一般Web用户期望的理想Web响应时间为1秒,难以忍受超过8-10秒的等待时间;电子商务网站的理想响应时间应在7秒之内,否则将会损失超过30%的潜在客户。正由于Web应用所具有的规模和访问特性,必然要求Web服务器具有良好的性能,用于满足客户所需的服务质量。
从体系结构的角度来分类,可将目前主流的Web服务器划分为三大类,单进程型(Single Process,SP)、对称多线程型(Symmetrical Multiple Threads,SMT)、非对称多线程型(Asymmetrical Multiple Threads,AMT)等。
单进程型Web服务器由单个进程负责多个链接的联结和监听,完成每个用户请求的接收、分析和处理,以及响应数据的发送等所有环节。为提高服务器的处理能力,此类服务器一般都采用非阻塞I/O操作以及I/O复用技术。该类服务器避免了进程间通讯和进程切换现场的开销,但可扩展性不强。此类结构的典型服务器有zeus,micro-server(μserver),IIS等。
对称多线程型在单线程型的基础上加以改进,提供多个进程或是线程用于任务处理,每个进程/线程独立完成一个请求的全部操作步骤,多个进程/线程同时执行,提高服务器的并行处理能力,提高服务器的性能。所有进程功能和能力完全一样,此类服务器存在进程/线程之间的调度和切换开销。对于进程/线程的创建和管理机制方面,常用方法有两种,或每接收到一个新请求,临时创建新进程,处理请求完毕后,删除该线程;或是事先创建一组进程,每接收一个新请求,则从进程池中分配一个空闲进程用于请求处理。Apache和KNOT系统是典型的对称多进程型结构。
非对称多线程型体系结构则以Flash服务器为典型代表。该类服务器除了传统的请求处理线程外,还包括若干专门进行I/O的辅助线程。每个用户请求首先由一个进程执行操作,若该进程需要设备I/O时,则将该项I/O操作转交给辅助线程接着执行,本线程将转为处理其它的客户请求。这样的结构能有效减少线程的阻塞时间,提高服务效率。但线程和辅助线程之间存在IPC通讯,增加了系统通讯开销。本质上,除却辅助线程外,该类型的Web服务器所使用的工作线程同样是对称或是同构的。
总而言之,目前Web服务器均采用对称或是同构结构,即所有的线程功能完全相同,具有同等能力,独立或在辅助线程的帮助下完成Web请求的全过程。此类的Web服务器具有任务间并行的能力,并行的粒度是任务,即Web请求。易知,该体系结构的Web服务器处理单个Web请求中各环节是串行的,如果某个环节被阻塞,则整个任务必然停止。更关键的是,作为有限资源的线程也会被阻塞,从而极大浪费资源。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,提供一种构建基于软流水结构的Web服务器的方法,并将之高效实现,得到高性能的Web服务器,从而能够降低Web请求处理的并发粒度,提高服务器的并行处理能力,使之能高性能、稳定地运行于服务器平台,满足高负载的Web环境需求。
为了解决上述技术问题,本发明提出的解决方案为:一种构建基于软流水结构的Web服务器的方法,其特征在于:将Web服务器中完成HTTP请求处理的完整流程依序分解为四个流水栈,每个流水栈内所包含的线程组只完成HTTP请求处理的特定环节并将控制数据依次传递给与之相连的后序流水栈,前后序的流水栈之间通过受控内存区传递自洽的控制数据信息,通过数据缓存区对用户所访问的对象数据进行存储,并利用Socket区来管理用于数据接收和发送的Socket。
所述四个流水栈中的线程组依序为连接线程组、接收线程组、数据处理线程组和发送线程组,且流水栈完成HTTP请求处理的流程为:
(1)、连接线程组中的任意一个连接线程接受客户的一个新Socket连接请求,并将该新Socket插入到Socket区中空闲的Socket项中,并且将该项的m_uKeepAlive设置为KEEP_ALIVE_UNKNOWN状态,同时将m_nTimeoutTicks设置为当前时间,随后在接收线程组中唤醒一个空闲的接收线程;
(2)、当接收线程被唤醒后,将检测所有的Socket项,首先判断该Socket项的m_uKeepAlive,如果为KEEP_ALIVE_UNKNOWN或是KEEP_ALIVE_OK的话,则试图接收该Socket中客户端所发送过来的Http请求,并判断该请求的完整性;如果完整的话,则从受控内存区自由链中抽取头部的一页,分配新受控内存区页,创建一个HTTP请求结构,并将所接收到的HTTP请求串写入该结构的m_szReqStringGotten域中;随后将该受控内存区页地址作为一个新任务,写入数据处理线程组的任务队列中,并在数据处理线程组中唤醒一个空闲的数据处理线程;如果Socket项中m_uKeepAlive的状态为KEEP_ALIVE_TIMEOUT,则表示该Socket项以超出HTTP协议的Keep-Alive期,不于接收HTTP请求,并且如果超期过长的话,还应该将该Socket项删除,关闭Socket,释放资源,并且将状态切换为KEEP_ALIVE_NO;
(3)、当数据处理线程被唤醒之后,即从任务队列中抽取头部的新任务,得到HTTP请求数据所处的受控内存区页地址,从而得到HTTP请求数据信息;首先依据HTTP协议,针对m_szReqStringGotten域进行HTTP协议分析,得到HTTP请求结构中的其他域信息;此时,应该判断该请求的合法性检查,若不合法,则应关闭该Socket,并停止该HTTP请求的进一步服务;若合法,则进行进一步的访问控制检测,若当前系统不允许该HTTP请求的访问,也应关闭该Socket,并停止该HTTP请求的进一步服务;若允许访问,则针对HTTP请求中客户欲访问的URL文件对象,进行相应的文件I/O,获取该文件的属性信息和实体内容数据,结合HTTP协议头复用技术,生成HTTP响应数据,并存储于数据缓存区中;随后在发送线程组中唤醒一个空闲的发送线程;
(4)、发送线程被唤醒后,首先从任务队列中抽取头部的新任务,得到HTTP响应控制信息所处的受控内存区的页地址,从而获知HTTP响应控制信息,进一步得知HTTP响应数据所处的数据缓存区页地址,从而得到HTTP响应数据信息,以及需要发送的客户地址,从而发送线程便直接将响应数据向客户端进行发送。
所述数据缓存区采用页式机制管理,首先组织10个不同等级的自由页面链,随后将用户需求的页面数规整为最短分解链,而后在相应的自由页面链上分配。
一种基于软流水结构的Web服务器,其特征在于它包括:
主线程,负责服务器系统的初始化、配置和线程的管理;
四阶段依序连接的流水栈,每个流水栈内所包含的线程组只完成HTTP请求处理的特定环节,四个流水栈内依次包括连接线程组、接收线程组、数据处理线程组和发送线程组;连接线程组位于客户链接建立阶段,负责建立客户发起的链接请求,并进行有效管理;接收线程组位于请求接收阶段,完成接受客户端的新网络链接,接收并分析客户提交的HTTP请求;数据处理线程组位于数据处理阶段,包括对客户所请求URL指定文件对象数据的读取、对象数据的缓存以及HTTP响应数据的生成;发送线程组位于响应发送阶段,负责将HTTP响应数据交付网络发送;
受控内存区,包括受控内存区页自由链表和受控内存区数据区,受控内存区负责完成流水栈之间控制信息的传递;
数据缓存区,包括控制区和数据区,数据缓存区负责存储用户所访问对象的信息数据;
Socket区,负责保存当前活跃的Socket。
与现有技术相比,本发明的优点在于:本发明解决了现有Web服务器结构中HTTP请求间的并行粒度并行程度不高,性能不强的问题,本发明通过将完整的HTTP请求处理采用流水化的体系结构来完成,从而可以实现HTTP请求内的并行性,能重叠处理HTTP请求,得到更小的并行粒度,获取更高的并行处理能力;再结合高效的线程调度策略和数据缓存方法,从而获得了较传统Web服务器优势更为明显的服务器性能。实验结果表明,本发明的Web服务器结构具有高性能、运行稳定等优点。
附图说明
图1是本发明基于软流水结构的Web服务器结构示意图;
图2是本发明主线程的流程示意图;
图3是本发明连接线程的流程示意图;
图4是本发明接收线程的流程示意图;
图5是本发明数据处理线程的流程示意图;
图6是本发明发送线程的流程示意图;
图7是本发明中线程状态转换示意图;
图8是本发明中数据缓存区的结构示意图;
图9是本发明中Hash结构的示意图。
具体实施方式
以下将结合附图对本发明做进一步详细说明。
本发明的构建基于软流水结构的Web服务器的方法是将Web服务器中完成HTTP请求处理的完整流程依序分解为四个流水栈,每个流水栈内所包含的线程组只完成HTTP请求处理的特定环节并将控制数据依次传递给与之相连的后序流水栈,前后序的流水栈之间通过受控内存区传递自洽的控制数据信息,通过数据缓存区对用户所访问的对象数据进行存储,并利用Socket区来管理用于数据接收和发送的Socket。
如图1所示的基于软流水结构的Web服务器的体系结构和主要组成部分。由图不难得知,Web服务器系统主要由主线程、四个流水栈(四组线程组)、数据缓存区(Data Cahce,DC)、受控内存区(Managed Buffer,MB)、Socket区组成。主线程负责服务器系统的初始化、配置和线程的管理。四组线程组包括连接线程组、接收线程组、数据处理线程组和发送线程组,各组线程是完成相应流水栈的功能体,组内线程同构,组间线程异构。其中连接线程组位于客户链接建立阶段,负责建立客户发起的链接请求,并进行有效管理;接收线程组位于请求接收阶段,完成接受客户端的新网络链接,接收并分析客户提交的HTTP请求;数据处理线程组位于数据处理阶段,包括对客户所请求URL指定文件对象数据的读取、对象数据的缓存以及HTTP响应数据的生成;发送线程组位于响应发送阶段,负责将HTTP响应数据交付网络发送;数据缓存区用于存储对象数据,则针对该对象的再次访问就可从缓存中直接获取数据,而无需再次进行磁盘I/O,从而提高系统的处理能力。受控内存区则用于存储前后序线程之间所传递的自洽控制信息。而Socket区保存包括新链接和处于Keep-Alive状态的所有存活socket,便于接收线程接收客户请求。
下面将依照HTTP请求处理的逻辑时序流程,结合如图2、图3、图4、图5和图6所示的各线程的流程示意图,详细讲解基于软流水体系结构的Web服务器的构建、各组成部分之间的指令流和数据流的相互关系。
当Web服务器启动时,服务器首先加载主线程。主线程将首先读取服务器系统的配置文件,了解服务器的监听端口、URL文件集的物理路径、DC的大小、线程组中所包含的线程数目等系统关键属性信息。随后将创建一个主监听Socket,并生成四组线程组。最后唤醒一个连接线程来监听该主监听端口。此时,该主线程并不退出或是自行杀死,而是进行睡眠状态,定期唤醒,检测流水栈线程的运行状态,并检测系统管理员是否正在退出Web服务器,从而依据管理员命令,杀死所有的线程,并关闭主监听Socket,随后释放所有的系统资源,关闭Web服务,退出系统。(参见图2)
每个流水栈实现上是一组线程,每个线程均可独立完成HTTP请求的同一处理阶段的相关操作。线程之间的相互关系存在两种类型:线程组内和组间。组内的线程功能和能力同构,均可独立完成某个流水栈的功能;而线程间则具有前后序关系,存在控制相关和数据相关。处理同一请求的后序线程必须在相应的前序线程执行完毕后,才能运行。由于前后序线程之间使用受控内存区传递自洽的控制信息,因此前后序线程在实际运行时可以消除数据相关,前序线程在传递控制数据后,便可自行进行其它请求的相应处理操作。每个线程组维护一个任务队列,组内所有线程均从该队列中获取新任务。
客户向Web服务器提交Socket连接建立请求,服务器的连接线程将截获该请求,完成TCP/IP的Socket建立操作,创建一个新的活跃Socket,并将之放置在Socket区中。随后,唤醒一个接收线程,使其针对该Socket进行后续操作。被唤醒接收线程将逐一查阅本线程所具有的活跃Socket,检测该Socket是否包含客户刚发来的HTTP请求。如果接收到一个完整的HTTP请求,则将该请求打包为一个自洽的HTTP请求控制数据,并从MB中的自由链表中查找一页空闲页,分配所对应的MB页,将该自洽的HTTP请求控制数据写入所分配的MB页中。随后将该MB页的首地址作为任务控制信息,创建一个新任务结构,插入数据处理线程组的任务队列中,并调度一个空闲的数据处理线程,唤醒之。被唤醒的数据处理线程将首先从任务队列中提取一个新任务,得到存储HTTP请求控制数据的MB页地址,从而获知完整的HTTP请求信息。随后按照HTTP协议的要求,分析并提取出HTTP请求的相关信息,得到客户所请求的URL文件对象。进行Hash计算,判断该文件对象是否刚被访问过,并被缓存在DC中。若是,则可直接创建一个新任务结构。如果欲访问的文件对象没有被缓存,则首先依据页使用位图、自由链数组和页表项数组进行DC页的分配。同时也需要分配一个Hash结构。此时,将所读取得到的文件数据以HTTP响应的形式写入DC中,结合HTTP协议头复用技术,所缓存的数据应也包含HTTP协议头信息。如果DC过满的话,则需要同时参考LRU数组的信息,进行Hash对象和DC对象的淘汰。不论是已缓存的对象,或是刚缓存的对象,在刚访问完毕后,都应该将该对象所对应的LRU数组项更新。同时,都应分配一个MB页,创建一个新任务结构,将DC的首页地址信息写入任务结构中,插入发送线程组的任务队列中,调度一个空闲发送线程并唤醒之。被调度和唤醒的发送线程将从本线程组的任务队列中获取一个新任务,获取MB页地址,得到欲发送的HTTP响应数据,直接向客户Socket进行数据发送即可。
参见图7给出了线程的状态转换图,该图表明线程具有三种状态:睡眠状态,表示该线程睡眠,释放CPU和其它系统资源,等待被调度;运行状态,表示该线程正在执行Web请求特定流水栈操作的处理过程中;等待状态,表示该线程处于中断模式中,主要是在等待诸如文件读或是网络发送等中断操作。每组线程缺省模式均为睡眠状态,释放CPU资源。若前序线程刚执行完毕一个请求的前序流水栈,则首先生成一个自洽的控制信息,存储于后序流水栈的任务队列尾部,并从后序线程组中任意挑选一个处于睡眠状态的线程,唤醒并置为可执行状态。所谓自洽数据,是指数据中包含流水栈进行操作所需的所有信息,主要是HTTP请求信息,以及HTTP响应信息。流水栈线程在得到这些信息之后,便能依据自己的功能体,正确地理解所欲完成操作的的信息和属性,可正确执行任务。从而,前后序线程依靠自洽控制数据的传递来消除前后序线程之间的数据相关行,从而进一步提高Web服务器的并行性能。
每个线程开始执行后,首先从本流水栈的任务队列头部抽取一个新任务,开始执行流水栈的功能操作。当处理完毕之后,判断本流水栈的任务队列是否还存在新的任务请求,若有,则接着执行下一个新任务;否则的话,转入睡眠状态。当正处于运行状态的线程需要进行磁盘I/O以读取文件,或是进行网络读或发送等操作时,该线程将被中断阻塞,处于等待状态;当中断操作完成时,该线程又转换为运行状态。
具体的说,连接线程被阻塞在accept调用上,返回时必然是已经接受了客户的一个新Socket连接请求。将该新Socket插入到Socket区中空闲的Socket项中,并且将该项的m_uKeepAlive设置为KEEP_ALIVE_UNKNOWN状态,同时将m_nTimeoutTicks设置为当前时间。随后,将唤醒一个空闲的接收线程。(参见图3)
Socket区中每项的结构如下所示。
typedef struct
{
/*keepalive status flag*/
volatile unsigned char     m_uKeepAlive;
/*is socket item processing*/
volatile unsigned char     m_uProcessing;
/*timeout jiffies*/
volatile unsigned long     m_nTimeoutTicks;
}TSocketList;
接收线程被唤醒后,将检测所有的Socket项,首先判断该Socket项的m_uKeepAlive,如果为KEEP_ALIVE_UNKNOWN或是KEEP_ALIVE_OK的话,则试图接收该Socket中客户端所发送过来的HTTP请求,并判断该请求的完整性。如果完整的话,则从MB自由链中抽取头部的一页,分配新MB页,创建一个HTTP请求结构,并将所接收到的HTTP请求串写入该结构的m_szReqStringGotten域中。随后将该MB页地址作为一个新任务,写入数据处理线程组的任务队列中,并唤醒一个空闲的数据处理线程。如果Socket项中m_uKeepAlive的状态为KEEP_ALIVE_TIMEOUT,则表示该Socket项以超出HTTP协议的Keep-Alive期,不于接收HTTP请求。并且如果超期过长的话,还应该将该Socket项删除,关闭Socket,释放资源,并且将状态切换为KEEP_ALIVE_NO。(参见图4)
如下给出了HTTP请求的数据结构。
typedef struct
{
char    m_szReqStringGotten[MAX_REQSTR_LEN];
unsigned int   m_uSocketIndex;
char    m_OrigFileName[MAX_FIELD_LEN];
char    m_ExtFileName[MIN_FIELD_LEN];
char    m_Encodings[MID_FIELD_LEN];
int     m_Method;
char    m_Protocol[MIN_FIELD_LEN];
off_t   m_BytesToSend;
off_t   m_BytesSent;
int     m_OneOne;/*HTTP/1.1 or better*/
/*Referer*/
char*m_Referer;
/*User-Agent*/
char*m_UserAgent;
/*Cookie*/
char*m_Cookie;
/*Content-Type*/
char*m_ContentType;
/*Host*/
char*m_HostName;
/*_Authorization*/
char*m_Authorization;
/*If-Modified-Since*/
time_t m_IfModifiedSince;
/*If-Range*/
time_t m_RangeIf;
/*Content-Length*/
size_t m_ContentLength;
/*index for object’s hash position*/
unsigned long m_uHashIndex;
unsigned long m_uListIndex;
char   m_Type[MIN_FIELD_LEN];
int    m_GotRange;
off_t  m_FirstByteIndex,m_LastByteIndex;
int    m_KeepAlive;
char   m_ReqHost[MID_FIELD_LEN];
char*  m_HdrHost;
size_t m_ReadSize,m_ReadIndex,m_CheckedIndex;
int    m_CheckedState;
int    m_Status;
}THttpRequest;
该结构包含了诸如所获取的完整用户请求、分离得到的用户URL请求、用户host地址、HTTP协议版本号、用户Agent、用户Cookie、欲获取数据的起始偏移等等。
数据处理线程被唤醒之后,首先从任务队列中抽取头部的新任务,得到HTTP请求数据所处的MB页地址,从而得到HTTP请求数据信息。首先依据HTTP协议,针对m_szReqStringGotten域进行HTTP协议分析,得到HTTP请求结构中的其他域信息。此时,应该判断该请求的合法性检查,若不合法,则应关闭该Socket,并停止该HTTP请求的进一步服务。若合法,则进行进一步的访问控制检测,若当前系统不允许该HTTP请求的访问,也应关闭该Socket,并停止该HTTP请求的进一步服务。若允许访问,则针对HTTP请求中客户欲访问的URL文件对象,进行相应的文件I/O,获取该文件的属性信息和实体内容数据。此时,便涉及到数据缓存区的管理、Hash机制和淘汰机制。(参见图5)
图8给出了数据缓存区的结构示意图。数据缓存区主要用于文件对象数据的缓存,管理机制主要涉及数据缓存的分配和释放、缓存对象的淘汰机制。数据缓存区主要包括控制区(页使用位图、LRU数组、Hash数组、自由链数组以及页表项数组)、数据区。
面向一个大型应用的Web服务器需要快速的处理大量数据请求,应能针对每个缓存需求快速地分配最节省但能满足需求的数据缓存空间。数据缓存区使用页式管理机制,所有的数据缓存将被划分为整数个页面,缓存的分配也以页面为基本单位。页面管理上,借鉴并扩展了伙伴系统的管理策略,即数据缓存管理器首先按照20、......、29级别维护十个自由页面链;在进行数据缓存分配时,管理器将依据对象的实际大小计算出所需页面数;随后将所需页面数按照29、......、20的顺序划分为最短的分解链,表示对不同页面块的分配需求,例如15应划分为8+4+2+1,而非4+4+4+2+1;最后按需分配。在分配时,应首先满足大块的分配需求,随后依次满足较小块的需求。在进行实际分配时,不可避免地会出现特定阶链上的空闲页面块不能满足分配需求的情形,此时就需要将需求链上的页面块作二分分解,例如将8分解为4+4,试图在下一阶上满足分配。这样,完整的数据缓存区的分配需求将以页面块链表的形式得到满足。
页使用位图针对每个级别分别设定,相应级别上的每一位对应着相应级别的两块相邻页面块。每一位的初始化取值为0。每个空闲块被分配,或是每个已分配块被释放都应将相应的页使用位取反。由此可知,该位取值为0时,表示此相邻两块或均空闲,或均以分配;若取值为1,则表示此相邻两块必然是其中一块被分配,而另外一块空闲。基于此信息,位使用位图可应用于页面的分配分解和释放合并。若某页面块被释放时,它将检测所对应级别上的位的取值情况,若为1,则表示另外块已是空闲,故应置上该位为0,并上翻至上一级别,判断取值,并如此迭代。这样,一个页面块的释放将可能会影响到相邻若干块,并最终形成一个可能的最大页面块。
在对象缓存和淘汰方面,Web服务器使用散列的方法将对象散列,便于快速查找和定位。图9给出了Hash结构示意图。Hash数组中存储了缓存于DC中对象的所有必需信息,包括文件路径,对象大小和对象的修改时间,等待对象列表,以及该对象所存储的首页地址;此外,还包括维护Hash结构的必需信息,如使用标志位、发送标志位等。需要说明的是,DC的数据区中仅仅包含了对象的实体数据,是可由网络发送的完整数据,不包含任何的控制信息和解释信息。
Web服务器系统在实现中对散列碰撞队列长度进行上限限定,如果是发生碰撞队列满链或是整个数据缓存的空闲空间太小从而不能满足欲缓存对象的缓存,则会发生对象淘汰。淘汰是必须借鉴LRU数组中的相关信息。LRU主要包含了对象的被访问时间,对象所对应Hash元素的下标等信息。
依据HTTP/1.1协议可知,针对特定访问文件,其HTTP响应头信息固定,因此本发明采用HTTP协议头复用技术,即在作对象数据缓存时的同时就生成响应的HTTP响应头,和对象数据同时存储于DC中。故而针对该文件的后序访问处理便避免了HTTP响应头的再次生成,减少开销,增强了系统的处理能力。
此时,数据处理线程便可以生成一个对应的HTTP响应数据(HTTP响应结构如下所示)。则应从MB自由链中抽取头部的一页,分配新MB页,创建一个HTTP响应结构,添充内容数据。随后将该MB页地址作为一个新任务,写入发送线程组的任务队列中,并唤醒一个空闲的发送线程。
typedef struct
{
size_t             m_ResponseLen;
char               m_Response[MAX_RSP_HEAD_LEN];
size_t             m_FileLength;
unsigned long      m_ulObjectPageIndex;
char               m_sPath[MAX_FIELD_LEN];
unsigned int       m_uSocketIndex;
/*index for object’s hash position*/
unsigned long      m_uHashIndex;
unsigned long      m_uListIndex;
}THttpResponse;
该结构包含了响应头的长度、响应数据的总长度、对象所缓存的DC地址、欲发送的Socket在Socket链表中的索引号、对象文件路径等信息。
发送线程被唤醒后,首先从任务队列中抽取头部的新任务,得到HTTP响应数据所处的MB页地址,从而得到HTTP响应数据信息,以及需要发送的客户地址,从而发送线程便直接将响应数据向客户端进行零拷贝发送。(参见图6)
服务器在进行对象数据缓存时进行了一次所必须的内存拷贝,将对象数据缓存于缓存中。在进行数据发送时,系统仅需要创建一个mbuf,以页(4096字节)为单位分割发送。如果本次所发送数据单元有一页大小,则直接使用内存映射的方法,实现零拷贝的数据发送;如果不足一页,则可以修改mbuf的ref_cnt值,使其大于1,同时指定mbuf中的数据区偏移量,从而也实现零拷贝发送。
受控内存区主要负责前后序线程之间传递自洽的控制信息,特别是接收线程向数据处理线程,以及数据处理线程向发送线程传递控制信息。因此,也需要能快速得以分配和释放。所有受控内存区同样采用页式管理机制。但由于控制信息数据量较小,完全可以适当地放大页面尺寸,从而能将所有类型的控制信息都存放在一页中,那么分配和释放均是以一页为单位。因此受控内存区的分配和释放就十分简单,仅仅将所有的空闲页放入一个自由队列即可,分配时从队列头部摘除一页,释放时则将该页添加至队列尾部即可。

Claims (4)

1、一种构建基于软流水结构的Web服务器的方法,其特征在于:将Web服务器中完成HTTP请求处理的完整流程依序分解为四个流水栈,每个流水栈内所包含的线程组只完成HTTP请求处理的特定环节并将控制数据依次传递给与之相连的后序流水栈,前后序的流水栈之间通过受控内存区传递自洽的控制数据信息,通过数据缓存区对用户所访问的对象数据进行存储,并利用Socket区来管理用于数据接收和发送的Socket。
2、根据权利要求1所述的构建基于软流水结构的Web服务器的方法,其特征在于所述四个流水栈中的线程组依序为连接线程组、接收线程组、数据处理线程组和发送线程组,且流水栈完成HTTP请求处理的流程为:
(1)、连接线程组中的任意一个连接线程接受客户的一个新Socket连接请求,并将该新Socket插入到Socket区中空闲的Socket项中,并且将该项的m_uKeepAlive设置为KEEP_ALIVE_UNKNOWN状态,同时将m_nTimeoutTicks设置为当前时间,随后在接收线程组中唤醒一个空闲的接收线程;
(2)、当接收线程被唤醒后,将检测所有的Socket项,首先判断该Socket项的m_uKeepAlive,如果为KEEP_ALIVE_UNKNOWN或是KEEP_ALIVE_OK的话,则试图接收该Socket中客户端所发送过来的HTTP请求,并判断该请求的完整性;如果完整的话,则从受控内存区自由链中抽取头部的一页,分配新受控内存区页,创建一个HTTP请求结构,并将所接收到的HTTP请求串写入该结构的m_szReqStringGotten域中;随后将该受控内存区页地址作为一个新任务,写入数据处理线程组的任务队列中,并在数据处理线程组中唤醒一个空闲的数据处理线程;如果Socket项中m_uKeepAlive的状态为KEEP_ALIVE_TIMEOUT,则表示该Socket项以超出HTTP协议的Keep-Alive期,不于接收HTTP请求,并且如果超期过长的话,还应该将该Socket项删除,关闭Socket,释放资源,并且将状态切换为KEEP_ALIVE_NO;
(3)、当数据处理线程被唤醒之后,即从任务队列中抽取头部的新任务,得到HTTP请求数据所处的受控内存区页地址,从而得到HTTP请求数据信息;首先依据HTTP协议,针对m_szReqStringGotten域进行HTTP协议分析,得到HTTP请求结构中的其他域信息;此时,应该判断该请求的合法性检查,若不合法,则应关闭该Socket,并停止该HTTP请求的进一步服务;若合法,则进行进一步的访问控制检测,若当前系统不允许该HTTP请求的访问,也应关闭该Socket,并停止该HTTP请求的进一步服务;若允许访问,则针对HTTP请求中客户欲访问的URL文件对象,进行相应的文件I/O,获取该文件的属性信息和实体内容数据,结合HTTP协议头复用技术,生成HTTP响应数据,并存储于数据缓存区中;随后在发送线程组中唤醒一个空闲的发送线程;
(4)、发送线程被唤醒后,首先从任务队列中抽取头部的新任务,得到HTTP响应控制信息所处的受控内存区的页地址,从而获知HTTP响应控制信息,进一步得知HTTP响应数据所处的数据缓存区页地址,从而得到HTTP响应数据信息,以及需要发送的客户地址,从而发送线程便直接将响应数据向客户端进行发送。
3、根据权利要求2所述的构建基于软流水结构的Web服务器的方法,其特征在于:所述数据缓存区采用页式机制管理,首先组织10个不同等级的自由页面链,随后将用户需求的页面数规整为最短分解链,而后在相应的自由页面链上分配。
4、一种基于软流水结构的Web服务器,其特征在于它包括:
主线程,负责服务器系统的初始化、配置和线程的管理;
四阶段依序连接的流水栈,每个流水栈内所包含的线程组只完成HTTP请求处理的特定环节,四个流水栈内依次包括连接线程组、接收线程组、数据处理线程组和发送线程组;连接线程组位于客户链接建立阶段,负责建立客户发起的链接请求,并进行有效管理;接收线程组位于请求接收阶段,完成接受客户端的新网络链接,接收并分析客户提交的HTTP请求;数据处理线程组位于数据处理阶段,包括对客户所请求URL指定文件对象数据的读取、对象数据的缓存以及HTTP响应数据的生成;发送线程组位于响应发送阶段,负责将HTTP响应数据交付网络发送;
受控内存区,包括受控内存区页自由链表和受控内存区数据区,受控内存区负责完成流水栈之间控制信息的传递;
数据缓存区,包括控制区和数据区,数据缓存区负责存储用户所访问对象的信息数据;
Socket区,负责保存当前活跃的Socket。
CNB200510031746XA 2005-06-24 2005-06-24 构建基于软流水结构的Web服务器的方法 Expired - Fee Related CN100359474C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB200510031746XA CN100359474C (zh) 2005-06-24 2005-06-24 构建基于软流水结构的Web服务器的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB200510031746XA CN100359474C (zh) 2005-06-24 2005-06-24 构建基于软流水结构的Web服务器的方法

Publications (2)

Publication Number Publication Date
CN1700177A true CN1700177A (zh) 2005-11-23
CN100359474C CN100359474C (zh) 2008-01-02

Family

ID=35476252

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200510031746XA Expired - Fee Related CN100359474C (zh) 2005-06-24 2005-06-24 构建基于软流水结构的Web服务器的方法

Country Status (1)

Country Link
CN (1) CN100359474C (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102170400A (zh) * 2010-07-22 2011-08-31 杨喆 一种防止Web网站访问拥塞的方法
CN101478472B (zh) * 2008-10-21 2011-09-07 北京闪联讯通数码科技有限公司 一种Socket数据传输处理方法及装置
CN102214098A (zh) * 2011-06-15 2011-10-12 中山大学 一种基于WebKit浏览器引擎的动态页面数据采集方法
CN103164256A (zh) * 2011-12-08 2013-06-19 深圳市快播科技有限公司 一种实现单机支持高并发处理方法及系统
CN103701830A (zh) * 2014-01-13 2014-04-02 浪潮(北京)电子信息产业有限公司 一种实现数据处理和交互的方法和系统
CN105071976A (zh) * 2015-09-08 2015-11-18 安一恒通(北京)科技有限公司 数据传输方法和装置
CN107948051A (zh) * 2017-11-14 2018-04-20 北京知行锐景科技有限公司 一种基于Socket技术的实时消息推送方法及系统
WO2022001430A1 (zh) * 2020-06-29 2022-01-06 中兴通讯股份有限公司 一种高吞吐量流处理方法、装置及计算机可读存储介质
CN114401086A (zh) * 2020-12-30 2022-04-26 广东国腾量子科技有限公司 一种支持高并发的量子密钥管理服务系统的处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010081884A (ko) * 2000-02-19 2001-08-29 홍정이 분산지점 전자상거래를 위한 자동웹 서버 구축시스템
US7289989B2 (en) * 2003-11-12 2007-10-30 International Business Machines Corporation Pattern based web services

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101478472B (zh) * 2008-10-21 2011-09-07 北京闪联讯通数码科技有限公司 一种Socket数据传输处理方法及装置
CN102170400A (zh) * 2010-07-22 2011-08-31 杨喆 一种防止Web网站访问拥塞的方法
CN102214098A (zh) * 2011-06-15 2011-10-12 中山大学 一种基于WebKit浏览器引擎的动态页面数据采集方法
CN103164256A (zh) * 2011-12-08 2013-06-19 深圳市快播科技有限公司 一种实现单机支持高并发处理方法及系统
CN103701830A (zh) * 2014-01-13 2014-04-02 浪潮(北京)电子信息产业有限公司 一种实现数据处理和交互的方法和系统
CN103701830B (zh) * 2014-01-13 2016-09-07 浪潮(北京)电子信息产业有限公司 一种实现数据处理和交互的方法和系统
CN105071976A (zh) * 2015-09-08 2015-11-18 安一恒通(北京)科技有限公司 数据传输方法和装置
CN105071976B (zh) * 2015-09-08 2019-05-03 安一恒通(北京)科技有限公司 数据传输方法和装置
CN107948051A (zh) * 2017-11-14 2018-04-20 北京知行锐景科技有限公司 一种基于Socket技术的实时消息推送方法及系统
WO2022001430A1 (zh) * 2020-06-29 2022-01-06 中兴通讯股份有限公司 一种高吞吐量流处理方法、装置及计算机可读存储介质
CN114401086A (zh) * 2020-12-30 2022-04-26 广东国腾量子科技有限公司 一种支持高并发的量子密钥管理服务系统的处理方法
CN114401086B (zh) * 2020-12-30 2024-03-01 广东国腾量子科技有限公司 一种支持高并发的量子密钥管理服务系统的处理方法

Also Published As

Publication number Publication date
CN100359474C (zh) 2008-01-02

Similar Documents

Publication Publication Date Title
CN1700177A (zh) 构建基于软流水结构的Web服务器的方法及其服务器
CN1311380C (zh) 有助于从网络的移动设备中选择本地注册表主机的方法和系统
CN102523256B (zh) 内容的管理方法的方法、装置和系统
CN1151448C (zh) 可扩缩的超高速缓存检索方法
CN109274730B (zh) 物联网系统、mqtt消息传输的优化方法及装置
Chai et al. Designing high performance and scalable MPI intra-node communication support for clusters
CN101136911B (zh) 一种采用p2p技术下载文件的方法和p2p下载系统
CN1787537A (zh) 面向移动体的数据配发支持方法
CN1601478A (zh) 用于在被争夺的互斥锁上被动态限定的自旋线程的方法与系统
Björkqvist et al. Minimizing retrieval latency for content cloud
CN1610347A (zh) 在基于群集的系统内管理性能及资源利用率的方法和设备
CN101055533A (zh) 一种多线程处理器动态内存管理系统及方法
CN1992621A (zh) 实现大容量网络直播的方法及其系统
US10637962B2 (en) Data request multiplexing
CN1909507A (zh) 一种报文转发方法和系统
CN105978936A (zh) Cdn服务器及其缓存数据的方法
CN104935636A (zh) 网络通道加速方法和系统
CN1494274A (zh) 基于网络处理器实现ip报文分片重组的方法
CN1722663A (zh) 一种代理服务器系统及其实现代理通讯的方法
CN1722664A (zh) 集群模式下实现网络安全设备高可用性的方法
CN1858732A (zh) 一种数字家庭网络中的文件搜索系统及方法
CN1291566C (zh) 基于ip网络数字媒体传送方法
CN1561043A (zh) 一种多用户并发接入装置及其方法
CN1277196C (zh) 一种实现计算机系统应用服务器的方法
CN110365786A (zh) 作业处理系统、异步作业调度方法和计算机设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080102

Termination date: 20100624