CN101217493A - 一种tcp数据包的传输方法 - Google Patents

一种tcp数据包的传输方法 Download PDF

Info

Publication number
CN101217493A
CN101217493A CNA2008100557306A CN200810055730A CN101217493A CN 101217493 A CN101217493 A CN 101217493A CN A2008100557306 A CNA2008100557306 A CN A2008100557306A CN 200810055730 A CN200810055730 A CN 200810055730A CN 101217493 A CN101217493 A CN 101217493A
Authority
CN
China
Prior art keywords
tcp
socket
data
stream socket
stream
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100557306A
Other languages
English (en)
Other versions
CN101217493B (zh
Inventor
张建宇
姚嘉
刘晓舟
廖唯棨
邹维
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2008100557306A priority Critical patent/CN101217493B/zh
Publication of CN101217493A publication Critical patent/CN101217493A/zh
Application granted granted Critical
Publication of CN101217493B publication Critical patent/CN101217493B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明的目的在于提供一种TCP数据包的传输方法,该方法通过将非本地TCP数据包直接重定向到本地网络协议栈进行处理(不依赖于网络地址转换技术)、流套接字负载均衡、减少内核层和用户层之间的数据拷贝传递、在内核层的流套接字之间直接传递TCP数据包以及减少网络协议栈中执行数据包构建等复杂操作的开销,提高了内核层内部各模块间传输和处理TCP数据包以及内核层与用户层业务程序之间传输数据的效率,实现了应用网关对TCP流量应用层数据的在线高速处理、TCP数据包的快速转发以及对大量并发TCP会话的支持,并保证了应用网关对于通信源端和目的端的透明性。

Description

一种TCP数据包的传输方法
技术领域
本发明属于计算机网络和数据通信技术领域,涉及一种TCP(Transmission ControlProtocol)数据包的传输方法,可用于应用网关的设备和软件中,以提高网关传输TCP数据包以及处理其应用层数据的效率,减少系统开销和网络延迟。
背景技术
应用网关通常采用透明代理技术,在客户机和服务器之间充当中间人的角色,接收流经的TCP数据包并重定向到内核层的本地网络协议栈中,由协议栈对数据包进行协议解析处理和TCP流重组,还原提取出应用层数据,然后通过流套接字(Stream Socket)将应用层数据从内核层拷贝到用户层,传送给用户层的业务程序(如病毒检测程序、关键词过滤程序等)进行各种处理和修改(如删除、替换);用户层业务程序将处理修改后的数据再通过流套接字从用户层拷贝到内核层,交给本地网络协议栈,并通知协议栈采用重定向前原始数据包的目的IP地址和目的端口来重新构建数据包并进行协议封装,然后发送出去。其中,流量重定向多采用网络地址转换技术(Network Address Translation,简称NAT),这主要是由于传统的套接字实现(如伯克利套接字,参见文献:W.R.Stevens,B.Fenner andA.M.Rodoff,“UNIX Network Programming,Volume 1:The Sockets Networking API”,Addison Wesley,2003;IEEE Std 1003.1)和网络协议栈的实现不能接收和处理非本地目的IP地址和目的端口的数据包,也不能发送非本地源IP地址和源端口的数据包。因此,应用网关对接收到的数据包要进行目的地址转换(DNAT),将其目的IP地址和目的端口改为网关的本地IP地址和本地端口,从而将其重定向到应用网关的本地网络协议栈中;对于待发送的数据包则要进行源地址转换(SNAT),将其源IP地址和源端口从网关的本地IP地址和本地端口改为DNAT前原始数据包的源IP地址和源端口。为了区分属于不同TCP连接的数据包,需要对TCP流量进行连接跟踪并在连接表中记录NAT操作前后的IP地址和端口信息。
上述技术存在如下几个主要缺陷,造成应用网关处理效率和容量的大幅下降,无法满足在高流量带宽以及存在大量并发会话的网络环境中的性能需求:(1)NAT技术对每一个数据包的IP地址和端口字段进行修改并需重新计算校验和,对系统性能造成一定影响;(2)NAT技术依赖于连接跟踪,需要建立会话表,为每一个TCP会话保存IP地址、端口等信息,而会话跟踪和会话表管理任务的时空间开销繁重,会严重影响系统的性能;(3)为了保持NAT转换前后TCP连接的一一对应关系,在执行DNAT操作时需要将不同的TCP连接的数据包目的端口转换为不同的本地端口,因而系统能够支持的最大并发连接数受限于可用的本地端口数目(不多于65535个);(4)数据在内核层和用户层之间多次拷贝传递,以及在发送数据时需要重新进行数据包构建等操作,也会严重降低系统性能。
发明内容
本发明的目的在于提供一种TCP数据包传输方法,通过将非本地TCP数据包直接重定向到本地网络协议栈进行处理(不依赖于网络地址转换技术)、流套接字负载均衡、减少内核层和用户层之间的数据拷贝传递、在内核层的流套接字之间直接传递TCP数据包以及减少网络协议栈中执行数据包构建等复杂操作的开销,提高了内核层内部各模块间传输和处理TCP数据包以及内核层与用户层业务程序之间传输数据的效率。
本发明的上述发明目的是通过如下的技术方案实现:一种TCP数据包的传输方法,其步骤如下:
1.将应用网关接收到的、目的IP地址为非本地IP地址的TCP数据包传输到内核层的数据包转发模块;
2.数据包转发模块根据负载均衡算法从用户层业务程序创建的“监听”流套接字池中选出一个“监听”流套接字,将其本地监听端口保存到数据包的内核数据结构中;
3.所述“监听”流套接字响应新建TCP连接握手请求,并创建“数据”流套接字,所述流套接字包含三个数据包缓冲队列:接收队列、发送队列和深度处理队列;“监听”流套接字还包含一个监听队列和一个新建TCP连接队列;
4.数据包转发模块将TCP数据包重定向到内核层的本地网络协议栈;
5.本地网络协议栈的TCP输入处理模块对TCP数据包的TCP包头进行解析处理,在“数据”流套接字散列表中查找是否存在与数据包对应的“数据”流套接字;
6.若存在“数据”流套接字,则将数据包加入到“数据”流套接字的接收队列的队尾,跳到步骤9;
7.若不存在“数据”流套接字,则在“监听”流套接字散列表中找到数据包转发模块选出的“监听”流套接字,将数据包加入到“监听”流套接字的监听队列的队尾;
8.TCP新建连接模块从监听队列队首取出TCP数据包,完成与客户机的新建TCP连接握手,创建与客户机进行通信的“数据”流套接字,将该流套接字加入到内核中的“数据”流套接字散列表以及“监听”流套接字的新建TCP连接队列队尾;
9.用户层的业务程序调用套接字的系统调用函数accept(),从“监听”流套接字的新建TCP连接队列队首取出“数据”流套接字并返回其信息给业务程序;调用套接字的系统调用函数socket(),创建与服务器通信的“数据”流套接字;调用套接字的系统调用函数connect(),建立应用网关与服务器间的TCP连接;
10.业务程序调用套接字的系统调用函数,触发TCP输入处理模块从“数据”流套接字的接收队列的队首取出TCP数据包,还原提取出应用层数据并拷贝到业务程序提供的用户层缓冲区中,如果所述函数的参数flags中包含标识MSG_PREINSPECTING,则将数据包加入到“数据”流套接字的深度处理队列队尾;
11.业务程序解析处理用户层缓冲区中的数据,调用套接字的系统调用函数,并根据所述函数的参数flags中设置的不同标识,执行对“数据”流套接字深度处理队列中的原始TCP数据包的处理操作,包括:丢弃;对TCP数据包的内容不做任何修改原样发送出去;采用业务程序提供的数据替换TCP数据包的内容后发送出去;其中上述步骤中所有系统调用函数均兼容伯克利套接字。
进一步,步骤2中所述的用户层的业务程序创建“监听”流套接字池的步骤为:
1)用户层的业务程序调用套接字的系统调用函数socket(),创建一个流套接字;
2)业务程序调用套接字的系统调用函数bind(),设置流套接字的本地监听端口;
3)业务程序调用套接字的系统调用函数listen(),将流套接字设置为“监听”流套接字,并以本地监听端口为键值将其加入内核中的“监听”流套接字散列表;
4)业务程序创建多个“监听”流套接字,形成一个监听”流套接字池。
上述步骤2中,负载均衡算法采用对源IP地址、源端口、目的IP地址和目的端口进行哈希的方法。
上述步骤5中,TCP输入处理模块根据数据包的目的IP地址、目的端口、源IP地址和源端口信息查找是否存在对应的“数据”流套接字。
上述步骤7中,TCP输入处理模块根据数据包内核数据结构中保存的“监听”流套接字的本地监听端口信息,找到数据包转发模块选出的“监听”流套接字。
上述步骤9中所述信息包括客户机的IP地址和端口、服务器的IP地址和端口。
上述步骤10中,所述的系统调用函数为recv()、recvmsg()或recvfrom()。
进一步,上述步骤11中所述的执行对“数据”流套接字深度处理队列中原始TCP数据包的丢弃操作的处理步骤为:用户层的业务程序调用套接字的系统调用函数send()、sendmsg()或sendto(),函数参数flags置为MSG_POSTINSPECTING和MSG_DROP,将流套接字的深入处理队列中当前所有原始TCP数据包全部移出并丢弃;所述函数均兼容伯克利套接字。
进一步,上述步骤11中所述的执行对“数据”流套接字深度处理队列中原始TCP数据包内容的发送操作的处理步骤为:
1)用户层的业务程序调用套接字的系统调用函数transfer(),其函数定义如下:
int transfer(int ssocket,int dsocket,void*buf,int len,int flags);
其中,参数ssocket为原始TCP数据包所在的套接字,dsocket为要发送TCP数据包的套接字,buf为业务程序提供的应用层数据缓冲区指针,len为数据缓冲区中数据的字节数,flags为标识字段。transfer()的返回值为实际上成功发送出去的应用层数据的字节数;
2)transfer()将流套接字ssocket的深入处理队列中当前所有原始TCP数据包全部移出;
3)如果函数参数flags中包含MSG_POSTINSPECTING标识但不包含MSG_REPLACE标识,则将上述原始TCP数据包去掉TCP包头后加入流套接字dsocket的发送队列队尾,等待经本地网络协议栈(包括TCP输出处理模块)和数据包转发模块执行完协议封装、TCP状态机维护、数据链路层或网络层转发信息查找等处理工作后,将其发送出去;
4)如果flags中包含MSG_POSTINSPECTING标识和MSG_REPLACE标识,则将业务程序提供的应用层数据从用户层拷贝到内核层,然后复用上述原始TCP数据包,去掉其TCP包头并用上述应用层数据替换数据包的内容——如果数据的长度超过这些原始TCP数据包内容的总长度,则拷贝新的TCP数据包来放置超长部分的数据——然后将数据包加入流套接字dsocket的发送队列队尾,等待经本地网络协议栈和数据包转发模块发送出去。
本发明的优点和积极效果如下:
1.本发明通过将非本地TCP数据包直接重定向到本地网络协议栈进行处理,以及通过在内核的流套接字间直接传递TCP数据包,提高了内核层内部各模块间传输和处理TCP数据包的效率;
2.本发明通过设置套接字的数据包缓冲深度处理队列,以及根据系统调用参数flags中设置的不同标识对其中的原始TCP数据包执行处理,减少了在内核层和用户层之间多次拷贝传递数据以及在网络协议栈中执行数据包构建等复杂操作的开销;
3.本发明通过上述技术手段以及数据报套接字负载均衡,实现了应用网关对TCP流量应用层数据的在线高速处理、TCP数据包的快速转发以及对大量并发TCP连接的支持。
4.本发明保证了应用网关对于通信源端和目的端的透明性。
附图说明
图1本发明实施例的系统结构图;
图2本发明实施例的创建“监听”流套接字的流程图;
图3本发明实施例的处理TCP数据包的流程图。
具体实施方式
以防病毒应用安全网关为例,参照附图对本发明的一种面向应用网关的TCP协议处理与流套接字实现方法进行详细说明。
图1为该实施例的系统结构图。
TCP数据包的内核数据结构包含一个非本地数据包标识字段bsepsocket,应用网关的本地网络协议栈根据该字段是否置1来区分非本地数据包(即目的IP地址和源IP地址均不为本地IP地址的数据包)和本地数据包。
数据包的内核数据结构包含一个该数据包所属套接字的本地监听端口字段sepsocket_listen_port,通过设置该字段,将新建TCP连接握手阶段的数据包分配给业务程序创建的“监听”流套接字进行处理,并实现不同“监听”流套接字间的负载均衡。“监听”流套接字负责响应处理新建TCP连接握手请求并创建对应的“数据”流套接字,由“数据”流套接字负责在TCP连接建立后响应处理该连接后续的TCP数据包。
本地网络协议栈中包含两个流套接字散列表:一个是“监听”流套接字散列表,用以保存所有通过套接字的系统调用socket()和listen()进行创建和设置的“监听”流套接字;另一个是“数据”流套接字散列表,用以保存所有由“监听”流套接字创建的“数据”流套接字。通过这两个散列表实现对流套接字的快速查找。
套接字的内核数据结构包含一个标识字段sk_sepsocket,当该字段置1时允许流套接字处理非本地TCP数据包。同时为该标识字段增加一个对应的SOL_SOCKET级别的套接字选项SO_SEPSOCKET,使得业务程序可以通过套接字的系统调用setsockopt()对该标识字段进行设置。
套接字的内核数据结构包含如下四个字段:源IP地址、源端口、目的IP地址、目的端口,用于保存通信双方的IP地址和端口信息。
每个流套接字包含三个数据包缓冲队列:接收队列sk_receive_queue、发送队列sk_write_queue和深度处理队列sk_inspect_queue,用于分别保存从本地网络协议栈接收到的数据包、准备通过本地网络协议栈发送的数据包以及正在由业务程序进行处理的数据包。
每个“监听”流套接字还包含一个数据包缓冲队列:监听队列prequeue,用于保存“监听”流套接字接收到的数据包。
每个“监听”流套接字包含一个新建TCP连接队列accept_queue,保存由该“监听”流套接字完成TCP握手的新建TCP连接的信息。
如图2所示,创建“监听”流套接字的流程为:
(1)用户层的业务程序调用套接字的系统调用函数socket(),创建一个流套接字。socket()与伯克利套接字兼容,其调用形式如下:
int socketfd=socket(PF_INET,SOCK_STREAM,IPPROTO_IP);
(2)业务程序调用套接字的系统调用函数setsockopt(),将该流套接字的sk_sepsocket字段置1,从而允许该流套接字处理非本地TCP数据包。setsockopt()与伯克利套接字兼容,其调用形式如下:
setsockopt(socketfd,SOL_SOCKET,SO_SEPSOCKET,1,sizeof(int));
(3)业务程序调用套接字的系统调用函数bind()——与伯克利套接字兼容,设置该流套接字的本地监听端口;
(4)业务程序调用套接字的系统调用函数listen()——与伯克利套接字兼容,将该流套接字设置为“监听”流套接字,并将其加入“监听”流套接字散列表。
此外,业务程序通常创建多个“监听”流套接字,形成一个“监听”流套接字池,再通过并行和负载均衡将TCP新建连接的请求分散到不同的“监听”流套接字进行处理,以提高TCP连接的新建速率。
如图3所示,防病毒应用安全网关处理TCP数据包的流程为:
(1)对于防病毒应用安全网关接收到的、目的IP地址为非本地IP地址的TCP数据包,送入内核层的数据包转发模块进行处理,根据一定的规则判断数据包是否需要由用户层业务程序进行处理;
(2)如果不需要,则将数据包直接转发出去,结束;
(3)如果需要,则数据包转发模块将数据包内核数据结构的bsepsocket字段置1,标明其为非本地数据包;
(4)数据包转发模块根据负载均衡算法(参见文献:C.Kopparapu,“Load BalancingServers,Firewalls,and Caches”,Wiley,2002)从业务程序创建的“监听”流套接字池中选出一个“监听”流套接字,将该套接字的本地监听端口保存到数据包内核数据结构的sepsocket_listen_port字段中。为了保证一个确定的TCP连接对应到一个确定的“监听”流套接字,TCP负载均衡算法可采用对源IP地址、源端口、目的IP地址和目的端口进行哈希(Hash)的方法,如:假设“监听”流套接字池中有n个套接字,则当一个TCP的syn包到来时,计算其源端口、目标端口、源IP地址的低16位和目的IP地址的低16位之和,然后除以n取余,得到余数m,从而将该TCP syn包分配给编号为m的“监听”流套接字;
(5)数据包转发模块将TCP数据包直接重定向到内核层的本地网络协议栈;
(6)本地网络协议栈的TCP输入处理模块得到bsepsocket字段置1的TCP数据包后,对数据包的TCP包头进行解析处理;
(7)TCP输入处理模块在“数据”流套接字散列表中查找是否存在sk_sepsocket字段置1且目的IP地址、目的端口、源IP地址和源端口与数据包的对应字段信息一致的套接字;
如果存在,则将TCP数据包加入该“数据”流套接字的sk_receive_queue队尾,等待用户层业务程序对其应用层数据进行防病毒检测过滤;
如果不存在,则在“监听”流套接字散列表中查找sk_sepsocket字段置1且本地监听端口与数据包内核数据结构的sepsocket_listen_port字段相同的“监听”流套接字。如果找到,则将数据包加入该“监听”流套接字的prequeue队尾;否则丢弃该TCP数据包,结束;
TCP新建连接模块从“监听”流套接字的prequeue队首取出一个TCP数据包,检查TCP包头中的syn、ack和rst字段。若TCP包头的syn字段为1,ack字段和rst字段为0,则该数据包是TCP syn包;若TCP包头的ack字段为1,syn字段和rst字段为0,则该数据包是TCP ack包;若TCP包头的ack字段为1,syn字段、rst字段和fin字段为0,则该数据包是TCP syn-ack包。对于TCP syn包,TCP新建连接模块用该数据包的目的IP地址、源IP地址为源IP地址和目的IP地址构建构建一个TCP syn-ack包发送给客户机。对于TCPack包,TCP新建连接模块创建一个与客户机进行通信的“数据”流套接字,将该流套接字内核数据结构的sk_sepsocket字段置1,然后将数据包的源IP地址、源端口(即客户机的IP地址和端口)和目的IP地址、目的端口(即服务器的IP地址和端口)信息分别填入该流套接字内核数据结构的目的IP地址、目的端口、源IP地址和源端口字段中。然后,将该流套接字加入到内核中的“数据”流套接字散列表以及“监听”流套接字的accept_queue队尾;
(8)用户层的业务程序调用套接字的系统调用函数accept()——与伯克利套接字兼容,调用形式如下:
int csockfd=accept(socketfd,addr,addrlen);
其中参数socketfd为“监听”流套接字。accept()从socketfd的accept_queue队首取出一个“数据”流套接字,将其内核数据结构中的源IP地址、源端口(即服务器的IP地址和端口)和目的IP地址、目的端口(即客户机的IP地址和端口)字段等信息通过参数addr返回给业务程序;
(9)业务程序调用套接字的系统调用函数socket(),创建一个与服务器通信的“数据”流套接字,并调用套接字的系统调用函数setsockopt()将其内核数据结构的sk_sepsocket字段置1,从而允许其处理非本地TCP数据包;
(10)业务程序调用套接字的系统调用函数connect()——与伯克利套接字兼容,与服务器建立TCP连接。调用的形式如下:
connect(ssockfd,addr,addrlen);
其中,参数addr中包含客户机的IP地址和端口、服务器的IP地址和端口。connect()将套接字内核数据结构中的源IP地址、源端口、目的IP地址和目的端口字段分别置为客户机IP地址和端口、服务器IP地址和端口,触发TCP新建连接模块向服务器发起新建TCP连接请求并完成TCP连接握手过程;
(11)业务程序调用套接字的系统调用函数recv()、recvmsg()或recvfrom()——与伯克利套接字兼容,调用形式如下:
int i=recv(socketfd,buf,len,MSG_PREINSPECTING);
inti=recvmsg(socketfd,msg,MSG_PREINSPECTING);
int i=recvfrom(socketfd,buf,len,MSG_PREINSPECTING,sockaddr,addrlen);
其中,函数参数flags置为MSG_PREINSPECTING。recv()、recvmsg()和recvfrom()触发TCP输入处理模块从“数据”流套接字socketfd的sk_receive_queue队首取出TCP数据包进行流重组,将应用层数据还原提取出来后拷贝到业务程序提供的用户层缓冲区buf或msg中。执行完上述操作后,由于函数参数flags中包含MSG_PREINSPECTING标识,则不释放TCP数据包,而是将其加入到流套接字的sk_inspect_queue队尾,等待业务程序的处理结果;
(12)业务程序对buf或msg中的数据进行应用协议解析,提取出其中的数据进行病毒扫描检测,并针对不同的检测结果执行相应的处理,包括如下几种情况:通过检查,数据中不含病毒,原始TCP数据包的净荷不做修改、直接转发出去;未通过检查,数据中含有病毒,将原始TCP数据包丢弃;未通过检查,数据中含有病毒,将原始TCP数据包的净荷进行替换后发送出去;
(13)如果需要丢弃TCP数据包,则用户层的业务程序调用套接字的系统调用函数send()、sendmsg()或sendto()——与伯克利套接字兼容,将流套接字的sk_inspect_queue队列中当前所有原始TCP数据包全部移出并丢弃。调用形式如下:
int i=send(socketfd,buf,len,MSG_POSTINSPECTING|MSG_DROP);
int i=sendmsg(socketfd,msg,MSG_POSTINSPECTING|MSG_DROP);
int i=sendto(socketfd,buf,len,MSG_POSTINSPECTING|MSG_DROP,sockaddr,addr_len);
其中,函数参数flags置为MSG_POSTINSPECTING和MSG_DROP的组合;
(14)如果需要转发TCP数据包,则用户层的业务程序调用套接字的系统调用函数transfer()执行对流套接字深入处理队列中原始TCP数据包的处理,即在与客户机通信的“数据”流套接字和与服务器通信的“数据”流套接字之间传递并发送TCP数据包。transfer()的定义如下:
int transfer(int ssocket,int dsocket,void*buf,int len,int flags);
其中,参数ssocket为原始TCP数据包所在的套接字,dsocket为要发送TCP数据包的套接字,buf为数据缓冲区指针,len为数据缓冲区中数据的字节数,flags为标识字段。transfer()的返回值为实际上成功发送出去的应用层数据的字节数。
transfer()执行如下操作:1)将流套接字ssocket的sk_inspect_queue队列中当前所有原始TCP数据包全部移出;2)如果flags中包含MSG_POSTINSPECTING标识但不包含MSG_REPLACE标识,则将上述原始TCP数据包去掉TCP包头后加入流套接字dsocket的sk_write_queue队尾,等待经本地网络协议栈(包括TCP输出处理模块)和数据包转发模块执行完协议封装、TCP状态机维护、数据链路层或网络层转发信息查找等处理工作后,将其发送出去;3)如果flags中包含MSG_POSTINSPECTING标识和MSG_REPLACE标识,则将buf或msg所指向的应用层数据从用户层拷贝到内核层,然后复用上述原始TCP数据包,去掉其TCP包头并用上述应用层数据替换数据包的内容。如果数据的长度超过这些原始TCP数据包内容的总长度,则拷贝新的TCP数据包来放置超长部分的数据。最后,将这些TCP数据包内核数据结构的bsepsocket字段置1,然后将其加入流套接字dsocket的sk_write_queue队尾,等待经本地网络协议栈和数据包转发模块发送出去。
最后应说明的是:以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种TCP数据包的传输方法,其步骤如下:
1)将应用网关接收到的、目的IP地址为非本地IP地址的TCP数据包传输到内核层的数据包转发模块;
2)数据包转发模块根据负载均衡算法从用户层业务程序创建的“监听”流套接字池中选出一个“监听”流套接字,将其本地监听端口保存到数据包的内核数据结构中;
3)所述“监听”流套接字响应新建TCP连接握手请求,并创建“数据”流套接字,所述流套接字包含三个数据包缓冲队列:接收队列、发送队列和深度处理队列;“监听”流套接字还包含一个监听队列和一个新建TCP连接队列;
4)数据包转发模块将TCP数据包重定向到内核层的本地网络协议栈;
5)本地网络协议栈的TCP输入处理模块对TCP数据包的TCP包头进行解析处理,在“数据”流套接字散列表中查找是否存在与数据包对应的“数据”流套接字;
6)若存在“数据”流套接字,则将数据包加入到“数据”流套接字的接收队列的队尾,并跳到步骤9;
7)若不存在“数据”流套接字,则在“监听”流套接字散列表中找到数据包转发模块选出的“监听”流套接字,将数据包加入到“监听”流套接字的监听队列的队尾;
8)TCP新建连接模块从监听队列队首取出TCP数据包,完成与客户机的新建TCP连接握手,创建与客户机进行通信的“数据”流套接字,将该流套接字加入到内核中的“数据”流套接字散列表以及“监听”流套接字的新建TCP连接队列队尾;
9)用户层的业务程序调用套接字的系统调用函数accept(),从“监听”流套接字的新建TCP连接队列队首取出“数据”流套接字并返回其信息给业务程序;调用套接字的系统调用函数socket(),创建与服务器通信的“数据”流套接字;调用套接字的系统调用函数connect(),建立应用网关与服务器间的TCP连接;
10)业务程序调用套接字的系统调用函数,触发TCP输入处理模块从“数据”流套接字的接收队列的队首取出TCP数据包,还原提取出应用层数据并拷贝到业务程序提供的用户层缓冲区中,如果所述函数的参数flags中包含标识MSG_PREINSPECTING,则将数据包加入到“数据”流套接字的深度处理队列队尾;
11)业务程序解析处理用户层缓冲区中的数据,调用套接字的系统调用函数,并根据所述函数的参数flags中设置的不同标识,执行对“数据”流套接字深度处理队列中的原始TCP数据包的处理操作,包括:丢弃;对TCP数据包的内容不做任何修改原样发送出去;采用业务程序提供的数据替换TCP数据包的内容后发送出去;其中上述步骤中所有系统调用函数均兼容伯克利套接字。
2.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤2)中所述的“监听”流套接字池的创建方法如下:
1)用户层的业务程序调用套接字的系统调用函数socket(),创建一个流套接字;
2)业务程序调用套接字的系统调用函数bind(),设置流套接字的本地监听端口;
3)业务程序调用套接字的系统调用函数listen(),将流套接字设置为“监听”流套接字,并以本地监听端口为键值将其加入内核中的“监听”流套接字散列表;
4)业务程序创建多个“监听”流套接字,形成一个监听”流套接字池。
3.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤2)中所述的负载均衡算法采用对源IP地址、源端口、目的IP地址和目的端口进行哈希的方法。
4.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤5)中,TCP输入处理模块根据数据包的目的IP地址、目的端口、源IP地址和源端口信息查找是否存在对应的“数据”流套接字。
5.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤7)中在TCP输入处理模块根据数据包内核数据结构中保存的“监听”流套接字的本地监听端口信息,找到数据包转发模块选出的“监听”流套接字。
6.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤9)中所述信息包括目的IP地址、目的端口、源IP地址和源端口。
7.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤10)中,所述的系统调用函数为recv()、recvmsg()或recvfrom()。
8.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤11)所述的执行对“数据”流套接字深度处理队列中原始TCP数据包的丢弃操作的处理步骤为:用户层的业务程序调用套接字的系统调用函数send()、sendmsg()或sendto(),函数参数flags置为MSG_POSTINSPECTING和MSG_DROP,将流套接字的深入处理队列中当前所有原始TCP数据包全部移出并丢弃。
9.如权利要求1所述的一种TCP数据包的传输方法,其特征在于步骤11)所述的执行对“数据”流套接字深度处理队列中原始TCP数据包内容的发送操作的处理步骤为:
1)用户层的业务程序调用套接字的系统调用函数transfer(),调用函数均兼容伯克利套接字;
2)transfer()将流套接字的深入处理队列中当前所有原始TCP数据包全部移出;
3)如果上述函数的参数flags中包含MSG_POSTINSPECTING标识,但不包含MSG_REPLACE标识,则将上述原始TCP数据包去掉TCP包头后加入流套接字dsocket的发送队列队尾,经本地网络协议栈和数据包转发模块执行完协议封装、TCP状态机维护、数据链路层或网络层转发信息查找等处理工作后,将其发送出去;
4)如果flags中同时包含MSG_POSTINSPECTING标识和MSG_REPLACE标识,则将业务程序提供的应用层数据从用户层拷贝到内核层,然后复用上述原始TCP数据包,去掉其TCP包头并用应用层数据替换数据包的内容,如果数据的长度超过原始TCP数据包内容的总长度,则拷贝新的TCP数据包来放置超长部分的数据,将数据包加入流套接字dsocket的发送队列队尾,经本地网络协议栈和数据包转发模块发送出去。
CN2008100557306A 2008-01-08 2008-01-08 一种tcp数据包的传输方法 Expired - Fee Related CN101217493B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100557306A CN101217493B (zh) 2008-01-08 2008-01-08 一种tcp数据包的传输方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100557306A CN101217493B (zh) 2008-01-08 2008-01-08 一种tcp数据包的传输方法

Publications (2)

Publication Number Publication Date
CN101217493A true CN101217493A (zh) 2008-07-09
CN101217493B CN101217493B (zh) 2011-05-04

Family

ID=39623855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100557306A Expired - Fee Related CN101217493B (zh) 2008-01-08 2008-01-08 一种tcp数据包的传输方法

Country Status (1)

Country Link
CN (1) CN101217493B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101951378A (zh) * 2010-09-26 2011-01-19 北京品源亚安科技有限公司 用于ssl vpn的协议栈体系结构及数据处理方法
CN102014275A (zh) * 2010-11-15 2011-04-13 北京佳讯飞鸿电气股份有限公司 双通道视频监控系统的数据转发方法
CN102638453A (zh) * 2012-03-13 2012-08-15 广州华多网络科技有限公司 一种基于Linux系统服务器的语音数据内核转发方法
CN102968578A (zh) * 2012-10-30 2013-03-13 山东中创软件商用中间件股份有限公司 一种防注入方法及系统
CN103152270A (zh) * 2013-03-11 2013-06-12 华为技术有限公司 转发报文的方法及路由器
CN104539483A (zh) * 2014-12-31 2015-04-22 中国电子科技集团公司第五十研究所 网络测试系统
CN104601645A (zh) * 2014-10-17 2015-05-06 新浪网技术(中国)有限公司 一种数据包处理方法及装置
CN105159102A (zh) * 2015-07-30 2015-12-16 北京京东尚科信息技术有限公司 智能家电、智能家电系统及其方法
CN105245271A (zh) * 2015-10-27 2016-01-13 航天恒星科技有限公司 卫星通信网络加速装置以及方法
CN105245464A (zh) * 2015-08-27 2016-01-13 北京华夏创新科技有限公司 一种基于安卓系统的网络加速方法
CN106685829A (zh) * 2016-12-27 2017-05-17 京信通信技术(广州)有限公司 一种实时传输协议rtp用户面数据转发的方法和装置
CN108228366A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种数据流的处理方法和装置
CN109842511A (zh) * 2017-11-28 2019-06-04 网宿科技股份有限公司 一种tcp性能参数的确定方法及系统
CN110351233A (zh) * 2018-04-08 2019-10-18 蓝盾信息安全技术有限公司 一种基于安全隔离网闸的双向透明传输技术
CN110460632A (zh) * 2019-06-26 2019-11-15 杨涛 一种订单优选的方法及系统
CN111107042A (zh) * 2018-10-26 2020-05-05 广州汽车集团股份有限公司 报文解析方法、装置、计算机设备和存储介质
CN111131074A (zh) * 2018-10-31 2020-05-08 中移(杭州)信息技术有限公司 一种数据处理方法、装置、系统、服务器及可读存储介质
CN112769794A (zh) * 2020-12-30 2021-05-07 神州绿盟成都科技有限公司 一种数据转换方法及装置
CN112822150A (zh) * 2020-08-19 2021-05-18 北京辰信领创信息技术有限公司 可疑ip的检测方法
CN113067810A (zh) * 2021-03-16 2021-07-02 广州虎牙科技有限公司 网络抓包方法、装置、设备和介质
CN113556268A (zh) * 2021-07-23 2021-10-26 芯河半导体科技(无锡)有限公司 一种tcping的实现方法
CN113783973A (zh) * 2021-08-31 2021-12-10 上海弘积信息科技有限公司 一种nat端口分配在多核下对数据流免锁的实现方法
CN113824777A (zh) * 2021-09-06 2021-12-21 武汉中科通达高新技术股份有限公司 数据管理方法和数据管理装置
CN114024943A (zh) * 2020-07-16 2022-02-08 北京吉视汇通科技有限责任公司 基于i-pon的多媒体数据业务处理方法及系统
CN114125030A (zh) * 2021-11-30 2022-03-01 北京天融信网络安全技术有限公司 连接跟踪方法、装置、电子设备和计算机可读存储介质
CN115277221A (zh) * 2022-07-29 2022-11-01 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备
CN115277221B (zh) * 2022-07-29 2024-06-07 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1272724C (zh) * 2002-12-31 2006-08-30 联想(北京)有限公司 基于内核中套接字对接的第七层负载均衡的方法
CN100341282C (zh) * 2004-10-29 2007-10-03 江苏南大苏富特软件股份有限公司 基于通用协议分析引擎的内核级透明代理方法
KR20060060898A (ko) * 2004-12-01 2006-06-07 권용주 티씨피 기반 통신상에서의 접속 과부하 방지 방법
US7571247B2 (en) * 2005-12-12 2009-08-04 International Business Machines Corporation Efficient send socket call handling by a transport layer

Cited By (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101951378B (zh) * 2010-09-26 2013-09-18 北京品源亚安科技有限公司 用于ssl vpn的协议栈系统及数据处理方法
CN101951378A (zh) * 2010-09-26 2011-01-19 北京品源亚安科技有限公司 用于ssl vpn的协议栈体系结构及数据处理方法
CN102014275B (zh) * 2010-11-15 2012-11-21 北京佳讯飞鸿电气股份有限公司 双通道视频监控系统的数据转发方法
CN102014275A (zh) * 2010-11-15 2011-04-13 北京佳讯飞鸿电气股份有限公司 双通道视频监控系统的数据转发方法
CN102638453A (zh) * 2012-03-13 2012-08-15 广州华多网络科技有限公司 一种基于Linux系统服务器的语音数据内核转发方法
CN102638453B (zh) * 2012-03-13 2015-07-29 广州华多网络科技有限公司 一种基于Linux系统服务器的语音数据内核转发方法
CN102968578A (zh) * 2012-10-30 2013-03-13 山东中创软件商用中间件股份有限公司 一种防注入方法及系统
CN103152270A (zh) * 2013-03-11 2013-06-12 华为技术有限公司 转发报文的方法及路由器
CN104601645A (zh) * 2014-10-17 2015-05-06 新浪网技术(中国)有限公司 一种数据包处理方法及装置
CN104601645B (zh) * 2014-10-17 2018-01-26 新浪网技术(中国)有限公司 一种数据包处理方法及装置
CN104539483A (zh) * 2014-12-31 2015-04-22 中国电子科技集团公司第五十研究所 网络测试系统
CN105159102A (zh) * 2015-07-30 2015-12-16 北京京东尚科信息技术有限公司 智能家电、智能家电系统及其方法
CN105245464A (zh) * 2015-08-27 2016-01-13 北京华夏创新科技有限公司 一种基于安卓系统的网络加速方法
CN105245271B (zh) * 2015-10-27 2019-12-13 航天恒星科技有限公司 卫星通信网络加速装置以及方法
CN105245271A (zh) * 2015-10-27 2016-01-13 航天恒星科技有限公司 卫星通信网络加速装置以及方法
CN106685829B (zh) * 2016-12-27 2020-06-19 京信通信系统(中国)有限公司 一种实时传输协议rtp用户面数据转发的方法和装置
CN106685829A (zh) * 2016-12-27 2017-05-17 京信通信技术(广州)有限公司 一种实时传输协议rtp用户面数据转发的方法和装置
CN109842511B (zh) * 2017-11-28 2022-07-08 网宿科技股份有限公司 一种tcp性能参数的确定方法及系统
CN109842511A (zh) * 2017-11-28 2019-06-04 网宿科技股份有限公司 一种tcp性能参数的确定方法及系统
CN108228366A (zh) * 2017-12-29 2018-06-29 北京奇虎科技有限公司 一种数据流的处理方法和装置
CN108228366B (zh) * 2017-12-29 2022-01-25 北京奇虎科技有限公司 一种数据流的处理方法和装置
CN110351233A (zh) * 2018-04-08 2019-10-18 蓝盾信息安全技术有限公司 一种基于安全隔离网闸的双向透明传输技术
CN111107042B (zh) * 2018-10-26 2021-03-09 广州汽车集团股份有限公司 报文解析方法、装置、计算机设备和存储介质
CN111107042A (zh) * 2018-10-26 2020-05-05 广州汽车集团股份有限公司 报文解析方法、装置、计算机设备和存储介质
CN111131074A (zh) * 2018-10-31 2020-05-08 中移(杭州)信息技术有限公司 一种数据处理方法、装置、系统、服务器及可读存储介质
CN111131074B (zh) * 2018-10-31 2023-04-11 中移(杭州)信息技术有限公司 一种数据处理方法、装置、系统、服务器及可读存储介质
CN110460632A (zh) * 2019-06-26 2019-11-15 杨涛 一种订单优选的方法及系统
CN110460632B (zh) * 2019-06-26 2022-06-24 杨涛 一种订单优选的方法及系统
CN114024943B (zh) * 2020-07-16 2024-04-12 北京吉视汇通科技有限责任公司 基于i-pon的多媒体数据业务处理方法及系统
CN114024943A (zh) * 2020-07-16 2022-02-08 北京吉视汇通科技有限责任公司 基于i-pon的多媒体数据业务处理方法及系统
CN112822150A (zh) * 2020-08-19 2021-05-18 北京辰信领创信息技术有限公司 可疑ip的检测方法
CN112769794B (zh) * 2020-12-30 2022-06-21 神州绿盟成都科技有限公司 一种数据转换方法及装置
CN112769794A (zh) * 2020-12-30 2021-05-07 神州绿盟成都科技有限公司 一种数据转换方法及装置
CN113067810B (zh) * 2021-03-16 2023-05-26 广州虎牙科技有限公司 网络抓包方法、装置、设备和介质
CN113067810A (zh) * 2021-03-16 2021-07-02 广州虎牙科技有限公司 网络抓包方法、装置、设备和介质
CN113556268A (zh) * 2021-07-23 2021-10-26 芯河半导体科技(无锡)有限公司 一种tcping的实现方法
CN113556268B (zh) * 2021-07-23 2023-12-26 芯河半导体科技(无锡)有限公司 一种tcping的实现方法
CN113783973A (zh) * 2021-08-31 2021-12-10 上海弘积信息科技有限公司 一种nat端口分配在多核下对数据流免锁的实现方法
CN113783973B (zh) * 2021-08-31 2023-09-15 上海弘积信息科技有限公司 一种nat端口分配在多核下对数据流免锁的实现方法
CN113824777A (zh) * 2021-09-06 2021-12-21 武汉中科通达高新技术股份有限公司 数据管理方法和数据管理装置
CN113824777B (zh) * 2021-09-06 2023-12-19 武汉中科通达高新技术股份有限公司 数据管理方法和数据管理装置
CN114125030A (zh) * 2021-11-30 2022-03-01 北京天融信网络安全技术有限公司 连接跟踪方法、装置、电子设备和计算机可读存储介质
CN115277221A (zh) * 2022-07-29 2022-11-01 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备
CN115277221B (zh) * 2022-07-29 2024-06-07 深圳市风云实业有限公司 一种基于数据透明落地及协议隔离的传输方法和隔离设备

Also Published As

Publication number Publication date
CN101217493B (zh) 2011-05-04

Similar Documents

Publication Publication Date Title
CN101217493B (zh) 一种tcp数据包的传输方法
CN101217464B (zh) 一种udp数据包的传输方法
CA2968964C (en) Source ip address transparency systems and methods
WO2020151030A1 (zh) 一种处理数据报文的方法和装置
US11489945B2 (en) TCP packet processing method, toe component, and network device
WO2023005773A1 (zh) 基于远程直接数据存储的报文转发方法、装置、网卡及设备
CN110768994B (zh) 一种基于dpdk技术的提高sip网关性能的方法
WO2018032399A1 (en) Server and method having high concurrency capability
US9356844B2 (en) Efficient application recognition in network traffic
CN111614631B (zh) 一种用户态流水线架构防火墙系统
JP2004526218A (ja) 相互接続されたファブリックにおける高度にスケーラブルで高速のコンテンツ・ベース・フィルタリング及び負荷均衡化システム及び方法
WO2014023003A1 (zh) 控制数据传输的方法、装置和系统
Van Tu et al. Accelerating virtual network functions with fast-slow path architecture using express data path
US7580410B2 (en) Extensible protocol processing system
Barbette et al. Cheetah: A high-speed programmable load-balancer framework with guaranteed per-connection-consistency
Freitas et al. A survey on accelerating technologies for fast network packet processing in Linux environments
CN105791239A (zh) 一种tcp中间人处理方法
CN116089053A (zh) 一种数据处理方法、装置以及存储介质
CN108040132A (zh) RapidIO转万兆网关协议实现的系统
Zhao et al. Design and implementation of a content-aware switch using a network processor
Kawashima A vision to software-centric cloud native network functions: Achievements and challenges
Zeng et al. Middlenet: A high-performance, lightweight, unified nfv and middlebox framework
Cui et al. Laconic: Streamlined Load Balancers for SmartNICs
CN115858152B (zh) 一种基于单端口的dns负载均衡性能优化方案
WO2024113776A1 (zh) 数据传输方法以及相关设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110504

Termination date: 20150108

EXPY Termination of patent right or utility model