CN111641566A - 数据处理的方法、网卡和服务器 - Google Patents

数据处理的方法、网卡和服务器 Download PDF

Info

Publication number
CN111641566A
CN111641566A CN201910155962.7A CN201910155962A CN111641566A CN 111641566 A CN111641566 A CN 111641566A CN 201910155962 A CN201910155962 A CN 201910155962A CN 111641566 A CN111641566 A CN 111641566A
Authority
CN
China
Prior art keywords
sqe
network card
identifier
storage area
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910155962.7A
Other languages
English (en)
Other versions
CN111641566B (zh
Inventor
陈天翔
林伟彬
侯新宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910155962.7A priority Critical patent/CN111641566B/zh
Priority to CN202111223252.7A priority patent/CN114090495A/zh
Priority to EP19917893.0A priority patent/EP3907946A4/en
Priority to PCT/CN2019/125517 priority patent/WO2020177437A1/zh
Publication of CN111641566A publication Critical patent/CN111641566A/zh
Priority to US17/464,093 priority patent/US11620227B2/en
Application granted granted Critical
Publication of CN111641566B publication Critical patent/CN111641566B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0875Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches with dedicated cache, e.g. instruction or stack
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • G06F15/163Interprocessor communication
    • G06F15/173Interprocessor communication using an interconnection network, e.g. matrix, shuffle, pyramid, star, snowflake
    • G06F15/17306Intercommunication techniques
    • G06F15/17331Distributed shared memory [DSM], e.g. remote direct memory access [RDMA]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/0223User address space allocation, e.g. contiguous or non contiguous base addressing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0877Cache access modes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/14Handling requests for interconnection or transfer
    • G06F13/20Handling requests for interconnection or transfer for access to input/output bus
    • G06F13/28Handling requests for interconnection or transfer for access to input/output bus using burst mode transfer, e.g. direct memory access DMA, cycle steal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/382Information transfer, e.g. on bus using universal interface adapter
    • G06F13/385Information transfer, e.g. on bus using universal interface adapter for adaptation of a particular data processing system to different peripheral devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F13/38Information transfer, e.g. on bus
    • G06F13/40Bus structure
    • G06F13/4004Coupling between buses
    • G06F13/4022Coupling between buses using switching circuits, e.g. switching matrix, connection or expansion network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0659Command handling arrangements, e.g. command buffers, queues, command scheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2212/00Indexing scheme relating to accessing, addressing or allocation within memory systems or architectures
    • G06F2212/45Caching of specific data in cache memory
    • G06F2212/452Instruction code
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2213/00Indexing scheme relating to interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • G06F2213/0026PCI express
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/90Buffering arrangements
    • H04L49/9063Intermediate storage in different physical parts of a node or terminal
    • H04L49/9068Intermediate storage in different physical parts of a node or terminal in the network interface card

Abstract

本申请公开了一种数据处理的方法、网卡和服务器,该方法包括:网卡接收到第i个PCIe报文之后,将第j段指令存储至第一存储区域的第j个存储单元。当第一SQE的n段指令全部存储至第一存储区域时,网卡根据第一存储区域中n个存储单元的指令获取第一SQE,以及第一SQE归属的队列对QP的标识和第一SQE在QP的位置标识;并根据第一SQE归属的QP的标识和第一SQE在QP的位置标识执行数据处理,由此解决传统的SQE保序处理过程中所造成的处理效率低、时延高的问题。

Description

数据处理的方法、网卡和服务器
技术领域
本申请涉及计算机技术领域,尤其涉及数据处理的方法、网卡和服务器。
背景技术
在远程直接数据存取(remote direct memory access,RDMA)技术中,发送端服务器的网卡(network interface card,NIC)可以先从缓存中获取发送队列条目(sentrequest entry,SQE),再根据SQE从内存中获取SQE对应的数据,向接收端服务器发送所述数据。在发送端服务器的网卡获取SQE之前,发送端服务器的处理器先将SQE划分为多个分段,并将所述SQE的所有分段存储到缓存中。若SQE的长度大于预设阈值,处理器可以采用门铃机制通知网卡处理SQE。例如,网卡采用直接内存存取技术(direct memory access,DMA)从缓存中获取SQE的所有分段。若SQE的长度小于或等于预设阈值,处理器将存储到缓存中的SQE的所有分段发送给网卡时,可能出现乱序。
为了解决乱序问题,传统技术中处理器划分多个分段过程中,按照分块顺序,每获取一个分段指令下发到处理器内部的缓存,再通过高速通用串行总线(PeripheralComponent Interconnect express,PCIe)报文将该分段指令发送给网卡,然后,处理器给缓存发送一个PCIe Barrier指令,清空缓存中已发送给网卡的该分段指令。以此类推,处理器按顺序再向缓存下发下一个分段指令。从而,通过PCIe Barrier的函数,保证SQE的分段指令之间的顺序。上述方法虽然克服了SQE的所有分段之间的乱序问题,但是又会造成PCIe带宽的浪费。而且,上述处理过程中,处理器需要等待前一个分段指令成功发送给网卡,才会通过Barrier函数清理缓存,整个数据传输过程是串行的,降低了处理器和网卡之间数据传输的速率,进而增加了整个数据处理过程处理时延,影响了系统的数据处理的效率。
发明内容
本申请提供的数据处理的方法、网卡及服务器,解决了传统的SQE保序处理过程中技术方法所造成的系统数据处理效率低,时延高的问题。
第一方面,本申请提供了一种数据处理方法,该方法可应用于网卡,或者该方法可应用于支持网卡实现该方法的通信装置,例如该通信装置包括芯片系统,该方法可以包括:接收到第i个PCIe报文之后,将第i个PCIe报文包括的第j段指令存储至第一存储区域的第j个存储单元。其中,第一SQE按照预置大小划分为n段,n为整数,n大于或等于1。第i个PCIe报文还包括第一地址段,第一地址段用于指示第j段指令在第一SQE中分段位置。i为整数,i∈[1,n],j为整数,j∈[1,n]。第一存储区域为网卡中用于存储第一SQE的存储区域,第一存储区域包括m个存储单元,每个存储单元用于存储第一SQE的一段指令,m为整数,n≤m。该技术方案,是将第一SQE的多个分段指令的保序操作完全卸载至发送端服务器的网卡内部完成,发送端服务器的处理器不需要进行第一SQE的多个分段指令的保序操作,可以一次性下发第一SQE的多个分段指令。有效地提高了PCIe带宽的利用率,并提高了处理器的运行速度,降低了数据处理过程的时延,提升了整个通信系统的数据传输效率。
进一步的,当第一SQE的n段指令全部存储至第一存储区域时,可以根据第一存储区域中n个存储单元的指令获取第一SQE,以及第一SQE归属的队列对QP的标识和第一SQE在QP的位置标识,并根据第一SQE归属的QP的标识和第一SQE在QP的位置标识执行数据处理。
在一种可能的实现方式中,当i=1时,在所述网卡将所述第j段指令存储至第一存储区域的第j个存储单元之前,该方法还可以包括:判断第一地址段是否是第一存储区域所在的存储空间的地址范围内的地址;若第一地址段是第一存储区域所在的存储空间的地址范围内的地址,确定第j段指令为blueframe的数据,将第1个PCIe报文包括的第j段指令存储至第一存储区域的第j个存储单元;若第一地址段不是第一存储区域所在的存储空间的地址范围内的地址,确定第j段指令不是blueframe的数据,根据非blueframe的方法获取第一SQE。
在一种可能的实现方式中,该方法还可以包括:当j=1时,在所述网卡将所述第j段指令存储至第一存储区域的第j个存储单元之前,获取第1段指令包括的第一SQE的总长度,比较第一SQE的总长度和预设阈值;若第一SQE的总长度小于或等于预设阈值,确定第一SQE的第1段指令为blueframe的数据,将第1个PCIe报文包括的第1段指令存储至第一存储区域的第1个存储单元;若第一SQE的总长度大于预设阈值,确定第一SQE的第1段指令不是blueframe的数据,根据非blueframe的方法获取第一SQE。
在一种可能的实现方式中,在将第j段指令存储至第一存储区域的第j个存储单元之后,该方法还可以包括:判断第一SQE是否接收完成;若第一SQE接收完成,生成结束符,若第一SQE未接收完成,继续接收。
例如,接收第i+1个PCIe报文,将第i+1个PCIe报文包括的第k段指令存储至第一存储区域的第k个存储单元。第i+1个PCIe报文还包括第二地址段,第二地址段用于指示第k段指令在第一SQE中分段位置,第k段指令为接收到的第一SQE中的分段指令之外的其他分段指令中的任意一个分段指令,k为整数。
可选地,判断第一SQE是否接收完成,包括:判断累计值是否等于第一SQE的总长度,若累计值等于第一SQE的总长度,确定第一SQE接收完成,若累计值不等于第一SQE的总长度,确定第一SQE未接收完成。累计值用于指示已接收到的第一SQE的分段指令的长度,累计值的初始值可以为0。
在一种可能的实现方式中,网卡根据第一SQE归属的QP的标识和第一SQE在QP的位置标识执行数据处理,包括:根据第一SQE归属的QP的标识和第一SQE在QP的位置标识确定存储第一SQE的第一存储区域,然后,从第一存储区域的起始地址开始,依次读取第一SQE的n个分段指令,并根据第一SQE的n个分段指令获取并发送第一SQE对应的数据。
在一种可能的实现方式中,若第一SQE的总长度小于或等于预设阈值,该方法还可以包括:获取第1段指令包括的第一SQE归属的QP的标识和第一SQE在QP的位置标识,建立第一SQE归属的QP的标识、第一SQE在QP的位置标识和第一存储区域的标识间的对应关系,以便于当第一SQE的n段指令全部存储至第一存储区域时,根据第一SQE归属的QP的标识、第一SQE在QP的位置标识和第一存储区域的标识间的对应关系获取第一SQE。
在一种可能的实现方式中,当i=1时,即接收到第1个PCIe报文之后,该方法还可以包括:为第一SQE分配第一存储区域。
上述第一方面或上述第一方面的任一种可能的实现方式的执行主体可以是发送端服务器的网卡。其中,发送端服务器是指用于发送数据的服务器。对于一个服务器来说,当该服务器用于发送数据时,该服务器被称为是发送端服务器,当该服务器用于接收数据时,该服务器被称为是接收端服务器。
第二方面,本申请提供了一种数据处理装置,所述装置包括用于执行第一方面或第一方面任一种可能实现方式中的数据处理的方法的各个模块。
第三方面,本申请提供了一种网卡,包括存储器和处理器,存储器用于用于存储计算机执行指令,所述网卡运行时,所述处理器执行所述存储器中的计算机执行指令以利用所述数据处理装置中的硬件资源执行第一方面或第一方面任一种可能实现方式中所述方法的操作步骤。
第四方面,本申请还提供了一种计算机可读存储介质,其上储存有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述第一方面或第一方面任一种可能的实现方式中任一种可能的方法的操作步骤。
第五方面,本申请还提供了一种计算机程序产品,当其在计算机上运行时,使得第一方面或第一方面任一种可能的实现方式中的任一种可能的方法的操作步骤。
可以理解的是,上述提供的任一种装置或计算机可读存储介质或计算机程序产品等均用于执行上文所提供的对应的方法,因此,其所能达到的有益效果可参考对应的方法中的有益效果,此处不再赘述。
附图说明
图1为本申请提供的一种通信系统的结构示例图;
图2为本申请提供的一种数据处理的方法的流程图;
图3为本申请提供的一种Blueframe buffer的结构示例图;
图4为本申请提供的另一种数据处理的方法的流程图;
图5为本申请提供的又一种数据处理的方法的流程图;
图6为本申请提供的一种数据处理装置的结构示例图;
图7为本申请提供的一种网卡的结构示例图;
图8为本申请提供的一种服务器的结构示例图。
具体实施方式
图1为本申请提供的一种通信系统的结构示例图。如图1所示,通信系统包括服务器100和服务器200。服务器100和服务器200之间可以通过网络300进行消息通信。发送数据的服务器可以称为发送端服务器,接收数据的服务器可以称为接收端服务器。对于一个服务器来说,当该服务器用于发送数据时,该服务器可以被称为发送端服务器,当该服务器用于接收数据时,该服务器可以被称为接收端服务器。网络300可以是以太网,也就是说服务器之间可以使用传输控制协议/互连的协议(Transmission Control Protocol/internetprotocol,TCP/IP)协议进行通信;网络300也可以是基于远程直接数据存取技术的网络。远程直接数据存取技术是为了解决在网络中服务器处理数据的时延问题而产生的。服务器可以根据远程直接数据存取技术通过服务器的网卡将数据从一个系统快速移动到远程系统存储器中,而不需要服务器中处理器的参与,由此减少服务器的处理器的负载,提升服务器之间数据传输效率。例如,基于远程直接数据存取技术的网络可以是无线宽带(InfiniBand,IB)网络,通过以太网使用远程直接内存访问(RDMA over ConvergedEthernet,RoCE)网络、iWapp网络等,本申请对此不作限定。
服务器100和服务器200中的每个服务器均包括硬件层和软件层,图1中仅示意出了服务器100的结构。其中,服务器100的硬件层包括网卡、存储器和处理器。所述处理器可以是中央处理器(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specificintegrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。
值得说明的是,图1中仅以服务器硬件层中网卡、存储器和处理器的数量均为1为例,本申请实施例对于同一服务器中网卡、存储器和处理器的数量并不构成对本申请实施例的限定。
网卡,可以是支持RDMA技术的网络接口卡,也可以是主机通道适配器(hostchannel adapter,HCA),其主要功能是将多个服务器连接至网络,使得服务器之间能够通过支持RDMA技术的网络互相通信。网卡可以通过外接光纤、电缆等连接到网络中。网卡可以插于计算机的PCIe插槽上,并通过PCIe与服务器连接。或者网卡可以通过某种特定的(或私有的)总线与服务器连接,本申请实施例对此不进行限定。可以理解的是,在物理实现上,网卡可以作为服务器的一部分,也可以是独立于服务器的一个器件/设备。为了便于描述,下文中均将网卡描述为服务器的网卡。网卡可以包括一个或多个端口,具体是指用于接收数据的端口。网卡可以包括处理器、缓存、内存和寄存器。网卡内的内存或缓存可以利用随机存取存储器(random access memory,RAM)类型的存储介质实现。
软件层是运行在硬件层上的程序代码。具体地,软件层又可以分成若干个层,层与层之间通过软件接口通信。软件层包括应用层、驱动层和操作系统层。其中,应用层包括一系列运行应用程序的程序代码。驱动层用于实现硬件层和软件层之间消息交互。驱动层包含网卡驱动等。操作系统层包括操作系统程序代码和协议栈。操作系统可以是Linux、Windows或vxWarks等。协议栈是指按照通信协议所涉及的不同层级划分,并处理对应层级数据处理的程序代码的集合。
在一种可能的实现方式中,例如,在IB网络架构中,协议栈可以包括应用层、传输层、网络层、链路层和物理层。应用层的功能可以在软件层实现。传输层、网络层、链路层和物理层的功能可以在网卡中实现。
为了更好理解本申请实施例提供的技术方案,接下来,对本申请实施例涉及的术语和技术概念进行简单说明。
在服务器传输数据之前,可以为服务器预先配置多个队列对(queue pair,QP),每个QP可以包括发送队列(send queue,SQ)和接收队列(receive queue,RQ)。每个SQ用于存储至少一个SQE。每个RQ用于存储至少一个接收队列条目(receive queue entry,RQE)。SQE和RQE可以统称为传输指令(命令)条目(work request entry,WQE)。
可以理解的是,所谓SQE为服务器的网卡从内存中获取数据所需的指令信息。所谓RQE为服务器接收到数据之后存储数据所需的指令信息。
还可以理解的是,每个SQE和RQE仅用于传输指令信息,并不包含数据,因此,接收端服务器或发送端服务器需要根据SQE或RQE中指令信息,从其他存储介质(例如,内存)中获取数据。
接收端服务器和发送端服务器基于QP进行通信,每个服务器中包括一个或多个QP,不同服务器中QP的数量可以相同,也可以不同。示例地,以图1所述通信系统为例,当服务器100作为发送端服务器,服务器200作为接收端服务器时,服务器100中建立一个QP11,QP11中包括SQ11和RQ11,服务器200中建立有一个QP21,QP21中包括SQ21和RQ21。服务器100和服务器200通信过程中,预先建立QP11和QP21的对应关系,相应地,发送端服务器可以基于SQ11中的SQE从内存中获取数据,接收端服务器可以基于RQ11中的RQE存储接收到的所述数据。
需要说明的是,接收端服务器和发送端服务器预先确定的用于通信的两个QP,以及QP中SQ和RQ的名称可以相同,也可以不同,本申请对此不做限定。还需要说明的是,不同的接收端服务器可以配置不同个数的QP,每个接收端服务器配置的QP包括的SQE和RQE的个数也可以不同。
服务器还可以配置完成队列(complete queue,CQ),CQ用于存储完成队列条目(complete queue entry,CQE)。在服务器的网卡从内存中读取完成数据或向内存写入完成数据之后,网卡可以向处理器发送CQE。
需要说明的是,服务器的处理器与服务器的网卡之间通常是通过PCIe总线连接的,由于PCIe协议本身限制,造成内存写限制,即服务器的处理器向网卡每次最多下发8字节(byte)数据。而每个SQE的长度至少为64byte,且不同的业务对应的SQE的长度可能不同。若SQE的长度较长,服务器的处理器直接将SQE下发给服务器的网卡,会造成传输效率降低,增加处理器的占用率。因此,服务器的处理器可以通过敲门铃方式指示服务器的网卡采用直接内存存取技术进行大块数据搬移。依据服务器的处理器和服务器的网卡的PCIe属性限制,例如,服务器的处理器受存储属性寄存器的限制,大块数据的粒度可以为4K。大块数据的粒度可以是指读的最大值和写的最大值。
在一些可能的实施例中,由于SQE的长度较小,如果网卡仍然以直接内存存取技术方式从内存中读取SQE,反而会增加数据传输的时延。因此,当SQE的长度小于或者等于预设阈值时,可以由发送端服务器的处理器直接将SQE以分段指令的形式下发至发送端服务器的网卡。在本申请中,可以将SQE的长度小于或者等于预设阈值的SQE称为Blueframe。但是,发送端服务器的处理器将Blueframe的所有分段发送给网卡时,可能出现乱序。传统技术中,虽然可以克服Blueframe的所有分段之间的乱序问题,但是又会造成PCIe带宽的浪费,而且降低了发送端服务器的处理器向发送端服务器的网卡发送Blueframe的速率,增加了整个数据处理过程处理时延,影响了系统的数据处理的效率。
本申请提供的数据处理的方法,可以将Blueframe的多个分段指令的保序操作完全卸载至发送端服务器的网卡内部完成,发送端服务器的处理器不需要进行Blueframe的多个分段指令的保序操作,且发送端服务器的处理器可以一次性下发一个Blueframe的多个分段指令,只需要保证不同的Blueframe之间通过PCIe barrier隔离不同SQE即可。从而,能够连续下发同一个Blueframe的多个分段指令,有效地减少处理器和网卡之间报文的数量,提高了PCIe带宽的利用率。而且,由于处理器可以并行发送多个分段指令,也就是说处理器可以同时处理不同SQE的分段指令,以及同一SQE的不同分段指令,无需关注各个SQE的分段指令的保序问题,减少了处理器的负载,同时又降低了处理器和网卡之间数据处理的时延,提升了的数据处理效率。
接下来,结合附图对本申请实施例提供的数据处理的方法进行详细说明。
图2为本申请实施例提供的一种数据处理的方法的流程图。图2所示的方法的执行主体可以是发送端服务器的网卡。本申请实施例可以针对发送端服务器的网卡的各个SQE进行保序处理,对于每个SQE的分段指令进行保序处理的方法相同。为便于描述,以一个SQE的第j个分段指令为例进行描述。如图所示,所述方法包括:
S201、发送端服务器的处理器将第一SQE划分为n段,并存放到缓存中。
发送端服务器的处理器可以先将第一SQE划分为n个分段指令,并将第一SQE的n个分段指令存储到缓存中,n为整数,n大于或等于1。例如,假设每个分段指令可以是8byte,若SQE的长度是64byte,发送端服务器的处理器可以先将SQE划分为8个分段指令,即n=8;若SQE的长度是256byte,发送端服务器的处理器可以先将SQE划分为32个分段指令,即n=32。缓存可以是发送端服务器的处理器中的缓存。为方便描述,在下文中,以第一SQE的长度是64byte,第一SQE划分为8段为例进行说明。
S202、发送端服务器的处理器向发送端服务器的网卡发送第i个PCIe报文,第i个PCIe报文包括第一SQE的第j段指令。
第i个PCIe报文还可以包括第一地址段,第一地址段用于指示第j段指令在第一SQE中分段位置。其中,i为整数,i∈[1,n],j为整数,j∈[1,n]。i和j可以相等,也可以不等。示例的,假设n=8,i可以取1至8,j可以取1至8。
S203、发送端服务器的网卡将第j段指令存储至第一存储区域的第j个存储单元。
在发送端服务器的网卡接收Blueframe的分段指令之前,可以在网卡中预先配置一个用于存储Blueframe的buffer区域。Blueframe buffer可以是由RAM一段存储区域实现,当然,也可以由其他存储介质实现,本申请对此不作限定。为便于表述,本申请的以下实施例以内存中一段存储区域实现Blueframe buffer功能为例进行进一步介绍。
Blueframe的buffer区域可以根据预设规则进行划分。例如,Blueframe的buffer区域可以根据预设阈值划分为多个存储区域,每个存储区域的存储容量大于或等于预设阈值。每个存储区域可以根据预设分段指令的大小划分为多个存储单元。每个存储单元的存储容量大于或等于预设分段指令的大小,一个存储单元可以按顺序存储一个或多个分段指令。预设阈值可以是256byte,当然,还可以是其他大小的数值,本申请对此不作限定。为了便于描述,本申请的以下实施例中以一个存储单元用于存储一个分段指令为例进行说明。
如图3所示,Blueframe buffer可以包括128块存储区域。若预设阈值时256byte,128块存储区域中每个存储区域的存储容量可以是256byte。假设预设分段指令的大小是8byte,每个存储区域又可以包括32个存储单元,32个存储单元中每个存储单元的存储容量可以是8byte。为便于描述,可以采用0至127对128块存储区域进行编号。例如,第1个存储区域的编号为0,第2个存储区域的编号为1,以此类推,第128个存储区域的编号为127。同理,可以采用0至31对32个存储单元进行编号。例如,第1个存储单元的编号为0,第2个存储单元的编号为1,以此类推,第32个存储单元的编号为31。
第一存储区域可以是Blueframe buffer中任意一个空闲的存储区域。第一存储区域中包括多个存储单元。而且,每个存储单元带有唯一一个标识,该标识与待存储SQE的各个分段的顺序相关联。例如,SQE1按照顺序依次被分成3个分段指令,分别为指令1、指令2和指令3,存储区域1用于存储SQE1的各个分段指令,其包括3个存储单元:存储单元1,存储单元2和存储单元3,其中,存储单元1用于存储指令1、存储单元2用于存储指令2、存储单元3用于存储指令3。
发送端服务器的网卡接收到发送端服务器的处理器发送的第i个PCIe报文之后,解析第i个PCIe报文得到第j段指令和第一地址段,发送端服务器的网卡可以根据第一地址段确定第j段指令在第一SQE中的分段位置,即是第一SQE中的第几个分段指令,将第j段指令存储至第一存储区域的第j个存储单元。例如,当j=1时,将第1段指令存储至第一存储区域的第1个存储单元。当j=2时,将第2段指令存储至第一存储区域的第2个存储单元。当j=3时,将第3段指令存储至第一存储区域的第3个存储单元。当j=4时,将第4段指令存储至第一存储区域的第4个存储单元。当j=5时,将第5段指令存储至第一存储区域的第5个存储单元。当j=6时,将第6段指令存储至第一存储区域的第6个存储单元。当j=7时,将第7段指令存储至第一存储区域的第7个存储单元。当j=8时,将第8段指令存储至第一存储区域的第8个存储单元。
S204、当第一存储区域中已存储第一SQE的n段指令时,发送端服务器的网卡根据第一存储区域中n个存储单元的指令获取第一SQE,以及第一SQE归属的QP的标识和第一SQE在QP的位置标识。
当第一SQE的n段指令全部存储至第一存储区域后,发送端服务器的网卡可以产生一个响应(ACK)。在发送端服务器的网卡的处理器调度到第一SQE归属的QP之后,则发送端服务器的网卡可以根据第一SQE归属的QP的标识和第一SQE在QP的位置标识确定存储第一SQE的第一存储区域;从第一存储区域的起始地址开始,依次读取第一SQE的n个分段指令。
可选的,发送端服务器的网卡也可以根据第一SQE归属的QP的标识、第一SQE在QP的位置标识和第一存储区域的标识间的对应关系确定存储第一SQE的第一存储区域。例如,根据第一SQE归属的QP的标识、第一SQE在QP的位置标识查询Blueframe buffer对应的表,得到第一存储区域的标识,根据第一存储区域的标识确定第一存储区域的地址后,直接从第一存储区域中按顺序取出Blueframe进行处理。
示例的,发送端服务器的网卡可以预先配置表,该表用于记录Blueframe buffer中存储区域的标识和存入的Blueframe的相关信息,如SQE归属的QP的标识、SQE在QP的位置标识和存储区域的标识间的对应关系。第一存储区域的标识可以是存储区域的编号或存储区域的起始地址。表可以由逻辑内部寄存器构成,记录有空闲的存储区域和被占用的存储区域。还可以根据存储区域的标识读出存储区域的地址,根据存储区域的标识返回是否匹配等。如表1为申请提供的一种示例,该表中包括存储区域的标识、SQE归属的QP的标识和SQE在QP的位置。
表1
存储区域的标识 SQE归属的QP的标识 SQE在QP的位置
0 qpn1 PI
1 qpn2 PI
2 qpn3 PI
3 qpn4 PI
127
发送端服务器的网卡在需要将分段指令写入Blueframe buffer中存储区域时,可以先查询表,获取一个空闲的存储区域,空闲的存储区域可以是指未建立SQE归属的QP的标识、SQE在QP的位置标识和存储区域的标识间的对应关系的存储区域。若发送端服务器的网卡查询到空闲的存储区域,获取空闲的存储区域的地址,将第一SQE的第j段指令存储至空闲的存储区域的第j个存储单元。
作为一种可能的实施例,如果发送端服务器的网卡未查询到空闲的存储区域,则说明Blueframe buffer已经存满了,则丢弃此Blueframe,按普通门铃处理,即发送端服务器的网卡需要采用直接内存存取技术方式从缓存中获取SQE的其他分段指令。另外,其他已经存储有数据的存储区域可以存储满,也可以未存储满,本申请实施例不予限定。在本申请实施例中发送端服务器的网卡分配的第一存储区域是未存储任何数据的存储区域。
S205、发送端服务器的网卡根据第一SQE归属的QP的标识和第一SQE在QP的位置标识执行数据处理。
发送端服务器的网卡根据第一SQE从发送端服务器的内存中读取第一SQE对应的数据,并向接收端服务器发送数据,即执行S206至S209。
在一种可能的实现方式中,在需要发送的数据的数据量也较小的情况下,可以将需要发送的数据直接放在SQE中,发送端服务器的处理器直接将包括数据的SQE以分段指令的形式下发至发送端服务器的网卡,无需发送端服务器的网卡再从发送端服务器的内存中读取数据,从而,进一步降低数据传输的时延。在本申请实施例中,可以将SQE中的数据称为inline数据。若第一SQE中包括数据,发送端服务器的网卡无需再从发送端服务器的内存中读取数据,从Blueframe buffer中读取的第一SQE之后,直接将第一SQE中包括的数据发送至接收端服务器即可。
S206、发送端服务器的网卡向接收端服务器的网卡发送数据。
S207、接收端服务器的网卡从接收端服务器的内存中读取第一SQE对应的RQE。
接收端服务器的网卡接收到发送端服务器的网卡发送的数据之后,可以先将数据存储到缓存中,然后,接收端服务器的网卡从接收端服务器的内存中读取第一SQE所属的QP对应的RQE。
接收端服务器的网卡接收到数据后,可以读取数据头里的qp number,然后根据qpnumber先读取对应QP的信息(也可以称为qp context),QP的信息可以存在处理器的内存里也可以存在接收端服务器的网卡的缓存里,根据QP信息获取RQ的地址和指针,然后从处理器的内存里读取RQE。
S208、接收端服务器的网卡将数据存储到RQE指示的内存中。
S209、接收端服务器的网卡向接收端服务器的处理器发送CQE。
对S206至S209的具体的实现方式可以参考现有技术,本申请不予赘述。
作为一种可能的实施例,发送端服务器中可能同时存在多个待处理的SQE,每个SQE的数据处理过程均可以采用上述操作过程,每个SQE的最后一个分段可以添加隔断标识,该隔断标识用于标记该SQE的最后一个分段,用于网卡识别不同SQE的最后一个分段。另外,多个SQE的分段可以并行处理,每个分段中只需要添加归属SQE的标识即可,此时,网卡可以根据该标识识别且对应的存储区域,并将其存储至对应的存储单元,以此进一步提升系统的数据处理效率。
本申请实施例提供的数据处理的方法,发送端服务器的网卡通过PCIe报文的地址对Blueframe的乱序的分段指令进行保序处理,直接将分段指令存入Blueframe buffer的对应存储单元,使得发送端服务器的处理器无需关注各个分段的保序问题,由发送端服务器的网卡利用空闲的存储区域实现分段指令的保序处理,减少了发送端服务器的处理过程和负载。另一方面,发送端服务器的处理器可以同时向网卡发送不同SQE多个分段指令或同一SQE的不同分段指令,提升了数据处理的效率。而且,在同一个SQE的多个分段指令的发送过程中,无需利用现有技术中Barrier函数将各个分段隔离,减少了PCIe报文的个数。
接下来,结合图4进一步介绍本申请实施例提供的数据处理的方法,所述方法包括:
S401、发送端服务器的网卡判断当前接收到的第i个PCIe报文是否是第一SQE的首个PCIe报文。
若发送端服务器的网卡确定当前接收到的第i个PCIe报文不是第一SQE的首个PCIe报文,即当i不等于1,则执行S402。
若发送端服务器的网卡确定当前接收到的第i个PCIe报文是第一SQE的首个PCIe报文,即当i=1,则执行S403。
S402、发送端服务器的网卡将第i个PCIe报文包括的第j段指令存储至第一存储区域的第j个存储单元。
具体的解释可以参考S203的阐述,本申请不予赘述。
S403、发送端服务器的网卡判断第j段指令是否是第一SQE的首个分段指令。
在一些实施例中,发送端服务器的网卡可以判断第一地址段的低8为是否全为0,若第一地址段的低8为全为0,可以确定第j段指令是第一SQE的第1段指令,若第一地址段的低8为不全为0,第j段指令不是第一SQE的第1段指令,即是第一SQE的第2段指令至第8段指令中的任意一段指令。
需要说明的是,由于当第一SQE是blueframe时,发送端服务器的处理器才会向发送端服务器的网卡发送除了第一SQE的第1段指令之外的其他分段指令。因此,发送端服务器的网卡还可以确定第一SQE是blueframe,第j段指令是blueframe的数据。
若发送端服务器的网卡确定第j段指令不是第一SQE的首个分段指令,即j不等于1,执行S404和S402。
若发送端服务器的网卡确定第j段指令是第一SQE的首个分段指令,即j=1,执行S405。
S404、发送端服务器的网卡分配第一存储区域。
可选的,发送端服务器的网卡可以记录第一存储区域的编号,以便于发送端服务器的网卡再次接收到PCIe报文之后,将第一SQE的其他分段指令存储到第一存储区域。
S405、发送端服务器的网卡判断第j段指令是否是blueframe的数据。
第1段指令可以是第一SQE的前8byte的内容。第1段指令可以包括以下内容:
1)操作码(opcode):表示传输指令类型。示例的,操作码可以包括发送(send)、RDMA写(write)、send first和sendonly。send first表示发送的指令为SQE的第一个分段。sendonly表示发送的指令为SQE;
2)sqe_index:表示软件产生的SQE在队列中的位置,也就是指针(PI);
3)操作码模式(opc_mod):比如原子(ATOMIC)操作中可以表示对数据如何处理,如加(add)\或(or)\和(and)等。
4)DS:表示对应SQE的总长度;
5)qp number:表示SQE所在QP的编号。
6)sl:表示服务等级,也就是对应QP的调度优先级。
发送端服务器的网卡可以从第1段指令中获取第一SQE的总长度。发送端服务器的网卡比较第一SQE的总长度和预设阈值,若第一SQE的总长度小于或等于预设阈值,发送端服务器的网卡确定第一SQE的第1段指令为blueframe的数据。若第一SQE的总长度大于预设阈值,发送端服务器的网卡可以确定第一SQE的第1段指令为门铃,根据非blueframe的方法获取第一SQE。例如,需要采用直接内存存取技术方式从缓存中获取第一SQE的其他分段指令。
若发送端服务器的网卡判断第j段指令是blueframe的数据,执行S404和S402。
进一步的,若发送端服务器的网卡判断第j段指令是blueframe的数据,还可以执行S406至S408。
S406、发送端服务器的网卡获取第一SQE归属的QP的标识和第一SQE在QP的位置标识。
发送端服务器的网卡可以从第1段指令中获取第一SQE归属的QP的标识和第一SQE在QP的位置标识。第一SQE归属的QP的标识可以是qp number的值,第一SQE在QP的位置标识可以是sqe_index的值。
S407、发送端服务器的网卡建立第一SQE归属的QP的标识、第一SQE在QP的位置标识和第一存储区域的标识间的对应关系。
示例的,发送端服务器的网卡可以预先配置如S204所述的表,表用于记录Blueframe buffer中存储区域的标识和存入的Blueframe的相关信息。具体的可以参考S204的阐述,本申请不予赘述。
S408、发送端服务器的网卡判断第一SQE是否接收完成。
在一种可能的实现方式中,发送端服务器的网卡可以判断累计值是否等于第一SQE的总长度,来确定第一SQE是否接收完成。累计值可以用于指示已接收到的第一SQE的分段指令的长度。累计值的初始值可以为0。示例的,发送端服务器的网卡每接收到1个分段指令后,累计值可以增加8byte;或者,发送端服务器的网卡每接收到1个分段指令后,累计值累加1。例如,若发送端服务器的网卡接收到1个分段指令,累计值为8byte;若发送端服务器的网卡接收到2个分段指令,累计值为16byte;以此类推。需要说明的是,可以由实现Blueframe buffer的RAM存储累计值。当然,也可以由其他存储介质实现,本申请对此不作限定。
若更新后的累计值等于第一SQE的总长度,确定第一SQE接收完成,执行S409。
若更新后的累计值不等于第一SQE的总长度,确定第一SQE未接收完成,继续接收下一个PCIe报文,即接收第一SQE的下一段指令。例如,发送端服务器的网卡还可以继续接收第i+1个PCIe报文,第i+1个PCIe报文包括第一SQE的第k段指令和第二地址段,其中,第二地址段用于指示第k段指令在第一SQE中分段位置。并将第k段指令存储至第一存储区域的第k个存储单元。第k段指令为发送端服务器的网卡接收到的第一SQE中的分段指令之外的其他分段指令中的任意一个分段指令。例如,当i=1时,第1个PCIe报文包括第一SQE的第1段指令,第k段指令可以是第2段指令至第8段指令中的任意一个分段指令。当i=2时,第1个PCIe报文包括第一SQE的第2段指令,第2个PCIe报文包括第一SQE的第3段指令,第k段指令可以是第1段指令、第4段指令至第8段指令中的任意一个分段指令。对于n个PCIe报文中的每个PCIe报文包括的分段指令而言,均可以根据本申请实施例提供的数据处理的方法进行处理,不予赘述。
需要说明的是,若发送端服务器的网卡确定第一SQE未接收完成,在继续接收到其他分段指令之后,均需要判断第一SQE是否接收完成,直到第一SQE接收完成,生成结束符。
S409、发送端服务器的网卡生成结束符。
例如,结束符可以是eop,结束符可以用于分隔不同的Blueframe。
需要说明的是,在发送端服务器的网卡确定第j段指令不是第一SQE的首个分段指令,即j不等于1,执行完成S404和S402之后,发送端服务器的网卡接收到第1段指令之后,还可以将第1段指令存储至第一存储区域的第1个存储单元,以及执行S406至S408。
此外,在发送端服务器的网卡确定当前接收到的第i个PCIe报文不是第一SQE的首个PCIe报文,即i不等于1的情况下,若j等于1,即第i个PCIe报文包括第1段指令。可理解的,在发送端服务器的网卡接收第1段指令之前,发送端服务器的网卡接收到了除了第一SQE的第1段指令之外的其他分段指令。发送端服务器的网卡还可以将第1段指令存储至第一存储区域的第1个存储单元,以及执行S406至S408。
需要说明的是,本申请提供的数据处理方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减。示例的,如S403和S405之间的前后顺序可以互换,即发送端服务器的网卡可以先判断第j段指令是否是blueframe的数据,再判断第j段指令是否是第一SQE的首个分段指令,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
示例的,发送端服务器的网卡可以根据第一地址段确定第1个PCIe报文包括的第j段指令是否为blueframe的数据。例如,发送端服务器的网卡可以包括多个寄存器,多个寄存器用于存储不同的数据。在本申请中,发送端服务器的网卡可以包括的多个寄存器中的一个或多个寄存器可以作为Blueframe的buffer区域,即该区域用于存储Blueframe。Blueframe的buffer区域的地址可以是寄存器的地址。发送端服务器的网卡获取到第一地址段之后,首先可以判断第一地址段是否是寄存器的地址范围内的地址,若第一地址段是寄存器的地址范围内的地址,可以确定第j段指令是blueframe的数据。然后,发送端服务器的网卡再判断第一地址段的低8为是否全为0,若第一地址段的低8为全为0,可以确定第j段指令是第一SQE的第1段指令,若第一地址段的低8为不全为0,第j段指令不是第一SQE的第1段指令,即是第一SQE的第2段指令至第8段指令中的任意一段指令。若第一地址段不是寄存器的地址范围内的地址,可以确定第j段指令不是blueframe的数据。
另外,在第一SQE接收完成,存储到第一第一存储区域之后,可以执行S204至S209。
为了理解本申请实施例提供的数据处理的方法,现举例说明。
示例的,如图5所示,假设发送端服务器的处理器以2、4、5、3、1、8、6、7的顺序向发送端服务器的网卡发送Blueframe的8个分段指令,即第1个PCIe报文包括第2段指令,第2个PCIe报文包括第4段指令,第3个PCIe报文包括第5段指令,第4个PCIe报文包括第3段指令,第5个PCIe报文包括第1段指令,第6个PCIe报文包括第8段指令,第7个PCIe报文包括第6段指令,第8个PCIe报文包括第7段指令。
发送端服务器的网卡接收到发送端服务器的处理器发送的Blueframe的8个分段指令的顺序为2、4、5、3、1、8、6、7。
当发送端服务器的网卡接收到发送端服务器的处理器发送的第1个PCIe报文之后,解析第1个PCIe报文,得到第2段指令和第一地址段。然后,发送端服务器的网卡根据第一地址段可以确定第2段指令在Blueframe的第2个分段位置。因此,发送端服务器的网卡可以确定接收到的第2段指令是blueframe的数据,然后,发送端服务器的网卡将第2段指令存储到第一存储区域的第2个存储单元。同理,当发送端服务器的网卡接收到发送端服务器的处理器发送的第1段分段指令、第3段指令至第8段指令之后,分别将第1段分段指令、第3段指令至第8段指令存储到第一存储区域的第1个存储单元、第3个存储单元至第8个存储单元。
另外,在发送端服务器的网卡每接收到一个分段指令之后,更新累计值。例如,累计值可以增加8byte;或者,发送端服务器的网卡每接收到1个分段指令后,累计值累加1。累计值的初始值可以为0。
需要说明的是,当发送端服务器的网卡接收到发送端服务器的处理器发送的第1段指令之后,进一步的,发送端服务器的网卡还可以获取Blueframe归属的QP的标识和Blueframe在QP的位置标识。假设Blueframe归属的QP的标识为qp2,Blueframe在QP的位置标识为PI3。发送端服务器的网卡建立qp2、PI3和第一存储区域间的对应关系。另外,发送端服务器的网卡还可以获取Blueframe的总长度,判断第五更新后的累计值是否等于Blueframe的总长度。在本申请实施例中,由于Blueframe包括8个分段指令,Blueframe的总长度为64byte,因此,更新后的累计值小于Blueframe的总长度。继续接收Blueframe的其他分段指令。
上述主要从方法的角度对本申请实施例提供的方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例可以根据上述方法示例对数据处理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
上文中结合图2和图4,详细描述了本申请所提供的数据处理的方法,下面将结合图6和图8,描述本申请所提供的数据处理装置、网卡和服务器。
图6为本申请实施例提供的一种数据处理装置60的结构示意图。该装置60可以用于执行图2和图4任一附图所示的数据处理的方法。该装置60可以包括:接收单元601和处理单元602。其中,接收单元601,用于接收第i个PCIe报文,第i个PCIe报文包括第一SQE的第j段指令和第一地址段。处理单元602,用于将第j段指令存储至第一存储区域的第j个存储单元。当第一SQE的n段指令全部存储至第一存储区域时,根据第一存储区域中n个存储单元的指令获取第一SQE,以及第一SQE归属的队列对QP的标识和第一SQE在QP的位置标识,并根据第一SQE归属的QP的标识和第一SQE在QP的位置标识执行数据处理。例如,结合图2,处理单元602可以用于执行S203至S205。又如,结合图4,处理单元601可以用于执行S401至S409。
在本申请实施例中,进一步的,如图6所示,该装置还可以包括:发送单元603。
发送单元603,用于发送数据,例如用于支持通信装置执行图2所示的方法中的S206。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本申请实施例提供的装置,用于执行上述任意实施例的方法,因此可以达到与上述实施例的方法相同的效果。
应理解的是,本申请实施例的装置60可以通过专用集成电路(application-specific integrated circuit,ASIC)实现,或可编程逻辑器件(programmable logicdevice,PLD)实现,上述PLD可以是复杂程序逻辑器件(complex programmable logicaldevice,CPLD),现场可编程门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)或其任意组合。也可以通过软件实现图2和图4所示的方法时,装置60及其各个模块也可以为软件模块。
本实施例中相关内容的解释以及有益效果的描述等均可参考上述方法实施例。
图7为本申请实施例提供的一种网卡70的硬件结构示意图。如图所示,网卡70包括:至少一个处理器701、通信线路702、存储器703以及通信接口704。其中,通信线路702可以包括一通路,用于在该至少一个处理器701、存储器702以及通信接口704之间传送信息。这里的通信接口704用于网卡704与其他设备或器件进行通信。通信接口704可以包括有线收发器或无线收发器。无线收发器可以包括通信芯片。其中,至少一个处理器701与通信芯片可以集成在一起,也可以是独立设置的。存储器703用于存储执行本申请方案的计算机执行指令,并由处理器701来控制执行。处理器701用于执行存储器703中存储的计算机执行指令,从而实现本申请上述实施例提供的数据处理的方法。本实施例中相关内容的解释以及有益效果的描述等均可参考上述方法实施例。
图8为本申请实施例提供的一种服务器80的结构示意图。如图所示,服务器80包括至少一个处理器801、通信线路802、存储器803、网卡804以及通信接口805。通信接口805可以包括有线收发器或无线收发器。无线收发器可以包括通信芯片。其中,至少一个处理器801与通信芯片可以集成在一起,也可以是独立设置的。
处理器801可以是一个通用CPU,该处理器801还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。处理器801还可以是图形处理器(graphics processing unit,GPU)、神经网络处理器(neural network processing unit,NPU)、微处理器、特定应用集成电路(application-specific integrated circuit,ASIC)、或一个或多个用于控制本申请方案程序执行的集成电路。
通信线路802可以包括一通路,用于在上述组件(如处理器801、存储器803、网卡804和通信接口805)之间传送信息。
存储器803可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器803可以是独立存在的,通过通信线路802与处理器801相连接。存储器803也可以和处理器802集成在一起。本申请实施例提供的存储器803通常可以具有非易失性。存储器803用于存储执行本申请方案的计算机执行指令,并由处理器801来控制执行。处理器801用于执行存储器803中存储的计算机执行指令,从而实现本申请上述实施例提供的数据处理的方法。
网卡804的结构可以参考上述图7,此处不再描述。
通信接口805,可以是任何收发器一类的装置,用于服务器80与其他设备通信。
可选地,本申请实施例中的计算机执行指令也可以称之为应用程序代码。
作为一个示例,处理器801可以包括一个或多个CPU。作为一个示例,服务器80可以包括多个处理器。这些处理器中的每一个可以是一个单核(single-CPU)处理器,也可以是一个多核(multi-CPU)处理器。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
上述服务器80可以是一个通用设备或者是一个专用设备。例如,服务器80可以是基于X86、ARM的服务器,也可以为其他的专用服务器,如策略控制和计费(policy controland charging,PCC)服务器等。本申请实施例不限定服务器80的类型。ARM是高级精简指令处理器(advanced RISC machines)的英文缩写,RISC是精简指令集计算机(reducedinstruction set compute)的英文缩写。
本申请实施例还提供了一种通信系统,该通信系统可以包括服务器80,其中服务器80可以作为发送端服务器。另外,该通信系统还包括接收端服务器,用于接收发送端服务器发送数据,以使得接收端服务器执行上文所述的数据处理的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时,全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如,软盘、硬盘、磁带),光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
以上所述,仅为本申请的具体实施方式。熟悉本技术领域的技术人员根据本申请提供的具体实施方式,可想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (16)

1.一种数据处理的方法,其特征在于,包括:
网卡接收第i个外围部件互连标准PCIe报文,所述第i个PCIe报文包括第一发送队列条目SQE的第j段指令和第一地址段,所述第一地址段用于指示所述第j段指令在所述第一SQE中分段位置,其中,i为整数,i∈[1,n],j为整数,j∈[1,n],所述第一SQE按照预置大小划分为n段,n为整数,n大于或等于1;
所述网卡将所述第j段指令存储至第一存储区域的第j个存储单元,其中,所述第一存储区域为所述网卡中用于存储所述第一SQE的存储区域,所述第一存储区域包括m个存储单元,每个存储单元用于存储所述第一SQE的一段指令,m为整数,n≤m;
当所述第一SQE的n段指令全部存储至所述第一存储区域时,所述网卡根据所述第一存储区域中n个存储单元的指令获取所述第一SQE,以及所述第一SQE归属的队列对QP的标识和所述第一SQE在所述QP的位置标识;
所述网卡根据所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识执行数据处理。
2.根据权利要求1所述的方法,其特征在于,当i=1时,在所述网卡将所述第j段指令存储至第一存储区域的第j个存储单元之前,所述方法还包括:
所述网卡判断所述第一地址段是否是所述第一存储区域所在的存储空间的地址范围内的地址;
若所述第一地址段是所述第一存储区域所在的存储空间的地址范围内的地址,所述网卡确定所述第j段指令为blueframe的数据;
若所述第一地址段不是所述第一存储区域所在的存储空间的地址范围内的地址,所述网卡确定所述第j段指令不是blueframe的数据。
3.根据权利要求1所述的方法,其特征在于,当j=1时,在所述网卡接收第i个外围部件互连标准PCIe报文之后,所述方法还包括:
所述网卡获取所述第一SQE的总长度,第1段指令包括所述第一SQE的总长度;
所述网卡比较所述第一SQE的总长度和预设阈值;
若所述第一SQE的总长度小于或等于所述预设阈值,所述网卡确定所述第一SQE的第1段指令为blueframe的数据;
若所述第一SQE的总长度大于所述预设阈值,所述网卡确定所述第一SQE的第1段指令不是blueframe的数据。
4.根据权利要求3所述的方法,其特征在于,在所述网卡将所述第j段指令存储至第一存储区域的第j个存储单元之后,所述方法还包括:
所述网卡判断所述第一SQE是否接收完成;
若所述第一SQE接收完成,生成结束符。
5.根据权利要求3-4中任一项所述的方法,其特征在于,若所述第一SQE的总长度小于或等于所述预设阈值,所述方法还包括:
所述网卡获取所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识,所述第1段指令包括所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识;
所述网卡建立所述第一SQE归属的QP的标识、所述第一SQE在所述QP的位置标识和所述第一存储区域的标识间的对应关系。
6.根据权利要求5所述的方法,其特征在于,所述网卡根据所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识执行数据处理,包括:
所述网卡根据所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识确定存储所述第一SQE的第一存储区域;
从所述第一存储区域的起始地址开始,依次读取所述第一SQE的n个分段指令;
根据所述第一SQE的n个分段指令获取并发送所述第一SQE对应的数据。
7.根据权利要求6所述的方法,其特征在于,所述网卡根据所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识确定存储所述第一SQE的第一存储区域,包括:
根据所述第一SQE归属的QP的标识、所述第一SQE在所述QP的位置标识和所述第一存储区域的标识间的对应关系确定存储所述第一SQE的第一存储区域。
8.根据权利要求1-7中任一项所述的方法,其特征在于,当i=1时,在所述网卡将所述第j段指令存储至第一存储区域的第j个存储单元之前,所述方法还包括:
所述网卡为所述第一SQE分配所述第一存储区域。
9.一种数据处理的装置,其特征在于,包括:
接收单元,用于接收第i个外围部件互连标准PCIe报文,所述第i个PCIe报文包括第一发送队列条目SQE的第j段指令和第一地址段,所述第一地址段用于指示所述第j段指令在所述第一SQE中分段位置,其中,i为整数,i∈[1,n],j为整数,j∈[1,n],所述第一SQE按照预置大小划分为n段,n为整数,n大于或等于1;
处理单元,用于将所述第j段指令存储至第一存储区域的第j个存储单元,其中,所述第一存储区域为网卡中用于存储所述第一SQE的存储区域,所述第一存储区域包括m个存储单元,每个存储单元用于存储所述第一SQE的一段指令,m为整数,n≤m;
所述处理单元,还用于当所述第一SQE的n段指令全部存储至所述第一存储区域时,所述网卡根据所述第一存储区域中n个存储单元的指令获取所述第一SQE,以及所述第一SQE归属的队列对QP的标识和所述第一SQE在所述QP的位置标识;
所述处理单元,还用于根据所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识执行数据处理。
10.根据权利要求9所述的装置,其特征在于,
所述处理单元,还用于:当i=1时,判断所述第一地址段是否是所述第一存储区域所在的存储空间的地址范围内的地址;若所述第一地址段是所述第一存储区域所在的存储空间的地址范围内的地址,确定所述第j段指令为blueframe的数据;若所述第一地址段不是所述第一存储区域所在的存储空间的地址范围内的地址,确定所述第j段指令不是blueframe的数据。
11.根据权利要求9所述的装置,其特征在于,
所述处理单元,还用于:当j=1时,获取所述第一SQE的总长度,第1段指令包括所述第一SQE的总长度;
比较所述第一SQE的总长度和预设阈值;若所述第一SQE的总长度小于或等于所述预设阈值,确定所述第一SQE的第1段指令为blueframe的数据;若所述第一SQE的总长度大于所述预设阈值,所述网卡确定所述第一SQE的第1段指令不是blueframe的数据。
12.根据权利要求11所述的装置,其特征在于,
所述处理单元,还用于:若所述第一SQE的总长度小于或等于所述预设阈值,获取所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识,所述第1段指令包括所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识;
建立所述第一SQE归属的QP的标识、所述第一SQE在所述QP的位置标识和所述第一存储区域的标识间的对应关系。
13.根据权利要求12所述的装置,其特征在于,
所述处理单元,具体用于:根据所述第一SQE归属的QP的标识和所述第一SQE在所述QP的位置标识确定存储所述第一SQE的第一存储区域;
从所述第一存储区域的起始地址开始,依次读取所述第一SQE的n个分段指令;
根据第一SQE的n个分段指令获取并发送所述第一SQE对应的数据。
14.根据权利要求13所述的装置,其特征在于,
所述处理单元,具体用于:根据所述第一SQE归属的QP的标识、所述第一SQE在所述QP的位置标识和所述第一存储区域的标识间的对应关系确定存储所述第一SQE的第一存储区域。
15.一种网卡,其特征在于,包括存储器和处理器,所述存储器用于存储计算机执行指令,所述处理器用于调用所述计算机执行指令,使得所述网卡运行时,执行所述计算机执行指令以实现如权利要求1至8任一项所述的方法的操作步骤。
16.一种服务器,其特征在于,所述服务器包括处理器、存储器和网卡,所述处理器用于按照预置大小将第一发送队列条目SQE划分为n段指令,并向所述网卡发送所述第一SQE的n段指令,n为整数,n大于或等于1,所述存储器用于存储所述第一SQE的n段指令和计算机执行指令,所述网卡用于调用所述计算机执行指令处理所述第一SQE的n段指令,使得所述网卡运行时,执行所述计算机执行指令以实现如权利要求1至8任一项所述的方法的操作步骤。
CN201910155962.7A 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器 Active CN111641566B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201910155962.7A CN111641566B (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器
CN202111223252.7A CN114090495A (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器
EP19917893.0A EP3907946A4 (en) 2019-03-01 2019-12-16 DATA PROCESSING PROCEDURES, NETWORK CARD AND SERVER
PCT/CN2019/125517 WO2020177437A1 (zh) 2019-03-01 2019-12-16 数据处理的方法、网卡和服务器
US17/464,093 US11620227B2 (en) 2019-03-01 2021-09-01 Data processing method, network interface card, and server

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910155962.7A CN111641566B (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111223252.7A Division CN114090495A (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器

Publications (2)

Publication Number Publication Date
CN111641566A true CN111641566A (zh) 2020-09-08
CN111641566B CN111641566B (zh) 2021-10-22

Family

ID=72330512

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111223252.7A Pending CN114090495A (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器
CN201910155962.7A Active CN111641566B (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111223252.7A Pending CN114090495A (zh) 2019-03-01 2019-03-01 数据处理的方法、网卡和服务器

Country Status (4)

Country Link
US (1) US11620227B2 (zh)
EP (1) EP3907946A4 (zh)
CN (2) CN114090495A (zh)
WO (1) WO2020177437A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115665073B (zh) * 2022-12-06 2023-04-07 江苏为是科技有限公司 报文处理方法及装置
CN115858160B (zh) * 2022-12-07 2023-12-05 江苏为是科技有限公司 远程直接内存访问虚拟化资源分配方法及装置、存储介质
CN116257493A (zh) * 2022-12-29 2023-06-13 北京京桥热电有限责任公司 一种基于缓存机制的opc穿网闸接口
CN116756078B (zh) * 2023-08-17 2024-01-16 珠海星云智联科技有限公司 pcie数据包的通知方法、装置及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997977A (zh) * 2003-12-11 2007-07-11 国际商业机器公司 降低与失序rdma发送消息的传送相关的写操作的数量
US20170357610A1 (en) * 2016-06-14 2017-12-14 Kazan Networks Corporation Split nvme ssd implementation using nvme over fabrics protocol
US20190035445A1 (en) * 2017-07-31 2019-01-31 CNEX Labs, Inc. a Delaware Corporation Method and Apparatus for Providing Low Latency Solid State Memory Access
WO2019033891A1 (zh) * 2017-08-14 2019-02-21 华为技术有限公司 一种基于rdma的网络流量确定方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7149817B2 (en) * 2001-02-15 2006-12-12 Neteffect, Inc. Infiniband TM work queue to TCP/IP translation
US8478907B1 (en) * 2004-10-19 2013-07-02 Broadcom Corporation Network interface device serving multiple host operating systems
US7587575B2 (en) * 2006-10-17 2009-09-08 International Business Machines Corporation Communicating with a memory registration enabled adapter using cached address translations
US9558148B2 (en) * 2014-04-30 2017-01-31 Intel Corporation Method to optimize network data flows within a constrained system
CN106775434B (zh) 2015-11-19 2019-11-29 华为技术有限公司 一种NVMe网络化存储的实现方法、终端、服务器及系统
US10007443B1 (en) * 2016-03-31 2018-06-26 EMC IP Holding Company LLC Host to device I/O flow
US10769098B2 (en) * 2016-04-04 2020-09-08 Marvell Asia Pte, Ltd. Methods and systems for accessing host memory through non-volatile memory over fabric bridging with direct target access
CN107992436B (zh) * 2016-10-26 2021-04-09 华为技术有限公司 一种NVMe数据读写方法及NVMe设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1997977A (zh) * 2003-12-11 2007-07-11 国际商业机器公司 降低与失序rdma发送消息的传送相关的写操作的数量
US20170357610A1 (en) * 2016-06-14 2017-12-14 Kazan Networks Corporation Split nvme ssd implementation using nvme over fabrics protocol
US20190035445A1 (en) * 2017-07-31 2019-01-31 CNEX Labs, Inc. a Delaware Corporation Method and Apparatus for Providing Low Latency Solid State Memory Access
WO2019033891A1 (zh) * 2017-08-14 2019-02-21 华为技术有限公司 一种基于rdma的网络流量确定方法及装置

Also Published As

Publication number Publication date
EP3907946A4 (en) 2022-03-09
CN114090495A (zh) 2022-02-25
CN111641566B (zh) 2021-10-22
WO2020177437A1 (zh) 2020-09-10
US20210397559A1 (en) 2021-12-23
EP3907946A1 (en) 2021-11-10
US11620227B2 (en) 2023-04-04

Similar Documents

Publication Publication Date Title
CN111641566B (zh) 数据处理的方法、网卡和服务器
US11916781B2 (en) System and method for facilitating efficient utilization of an output buffer in a network interface controller (NIC)
US7751404B2 (en) Method, system, and computer program product for high performance bonding resequencing
US8307105B2 (en) Message communication techniques
US8868804B2 (en) Unified I/O adapter
CN107728936B (zh) 用于传输数据处理请求的方法和装置
CN111064680B (zh) 一种通信装置及数据处理方法
US20050038946A1 (en) System and method using a high speed interface in a system having co-processors
US9288163B2 (en) Low-latency packet receive method for networking devices
US10255213B1 (en) Adapter device for large address spaces
US20140164553A1 (en) Host ethernet adapter frame forwarding
US8898353B1 (en) System and method for supporting virtual host bus adaptor (VHBA) over infiniband (IB) using a single external memory interface
CN111865741B (zh) 数据传输方法及数据传输系统
US20240160584A1 (en) System and method for facilitating dynamic command management in a network interface controller (nic)
CN114780458B (zh) 数据处理的方法和存储系统
CN115827212A (zh) 数据处理的方法、装置以及系统
CN116569154A (zh) 数据传输方法和相关装置
US20070055956A1 (en) Data transfer management method, software and system
CN115344192A (zh) 一种数据处理方法、装置及电子设备
CN116244235A (zh) 数据总线数据传输方法、终端及存储介质
CN110727632A (zh) 一种数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant