CN104503948B

CN104503948B - 支持多核网络处理架构的紧耦合自适应协处理系统

Info

Publication number: CN104503948B
Application number: CN201510025278.9A
Authority: CN
Inventors: 杨惠; 孙志刚; 吕高峰; 李韬; 万江华; 赵国鸿; 韩彪; 陈骄; 陈一骄; 崔向东; 毛席龙; 伍洪斌; 唐路; 徐东来; 刘晓俊
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2017-08-11
Anticipated expiration: 2035-01-19
Also published as: CN104503948A

Abstract

一种支持多核网络处理架构的紧耦合自适应协处理系统，包括：直接访问高速存储体DAHM，为CPU直接提供操作数；下游自适应报文传输协处理模块DAMTCM，用于在网络接口控制器和多核之间传输数据，下游自适应报文传输协处理模块DAMTCM对直接访问高速存储体DAHM直接访问；上游自适应硬件加速协处理模块UAHACM，用于在多核内部加速报文处理，上游自适应硬件加速协处理模块UAHACM对直接访问高速存储体DAHM直接访问；插空传输仲裁模块，位于上游自适应硬件加速协处理模块UAHACM与直接访问高速存储体DAHM之间，用来与上游自适应硬件加速协处理模块UAHACM配合以插空方式完成与直接访问高速存储体的数据传输。本发明具有灵活易编程、可灵活切换硬件间执行、适用范围广等优点。

Description

支持多核网络处理架构的紧耦合自适应协处理系统

技术领域

本发明主要涉及到面向网络分组处理的多核网络处理器架构领域，特指一种用来支持多核网络处理架构的紧耦合自适应协处理系统。

背景技术

网络处理能力的进步，很大程度上依赖硬件技术的进步。当前，随着网络处理应用复杂性的不断提升、吞吐量的持续增长和路由协议的不断演进，对网络处理硬件的性能要求越来越高。针对网络应用，网络处理硬件从通用CPU架构到直接硬件实现的ASIC、到兼顾灵活性和高性能的NP架构、再到多核架构，体系结构的演进过程体现了硬件对高速吞吐率和处理能力的追求。为此，网络处理硬件一直在追寻更高速处理能力、更灵活性能和更广泛应用面之间的平衡。

现有技术中，有从业者提出了加速协处理硬件配合主多核处理器的机制。如，NP专用网络处理器，内部集成多个微引擎，通过精简指令编程来实现报文的协议识别解析、分类、队列调度、内容修改等一系列功能。高性能的NP为保证大吞吐量的处理能力，还集成了多种硬件加速的协处理器，比如Ipsec，表项查找搜索引擎，高速的报文解析器等。微引擎的可编程性，使NP技术能够迅速适应不断变化的应用需求；然而大量定制的硬件，使得NP编程能力受限，需运行特定的汇编语言和开发环境，代码移植性差。为增强报文高速转发的处理能力，除集成松耦合的协处理器以外，现有研究还通过在流水线内部集成紧耦合的协处理单元来实现。协处理单元通过指令驱动，而由于核心指令没有使用通用寄存器，造成程序代码量很大，需要占据很大的程序存储器空间。使用多核加协处理器的结构，是实现网络处理的研究是网络技术发展的重要趋势。多核处理器芯片内部集成多个使用C语言编程的CPU核，核之间通过共享内存、cache一致性总线、或者专用交换结构实现数据交互(如通过专用环网交叉网络等，挂接多核、外设、协处理器等)。每个core可以灵活的配置为执行网络报文处理的某个操作，比如报文解析、保序、查表、流控等单一操作，用于实现复杂的业务处理。多核也可实现并发处理，实现大吞吐率的数据转发等。

然而，已有的传统结构也存在以下一些不足：首先较大的内存访问竞争开销，硬件DMA和线程的访存竞争增加了访存延时，降低了性能；其次，协处理器同步开销较大，协处理器导致线程的切换频繁，线程间的切换代价较大。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种灵活易编程的、可灵活切换硬件间执行、适用范围广的支持多核网络处理架构的紧耦合自适应协处理系统。

为解决上述技术问题，本发明采用以下技术方案：

一种支持多核网络处理架构的紧耦合自适应协处理系统，包括：

直接访问高速存储体DAHM，为双端口SRAM，是CPU的一级数据存储体，为CPU直接提供操作数；

下游自适应报文传输协处理模块DAMTCM，用于在网络接口控制器和多核之间传输数据，下游自适应报文传输协处理模块DAMTCM对直接访问高速存储体DAHM直接访问；

上游自适应硬件加速协处理模块UAHACM，用于在多核内部加速报文处理，上游自适应硬件加速协处理模块UAHACM对直接访问高速存储体DAHM直接访问；

插空传输仲裁模块，位于上游自适应硬件加速协处理模块UAHACM与直接访问高速存储体DAHM之间，用来与上游自适应硬件加速协处理模块UAHACM配合以插空方式完成与直接访问高速存储体的数据传输。

作为本发明的进一步改进：所述上游自适应硬件加速协处理模块UAHACM集成于单核内部，采用与CPU紧耦合的协处理方式；在处理完数据后，自适应的通过低优先级的插空传输方式，在CPU不对直接访问高速存储体DAHM进行访问的空隙进行数据传输，与CPU共享一个直接访问高速存储体DAHM的访问端口。

作为本发明的进一步改进：所述上游自适应硬件加速协处理模块UAHACM包括加速处理硬件和FIFO。

作为本发明的进一步改进：所述下游自适应报文传输协处理模块DAMTCM包括DAHM地址分配与回收模块、输出调度模块和DAHM的端口读写仲裁模块；所述下游自适应报文传输协处理模块DAMTCM对直接访问高速存储体DAHM的数据传输，单独占用一个端口，并且报文的传输不必与CPU应答；多核CPU中的各个直接访问高速存储体DAHM均划分成多块连续空间，空间的地址由DAHM地址分配与回收模块维护。

作为本发明的进一步改进：所述下游自适应报文传输协处理模块DAMTCM用来处理外部数据报文，根据公平原则将接收到的数据均匀分撒到各个CPU核中；所述DAHM地址分配与回收模块用来判别外部数据报文分撒到对应CPU核的直接访问高速存储体DAHM的位置；所述输出调度模块接收并缓存各个CPU核处理完的数据报文，通过报文索引信息，并选择当前要读取并送出的数据报文送往外部；通过所述DAHM的端口读写仲裁模块进行仲裁并处理，将读出冲突信息传递给输出调度，暂停读出操作，优先写入。

作为本发明的进一步改进：所述插空传输仲裁模块的执行机制为：

当CPU写使能有效，且直接访问高速存储体DAHM能被写时，将CPU处理完成的数据，根据地址信息写入直接访问高速存储体DAHM，并更新索引信息Pkt_index；所述插空传输仲裁模块给上游自适应硬件加速协处理模块UAHACM发送Ack＝1信号，上游自适应硬件加速协处理模块UAHACM的写数据、写使能和写地址保持，此时若上游自适应硬件加速协处理模块UAHACM具有要写入直接访问高速存储体DAHM的已处理完的数据，那么该数据保持，未写进直接访问高速存储体DAHM；

当CPU写使能无效，且直接访问高速存储体DAHM能被写时，所述插空传输仲裁模块给上游自适应硬件加速协处理模块UAHACM发送Ack＝0信号，此时若上游自适应硬件加速协处理模块UAHACM具有要写入直接访问高速存储体DAHM的已处理完的数据，那么此时实现插空写入直接访问高速存储体DAHM；上游自适应硬件加速协处理模块UAHACM下发写入索引信息更改状态寄存器Copro_index；加速处理硬件处理完、待写入直接访问高速存储体DAHM的写控制和写数据信息；CPU主处理程序和上游自适应硬件加速协处理模块UAHACM的处理程序的切换，通过数据加载指令load和数据存储指令store完成；将需要进入上游自适应硬件加速协处理模块UAHACM进行加速处理的数据，通过CPU的load和store指令，完成从直接访问高速存储体DAHM到上游自适应硬件加速协处理模块UAHACM的搬移，所述上游自适应硬件加速协处理模块UAHACM自适应的处理，并插空写回直接访问高速存储体DAHM，通过更新状态寄存器索引Copro_index，记录写入数据信息。

与现有技术相比，本发明的优点在于：

综上所述，需针对网络应用中各类高复杂度加速子任务，如数据包解析、队列管理等，提供一种灵活易编程的，可灵活切换硬件间执行的协同处理机制，从而配合多核处理器以满足应用需求。

本发明原理简单、适用范围广、易编程易挂接、能够有效支持最前沿网络应用中，各类高复杂度加速子任务处理的协处理，

(1)紧耦合，协处理模块与直读SRAM处于CPU流水线内部的相同层次，不同于一般的协处理器挂接在环网或者片网上。

(2)零线程切换代价，CPU与协处理模块之间的线程切换零代价，可以在下一机器周期完成线程切换；

(3)访存延迟低，协处理器线程处理完数据后，在CPU访问DAHM之余，采用握手响应写入方式，插空写入DAHM，因而大大减少访存的冲突与检测，降低访存延迟。

(4)自适应的传输数据，自适应的处理数据，自适应的写回数据，数据传输和数据处理均不影响CPU处理进程，完全无中断；

(5)降低编程代码空间，编码效率高，针对网络处理的运算特点，将特定功能通过加速协处理模块实现，从而减少常用网络处理算法的动态指令条数，而加速协处理模块自适应完成处理与数据写回，效率高、代码空间小。

附图说明

图1是本发明的结构示意图。

图2是本发明在具体应用实例中上游自适应硬件加速协处理模块UAHACM的紧耦合协处理数据通路示意图。

图3是本发明在具体应用实例中插空传输仲裁模块的写入机制及线程切换示意图。

图4是本发明在具体应用实例中DAMTCM模块的自适应数据传输通路示意图。

图5是本发明在具体应用实例中DAMTCM模块的自适应传输机制示意图。

其中：

状态寄存器列表	名称	宽度	读写状态	描述
					1	Pkt_index	32	R/W	CPU对DAHM写的下发索引信息
2	Copro_index	32	R/W	协处理模块对DAHM写的下发索引信息

具体实施方式

以下将结合说明书附图和具体实施例对本发明做进一步详细说明。

如图1所示，一种支持多核网络处理架构的紧耦合自适应协处理系统，包括：

直接访问高速存储体DAHM，为双端口SRAM，是CPU的一级数据存储体，为CPU直接提供操作数；DAHM作为一级数据存储体，能直接被CPU访问并做为操作数来源和写入目的的同时，能够被下游自适应报文传输协处理模块DAMTCM和上游自适应硬件加速协处理模块UAHACM直接访问。

下游自适应报文传输协处理模块DAMTCM，用于在网络接口控制器和多核之间传输数据；该下游自适应报文传输协处理模块DAMTCM包括DAHM地址分配与回收模块、输出调度模块和DAHM的端口读写仲裁模块，将网络接口控制器等设备传输的数据，自适应的传输到高速存储体DAHM，完成数据的送入和流出；该下游自适应报文传输协处理模块DAMTCM对直接访问高速存储体DAHM的数据传输，单独占用一个端口，并且报文的传输不必与CPU应答。多核CPU中的各个直接访问高速存储体DAHM均划分成多块连续空间，空间的地址由DAHM地址分配与回收模块维护，只要仍存在可用空闲地址，便可由下游自适应报文传输协处理模块DAMTCM自适应的通过直接访问高速存储体DAHM的端口二发送并写入报文；多核中任意一个CPU的直接访问高速存储体DAHM中，只要存在处理完成的报文，便可自适应的通过调度输出模块轮询并输出，无需等待与CPU的应答交互。

上游自适应硬件加速协处理模块UAHACM，用于在多核内部加速报文处理；该上游自适应硬件加速协处理模块UAHACM包括加速处理硬件和FIFO，通过插空传输仲裁模块，实现协处理模块与CPU紧耦合执行，并插空完成与直接访问高速存储体的数据传输；即：该上游自适应硬件加速协处理模块UAHACM对直接访问高速存储体DAHM的直接访问，采用与CPU紧耦合的协处理方式，并在处理完数据后，自适应的通过低优先级的插空传输方式，在CPU不对DAHM进行访问的空隙，进行数据传输，与CPU共享一个DAHM的访问端口。

插空传输仲裁模块，位于上游自适应硬件加速协处理模块UAHACM与直接访问高速存储体DAHM之间，用来与上游自适应硬件加速协处理模块UAHACM配合以完成与直接访问高速存储体的数据传输。

在上述结构中，直接访问高速存储体DAHM作为一级数据存储体，能直接被CPU访问并作为操作数来源和写入目的的同时，能够被下游自适应报文传输协处理模块DAMTCM和上游自适应硬件加速协处理模块UAHACM直接访问。接收的数据报文由外部网络接口控制器，通过下游自适应报文传输协处理模块DAMTCM，无中断的传输至CPU一级数据存储体DAHM中。上游自适应硬件加速协处理模块UAHACM对DAHM的直接访问，采用低优先级的插空传输方式，在CPU不对DAHM进行访问的空隙，进行数据传输。UAHACM与CPU共享一个DAHM的访问端口。下游自适应报文传输协处理模块DAMTCM对DAHM的数据传输，单独占用一个端口，并且报文的传输不必采用应答方式，将多核CPU中的各个DAHM都划分成多块连续空间，空间的地址由DAHM地址分配与回收模块维护，只要仍存在可用空闲地址，便可通过DAHM的端口二发送并写入报文；多核中任意一个CPU的DAHM中，只要存在处理完成的报文，便可通过调度输出模块轮询并输出，无需等待与CPU的应答交互。

本发明通过直接访问高速存储体DAHM，数据报文无中断的传输至直接访问高速存储体DAHM中；接着内核主处理程序运行操作数加载和存储指令，将要加速协处理的数据由直接访问高速存储体DAHM导入紧耦合的上游自适应硬件加速协处理模块UAHACM中，协处理完后，上游自适应硬件加速协处理模块UAHACM采用插空写入的方式将结果自适应写回直接访问高速存储体DAHM，由下游自适应报文传输协处理模块DAMTCM将数据报文由多核传输到网络接口控制器，维护直接访问高速存储体DAHM的地址分配与释放。

由上可知，通过本发明上述的支持多核网络处理架构的紧耦合自适应协处理系统，配合多核处理架构完成高速的数据传输与处理，借助更高效的数据迁移和处理，能够降低系统开销，提高网络处理能力，从而实现线程切换，数据传输与地址管理的零CPU开销。

如图2所示，为上游自适应硬件加速协处理模块UAHACM的紧耦合协处理数据通路示意图。直接访问高速存储体DAHM作为一级数据存储体，能直接被CPU访问并作为操作数来源和写入目的的同时，能够直接被上游自适应报文传输协处理模块DAMTCM直接写入。由于协处理模块能直接将数据放入CPU一级数据存储体中，进而加快访问速度。从访问一级数据存储体的角度来讲，上游自适应硬件加速协处理模块UAHACM集成于单核内部，不同于一般的协处理器挂接于多核平级的片上网络上。单核内的直接访问高速存储体DAHM，配置成双端口模式，一个访问端口面向核外，连接下游自适应报文传输协处理模块DAMTCM，实现网络接口与数据存储的直接数据传递；另一个端口面向核内，被Core主处理程序和上游自适应硬件加速协处理模块UAHACM访问。连接核内的端口，内核主处理程序会高优先占用访问DAHM的端口，可实现对DAHM的读和写，而协处理模块UAHACM插空访问，只对DAHM进行写操作，实现自适应数据写回。UAHACM的操作数据获取，通过内核主处理程序运行数据加载和数据存储指令，从DAHM加载到UAHACM中，从而实现主处理程序与协处理模块流水线级的紧耦合。协处理线程与主处理线程之间的无缝切换，极大的释放了CPU资源，使得业务支撑和大吞吐率处理获得统一。

如图3所示，为插空传输仲裁模块的写入机制及线程切换示意图。插空传输仲裁模块的写入机制，简单来说，即CPU主处理程序完成数据处理，将写数据在写使能有效时，按照写地址写入直接访问高速存储体DAHM；而上游自适应硬件加速协处理模块UAHACM处理完成的数据，则插空写入直接访问高速存储体DAHM，在不满足插空写入的条件时，则一直保持，即保持上游自适应硬件加速协处理模块UAHACM的写数据、写地址和写使能。也就是说，当CPU写使能有效，且直接访问高速存储体DAHM能被写时，将CPU处理完成的数据，根据地址信息写入直接访问高速存储体DAHM，并更新索引信息Pkt_index；插空传输仲裁模块给上游自适应硬件加速协处理模块UAHACM发送Ack＝1信号，UAHACM的写数据、写使能和写地址保持，此时若上游自适应硬件加速协处理模块UAHACM具有要写入直接访问高速存储体DAHM的已处理完的数据，那么该数据保持在FIFO中，未写进直接访问高速存储体DAHM；当CPU写使能无效，且直接访问高速存储体DAHM能被写时，插空传输仲裁模块给上游自适应硬件加速协处理模块UAHACM发送Ack＝0信号，此时若上游自适应硬件加速协处理模块UAHACM具有要写入直接访问高速存储体DAHM的已处理完的数据，那么此时能够实现插空写入直接访问高速存储体DAHM；上游自适应硬件加速协处理模块UAHACM下发写入索引信息更改状态寄存器Copro_index。FIFO中存放加速处理硬件处理完、待写入直接访问高速存储体DAHM的写控制和写数据信息。CPU主处理程序和上游自适应硬件加速协处理模块UAHACM的处理程序的切换，通过数据加载指令load和数据存储指令store完成。将需要进入上游自适应硬件加速协处理模块UAHACM进行加速处理的数据，通过CPU的load和store指令，完成从直接访问高速存储体DAHM到上游自适应硬件加速协处理模块UAHACM的搬移，上游自适应硬件加速协处理模块UAHACM自适应的处理，并插空写回直接访问高速存储体DAHM，通过更新状态寄存器索引Copro_index，记录写入数据信息，因而协处理线程由数据驱动，并与CPU主处理线程并发执行，无线程间切换代价。

如图4所示，为下游自适应报文传输协处理模块DAMTCM的自适应数据传输通路示意图。为下游自适应报文传输协处理模块DAMTCM主要负责核内与外部的数据进行交互，外部数据将要处理的数据报文送往为下游自适应报文传输协处理模块DAMTCM，为下游自适应报文传输协处理模块DAMTCM根据集成的CPU核的数量，提供了多个发送和接收端口，并根据公平原则将接收到的数据均匀分撒到各个CPU核中。而分撒到对应CPU核的直接访问高速存储体DAHM的哪个位置，由DAHM地址分配与回收模块判别。同时，输出调度模块接收并缓存各个CPU核处理完的数据报文，通过报文索引信息，并根据对应的调度算法选择当前要读取并送出的数据报文送往外部。由于下游自适应报文传输协处理模块DAMTCM与CPU之间的读与写共用核内存储直接访问高速存储体DAHM的端口，于是当读出和写入相同CPU核时，需要读写仲裁模块进行仲裁并处理，将读出冲突信息传递给输出调度，暂停读出操作，优先写入。外部控制器和CPU之间的数据处理和传输，对存储资源直接访问高速存储体DAHM的申请和释放无需系统操作，实现数据存储管理CPU零开销。

如图5所示，为下游自适应报文传输协处理模块DAMTCM的自适应传输机制的示意图。多核共用一套自适应传输机制，下游自适应报文传输协处理模块DAMTCM主要实现对各CPU核的直接访问高速存储体DAHM的存储空间进行调度，于是当数据写入和读出时，首先需要解析并轮询判别对应的Core编号，即Core_ID。各个CPU核对应的存储空间DAHM相对独立，DAHM地址分配与回收模块主要实现对各CPU核的DAHM存储空间进行调度。为保证传输性能，根据轮询机制以及负载均衡的原则对报文送往的CPUID以及对应地址进行预分配，并对已使用完成的地址进行回收，同时维护和更新一套地址表。首先，将初始化完成的地址块数目注册到DAHM地址分配与回收模块的块地址数目存储器，写入空闲DAHM块队列，并将每一块的基地址注册到基地址表。接着，当写入数据到来时，DAHM地址分配与回收模块，按空闲DAHM块队列从左到右的顺序对基地址所对应的DAHM存储区进行顺序分配，同时更新偏移量计数器，直到该计数器为满。最后，当读出数据时，将该数据对应的DAHM块地址进行按块回收，更新块地址回收个数表，若该表项值计数已满，则表明该数据存储区块可用，回收至空闲DAHM块队列，允许纳入分配队列。由此地址的分配与回收完全由硬件实现，硬件自身维护存储地址的空闲状态，通过预分配机制，从而自适应的完成数据传输。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种支持多核网络处理架构的紧耦合自适应协处理系统，其特征在于，包括：

上游自适应硬件加速协处理模块UAHACM，用于在多核内部加速报文处理，上游自适应硬件加速协处理模块UAHACM对直接访问高速存储体DAHM直接访问；所述上游自适应硬件加速协处理模块UAHACM集成于单核内部，采用与CPU紧耦合的协处理方式；

2.根据权利要求1所述的支持多核网络处理架构的紧耦合自适应协处理系统，其特征在于，所述上游自适应硬件加速协处理模块UAHACM在处理完数据后，自适应的通过低优先级的插空传输方式，在CPU不对直接访问高速存储体DAHM进行访问的空隙进行数据传输，与CPU共享一个直接访问高速存储体DAHM的访问端口。

3.根据权利要求2所述的支持多核网络处理架构的紧耦合自适应协处理系统，其特征在于，所述上游自适应硬件加速协处理模块UAHACM包括加速处理硬件和FIFO。

4.根据权利要求1～3中任意一项所述的支持多核网络处理架构的紧耦合自适应协处理系统，其特征在于，所述下游自适应报文传输协处理模块DAMTCM包括DAHM地址分配与回收模块、输出调度模块和DAHM的端口读写仲裁模块；所述下游自适应报文传输协处理模块DAMTCM对直接访问高速存储体DAHM的数据传输，单独占用一个端口，并且报文的传输不必与CPU应答；多核CPU中的各个直接访问高速存储体DAHM均划分成多块连续空间，空间的地址由DAHM地址分配与回收模块维护。

5.根据权利要求4所述的支持多核网络处理架构的紧耦合自适应协处理系统，其特征在于，所述下游自适应报文传输协处理模块DAMTCM用来处理外部数据报文，根据公平原则将接收到的数据均匀分撒到各个CPU核中；所述DAHM地址分配与回收模块用来判别外部数据报文分撒到对应CPU核的直接访问高速存储体DAHM的位置；所述输出调度模块接收并缓存各个CPU核处理完的数据报文，通过报文索引信息，并选择当前要读取并送出的数据报文送往外部；通过所述DAHM的端口读写仲裁模块进行仲裁并处理，将读出冲突信息传递给输出调度，暂停读出操作，优先写入。

6.根据权利要求1～3中任意一项所述的支持多核网络处理架构的紧耦合自适应协处理系统，其特征在于，所述插空传输仲裁模块的执行机制为：