CN109669890A

CN109669890A - 一种数据处理系统

Info

Publication number: CN109669890A
Application number: CN201811524631.8A
Authority: CN
Inventors: 火莽; 火一莽; 万月亮; 闫小龙; 余勇; 于睿
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-04-23

Abstract

本发明公开了一种数据处理系统，包括：一个中央处理器CPU芯片；CPU芯片包括N个集群，集群包括M个处理核心，处理核心至少包括一个线程；每个处理核心包括一个运算单元，其中，1≤N≤16，1≤M≤16；在当前线程请求外部资源时，自动切换到当前处理核心中的下一个线程，以使当前处理核心中的运算单元执行下一个线程的数据运算，直至完成当前处理核心中所有线程的数据运算，再返回至当前处理核心中第一个发送外部资源请求的线程，继续执行对外部资源的数据运算。本发明通过在数据处理系统的物理体积没有增加的情况下，使得处理核心的数目大幅增加，可以同时对多个线程进行并行处理，从而大幅度地增加了系统处理性能。

Description

一种数据处理系统

技术领域

本发明实施例涉及计算机网络技术，尤其涉及一种数据处理系统。

背景技术

在互联网的背景下，网络用户数据量正在以飞快的速度增长，随之而来的是不良内容及威胁用户安全的数据流量也在增长，从而及时检测并清除此部分数据流量变得尤为重要。其中，检测数据流量的手段就是将用户产生的数据流量接入到专用分流、解析系统进行处理并分析，发现非法数据流量及时进行过滤拦截，从而保证网络正常数据流量的运转，其中用于专用分流的分流设备是接入数据流量的前端系统，必须要保证足够的数据接入处理能力，才能保证网络数据流量的全面监控，否则就会由于性能不足而导致部分数据流量不能及时检测。

目前，使用较多的网络数据处理系统是基于无内部互锁流水级(Microprocessorwithout interlocked piped stages，MIPS)架构的精简指令集嵌入式芯片系统。由于受MIPS架构自身特点的限制，无法对不必要的外设模块进行裁剪，占用硬件资源，导致数据处理系统中处理单元的集成度低，进而降低了系统整体处理性能。

发明内容

有鉴于此，本发明提供一种数据处理系统，以提高数据处理系统中各个处理单元的集成度，以提升系统并行处理能力和系统整体处理性能。

第一方面，本发明实施例提供了一种数据处理系统，包括：一个中央处理器CPU芯片；所述CPU芯片包括N个集群，所述集群包括M个处理核心，所述处理核心至少包括一个线程；每个所述处理核心包括一个运算单元，其中，1≤N≤16，1≤M≤16；

在当前线程请求外部资源时，自动切换到当前处理核心中的下一个线程，以使当前处理核心中的运算单元执行下一个线程的数据运算，直至完成当前处理核心中所有线程的数据运算，再返回至当前处理核心中第一个发送外部资源请求的线程，继续执行对外部资源的数据运算。

进一步的，所述CPU芯片采用进阶精简指令集机器ARC架构。

进一步的，所述CPU芯片中的第一个处理核心为管理核，对操作系统进行初始化；

所述CPU芯片中的其它处理核心为业务核，运行数据处理进程。

进一步的，所述线程采用直接内存访问DMA方式请求外部资源。

进一步的，每个所述处理核心之间通过片内总线连接，每个所述集群之间通过片内总线连接。

进一步的，所述片内总线为数据总线。

进一步的，所述运算单元采用七级无中断流水线模式。

进一步的，所述处理核心还包括：中断控制单元、多线程控制单元、动态分支预测单元、缓存单元和内存管理单元；

所述中断控制单元、所述多线程控制单元、所述动态分支预测单元、所述缓存单元以及内存管理单元均与所述运算单元连接。

进一步的，所述ARC架构为一个32位精简指令集处理器架构。

进一步的，所述线程为硬线程。

本发明通过在一个中央处理器CPU芯片上包括至少一个集群，并且每个集群至少包括一个处理核心，以及每个处理核心包括一个线程，在当前线程请求外部资源时，自动切换到当前处理核心中的下一个线程，以使当前处理核心中的运算单元执行下一个线程的数据运算，直至完成当前处理核心中所有线程的数据运算，再返回至当前处理核心中第一个发送外部资源请求的线程，继续执行对外部资源的数据运算。本发明实施例通过在数据处理系统的物理体积没有增加的情况下，使得处理核心的数目大幅增加，可以同时对多个线程进行并行处理，从而大幅度地增加了系统处理性能。

附图说明

图1是本发明实施例提供的一种数据处理系统的结构框图；

图2是本发明实施例提供的一种处理核心中各个线程的切换示意图；

图3是本发明实施例提供的一种处理核心中各个单元的组成逻辑示意图；

图4是本发明实施例提供的另一种处理核心中各个线程的切换示意图；

图5是本发明实施例提供的一种集群中各个处理核心的连接关系示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

在此需要说明的是，为了提升数据处理系统的整体处理性能，中央处理器(Central Processing Unit，CPU)芯片采用多核心的对称多处理(Symmetrical Multi-Processing，SMP)结构，从而可以并行处理数据，以提高系统的处理性能。目前最高性能的CPU芯片中可包括16处理核心，可以独立分配管理每个处理核心的资源，从而同时并行处理16个数据报文，即可并行处理16个线程。虽然处理性能是其他单核心系统的16倍，但由于处理不过来而缓存的报文个数受数据处理系统的整体内存大小和资源管理单元自身的资源容量大小限制，超出资源容量后即造成系统对数据的丢包，从而达到了系统的最大处理性能的瓶颈。

同时，由于目前的硬件生产工艺所限，不太可能更进一步提高MIPS指令集系统的集成度，所以CPU芯片中的处理核心数量很难再有所增加，整体处理能力因此受到限制，在实际使用过程中，数据处理系统的最大处理性能只有40Gbps，对于日益增长的数据量，此时的性能已经不能满足实际需要，如果要应对大数据量的接入，需要增加现场的数据处理系统对应的数据处理设备，然而此方式又会受到现场空间、电力资源消耗、投资成本等各方面的限制，因而不具有良好的可扩展性。

有鉴于此，本发明实施例提供了一种基于进阶精简指令集机器(Advanced RISCMachine，ARC)架构的数据处理系统。具体如下：

图1是本发明实施例提供的一种数据处理系统的结构框图，本实施例适用于提升CPU芯片中各个处理单元集成度的情况。该数据处理系统可以通过软件和/或硬件的方式实现，该终端设备可以是两个或多个物理实体构成，也可以是一个物理实体构成。本实施例中，该数据处理系统包括一个中央处理器CPU芯片。可以理解为，该数据处理系统为一个CPU芯片。

其中，CPU芯片包括N个集群，集群包括M个处理核心，处理核心至少包括一个线程；每个处理核心包括一个运算单元，其中，1≤N≤16，1≤M≤16；

参考图1，本实施例中，示例性地，以一个CPU芯片中包括16个集群，同时一个集群中包括16个处理核心为例，对数据处理系统进行说明。可以理解为，一个CPU芯片中包括256个处理核心。当然，为了更容易示出CPU芯片、集群以及处理核心之间的关系，在图1中只是示例性地表示出一个CPU芯片中所包括的集群以及一个集群中所包括的处理核心，比如，一个CPU核心中包括16个集群，分别为集群0、集群1、集群2……集群15。同时，每个集群中包括16个处理核心，分别为处理核心0、处理核心1、处理核心2……处理核心15。

当然，考虑到每个CPU芯片的物理体积是有限的，一般在一个CPU芯片中最多设置16个集群，并且每个集群至多设置16个处理核心。其中，每个集群之间通过片内总线连接，该片内总线为片内高速总线，以及该片内总线为数据总线，用于在各个集群之间进行数据传输。

在实施例中，CPU芯片采用ARC架构。其中，ARC架构为一个32位精简指令集处理器架构，其具有独特的可配置性和可扩展性，对于CPU芯片中用不到的外设模块，可以灵活地对其进行剪裁，给工程设计人员提供了极大的设计弹性。可以理解为，设计人员可以根据不同的需求对总线接口类型、数据位宽、寻址位宽、指令类型等属性进行配置；针对于网络数据处理应用，如访问效率低下的输入/输出(Input/Output，IO)设备即可进行裁剪。这种“量身剪裁”的设计方式，使得工程设计人员可以在性能、功耗、面积等方面取得更好的平衡，为提高系统并行处理能力奠定物理基础。

在此需要说明的是，单个CPU芯片内的核心处理单元采用集群的方式组织，高度集成多个处理核心，采用更广阔的集成思路。可以理解为，在一个CPU芯片包括多个集群，并且一个集群中包括多个处理核心，以及一个处理核心中包括多个线程。其中，线程为硬线程，每个硬线程为数据处理的并行最小单位，可以享有独立的栈、寄存器等内存资源，避免了现有系统中在线程切换执行时需保存返回地址、栈指针等额外计算资源的开销。其中，硬线程可以理解为系统内核级别的线程。

当然，每个处理核心中只有一个运算单元，其中，运算单元为算术逻辑单元(Arithmetic and Logic Unit，ALU)，即每次同一时间只能有一个线程执行运算，而每个处理核心中可设置多个线程，是为了在某个线程需要加载内存数据等外部资源请求时，可以切换到另外一个线程执行数据计算，而不用使运算单元一直等待上个线程的外部资源请求，从而造成计算资源的浪费。当本线程执行到需要请求外部资源时，再切换下个线程执行计算，需要请求外部资源时再切换到下一个线程，直至完成当前处理核心中所有线程的数据运算，再切换至最初的线程，此时最初的线程完成外部资源请求，直接可以进行运算。其中，最初的线程为当前处理核心中第一个请求外部资源的硬线程。以此类推，一个处理核心中的多个线程循环使用运算资源。同时，线程采用直接内存访问(Direct Memory Access，DMA)方式请求外部资源，不需要运算单元的干预，从而达到数据处理的高度并行执行。

本方案采取的集成方式突破了原有的内部存储资源以核心为单位的组织方式，可以以集群为单位组织内部存储资源，避免了太多碎片化的资源管理造成的额外开销。同时，每个集群具有独立的存储单元，在处理数据时可以优先访问本集群中的资源，以及不同的集群之间由片内高速总线进行连接，从而可以相互访问不同集群中的存储资源，实现系统内部的资源共享，从而使资源管理和访问更加高效。

本实施例的技术方案，通过在一个中央处理器CPU芯片上包括至少一个集群，并且每个集群至少包括一个处理核心，以及每个处理核心包括一个线程，在当前线程请求外部资源时，自动切换到当前处理核心中的下一个线程，以使当前处理核心中的运算单元执行下一个线程的数据运算，直至完成当前处理核心中所有线程的数据运算，再返回至当前处理核心中第一个发送外部资源请求的线程，继续执行对外部资源的数据运算。本发明实施例通过在数据处理系统的物理体积没有增加的情况下，使得处理核心的数目大幅增加，可以同时对多个线程进行并行处理，从而大幅度地增加了系统处理性能。

图2是本发明实施例提供的一种处理核心中各个线程的切换示意图。在实施例中，在该处理核心中以包括16个线程为例，对数据运算的过程进行说明。参考图2，在处理核心1中包括16个线程，依次为线程0、线程1、线程2……线程15。假设线程0作为处理核心1中的当前线程，在线程0请求外部资源时，自动切换到处理核心1中的下一个线程，即切换到线程1，以使处理核心1中的运算单元执行线程1的数据运算；当线程1请求外部资源时，自动切换到线程2，以使处理核心1中的运算单元执行线程2的数据运算，依次类推，直至完成处理核心1中所有线程的数据运算，即完成线程15的数据运算，再返回至线程0，以使运算单元继续执行线程0所请求的外部资源的数据运算。在此需要说明的是，需要将当前处理核心中所有线程的数据运算执行完毕，才返回至当前处理核心中第一个发送外部资源请求的线程，是因为运算单元对当前处理核心中所有线程执行数据运算所需要的总时长接近于一个线程请求外部资源的时长。可以理解为，在完成处理核心1中的线程0、线程1……线程15这16个线程的数据运算所需要的总时长与线程0请求外部资源的时长是相近的，为了减少计算资源的浪费，在完成处理核心1中的16个线程的数据运算，才返回至线程0继续执行对外部资源的数据运算。

在此需要注意的是，图2只是示例性地示出了处理核心中各个线程切换的一种方式，即按照线程的顺序依次执行数据运算。但在实际的操作运算中，可根据实际情况在各个线程之间进行切换。当然，各个线程之间的切换是由处理核心中的多线程控制单元和动态分支预测单元来控制的。具体的控制过程见下述对处理核心中各个单元组成的描述。

图3是本发明实施例提供的一种处理核心中各个单元的组成逻辑示意图。参考图3，该处理核心110包括：运算内存1101中断控制单元1102、多线程控制单元1103、动态分支预测单元1104、缓存单元1105和内存管理单元1106；

其中，中断控制单元1102、多线程控制单元1103、动态分支预测单元1104、缓存单元1105以及内存管理单元1106(Memory Management Unit，MMU)均与运算单元1101连接。在实施例中，在实施例中，根据网络数据的特性，每个处理核心剪裁去掉不使用的外设模块，比如，受限的光学CMOS传感器控制器(Limited Optical CMOS Sensor Controller，LOCSC)、集成电路内置音频总线(Inter—IC Sound，I2S)、通用串行总线(UniversalSerial Bus，USB)接口，而保留需要的Flash、DMA、同步动态随机存储器(SynchronousDynamic Random Access Memory，SDRAM)、通用异步收发传输器(Universal AsynchronousReceiver/Transmitter，UART)、实时时钟(Real-Time Clock，RTC)等外设模块，从而保持必备最小系统的特性。

其中，由运算单元1101、中断控制单元1102、多线程控制单元1103、动态分支预测单元1104、缓存单元1105、MMU单元1106等组成单个处理核心。其中，运算单元1101可执行各个单元中的数据运算；中断控制单元1103，用来控制CPU外界或内部所产生的中断请求，暂停正在处理的任务，并处理中断的任务；多线程控制单元1103，用来控制多个线程之间的切换；动态分支预测单元1104用来预测在当前线程请求外部资源时，所切换的下一个线程；缓存单元1105用来缓存各个单元的数据信息；MMU单元1106是用来管理虚拟存储器、物理存储器的控制线路，同时也负责虚拟地址映射为物理地址，以及提供硬件机制的内存访问授权，多用户多进程操作系统。

在此需要说明的是，处理核心110中的各个单元之间协同工作，以及运算单元1101采用七级无中断流水线模式。其中，指令流水线有取指、译码、执行、访存、写回寄存器堆5个过程段，共有7条指令连续输入此流水线。在实施例中，七级无中断流水线模式，可以理解为有7条指令连续输入此流水线，以实现取指、译码、执行、写回寄存器堆等各阶段并行执行。

在此需要注意的是，一个处理核心中各个线程的切换是由动态分支预测单元1104和多线程控制单元1103共同实现的。在实施例中，各个线程之间的切换与每个线程的运算量等各个因素有关，以实现计算的平衡。可以理解为，一个处理核心中的各个线程的切换并非按照线程顺序执行，即如图2所示的各个线程的切换方式；可以按照各个线程的运算量，以满足运算单元1101的计算平衡。

图4是本发明实施例提供的另一种处理核心中各个线程的切换示意图。假设线程0为当前线程，当前处理核心为处理核心2。动态分支预测单元1104根据处理核心2中的其它线程的运算量，预测出下一个线程，比如，计算出下一个线程为线程7，则在线程0请求外部资源时，多线程控制单元1103控制线程0切换到线程7，并控制运算单元1101执行线程7的数据运算；同时动态分支预测单元1104继续对下一个线程进行预测，若预测出下一个线程为线程10，则在线程7请求外部资源时，多线程控制单元1103控制线程7切换到线程10，并控制运算单元1101执行线程10的数据运算，依次类推，根据动态分支预测单元1104对下一个线程进行预测，以及通过多线程控制单元1103控制下一个线程的切换，直至完成处理核心2中所有线程的数据运算，再返回处理核心2中的线程0，继续执行对外部资源的数据运算。在此需要说明的是，在图4中只是示例性地示出了线程0、线程7和线程10的切换，其他线程之间的切换，也是按照动态分支预测单元1104和多线程控制单元1103的控制来实现，但并未在图4中进行示出。

在实施例中，每个处理核心可包括16个硬线程，并且该16个硬线程共享一个运算单元，而栈、寄存器等其他部件由每个线程独享，因此在线程切换时不需要单独保存程序上下文信息，提高了系统运行效率。同时，在各个线程切换时，由多线程控制单元1103控制，并且在某个线程需要使用DMA方式请求外部资源时，为了充分利用运算单元1101的执行时间，就会切换至下一个线程进行运算，同时本线程通过DMA方式请求需要的外部资源，两者并行执行，待运算单元1101执行的线程执行到需要请求外部资源时，再切换下一个线程，以此循环，实现运算单元1101一直保持运算状态，不会浪费计算资源。

图5是本发明实施例提供的一种集群中各个处理核心的连接关系示意图。在实施例中，考虑到每个CPU芯片的物理体积，每个集群中可包括的处理核心的个数至少为1个，至多为16个。示例性地，以每个集群中包括16个为例，对处理核心进行说明。也可理解为，每16个处理核心集成为一个集群。参考图5，以集群6所包括的处理核心为例，对各个处理核心之间的连接关系进行说明。假设在集群6中包括16个处理核心，分别为处理核心0、处理核心1、处理核心2……处理核心15。同时，每个处理核心之间通过片内总线连接，其中，片内总线为数据总线，用来在各个处理核心之间进行数据传输。其中，CPU芯片中的第一个处理核心为管理核，对操作系统进行初始化；CPU芯片中的其它处理核心为业务核，运行数据处理进程。可以理解为，第一个集群中的第一个处理核心运行操作系统，并为软件初始化等提供支持，称为管理核；以及为其他处理核心的每个硬线程创建相应的软件处理进程，其他处理核心称为业务核，用来运行第一个集群中的第一个处理核心，即第一个集群中的处理核心0所创建的数据处理进程，且每个数据处理进程需绑定到业务核的每个硬线程。在实施例中，业务核处理数据时不需要与操作系统进行交互，减少了系统调用等交互过程，从而提升了系统处理性能。

由于本架构很大程度上提高了CPU芯片内部中各个处理单元的密度，增加了CPU芯片的处理单元集成度，以及增加了并行处理数据的能力，和提高了系统并行处理的程度，从而提高了数据处理系统的吞吐能力。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据处理系统，其特征在于，包括：一个中央处理器CPU芯片；所述CPU芯片包括N个集群，所述集群包括M个处理核心，所述处理核心至少包括一个线程；每个所述处理核心包括一个运算单元，其中，1≤N≤16，1≤M≤16；

2.根据权利要求1所述的数据处理系统，其特征在于，所述CPU芯片采用进阶精简指令集机器ARC架构。

3.根据权利要求1所述的数据处理系统，其特征在于，所述CPU芯片中的第一个处理核心为管理核，对操作系统进行初始化；

4.根据权利要求1所述的数据处理系统，其特征在于，所述线程采用直接内存访问DMA方式请求外部资源。

5.根据权利要求1所述的数据处理系统，其特征在于，每个所述处理核心之间通过片内总线连接，每个所述集群之间通过片内总线连接。

6.根据权利要求5所述的数据处理系统，其特征在于，所述片内总线为数据总线。

7.根据权利要求1所述的数据处理系统，其特征在于，所述运算单元采用七级无中断流水线模式。

8.根据权利要求1所述的数据处理系统，其特征在于，所述处理核心还包括：中断控制单元、多线程控制单元、动态分支预测单元、缓存单元和内存管理单元；

9.根据权利要求2所述的数据处理系统，其特征在于，所述ARC架构为一个32位精简指令集处理器架构。

10.根据权利要求1所述的数据处理系统，其特征在于，所述线程为硬线程。