CN115330587A

CN115330587A - 图形处理器的分布式存储互联结构、显卡及访存方法

Info

Publication number: CN115330587A
Application number: CN202210698212.6A
Authority: CN
Inventors: 刘贤华; 孙晨; 卢子威; 张学剑; 马凤翔
Original assignee: Moore Threads Technology Co Ltd
Current assignee: Moore Threads Technology Co Ltd
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-11-11
Anticipated expiration: 2042-02-22
Also published as: CN115330587B; CN114240731A; CN114240731B

Abstract

本发明公开了一种图形处理器的分布式存储互联结构、显卡及访存方法，其中该结构包括：目标处理单元和多个内存控制器；其中：目标处理单元，用于通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；所述直接访存路径为目标处理单元与直接访存控制器之间的路径；所述目标处理访存操作命令为低延时访存需求的访存操作命令，所述低延时访存需求为访存延迟低于预设延时阈值的需求。本发明让来自于具有低时延需求的目标处理单元的访存通过直接访存路径来访问内存，采用直接访存的方式来处理具有低延时需求的目标处理单元的访存操作命令，能够实现低延时访存。

Description

图形处理器的分布式存储互联结构、显卡及访存方法

技术领域

本发明涉及图形处理器技术领域，尤其涉及一种图形处理器的分布式存储互联结构、显卡及访存方法。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

独立显卡SoC芯片在组成上近年来也越来越复杂，它不仅包括传统的图形处理子系统(图形处理子单元或图形处理核，支持各种图形渲染)，还逐渐加入了多标准的视频处理(编解码)系统，高性能计算子系统，音视频输出子系统等等。其中由于图形渲染部分的图形处理核数量众多，往往占据了芯片(图形处理器)的大部分面积。

在存储互联上，每个图形处理核和其他访存子系统(处理单元)要访问所有DRAM接口以及多核接口中心，该多核接口中心往往是位于芯片的中心位置的一个全互联的结构，该全互联的结构收集所有的处理单元的访存命令，在这里进行地址映射、多请求仲裁和向芯片上的多个内存控制器进行分发。

由于内存互联的结构特点，即所有处理子系统都需要汇总访存需求到芯片中央的全互联的结构，然后分发到芯片外围的内存控制器，所有访存操作的时延非常大，这种时延特性对于图形处理子系统是可以接受的，但对芯片中其他子系统(子处理单元)往往有不良的影响，如视频处理子系统。关于视频处理核的设计，由于面积功耗的代价考虑，往往难以支持时延特别大的外部访存环境。如果时延超过一个设计的容限，内部处理的流水线在处理完内部数据时即进入等待状态，此时视频处理的性能(每秒钟处理的一定分辨率的帧数)就随着外部时延的增大而线性降低。所以对于访问带宽和时延都很大的GPU的系统中，最终可以获得的视频处理性能往往比较差。

发明内容

本发明实施例提供一种图形处理器的分布式存储互联结构，用以采用直接访存的方式来处理具有低延时需求的目标处理单元的访存操作命令，实现低延时访存。该结构包括：目标处理单元和多个内存控制器；其中：

目标处理单元，用于通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；所述直接访存路径为目标处理单元与直接访存控制器之间的路径；所述目标处理访存操作命令为低延时访存需求的访存操作命令，所述低延时访存需求为访存延迟低于预设延时阈值的需求。

本发明实施例提供一种显卡，用以采用直接访存的方式来处理具有低延时需求的目标处理单元的访存操作命令，实现低延时访存，该显卡包括：如上所述的图形处理器的分布式存储互联结构。

本发明实施例还提供一种图形处理器的分布式存储互联结构的访存方法，用以采用直接访存的方式来处理具有低延时需求的目标处理单元的访存操作命令，实现低延时访存，所述图形处理器的分布式存储互联结构包括：目标处理单元和多个内存控制器；所述图形处理器的分布式存储互联结构的访存方法包括：

目标处理单元通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；所述直接访存路径为目标处理单元与直接访存控制器之间的路径；所述目标处理访存操作命令为低延时访存需求的访存操作命令，所述低延时访存需求为访存延迟低于预设延时阈值的需求。

本发明实施例提供一种显卡的访存方法，用以采用直接访存的方式来处理具有低延时需求的目标处理单元的访存操作命令，实现低延时访存，该显卡的访存方法包括：如上所述的图形处理器的分布式存储互联结构的访存方法。

综上，本发明实施例提供的图形处理器的分布式存储互联结构及其显卡的方案中，该结构包括：目标处理单元和多个内存控制器；其中：目标处理单元，用于通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；所述直接访存路径为目标处理单元与直接访存控制器之间的路径；所述目标处理访存操作命令为低延时访存需求的访存操作命令，所述低延时访存需求为访存延迟低于预设延时阈值的需求。

与现有技术中各处理单元都需要集中式访存仲裁，无法满足具有低延时需求的目标处理单元的需求相比，本发明实施例提供的图形处理器的分布式存储互联结构及其显卡的方案的有益技术效果是：让来自于具有低时延需求的目标处理单元的访存通过直接访存路径来访问内存，采用直接访存的方式来处理具有低延时需求的目标处理单元的访存操作命令，实现低延时访存，提升了各处理单元的总线QoS和系统的访存效率，保证了系统带宽/时延的总体性能要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为现有技术中图形处理器的基本组成结构示意图；

图2为现有技术中图形处理器的逻辑结构示意图；

图3为现有技术中采用了集中式访存仲裁结构的图形处理器的物理结构示意图；

图4为本发明实施例中图形处理器的分布式存储互联结构的逻辑结构示意图；

图5为本发明实施例中图形处理器的分布式存储互联结构的物理结构示意图；

图6为本发明实施例中图形处理器的分布式存储互联结构的访存方法的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

存储架构和互联设计一直是SoC(System on Chip，系统级芯片)的关键部分，对于GPU SoC也尤其关键，很大程度影响了GPU(Graphics Processing Unit，图形处理器)的处理性能、总线效率、性能功耗比和性能成本比。GPU的典型特点是大量的并行计算，所以数据吞吐量的要求非常大，往往GPU SoC里面集成了很多片外部访存接口，由于外部访存接口的数量和高速接口信号的关系，通常会在物理布局会处于芯片周围或两侧。

独立显卡SoC芯片在组成上近年来也越来越复杂。不仅包括传统的图形处理子系统(支持各种图形渲染)，还逐渐加入了多标准的视频处理(编解码)系统，高性能计算子系统，音视频输出子系统等等。其中由于图形渲染部分的处理核数量众多，往往占据了芯片的大部分面积。基本组成结构如图1所示。

不同的子系统在数据存储需求方面有很大的特性差别：

1)图形处理子系统，由于并行处理单元需要的数据量很大，对于瞬时带宽有非常高的需求，但对数据延时容忍度很大；基于这个需求，访存系统总线通常设计成交织模式，对于连续的地址访问，所有的访存接口都可以同时工作，提供多倍于单通道访存接口的带宽，来满足图形处理系统的并发大数量需求。

2)视频编解码处理子系统：带宽需求相对较小；由于传统视频IP的设计通常不具备类似图形处理系统的数据延迟特性，或者如果做到容忍这么大的延时，视频处理IP的代价会非常高；如果在数据延迟比较大的系统下面工作(延时超过IP设计的门限)，视频编解码性能下降非常明显。

3)视音频输出子系统：相对前两个子系统，带宽需求很小。虽然视频输出有实时性要求，但由于视频访问很有规律性，视音频子系统可以设计成大并发的访存行为，通过提前发出多个访存命令来减小对访存的时延要求。

在存储互联上，每个图形处理核和其他访存子系统要访问所有DRAM接口以及多核接口中心，该多核接口中心往往是位于芯片的中心位置的一个全互联的结构，该结构用来收集所有的处理单元的访存，在这里进行地址映射，多请求仲裁和向芯片上的多个内存控制器进行分发。而多个内存控制器在物理布局上一般都在芯片的周围，所以从芯片中心到芯片的外围还需要比较长的访存pipeline和走线通道，这种结构系统时延通常很大，对大芯片更加严重。

上述技术方案在逻辑上如图2所示，为了满足系统各运算单元的需求采用了集中式仲裁结构，逻辑结构图如图2所示，在物理实现上，布局连线如图3所示。

发明人发现上述技术方案主要存在如下技术问题：

1.由于内存互联的结构特点，即所有处理子系统都需要汇总访存需求到芯片中央的全互联的结构，然后分发到芯片外围的内存控制单元(内存控制器)，所有的访存操作的时延非常大；这种时延特性对于图形处理子系统是可以接受的，但对芯片中其他子系统往往有不良的影响，如视频编解码子系统。视频编解码核的设计，由于面积功耗的代价考虑，往往难以支持时延特别大的外部访存环境。如果时延超过一个设计的容限，内部处理的流水线在处理完内部数据即进入等待状态，这时候视频编解码的性能(每秒钟处理的一定分辨率的帧数)就和外部时延的增大而线性降低。所以对于访问带宽和时延都很大的GPU的系统中，最终可以获得的视频编解码性能往往比较差。

2.由于视频编解码对访存带宽的需求相对较小，从外部访存通道来看，并不需要和图形处理单元一样有内存交织的实现需求。如果视频编解码访存也和图形处理单元一样进行内存交织实现，就会造成设计上的一些冗余，虽然访存带宽不大也需要穿过很长的走线通道汇聚到系统全互联中心然后分发到各内存控制器，在实际工作中会有功耗的浪费，而功耗的浪费一定程度的增加了芯片供电，静态和动态电压降，以及芯片散热设计的实现难度。

3.所有的访存命令在全互联中心进行仲裁，由于访存链路上的FIFO管理以及访存命令进入链路的次序关系，难以保证各访存单元的访存操作能在系统上的访存得到最优的调度，满足各个访存QOS。

由于发明人发现了上述技术问题，提出了一种图形处理器的分布式存储互联结构、显卡及访存方案，该方案为一种面向低延时视频处理和高带宽图形处理GPU SoC的分布式存储互联方案，下面对该图形处理器的分布式存储互联结构、显卡及工作方案进行详细介绍。

图4为本发明实施例中图形处理器的分布式存储互联结构的逻辑结构示意图，图5为本发明实施例中图形处理器的分布式存储互联结构的物理结构示意图，如图4和图5所示，该图形处理器的分布式存储互联结构包括：视频处理单元(可以是图4和图5中的视频编解核)、多个图形处理单元(可以包括图4和图5中的GPU核0至GPU核7)、多个内存控制器(可以包括图4和图5中的DRAM接口控制器0至DRAM接口控制器7)及全互联集中访存仲裁单元(可以是图4和图5中所示的全互联)；其中：

视频处理单元，用于在根据视频处理访存操作命令判断视频处理访存操作地址落入预先配置的直接访存地址范围内时，通过直接访存路径将视频处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器，上述实施过程可以通过图4和图5中的“分发控制”，即可以通过一个分发控制模块来实现；所述直接访存路径为视频处理单元与直接访存控制器之间的路径，直接访存地址范围为低延时访存需求地址范围，低延时访存需求为访存延迟低于预设延时阈值的需求；

每一图形处理单元，用于在接收到高带宽访存需求的图形处理访存操作命令时，将图形处理访存操作命令发送至全互联集中访存仲裁单元；所述高带宽访存需求为高于预设带宽阈值的需求；

全互联集中访存仲裁单元，用于根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器。

关于本发明实施例中提到的预设延时阈值的取值范围具体如何设置，取决于实际系统中的各部分的特性。例如，在一个系统中，集中式互联的访存，延时有一个范围，这个范围通常是比较大的，越大的芯片其数值就越大；而某些计算引擎(如视频处理单元)本身的设计也有一个对于访存时延的要求，如果集中式访问的时延不能接受，则需要一个更低的延时范围。同理，关于预设带宽阈值，也是依据实际应用场景而定。

本发明实施例提供的图形处理器的分布式存储互联结构，工作时：视频处理单元在根据视频处理访存操作命令判断视频处理访存操作地址落入预先配置的直接访存地址范围内时，通过直接访存路径将视频处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；所述直接访存路径为视频处理单元与直接访存控制器之间的路径，直接访存地址范围为低延时访存需求地址范围，低延时访存需求为访存延迟低于预设延时阈值的需求；每一图形处理单元在接收到高带宽访存需求的图形处理访存操作命令时，将图形处理访存操作命令发送至全互联集中访存仲裁单元；所述高带宽访存需求为高于预设带宽阈值的需求；全互联集中访存仲裁单元根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器。

综上，与现有技术中视频处理和图形处理都需要集中式访存仲裁，无法同时满足视频处理的低延时需求及图形处理的高带宽需求的技术方案相比，本发明实施例提供的图形处理器的分布式存储互联结构的有益技术效果是：让来自于视频处理单元的访存通过直接访存路径来访问内存，而高带宽的图形处理单元的访存通过全互联集中访存仲裁单元确定的访存路径来完成，采用直接访存和集中式访存相结合的结构，同时满足了视频处理的低延时需求及图形处理的高带宽需求，提升了各处理单元的总线QoS和系统的访存效率，保证了系统带宽/时延的总体性能要求。下面结合图4和图5对该图形处理器的分布式存储互联结构进行详细介绍。

本发明实施例提供的图形处理器不采用传统的集中式访存仲裁，而采用直接访存和集中访存结合的分布式内存互联方案，逻辑电路图如图4所示。延时敏感的视频处理单元(视频编解码单元，视频编解码核)可以绕过集中仲裁的集中式仲裁的全互联总线，直接与物理位置较近的内存控制器相连(如图4和图5中的DRAM接口控制器0，即直接访存控制器)，从视频编码单元发出的大数量的访存操作可以直接就近访问该内存控制器(图4和图5中的DRAM接口控制器0)，同时保留原来的视频编解码(图4和图5中的视频编解码)可以访存全互联总线到其它任意内存通道的通路。同时保留其他处理器单元通过集中式仲裁访问前面已经设置为可以直接访存的内存控制器接口(如图4和图5中的DRAM接口控制器0)，以方便不同处理器单元的数据共享。这样访存操作可分为直接访存和集中式访存两种类型，直接访存主要满足低延时的访存需要，而集中式访存主要满足高带宽而对延时不敏感的访存需要。

具体实施时，在物理实现上，增加图5中的粗体连线标识的从视频编解码核到DRAM接口控制器0的直接访存通路(直接访存路径)。保留原来通路，保证了所有的内存通道仍然可以被所有的处理器单元访问。

具体实施时，在整体统一的内存地址空间管理上，可以直接访问的内存空间编址为连续的一个地址空间，即不管是集中式访存还是直接访存操作都可以按该地址确定的路由到该内存对应的内存控制器接口。

具体实施时，在视频编解码单元的访存接口上有一个按地址分发的控制模块(图4和图5中的分发控制)，来决定是通过直接访存路径来访问内存控制器还是通过全互联集中仲裁式来访存。在全互联接口上有一个旁路控制模块(如图4和图5中的旁路制)，需要利用软件统一预先设置好可以进行直接访存的内存的地址范围。在全互联接口处，如果硬件判断当前访存操作落在该直接访存地址范围，该操作直接绕过全互联中的地址交织逻辑等逻辑，直接把访存命令分发到对应的内存通道控制接口，而如果访存地址落在非直接访存地址空间，则要按系统配置进行可能的地址交织等处理，进行集中式的访存仲裁和访存操作分发。

为了便于理解本发明如何实施，下面结合图4和图5，举个图形处理器的分布式存储互联结构的典型工作流程的例子：根据视频编解码需要，软件先通过配置分发控制模块和旁路模块设置一段内存区作为直接访存空间，物理上存放在DRAM 0(该DRAM 0需要通过DRAM控制器0来访问)，例如视频编解码所需的大量中间数据，这些中间数据要求访存延时尽可能地的小，才能保证性能。同时软件可以设置一些对延时不敏感(非低延时访存需求)的数据放到通过全互联访问的其它DRAM空间，例如视频压缩流等。视频编解码核可以通过全互联访问获取一些对延时和实时性不敏感的数据，之后基于直接访存方式快速存取DRAM0上的数据。因为软件已经在全互联接口的旁路控制模块内已经设置了DRAM0的内存空间为直接访存空间，系统中的GPU核心在旁路控制模块会被判断为绕过集中仲裁逻辑和交织控制，其访存命令会直接路由到DRAM控制器0上。

由于任何一个处理器单元都可以访问所有的内存空间，设置为直接访存控制的内存和非直接访存控制的内存区之间，不需要数据搬移，就可以做到所有内存区数据共享。如GPU核或其它引擎需要访问DRAM0，只需要在全互联总线的旁路控制模块(也可以称为旁路模块)内设置DRAM0的内存区间，所有GPU核或其它引擎的访存经过旁路控制模块判断后，就可以直接访存DRAM0。对编解码核来说，在分发控制处，只要超出了设定的直接访存区间，就自动访存到了全互联总线，之后进行集中总裁访问到了其它内存。

通过上述可知，在一个实施例中，所述视频处理单元还用于在根据视频处理访存操作命令判断视频处理访存操作地址落入预先配置的非直接访存地址范围内时，将视频处理访存操作命令发送至全互联集中访存仲裁单元，该实施过程可以通过图4和图5中的“分发控制”，即可以通过一个分发控制模块来实现；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求；

全互联集中访存仲裁单元还用于根据视频处理访存操作命令，进行集中式仲裁得到集中式仲裁的视频处理访存路径，将视频处理访存操作命令通过集中式仲裁的视频处理访存路径发送至对应的非直接访存控制器(例如图4和图5中的DRAM接口控制器1至DRAM接口控制器7)。

具体实施时，将视频处理中对延时不敏感的数据访问命令(该命令对应的视频处理访存操作地址落入预先配置的非直接访存地址范围内)分发到全互联集中访存仲裁单元，通过全互联集中访存仲裁单元选出视频处理访存路径，通过该视频处理访存路径来实现视频处理过程中对时延不敏感数据(例如视频编解码所需的大量中间数据)的访问，进一步提高了各处理单元的总线QoS和系统的访存效率，进而进一步保证了系统带宽/时延的总体性能要求。

通过上述可知，在一个实施例中，所述全互联集中访存仲裁单元具体用于在根据图形处理访存操作命令判断图形处理访存操作地址落入预先配置的非直接访存地址范围内(该实施过程可以通过图4和图5中的“旁路控制”，即可以通过一个旁路控制模块来实现)时，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的非直接访存控制器；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求。

具体实施时，将图形处理中对延时敏感的数据访问命令(该命令对应的图形处理访存操作地址落入预先配置的非直接访存地址范围内)分发到全互联集中访存仲裁单元，通过全互联集中访存仲裁单元选出图形处理访存路径，通过该图形处理访存路径来实现图形处理过程中对时延敏感数据的访问，进一步提高了各处理单元的总线QoS和系统的访存效率，进而进一步保证了系统带宽/时延的总体性能要求。

通过上述可知，在一个实施例中，所述全互联集中访存仲裁单元还用于在根据图形处理访存操作命令判断图形处理访存操作地址落入直接访存地址范围内(该实施过程可以通过图4和图5中的“旁路控制”，即可以通过一个旁路控制模块来实现)时，将图形处理访存操作命令直接路由至所述直接访存控制器。

具体实施时，将图形处理中对延时敏感的数据访问命令(该命令对应的图形处理访存操作地址落入预先配置的直接访存地址范围内)直接路由至所述直接访存控制器，进一步提高了各处理单元的总线QoS和系统的访存效率，进而进一步保证了系统带宽/时延的总体性能要求。

在一个实施例中，所述直接访存控制器可以为与视频处理单元物理连接最近的内存控制器。

具体实施时，考虑GPU SoC大芯片的物理布局，让有低延时要求的处理器(视频处理单元)直接访存和物理上最近的内存控制器，最大程度的减少由于大芯片布局来带来的长距离访存走线对时序和访存延时对功能部件性能的影响。

在一个实施例中，通过统一的内存地址管理，直接访问的内存区和其他内存区分开，包括但不局限于通过高位地址区分的方式，在每个处理器单元，通过访存地址的控制来访存特定的内存区，来实现数据共享。

在一个实施例中，所述直接访存地址范围和非直接访存地址范围对应的内存带宽和容量根据实际业务需求进行动态调整。

具体实施时，直接访问和非直接/集中式访问的内存带宽和容量的划分，可以根据应用需要灵活调整，这取决于需要低延时或需要特殊处理的带宽需求。在一般的GPU SoC中，这部分的带宽需求相对较少，这种情况下可以直接访存的内存控制通道一般不多。

在一个实施例中，直接访存路径的数目根据视频处理单元的低延时访问的总带宽需求来确定。

具体实施时，可以配置成直接访存的内存控制器通道(直接访存路径)和集中访存的内存控制器通道的数量不是固定的，该数量可以按应用需要灵活配置的。取决于需要直接访存的总体带宽需求占芯片总带宽的比例。即有1，2个或多个直接访存通道是可以配置，如图5中的粗体虚线所示。例如，芯片支持8个DRAM通道，总体带宽为8×单个DDR带宽，如视频编解码核或其它低延时引擎约需要总体带宽1/8左右，则可以设置1个通道为直接访存通道(路径)，而如果视频编解码核或其它低延时引擎约需要总体带宽1/4左右，则可以设置2个通道为直接访存通道。

具体实施时，上述以视频编解码处理器为例，做直接访存处理，其他系统(如图4和图5中的其他引擎，例如高性能计算子系统，音视频输出子系统等)中的访存单元有类似的需求也可以同样处理。在有GPU SoC系统中，存在着不同类型访存特性的处理器单元，有图形处理单元的高带宽，视频处理单元的低延时等需求，存储互联总线上采用了直接访问和集中式访问相结合的结构，来满足对一些处理器单元的低延时需求，同时满足图形处理器的高带宽需求。

本发明实施例中还提供了一种显卡，该显卡包括如上所述的图形处理器的分布式存储互联结构，由于该显卡解决问题的原理与图形处理器的分布式存储互联结构相似，因此，该显卡的实施可以参见图形处理器的分布式存储互联结构的实施，重复之处不再赘述。

本发明实施例中还提供了一种图形处理器的分布式存储互联结构的访存方法，如下面实施例所述。由于该图形处理器的分布式存储互联结构的访存方法解决问题的原理与图形处理器的分布式存储互联结构相似，因此该图形处理器的分布式存储互联结构的访存方法的实施可以参见图形处理器的分布式存储互联结构的实施，重复之处不再赘述。

图6为本发明实施例中图形处理器的分布式存储互联结构的访存方法的流程示意图，所述图形处理器的分布式存储互联结构包括：视频处理单元、多个图形处理单元、多个内存控制器及全互联集中访存仲裁单元；如图6所示，该方法包括如下步骤：

步骤101：视频处理单元在根据视频处理访存操作命令判断视频处理访存操作地址落入预先配置的直接访存地址范围内时，通过直接访存路径将视频处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；所述直接访存路径为视频处理单元与直接访存控制器之间的路径，直接访存地址范围为低延时访存需求地址范围，低延时访存需求为访存延迟低于预设延时阈值的需求；

步骤102：每一图形处理单元在接收到高带宽访存需求的图形处理访存操作命令时，将图形处理访存操作命令发送至全互联集中访存仲裁单元；所述高带宽访存需求为高于预设带宽阈值的需求；

步骤103：全互联集中访存仲裁单元根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器。

在一个实施例中，上述图形处理器的分布式存储互联结构的访存方法还可以包括：

视频处理单元在根据视频处理访存操作命令判断视频处理访存操作地址落入预先配置的非直接访存地址范围内时，将视频处理访存操作命令发送至全互联集中访存仲裁单元；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求；

全互联集中访存仲裁单元根据视频处理访存操作命令，进行集中式仲裁得到集中式仲裁的视频处理访存路径，将视频处理访存操作命令通过集中式仲裁的视频处理访存路径发送至对应的非直接访存控制器。

在一个实施例中，全互联集中访存仲裁单元根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器，可以包括：

在根据图形处理访存操作命令判断图形处理访存操作地址落入预先配置的非直接访存地址范围内时，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的非直接访存控制器；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求。

在一个实施例中，上述图形处理器的分布式存储互联结构的访存方法还可以包括：全互联集中访存仲裁单元在根据图形处理访存操作命令判断图形处理访存操作地址落入直接访存地址范围内时，将图形处理访存操作命令直接路由至直接访存控制器。

本发明实施例中还提供了一种显卡的访存方法，该显卡的访存方法包括如上所述的图形处理器的分布式存储互联结构的访存方法，由于该显卡的访存方法解决问题的原理与图形处理器的分布式存储互联结构的解决问题的原理相似，因此，该显卡的访存方法的实施可以参见图形处理器的分布式存储互联结构的实施，重复之处不再赘述。

本申请技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。

综上，本发明实施例提供图形处理器的分布式存储互联结构及其显卡的方案的有益技术效果包括：

通过分布式的存储互联结构，让来自于视频编解码器等低延时的访存通过直接访存通路来访问内存，而高带宽的访存通过集中访存通路来完成。这种结构兼顾了来自不同访存单元、不同的低延时和高带宽的访存需求，提升各处理器单元的总线QoS和系统的访存效率，保证了系统带宽/时延的总体性能要求。

直接访存通路结合物理布局的考虑，规划视频编解码器等功能模块和对应的直接访存的内存控制器直接相连，最大程度的减少这些延时敏感模块的访存延时。而传统存储互联由于处理器数量和内存控制器数量都很多，为了数据共享采用集中式互联结构，物理空间跨度很大，所有访存的时延会很大，并且芯片规模越大，问题更加严重。如前面所述，为了提高性能、缓解这种时延巨大的问题，传统结构有些会采用增强视频处理单元上的访存总线并发的能力上，通过支持发出更多的访存命令，来减轻总线时延的影响。这种方式带来的代价比较明显，接口部分需要增加更多的命令和数据缓冲处理，需要增加不少的逻辑带来面积增加，另外很多依赖型的数据访存，也难以通过瞬时发出大数据量的访存来提高性能，对硬件逻辑流水线的处理也有一定影响。除了逻辑/面积的增加，对应系统功耗的影响也比较大，因为视频编解码所有的访存都经过长距离走线经过集中全互联结构，通道上逻辑和大数量的信号翻转会带来功耗的浪费。

保留集中式和直接访存方式并存的互联结构，通过统一的内存地址管理，所有的数据共享通过集中式访问完成，即视频处理器可以通过集中式访问来访存其他内存空间，其他处理器单元也可以通过集中式访问访存配置成直接访问的内存空间，这样节省了因划分不同内存区带来的DMA数据搬移的操作。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种图形处理器的分布式存储互联结构，其特征在于，包括：目标处理单元和多个内存控制器；其中：

2.如权利要求1所述的图形处理器的分布式存储互联结构，其特征在于，所述目标处理单元在通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器时，具体用于：

在根据目标处理访存操作命令判断目标处理访存操作地址落入预先配置的直接访存地址范围内时，通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器；直接访存地址范围为低延时访存需求地址范围。

3.如权利要求1所述的图形处理器的分布式存储互联结构，其特征在于，所述分布式存储互联结构还包括全互联集中访存仲裁单元；

所述目标处理单元还用于在根据目标处理访存操作命令判断目标处理访存操作地址落入预先配置的非直接访存地址范围内时，将目标处理访存操作命令发送至全互联集中访存仲裁单元；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求；

全互联集中访存仲裁单元用于根据目标处理访存操作命令，进行集中式仲裁得到集中式仲裁的目标处理访存路径，将目标处理访存操作命令通过集中式仲裁的目标处理访存路径发送至对应的非直接访存控制器。

4.如权利要求1所述的图形处理器的分布式存储互联结构，其特征在于，所述分布式存储互联结构还包括多个图形处理单元；

全互联集中访存仲裁单元，还用于根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器。

5.如权利要求4所述的图形处理器的分布式存储互联结构，其特征在于，所述全互联集中访存仲裁单元具体用于在根据图形处理访存操作命令判断图形处理访存操作地址落入预先配置的非直接访存地址范围内时，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的非直接访存控制器；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求。

6.如权利要求4所述的图形处理器的分布式存储互联结构，其特征在于，所述全互联集中访存仲裁单元还用于在根据图形处理访存操作命令判断图形处理访存操作地址落入直接访存地址范围内时，将图形处理访存操作命令直接路由至所述直接访存控制器。

7.如权利要求3所述的图形处理器的分布式存储互联结构，其特征在于，所述全互联集中访存仲裁单元包括旁路控制模块和内存交织控制模块；

所述旁路控制模块，用于在根据目标访存命令判断目标访存地址落入预先配置的直接访存范围内时，将目标访存命令直接路由至对应的直接访存控制器；所述目标访存命令是由所述目标处理单元或所述图形处理单元生成的；

所述内存交织控制模块，用于在根据目标访存命令判断目标访存地址落入预先配置的非直接访存范围内时，根据所述目标访存命令进行集中式仲裁得到集中式仲裁的目标访存路径，并将目标访存命令通过集中式仲裁的目标访存路径发送至对应的非直接访存控制器。

8.如权利要求3-7任一项所述的图形处理器的分布式存储互联结构，其特征在于，所述直接访存地址范围内的第一地址和非直接访存地址范围内的第二地址是连续的。

9.如权利要求8所述的图形处理器的分布式存储互联结构，其特征在于，所述第一地址的高位地址和所述第二地址的高位地址不同。

10.如权利要求1-7任一项所述的图形处理器的分布式存储互联结构，其特征在于，所述直接访存控制器为与目标处理单元物理连接最近的内存控制器。

11.如权利要求1-7任一项所述的图形处理器的分布式存储互联结构，其特征在于，所述直接访存地址范围和非直接访存地址范围对应的内存带宽和容量根据实际业务需求进行动态调整。

12.如权利要求1-7任一项所述的图形处理器的分布式存储互联结构，其特征在于，所述直接访存路径的数目根据目标处理单元的低延时访问的总带宽需求来确定。

13.如权利要求1-7任一项所述的图形处理器的分布式存储互联结构，其特征在于，所述目标处理单元为视频处理单元、高性能计算单元或音视频输出单元。

14.一种显卡，其特征在于，包括：如权利要求1至13任一项所述的图形处理器的分布式存储互联结构。

15.一种图形处理器的分布式存储互联结构的访存方法，其特征在于，所述图形处理器的分布式存储互联结构包括：目标处理单元和多个内存控制器；所述图形处理器的分布式存储互联结构的访存方法包括：

16.如权利要求15所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述目标处理单元通过直接访存路径将目标处理访存操作命令发送至预先从多个内存控制器中确定出的直接访存控制器，包括：

17.如权利要求15所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述分布式存储互联结构还包括全互联集中访存仲裁单元；所述方法还包括：

所述目标处理单元在根据目标处理访存操作命令判断目标处理访存操作地址落入预先配置的非直接访存地址范围内时，将目标处理访存操作命令发送至全互联集中访存仲裁单元；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求；

全互联集中访存仲裁单元根据目标处理访存操作命令，进行集中式仲裁得到集中式仲裁的目标处理访存路径，将目标处理访存操作命令通过集中式仲裁的目标处理访存路径发送至对应的非直接访存控制器。

18.如权利要求15所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述分布式存储互联结构还包括多个图形处理单元；所述方法还包括：

每一图形处理单元在接收到高带宽访存需求的图形处理访存操作命令时，将图形处理访存操作命令发送至全互联集中访存仲裁单元；所述高带宽访存需求为高于预设带宽阈值的需求；

全互联集中访存仲裁单元根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器。

19.如权利要求18所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述全互联集中访存仲裁单元根据图形处理访存操作命令，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的内存控制器，包括：

所述全互联集中访存仲裁单元在根据图形处理访存操作命令判断图形处理访存操作地址落入预先配置的非直接访存地址范围内时，进行集中式仲裁得到集中式仲裁的图形处理访存路径，将图形处理访存操作命令通过集中式仲裁的图形处理访存路径发送至对应的非直接访存控制器；所述非直接访存地址范围为非低延时访存需求地址范围，非低延时访存需求为访存延迟不低于预设延时阈值的需求。

20.如权利要求18所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述方法还包括：所述全互联集中访存仲裁单元在根据图形处理访存操作命令判断图形处理访存操作地址落入直接访存地址范围内时，将图形处理访存操作命令直接路由至所述直接访存控制器。

21.如权利要求17所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述全互联集中访存仲裁单元包括旁路控制模块和内存交织控制模块；所述方法还包括：

所述旁路控制模块在根据目标访存命令判断目标访存地址落入预先配置的直接访存范围内时，将目标访存命令直接路由至对应的直接访存控制器；所述目标访存命令是由所述目标处理单元或所述图形处理单元生成的；

所述内存交织控制模块在根据目标访存命令判断目标访存地址落入预先配置的非直接访存范围内时，根据所述目标访存命令进行集中式仲裁得到集中式仲裁的目标访存路径，并将目标访存命令通过集中式仲裁的目标访存路径发送至对应的非直接访存控制器。

22.如权利要求17-21任一项所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述直接访存地址范围内的第一地址和非直接访存地址范围内的第二地址是连续的。

23.如权利要求22所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述第一地址的高位地址和所述第二地址的高位地址不同。

24.如权利要求15-21任一项所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述直接访存控制器为与目标处理单元物理连接最近的内存控制器。

25.如权利要求15-21任一项所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述直接访存地址范围和非直接访存地址范围对应的内存带宽和容量根据实际业务需求进行动态调整。

26.如权利要求15-21任一项所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述直接访存路径的数目根据目标处理单元的低延时访问的总带宽需求来确定。

27.如权利要求15-21任一项所述的图形处理器的分布式存储互联结构的访存方法，其特征在于，所述目标处理单元为视频处理单元、高性能计算单元或音视频输出单元。

28.一种显卡的访存方法，其特征在于，包括：如权利要求15-27所述的图形处理器的分布式存储互联结构的访存方法。