CN112162942B

CN112162942B - 一种多模态图像处理硬件加速系统

Info

Publication number: CN112162942B
Application number: CN202011063314.8A
Authority: CN
Inventors: 高军军; 李超; 欧阳鹏
Original assignee: Nanjing Yunzhi Technology Co ltd
Current assignee: Nanjing Yunzhi Technology Co ltd
Priority date: 2020-09-30
Filing date: 2020-09-30
Publication date: 2022-12-23
Anticipated expiration: 2040-09-30
Also published as: CN112162942A

Abstract

本发明为一种多模态图像处理硬件加速系统，包括命令缓存控制器、读数据DMA控制器、待计算数据缓存器、计算控制器、共享计算资源池、内部结果数据缓存器和写数据DMA控制器。命令缓存控制器缓存区能够实现参数的单个辅助计算。计算控制器能够解析出辅助计算类型的参数，将辅助计算类型的参数推送到相应控制状态机。写数据DMA控制器能够侦测内部结果数据缓存器的状态，当发现有计算结果数据时，根据计算结果数据的最终数量、现有的计算结果数据量和总线写出效率，驱动总线接口控制以向外部存储器写出计算结果数据。本发明能够高效地完成图像处理过程中的辅助运算。

Description

一种多模态图像处理硬件加速系统

技术领域

本发明涉及图像处理领域，具体为一种多模态图像处理硬件加速系统。

背景技术

在基于卷积神经网络(CNN)的人脸识别集成电路中，大量的卷积运算可以在CNN中完成，但是在这之前的图像预处理需要辅助计算，比如图像缩放、仿射变换却只能通过别的硬件模块处理，比如CPU来计算，但CPU来处理图像的运算速度慢，且占用了CPU的指令时间资源。所以对这些人脸识别的流程中的图像预处理等操作，一般有专有的硬件单元来高速、高效地完成计算。

专用集成电路完成一些这样的算子加速，比如GPU，但这样的专有电路来完成这些辅助计算，又太过浪费。如果专门为其中一个算子设计一个专有电路，同样也会浪费资源，一是DMA通道的浪费、二是MAC算子的浪费。

发明内容

本发明的目的是提供一种多模态图像处理硬件加速系统，高效地完成图像处理过程中的辅助运算。

为了实现上述目的，采用的技术方案为：一种多模态图像处理硬件加速系统，包括一个命令缓存控制器、一个读数据DMA控制器、一个待计算数据缓存器、一个计算控制器、一个共享计算资源池、一个内部结果数据缓存器和一个写数据DMA控制器。

命令缓存控制器缓存区中按分组的方式存储多组命令参数，每一组所述命令参数能够实现单个辅助计算。

读数据DMA控制器能够读取外部存储的待计算数据。

待计算数据缓存器与所述读数据DMA控制器连接，所述待计算数据缓存器能够存储所述读数据DMA控制器从外部存储器读回来的待计算数据。

计算控制器其包括一个命令获取模块、一个命令解码模块、多个控制状态机、一个数据获取模块和一个数据选择交互模块

命令获取模块与所述命令缓存控制器连接，所述命令获取模块能够读取命令缓存控制器中存储的命令参数。

命令解码模块与所述命令获取模块连接，所述命令解码模块对所述命令获取模块读回的命令参数进行解析，判断下一步辅助计算的类型，并且解析出所述辅助计算类型的参数，将所述辅助计算类型的参数推送到相应控制状态机。

多个控制状态机分别与所述命令解码模块连接，所述控制状态机接收到辅助计算类型的参数，根据上述辅助计算类型的参数执行算法计算流程，按照所述算法计算流程对共享计算资源池的计算资源进行相应的调度控制。

数据获取模块与所述待计算数据缓存器连接，所述数据获取模块能够向所述待计算数据缓存器发送读取数据命令，并得到返回的待计算数据，将所述待计算数据送给。

数据选择交互模块分别与所述数据获取模块、内部共享计算资源池和内部结果数据缓存器连接，所述数据选择交互模块能够与共享计算资源池数据交互，将所述待计算数据发送给所述共享计算资源池，并得到所述共享计算资源池返回的计算结果数据。

共享计算资源池与所述数据选择交互模块连接，所述共享计算资源池能够能够提供各个算子共用的乘法器和加法器等计算资源，完成辅助计算获得计算结果数据并发送至所述数据选择交互模块。

内部结果数据缓存器与所述数据选择交互模块连接，所述内部结果数据缓存器能够接收所述数据选择交互模块写入的计算结果数据并暂存。

写数据DMA控制器能够侦测所述内部结果数据缓存器的状态，当发现有计算结果数据时，根据所述计算结果数据的最终数量、现有的计算结果数据量和总线写出效率，驱动总线接口控制以向外部存储器写出计算结果数据。

与现有技术相比，本发明的技术效果为：本发明能够用来解决人脸识别过程中需要辅助完成的一些计算，用于完成图像缩放、图像仿射变换、非极大值抑制、特征值比对操作。本发明带来下述两方面的有益效果。

一方面，命令缓存控制器的缓存区中按分组的方式存储多组命令参数，每一组命令参数能够实现单个辅助计算。命令缓存控制器可实现多组命令参数的存储，且每组命令参数的计算内容可以完全不同，多组命令参数一次配置即可。

命令解码模块对命令获取模块读回的命令参数进行解析，判断下一步辅助计算的类型，并且解析出辅助计算类型的参数，将辅助计算类型的参数推送到相应控制状态机，完成不同图像的不同加速计算。解决了软件和硬件加速器之前频繁调度的问题，加速了AI辅助图像计算的速度，释放了CPU指令资源。

另一方面，共享计算资源池能够提供各个算子共用的乘法器和加法器等计算资源，完成辅助计算获得计算结果数据并发送至数据选择交互模块。对各个算子需要的公共资源，比如SRAM、乘法器、DMA通道进行了充分的复用，保证了最少的资源完成更多的任务。

附图说明

图1为本发明多模态图像处理硬件加速系统的结构示意图。

图2为本发明中命令缓存控制器的结构示意图。

图3为本发明中待计算数据存储器的结构示意图。

图4为本发明中计算控制器的结构示意图。

图5为本发明中读数据DMA控制器的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述。

本发明一实施例为一种多模态图像处理硬件加速系统，如图1所示，包括一个命令缓存控制器10、一个读数据DMA控制器20、一个待计算数据缓存器30、一个计算控制器40、一个共享计算资源池50、一个内部结果数据缓存器60和一个写数据DMA控制器70。

命令缓存控制器10表示为CMD_BUF，读数据DMA控制器20表示为DMA_RD，待计算数据缓存器30表示为RD_BUF，一个计算控制器40表示为PEM，一个共享计算资源池50表示为MACs，内部结果数据缓存器60表示为WR_BUF，写数据DMA控制器70表示为DMA_WR。

命令缓存控制器10的缓存区中按分组的方式存储多组命令参数，每一组命令参数能够实现单个辅助计算。命令缓存控制器10中存储的命令参数能够实现一张图像缩放计算、一张图像仿射变换计算、一组特征值比对计算和一组非极大值抑制计算中的一个。

命令缓存控制器10可实现多组命令参数的存储，且每组命令参数的计算内容可以完全不同，多组命令参数一次配置，完成不同图像的不同加速计算。解决了软件和硬件加速器之前频繁调度的问题，释放了CPU软件资源。

如图2所示，命令缓存控制器10中静态存储器(SRAM)存储的参数组(parametergroup)，本发明对参数组的数量不作限制，可根据需要设置成4组或8组或16组或其它组数。参数组内的参数个数也不限，根据支持的模式的复杂度可以是8个或者其它数目。

比如，参数组包括第一参数组、第二参数组、第三参数组、第四参数组。辅助计算包括一张图像缩放计算、一张图像仿射变换计算、一组特征值比对计算和一组非极大值抑制计算。

第一、二、三、四参数组分别对应一组图像缩放(resize)命令参数、一组图像仿射变换(Affine)命令参数、一组特征值比对(Match)命令参数和一组非极大值抑制(NMS)命令参数。上述四个类型的辅助计算分别对应第一、二、三、四参数组。

读数据DMA控制器20能够读取外部存储的待计算数据。

待计算数据缓存器30与读数据DMA控制器20连接，待计算数据缓存器30能够存储读数据DMA控制器20从外部存储器读回来的待计算数据。

图3示出了待计算数据缓存器30的结构示意图，待计算数据缓存器30通过Line_buf0、Line_buf1组成乒乓buffer使用，且两个buffer中包括深度128、宽度32bits的存储单元。

由于图像处理的特点是数据量大，因而需要的存储资源多，一般需要很大的LineBuffer来存储各行图像数据。而本发明设计了短buffer方案，根据计算控制器40的计算需求，分解从外存储器取数据的命令需求，读回数据写在待计算数据缓存器30中。待计算数据缓存器30只需要Line_buf0、Line_buf1组成乒乓buffer使用，且两个buffer里边都只需要深度128、宽度32bits的sram即可。

如图4所示，计算控制器40包括一个命令获取模块41、一个命令解码模块42、多个控制状态机43、一个数据获取模块44和一个数据选择交互模块45。

其中，命令获取模块41表示为Fetch_CMD，命令解码模块42表示为CMD_DECODE，控制状态机表示为FSM，数据获取模块44表示为Fetch_DATA，数据选择交互模块45表示为MAC_MUX。

命令获取模块41与命令缓存控制器10连接，命令获取模块41能够读取命令缓存控制器10中存储的命令参数。

命令解码模块42与命令获取模块41连接，命令解码模块42对命令获取模块41读回的命令参数进行解析，判断下一步辅助计算的类型，并且解析出辅助计算类型的参数，将辅助计算类型的参数推送到相应控制状态机。

多个控制状态机43分别与命令解码模块42连接，控制状态机接收到辅助计算类型的参数，根据上述辅助计算类型的参数执行算法计算流程，按照算法计算流程对共享计算资源池50的计算资源进行相应的调度控制。

控制状态机43包括缩放状态机431(resize_FSM)、仿射变换状态机432(Affine_FSM)、特征值比对状态机433(MATCH_FSM)、非极大值抑制状态机434(NMS_FSM)。

每个控制状态机按照预设的计算步骤确定计算流程，对共享计算资源池50计算资源进行相应地调度控制。

数据获取模块44与待计算数据缓存器30连接，数据获取模块44能够向待计算数据缓存器30发送读取数据命令，并得到返回的待计算数据，将待计算数据送给数据选择交互模块45。

数据选择交互模块45分别与数据获取模块44、内部共享计算资源池50和内部结果数据缓存器60连接，数据选择交互模块45能够与共享计算资源池50数据交互，将待计算数据发送给共享计算资源池50，并得到共享计算资源池50返回的计算结果数据。

共享计算资源池50与数据选择交互模块45连接，共享计算资源池50能够提供各个算子共用的乘法器和加法器等计算资源，完成辅助计算获得计算结果数据并发送至数据选择交互模块45。

内部结果数据缓存器60与数据选择交互模块45连接，内部结果数据缓存器60能够接收数据选择交互模块45写入的计算结果数据并暂存。

写数据DMA控制器70能够侦测内部结果数据缓存器60的状态，当发现有计算结果数据时，根据计算结果数据的最终数量、现有的计算结果数据量和总线写出效率，驱动总线接口控制以向外部存储器写出计算结果数据。

本发明的计算结果数据会被直接写出到外部存储器，这个外写的过程通过内部结果数据缓存器60和写数据DMA控制器70实现，无需CPU软件干预。

本发明能够用来解决人脸识别过程中需要辅助完成的一些计算，用于完成图像缩放、图像仿射变换、非极大值抑制、特征值比对操作。本发明带来下述两方面的有益效果。

一方面，命令缓存控制器10的缓存区中按分组的方式存储多组命令参数，每一组命令参数能够实现单个辅助计算。命令缓存控制器10可实现多组命令参数的存储，且每组命令参数的计算内容可以完全不同，多组命令参数一次配置即可。

命令解码模块42对命令获取模块41读回的命令参数进行解析，判断下一步辅助计算的类型，并且解析出辅助计算类型的参数，将辅助计算类型的参数推送到相应控制状态机，完成不同图像的不同加速计算。解决了软件和硬件加速器之前频繁调度的问题，加速了AI辅助图像计算的速度，释放了CPU指令资源。

另一方面，共享计算资源池50能够提供各个算子共用的乘法器和加法器等计算资源，完成辅助计算获得计算结果数据并发送至数据选择交互模块45。对各个算子需要的公共资源，比如SRAM、乘法器、DMA通道进行了充分的复用，保证了最少的资源完成更多的任务。

发明应用于人脸识别的芯片中，能够快速高效完成主体运算(如卷积运算)之外的辅助运算。

读数据DMA控制器20实现从外部存储器读回待计算数据的功能。

如图5所示，读数据DMA控制器20包括一个RD_CMD_GEN模块21、一个BUS_FSM模块22和一个RD_DATA_R模块23。

RD_CMD_GEN模块21能够将内部取数据的命令按照最优的总线读数据效率来拆分命令，以实现最短的总线读数据延时和最少的多余总线数据操作，对于计算控制器40的连续地址或稠密性的大数据读操作，采用总线连续读数据。

BUS_FSM模块22为衔接总线和内部模块，BUS_FSM模块能够按照总线协议从外部存储器读回所需数据，实现内部读命令到总线接口协议的转换。

RD_DATA_R模块23分别与RD_CMD_GEN和待计算数据缓存器30连接。RD_DATA_R模块能够根据RD_CMD_GEN提供的信息，对读回的数据做有用过滤处理，将有用的数据输出给待计算数据缓存器30，对无用数据做丢弃处理，以此实现最大的实际有效数据带宽的效果。

本发明通过上述读数据DMA控制器20建立高效的数据读取通道。通过DMA通道读取外部存储器数据时，连续读取和点读模式相结合实现方式，极大地优化了对存储器的读取效率。

下面以处理两张图像为例，具体说明本发明多模态图像处理硬件加系统对图像辅助计算的过程。

假设第一张图像做缩放计算，第二张图像做非极大值抑制计算。

S101：往命令缓存控制器10配置两组命令参数，一组缩放计算所需参数，一组非极大值抑制计算参数。然后配置group_num寄存器为命令缓存控制器10中参数组的个数，配置start寄存器启动图像加速工作。

S102：计算控制单元的命令获取模块41，在接收到start开启工作信号后，从命令缓存控制器10中按组读取命令参数，并推送到命令解码模块42模块，命令解码模块42对命令参数进行解析并，判断该组参数所要执行的计算操作属于四种计算模式的那一种，并将解析出的相关命令参数推送到相应的计算控制器40，以及读数据DMA控制器20和写数据DMA控制器70。

S103：读数据DMA控制器20根据解析出的相关缩放命令参数，从外部存储器中顺序读取待计算数据，并写入待计算数据缓存器30的乒乓Line buffer中。

S104：计算控制单元中的数据获取模块44，在待计算数据缓存器30非空情况下，读取待计算数据缓存器30中的待计算数据，并将返回的待计算数据送到数据选择交互模块45。

四种计算模式的控制状态机RESIZE_FSM、NMS_FSM、MATCH_FSM、AFFINE_FSM，根据命令解码模块42模块提供的命令参数，启动相应的

状态机，控制数据选择交互模块45的选通，将待计算数据送给共享计算资源池50，以及按照算法计算流程，对共享计算资源池50的计算资源进行调度控制。并将共享计算资源池50的计算返回结果写出到WR_BUF中。

S105：写数据DMA控制器70将内部结果数据缓存器60中数据写出到外部存储器。

S106：对第一张图像所需的缩放辅助计算完成，并将计算结果数据全部写到外部存储器后，group_num寄存器值减一，结果值为零，则产生计算完成中断，非零则重新开始第二步，进行第二张图像的非极大值抑制计算。

在S101中，命令缓存控制器10配置两组命令参数，可以完成一次配置，两张图像不同模式的计算。命令缓存控制器10配置N组命令参数，可以实现N张模式的计算。S103和S104中从外部存储器读取数据并存储到Line buffer中，然后使用共享计算资源池50计算。四种不同的计算功能复用Line buffer和共享计算资源池50资源，实现保证了最少的资源完成更多的任务。

Claims

1.一种多模态图像处理硬件加速系统，其特征在于，包括：

一个命令缓存控制器，其缓存区中按分组的方式存储多组命令参数，每一组所述命令参数能够实现单个辅助计算；所述辅助计算包括一张图像缩放计算、一张图像仿射变换计算、一组特征值比对计算和一组非极大值抑制计算；

一个读数据DMA控制器，其能够读取外部存储的待计算数据；

一个待计算数据缓存器，其与所述读数据DMA控制器连接，所述待计算数据缓存器能够存储所述读数据DMA控制器从外部存储器读回来的待计算数据；

一个计算控制器，其包括：一个命令获取模块、一个命令解码模块、多个控制状态机、一个数据获取模块和一个数据选择交互模块；

一个命令获取模块，其与所述命令缓存控制器连接，所述命令获取模块能够读取命令缓存控制器中存储的命令参数；

一个命令解码模块，其与所述命令获取模块连接，所述命令解码模块对所述命令获取模块读回的命令参数进行解析，判断下一步辅助计算的类型，并且解析出所述辅助计算类型的参数，将所述辅助计算类型的参数推送到相应控制状态机；

多个控制状态机，其分别与所述命令解码模块连接，所述控制状态机接收到辅助计算类型的参数，根据上述辅助计算类型的参数执行算法计算流程，按照所述算法计算流程对共享计算资源池的计算资源进行相应的调度控制；

一个数据获取模块，其与所述待计算数据缓存器连接，所述数据获取模块能够向所述待计算数据缓存器发送读取数据命令，并得到返回的待计算数据，将所述待计算数据送给数据选择交互模块；和

一个数据选择交互模块，其分别与所述数据获取模块、共享计算资源池和内部结果数据缓存器连接，所述数据选择交互模块能够与共享计算资源池数据交互，将所述待计算数据发送给所述共享计算资源池，并得到所述共享计算资源池返回的计算结果数据；

一个共享计算资源池，其与所述数据选择交互模块连接，所述共享计算资源池能够提供各个算子共用的计算资源，完成辅助计算获得计算结果数据并发送至所述数据选择交互模块；所述计算资源包括乘法器和加法器；

一个内部结果数据缓存器，其与所述数据选择交互模块连接，所述内部结果数据缓存器能够接收所述数据选择交互模块写入的计算结果数据并暂存；

一个写数据DMA控制器，其能够侦测所述内部结果数据缓存器的状态，当发现有计算结果数据时，根据所述计算结果数据的最终数量、现有的计算结果数据量和总线写出效率，驱动总线接口控制以向外部存储器写出计算结果数据。

2.根据权利要求1所述的多模态图像处理硬件加速系统，其特征在于，所述读数据DMA控制器包括：

一个RD_CMD_GEN模块，其能够将内部取数据的命令按照最优的总线读数据效率来拆分命令，以实现最短的总线读数据延时和最少的多余总线数据操作，对于计算控制器的连续地址或稠密性的大数据读操作，采用总线连续读数据；

一个BUS_FSM模块，其能够按照总线协议从外部存储器读回所需数据，实现内部读命令到总线接口协议的转换；

一个RD_DATA_R模块，其分别与所述RD_CMD_GEN和所述待计算数据缓存器连接；所述RD_DATA_R模块能够根据RD_CMD_GEN提供的信息，对读回的数据做有用过滤处理，将有用的数据输出给待计算数据缓存器，对无用数据做丢弃处理。

3.根据权利要求2所述的多模态图像处理硬件加速系统，其特征在于，所述待计算数据缓存器通过Line_buf0、Line_buf1组成乒乓buffer使用，且两个buffer中包括深度128、宽度32bits的sram。

4.根据权利要求1或2所述的多模态图像处理硬件加速系统，其特征在于，所述控制状态机包括缩放状态机、仿射变换状态机、特征值比对状态机、非极大值抑制状态机，每个控制状态机按照预设的计算步骤确定计算流程，对所述共享计算资源池计算资源进行相应地调度控制。