CN107657581A

CN107657581A - 一种卷积神经网络cnn硬件加速器及加速方法

Info

Publication number: CN107657581A
Application number: CN201710898502.4A
Authority: CN
Inventors: 刘胜; 郭阳; 陈胜刚; 万江华; 雷元武; 谭弘兵; 宋蕊; 曾国钊
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2017-09-28
Filing date: 2017-09-28
Publication date: 2018-02-02
Anticipated expiration: 2037-09-28
Also published as: CN107657581B

Abstract

本发明公开一种卷积神经网络CNN硬件加速器及加速方法，该加速器包括用于缓存输入特征图片数据的输入缓冲以及分别共用相同输入特征图片数据进行CNN卷积运算的多个运算单元，每个运算单元包括卷积核缓冲、输出缓冲以及由多个MAC部件构成的乘加单元，卷积核缓冲接收从外部存储部件返回的卷积核数据，分别提供给乘加单元中各个MAC部件，各个MAC部件分别接收输入特征图片数据、卷积核数据进行乘累加运算，运算的中间结果写入输出缓冲中；该加速方法为利用上述加速器的方法。本发明能够提高CNN硬件加速性能，且具有数据重用率及效率高、数据搬移量少、可扩展性能好，以及系统所需带宽、硬件开销小等优点。

Description

一种卷积神经网络CNN硬件加速器及加速方法

技术领域

本发明涉及深度学习(Deep Learning，DL)硬件加速技术领域，尤其涉及一种卷积神经网络CNN(Convolution Neural Networks，卷积神经网络)硬件加速器及加速方法。

背景技术

卷积神经网络CNN是深度学习中最重要的算法之一，其因具有精度高、权值量少的特点而被广泛地应用于目标识别、无人驾驶以及人工智能等多个领域。卷积神经网络CNN的各网络层中卷积层占据了整个网络90％以上的运算量和运算时间，对卷积层的运算进行加速是提升CNN性能的关键，因而亟需设计CNN硬件加速器来提升卷积运算效率。

CNN卷积层算法具有运算量庞大和运算机制复杂两大特点，其中，运算量庞大主要体现在卷积层的权重数据量以及特征图片数据量规模庞大，卷积过程中需要进行大量的乘累加运算，运算机制复杂则是由于卷积需要同时处理多个卷积核和多个通道的运算，控制过程复杂。CNN卷积层算法的上述两个特点使得设计高效低开销的CNN硬件加速器难度比较大。

目前CNN加速器通常是采用脉动阵列结构，脉动阵列结构具有设计简单而规则、容易实现高并行性，且运算单元间通信比较简单的优势，但这种结构也存在明显的缺点，主要包括：

1)采用脉动阵列结构时，运算单元(PE)易出现闲置率较高的情况，进而导致降低加速器的效率；

2)采用脉动阵列结构时，由于需要带宽的成比例增加来维持所需要的加速倍数，因而脉动阵列的可扩展性差。

发明内容

本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种数据重用率及效率高、数据搬移量少、可扩展性能好，以及系统所需带宽、硬件开销小的卷积神经网络CNN硬件加速器及加速方法。

为解决上述技术问题，本发明提出的技术方案为：

一种卷积神经网络CNN硬件加速器，包括用于缓存输入特征图片数据的输入缓冲以及分别共用相同输入特征图片数据进行CNN卷积运算的多个运算单元，每个所述运算单元包括卷积核缓冲、输出缓冲以及由多个MAC部件构成的乘加单元，所述卷积核缓冲接收从外部存储部件返回的卷积核数据，分别提供给所述乘加单元中各个所述MAC部件，各个所述MAC部件分别接收所述输入特征图片数据、所述卷积核数据进行乘累加运算，运算的中间结果写入所述输出缓冲中。

作为本发明加速器的进一步改进：还包括分别与输入缓冲、运算单元连接的仲裁电路，所述仲裁电路对访问外部存储部件的请求进行仲裁，以及分别将外部存储部件返回的运算参数写入参数寄存器、返回的卷积核数据写入所述卷积核缓冲和返回的输入特征图片数据写入所述输入缓冲中。

作为本发明加速器的进一步改进：所述仲裁电路通过接口电路与外部存储部件通信。

作为本发明加速器的进一步改进：所述输入缓冲配置为支持跨步按块访问的两维编址方式，其中每次按块取数的块尺寸等于所述乘加单元中所述MAC部件的数量。

作为本发明加速器的进一步改进：所述卷积核缓冲和/或所述输出缓冲采用乒乓机制以同时进行读写访问。

本发明进一步提供利用上述卷积神经网络CNN硬件加速器的加速方法，步骤包括：

S1.输入卷积层的基本参数；

S2.生成卷积运算所需的信息，并写入到所述外部存储部件中；

S3.接收到运算请求以及起始访存地址时，根据接收到的所述起始访问地址从外部存储部件中读取运算所需的所有信息并进行译码；

S4.将所述外部存储部件返回的卷积核数据写入到所述卷积核缓冲，以及将所述外部存储部件返回的输入特征图片数据写入到所述输入缓冲中；

S5.各所述运算单元开始执行运算，每次运算时将所述乘加单元输出的运算的中间结果写入所述输出缓冲，直至完成所有运算；

S6.将所有所述运算单元的输出缓冲中运算结果写回所述外部存储部件，完成卷积运算。

作为本发明加速方法的进一步改进，所述步骤S5中所述运算单元执行运算的具体步骤为：

S51.判断是否是执行第一个输入特征图片的卷积运算，如果是，转入执行步骤S52，否则执行步骤S53；

S52.将所述乘加单元的运算结果写入所述输出缓冲；

S53.读取所述输出缓冲中上一次写入的运算的中间结果，并与当前次所述乘加单元的运算结果相加，得到当前次运算结果，将当前次运算结果作为运算的中间结果写入所述输出缓冲，直至完成所有运算。

作为本发明加速方法的进一步改进，所述步骤S2的具体步骤为：

S21.判断输入特征图片的尺寸是否大于所述输入缓冲，如果是，根据跨步、输入缓冲以及所述输出缓冲的大小对所述输入特征图片进行分块，转入执行步骤S24；否则转入执行步骤S22；

S22.判断输入特征图片尺寸是否大于所述输出缓冲，如果是，转入执行步骤S23；否则转入执行步骤S24；

S23.判断跨步是否为1，如果是，按照所述输入缓冲的尺寸对输入特征图片进行分块，否则按照所述输出缓冲的尺寸对输入特征图片进行分块；

S24.生成卷积运算所需的信息。

作为本发明加速方法的进一步改进：所述卷积层的基本参数包括输入特征图片尺寸、卷积核尺寸、跨步以及输入/输出图片数量。

作为本发明加速方法的进一步改进：所述卷积运算所需的所有信息包括公用参数以及私有参数，所述公用参数为整个CNN卷积运算过程中只需要加载一次的参数信息，所述私有参数为每次加载输入特征图片数据、卷积核数据时均需加载的参数信息；所述公有参数具体包括输入/输出图片数量、输入/输出特征图片尺寸、卷积核尺寸以及跨步大小；所述私有参数包括每次加载的输入特征图片数据的起始访问地址、图片的尺寸，以及每次输出结果的写回地址、下一次访问的起始地址。

与现有技术相比，本发明的优点在于：

(1)本发明通过由运算单元PE共用相同输入特征图片数据，能够极大的提升输入特征图片数据的重用率，提升PE的运算效率，且PE的个数越多重用率越高，从而减少数据搬移量，节约系统带宽；同时由PE内的所有的MAC共用卷积核缓冲的数据，能够充分提升卷积核数据重用率，从而进一步减少数据搬移量，降低系统的带宽需求以及节约功耗。

(2)本发明通过每个PE内部包含本地输出缓冲，运算的中间结果写入输出缓冲而不需要写到外部存储，每次运算完全结束才将结果写回外部存储，能够进一步极大地减少数据搬移量，节约系统功耗；同时每个PE内部只包含一个小容量的本地输出缓冲和卷积核缓冲，总的片上缓冲较小。

(3)本发明通过所有的PE共用相同输入特征图片数据，PE内部的所有MAC共用卷积核数据，简单的增加PE数量便可以提升运算性能，不需要额外增加硬件开销，硬件开销小且可扩展性好，且对于路径较远的PE进一步通过加站保证时序的正确性，即可有效的提升系统的运算能力。

(4)本发明通过每个PE内部包含本地输出缓冲，运算的中间结果无需写回外部存储，最终结果利用PE运算的间隙写回，不影响输入缓冲的加载，能够进一步实现运算效率。

附图说明

图1是本实施例卷积神经网络CNN硬件加速器的结构示意图。

图2是CNN卷积的实现原理示意图。

图3是本实施例中运算单元PE的具体结构示意图。

图4是本发明具体实施例中生成卷积运算参数信息的实现流程示意图。

图5是本发明具体实施例中CNN硬件加速器实现加速的实现流程示意图。

图例说明：1、输入缓冲；2、运算单元；21、卷积核缓冲；22、输出缓冲；23、乘加单元；231、MAC部件；3、仲裁电路；4、接口电路。

具体实施方式

以下结合说明书附图和具体优选的实施例对本发明作进一步描述，但并不因此而限制本发明的保护范围。

如图1所示，本实施例卷积神经网络CNN硬件加速器包括用于缓存输入特征图片数据的输入缓冲1以及分别共用相同输入特征图片数据进行CNN卷积运算的多个运算单元2(PE)，每个运算单元2包括卷积核缓冲21、输出缓冲22以及由多个MAC部件构成的乘加单元23；CNN硬件加速器连接外部存储部件，外部存储部件为CNN硬件加速器提供运算数据信息以及结果写回空间。卷积核缓冲21接收从外部存储部件返回的卷积核数据，分别提供给乘加单元23中各个MAC部件231，各个MAC部件231分别接收输入特征图片数据、卷积核数据进行乘累加运算，运算的中间结果写入输出缓冲22中。外部存储部件具体可以采用DDR、DRAM或者其他类型存储部件。

CNN卷积的原理如图2所示，其中输入特征图片数量为M，输出特征图片的数量为N，卷积核的数量为M*N，每一个输出特征图片都是由M个输入特征图片和对应的M个卷积核进行卷积并将卷积结果累加得到。

本实施例卷积神经网络CNN硬件加速器工作时，每个运算单元2(PE)处理一个输出特征图片所有运算，由PE内所有的MAC同时计算同一幅输出图片中多个像素点的卷积，运算时所需的卷积运算的图片数据由输入缓冲1提供，卷积核数据由运算单元2内部的本地卷积核缓冲21提供，卷积运算的中间结果写入运算单元2本地的输出缓冲22中，直至本次卷积运算完全结束后将输出缓冲22的结果再写回外部存储部件。

基于CNN卷积原理，本实施例CNN硬件加速器通过PE共用相同输入特征图片数据，使得每个PE处理一个输出图像的所需的所有乘累加运算，能够极大的提升输入特征图片数据的重用率，提升PE的运算效率，且PE的个数越多重用率越高，从而通过提高数据重用率可以减少数据搬移量，节约系统带宽；同时每个PE内包含本地卷积核缓冲21，PE内的所有的MAC共用卷积核缓冲的卷积核数据，能够充分提升卷积核数据重用率，从而进一步减少数据搬移量，降低了系统的带宽需求、节约功耗；同时PE内部包含本地输出缓冲22，每个MAC同时处理一个输出图片中多个像素点的所需的乘累加运算，运算的中间结果写入输出缓冲22而不需要写到外部存储，仅在每次运算完全结束才将结果写回外部存储，能够进一步大大减少数据搬移量，同时节约功耗，从而通过采用上述结构CNN硬件加速器，能够尽可能大的提高数据重用率、降低数据搬移量，同时提升PE的运算效率，且每个PE内部包含本地输出缓冲22，由于运算的中间结果无需写回外部存储，最终结果利用PE运算的间隙写回，不影响输入缓冲的加载，能够进一步实现运算效率。

本实施例采用上述结构CNN硬件加速器，所有的PE共用相同输入特征图片数据，PE内部的所有MAC共用卷积核数据，则通过简单的增加PE数量便可以提升运算性能，不需要额外增加硬件开销，硬件开销小且可扩展性好，且对于路径较远的PE进一步通过加站保证时序的正确性，即可有效的提升系统的运算能力。

本实施例中，还包括分别与输入缓冲1、运算单元2连接的仲裁电路3，仲裁电路3对访问外部存储部件的请求进行仲裁，以及分别将外部存储部件返回的运算参数写入参数寄存器、返回的卷积核数据写入卷积核缓冲21和返回的输入特征图片数据写入输入缓冲32中，即通过仲裁电路对访问外部存储部件的请求进行仲裁，同时对外部存储部件返回的数据进行分流。

本实施例仲裁电路具体配置访问外部存储时读优先写的访问原则，以规范访问外部存储部件秩序，保证系统数据传输的正确性，同时能够提高运算效率；外部存储部件返回的数据分为3种类型，运算参数、卷积核数据以及输入特征图片数据，其中运算参数包括卷积核尺寸、跨步、输入/输出图片尺寸以及访问地址等，本实施例仲裁电路具体根据数据返回的顺序将上述3种类型数据分别对应写入参数寄存器、卷积核缓冲21和输入缓冲中，以对外部存储部件返回的数据进行分流。

本实施例中，仲裁电路3通过接口电路4与外部存储部件通信。接口电路4具体可采用基于AXI协议的AXI电路，基于AXI协议可以有效提升系统的适应性和可扩展性，保证在加速器工作频率和外部存储部件工作频率不同的情况下仍保持数据正常通信，当然接口电路4还可以采用其他类型接口电路。

如图3所示，本实施例运算单元2内部包含有多个MAC部件231，通过MAC部分231执行乘法操作和加法操作，每个MAC部件231完成输出图片中一个像素点的所需的所有乘累加运算，MAC的具体个数以及排列方式具体按照输入缓冲1的编址方式进行设定，如若输入缓冲1支持按4*2的块取数，则配置MAC部件231的数量为8，运算单元2可以同时计算8个像素点的输出。

本实施例中，输入缓冲1配置为支持跨步按块访问的两维编址方式，输入缓冲1的带宽根据MAC乘加单元23中MAC部件231的数量和运算的数据类型进行设置，具体取每次按块取数的块尺寸等于乘加单元23中MAC部件231的数量，如PE内一共有M个MAC单元，MAC单元支持的数据类型是N位，输入缓冲1的带宽为M*N bits。通过使输入缓冲225采用该特定的两维编址方式，可以支持任意跨步下无冲突按块访问，从而可以在任意跨步下为系统的并行运算无冲突的提供输入图像数据，充分保证了CNN加速器中MAC的利用率。输入缓冲1的编址方式具体可根据实际卷积层参数最终确定。

本实施例中，卷积核缓冲21采用乒乓机制以同时进行读写访问，卷积核缓冲21给所有的MAC提供卷积核数据，一拍提供一个数据，则通过“乒乓”机制，可以同时对卷积核缓冲进行读写访问。

本实施例输出缓冲22同样采用乒乓机制，编址方式和输入缓冲1的编址方式类似，但是输出缓冲22不需要支持跨步访问，且由于CNN卷积层中，当输入特征图片尺寸较大时跨步往往大于1，而跨步为1的时候输入特征图片尺寸往往又比较小，输出缓冲22的尺寸可以比输入缓冲小，对于较大尺寸的输入特征图片且跨步为1的特殊情况，则可按输出缓冲22的大小将输入特征图片进行分块以进行分块加载。为了节约片上缓冲，本实施例输入缓冲的尺寸和输出缓冲22的尺寸配置为不相同，且输入缓冲的尺寸不小于输出缓冲22的尺寸，输出缓冲22的尺寸具体可配置为输入缓冲1的四分之一；且缓冲逻辑配置为：当输出缓冲22占满时，停止发送运算请求，同时输入缓冲1也停止加载，等到输出缓冲22中的数据被读出再进行加载，其中读出为“乒乓”缓冲中的任意一个中的数据被读出即可，同时对输出缓冲22进行读写操作PE会产生Busy信号。

本实施例利用上述CNN硬件加速器的加速方法，步骤包括：

S1.输入卷积层的基本参数；

S2.生成卷积运算所需的信息，并写入到外部存储部件中；

S3.接收到运算请求以及起始访存地址时，根据接收到的起始访问地址从外部存储部件中读取运算所需的所有信息并进行译码；

S4.将外部存储部件返回的卷积核数据写入到卷积核缓冲21，以及将外部存储部件返回的输入特征图片数据写入到输入缓冲1中；

S5.各运算单元2开始执行运算，每次运算时将乘加单元23输出的运算的中间结果写入输出缓冲22，直至完成所有运算；

S6.将所有运算单元2的输出缓冲22中运算结果写回外部存储部件，完成卷积运算。

本实施例在上述CNN硬件加速器的基础上，通过生成与卷积运算相关的所有信息，由CNN硬件加速器通过读取这些信息，进行相应译码操作之后按照上述加速方法完成整个卷积运算，中间过程无需人为干预，运算效率高且加速性能好。

如图4所示，本实施例中步骤S2中生成运算参数信息的具体步骤为：

S21.判断输入特征图片的尺寸是否大于输入缓冲1，如果是，根据跨步、输入缓冲1以及输出缓冲22的大小对输入特征图片进行分块，转入执行步骤S104；否则转入执行步骤S102；

S22.判断输入特征图片尺寸是否大于输出缓冲22，如果是，转入执行步骤S103；否则转入执行步骤S104；

S23.判断跨步是否为1，如果是，按照输入缓冲1的尺寸对输入特征图片进行分块，否则按照输出缓冲22的尺寸对输入特征图片进行分块；

S24.生成卷积运算所需的信息。

上述生成运算所需的信息时，用户输入卷积层参数后，卷积层参数包括输入/输出特征图片尺寸、卷积核尺寸、跨步、输入特征图片数据起始存放地址、卷积核数据起始存放地址、起始访问地址等，判断输入特征图片尺寸是否大于输入缓冲1，当输入特征图片的尺寸比较大时需要对图片进行“分块”，以将尺寸较大的输入特征图片分成几个“子块”进行加载，再通过提供不同“子块”的访问起始地址和“子块”尺寸即可实现分块加载；由于输入缓冲1的尺寸和输出缓冲22的尺寸不相同，因此“分块”时需要分情况考虑，若输入特征图片的尺寸大于输入缓冲1的尺寸，则必须对输入特征图片进行分块，分块得到的“子块”的大小根据跨步和缓冲大小来确定，同时由于卷积运算中跨步大于1时，输出特征图片相比输入特征图片成倍缩小，因此此时按输入缓冲1的尺寸进行分块，如果跨步为1，则按输出缓冲22的大小进行分块，当输入特征图片尺寸小于输出缓冲22的尺寸时不需要进行分块。

本实施例中，卷积运算所需的所有信息包括公用参数以及私有参数两种，其中公用参数为整个CNN卷积运算过程中只需要加载一次的参数信息，私有参数为每次加载输入特征图片数据、卷积核数据时均需加载的参数信息；公有参数具体包括输入/输出图片数量、输入/输出特征图片尺寸、卷积核尺寸以及跨步大小等；私有参数包括每次加载的输入特征图片数据的起始访问地址、图片的尺寸，以及每次输出结果的写回地址、下一次访问的起始地址等。

本实施例中，步骤S5中运算单元2执行运算的具体步骤为：

S52.将乘加单元13的运算结果写入输出缓冲22；

S53.读取输出缓冲22中上一次写入的运算的中间结果，并与当前次乘加单元23的运算结果相加，得到当前次运算结果，将当前次运算结果作为运算的中间结果写入输出缓冲22，直至完成所有运算。

在具体应用实施例中，本实施例上述加速方法的详细步骤为：

①用户输入卷积层的基本参数，包括输入特征图片尺寸、卷积核尺寸、跨步，以及输出/输出图片数量等；

②若输入特征图片尺寸大于缓冲的尺寸，转入执行步骤③，否则转入执行步骤④；

③根据跨步、卷积核尺寸以及缓冲的大小对输入特征图片进行分块；

④加载预先建立的程序模块生成与卷积运算相关的所有信息，并将这些信息写入到外部存储部件中；

⑤用户向CNN硬件加速器发送运算请求以及起始访存地址；CNN硬件加速器接收到运算请求后，根据起始访问地址从外部存储部件中读取运算相关信息并信息进行译码，若读到结束标记，转入执行步骤⑧，否则转入执行步骤⑥；

⑥将外部存储部件返回的卷积核数据写入到运算单元2的本地卷积核缓冲21内，将外部存储部件返回输入特征图片数据写入输入缓冲1中；

⑦运算单元2开始运算；若是第一副输入特征图片的卷积，转入执行步骤⑧，否则转入执行步骤⑨；

⑧将各MAC的运算结果写入输出缓冲22；

⑨从运算单元2的本地输出缓冲22中读出上一次写入的中间结果，与各MAC本次的计算结果相加后再写入输出缓冲22；

⑩所有的运算结束后，将所有运算单元2中输出缓冲22的结果写回外部存储部件，完成运算。

假设用户已经将卷积运算需要的所有信息已经存入外部存储部件当中，如图4所示，接收用户发送的运算请求和起始访存地址，且一次完整的卷积运算过程只需要接受一次运算请求；根据用户提供的访存地址，CNN硬件加速器从外部存储部件中读取运算参数、图片数据以及卷积核数据；判断是否读到结束标记，以判断是否加载完所有的运算信息，若读到结束标记则说明本次CNN卷积运算数据已经全部加载完毕，否则判断输入缓冲是否已被占满，当输入缓冲占满时，停止从外部存储读取运算数据，等待输入缓冲中的数据被读出；当输出缓冲22占满的时候，此时PE停止运算，直到输出缓冲22中的数据被读出才继续运算；

由于CNN卷积运算中输出图片是由所有的输入特征图片与其对应的卷积核卷积得到的结果叠加得到，因此在处理时需要将前面计算的结果和当前计算的结果进行累加。本实施例在进行卷积运算时，首先判断是否是第一个图片的卷积运算，如果是则直接将运算结果写入输出缓冲22中，如果不是，则将输出缓冲22内的中间结果读出再和本次运算得到的结果相加再写回输出缓冲22；最后当本次卷积运算完全结束后得到最终输出结果，将最终输出结果写回外部存储部件，输出结果的存放地址包含在运算参数中，由软件进行配置。

本实施例上述过程中加法运算的时间隐藏在乘法运算当中，当卷积核的尺寸大于1*1时，一次卷积需要多次乘累加，在这期间不访问输出缓冲22，此时访问输出缓冲22的时间被隐藏在乘累加运算当中。本实施例上述过程中，当同时对输出缓冲22读写操作时会发生访存冲突，由PE产生Busy信号，此时停止发送运算请求直到冲突解决。

上述只是本发明的较佳实施例，并非对本发明作任何形式上的限制。虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明。因此，凡是未脱离本发明技术方案的内容，依据本发明技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均应落在本发明技术方案保护的范围内。

Claims

1.一种卷积神经网络CNN硬件加速器，其特征在于：包括用于缓存输入特征图片数据的输入缓冲(1)以及分别共用相同输入特征图片数据进行CNN卷积运算的多个运算单元(2)，每个所述运算单元(2)包括卷积核缓冲(21)、输出缓冲(22)以及由多个MAC部件(231)构成的乘加单元(23)，所述卷积核缓冲(21)接收从外部存储部件返回的卷积核数据，分别提供给所述乘加单元(23)中各个所述MAC部件(231)，各个所述MAC部件(231)分别接收所述输入特征图片数据、所述卷积核数据进行乘累加运算，运算的中间结果写入所述输出缓冲(22)中。

2.根据权利要求1所述的卷积神经网络CNN硬件加速器，其特征在于：还包括分别与输入缓冲(1)、运算单元(2)连接的仲裁电路(3)，所述仲裁电路(3)对访问外部存储部件的请求进行仲裁，以及分别将外部存储部件返回的运算参数写入参数寄存器、返回的卷积核数据写入所述卷积核缓冲(21)和返回的输入特征图片数据写入所述输入缓冲(1)中。

3.根据权利要求2所述的卷积神经网络CNN硬件加速器，其特征在于：所述仲裁电路(3)通过接口电路(4)与外部存储部件通信。

4.根据权利要求1或2或3所述的卷积神经网络CNN硬件加速器，其特征在于：所述输入缓冲(1)配置为支持跨步按块访问的两维编址方式，其中每次按块取数的块尺寸等于所述乘加单元(23)中所述MAC部件(231)的数量。

5.根据权利要求1或2或3所述的卷积神经网络CNN硬件加速器，其特征在于：所述卷积核缓冲(21)和/或所述输出缓冲(22)采用乒乓机制以同时进行读写访问。

6.利用权利要求1～5中任意一项所述的卷积神经网络CNN硬件加速器的加速方法，其特征在于，步骤包括：

S1.输入卷积层的基本参数；

S4.将所述外部存储部件返回的卷积核数据写入到所述卷积核缓冲(21)，以及将所述外部存储部件返回的输入特征图片数据写入到所述输入缓冲(1)中；

S5.各所述运算单元(2)开始执行运算，每次运算时将所述乘加单元(23)输出的运算的中间结果写入所述输出缓冲(22)，直至完成所有运算；

S6.将所有所述运算单元(2)的输出缓冲(22)中运算结果写回所述外部存储部件，完成卷积运算。

7.根据权利要求6所述的加速方法，其特征在于：所述步骤S2的具体步骤为：

S21.判断输入特征图片的尺寸是否大于所述输入缓冲(1)，如果是，根据跨步、输入缓冲(1)以及所述输出缓冲(22)的大小对所述输入特征图片进行分块，转入执行步骤S24；否则转入执行步骤S22；

S22.判断输入特征图片尺寸是否大于所述输出缓冲(22)，如果是，转入执行步骤S23；否则转入执行步骤S24；

S23.判断跨步是否为1，如果是，按照所述输入缓冲(1)的尺寸对输入特征图片进行分块，否则按照所述输出缓冲(22)的尺寸对输入特征图片进行分块；

S24.生成卷积运算所需的信息。

8.根据权利要求6所述的加速方法，其特征在于：所述步骤S5中所述运算单元(2)执行运算的具体步骤为：

S52.将所述乘加单元(13)的运算结果写入所述输出缓冲(22)；

S53.读取所述输出缓冲(22)中上一次写入的运算的中间结果，并与当前次所述乘加单元(23)的运算结果相加，得到当前次运算结果，将当前次运算结果作为运算的中间结果写入所述输出缓冲(22)，直至完成所有运算。

9.根据权利要求6或7或8所述的加速方法，其特征在于：所述卷积层的基本参数包括输入特征图片尺寸、卷积核尺寸、跨步以及输入/输出图片数量。

10.根据权利要求6或7或8所述的加速方法，其特征在于：所述卷积运算所需的所有信息包括公用参数以及私有参数，所述公用参数为整个CNN卷积运算过程中只需要加载一次的参数信息，所述私有参数为每次加载输入特征图片数据、卷积核数据时均需加载的参数信息；所述公有参数具体包括输入/输出图片数量、输入/输出特征图片尺寸、卷积核尺寸以及跨步大小；所述私有参数包括每次加载的输入特征图片数据的起始访问地址、图片的尺寸，以及每次输出结果的写回地址、下一次访问的起始地址。