CN113642419B

CN113642419B - 一种用于目标识别的卷积神经网络及其识别方法

Info

Publication number: CN113642419B
Application number: CN202110841212.2A
Authority: CN
Inventors: 维吉尔·贾瓦利亚克
Original assignee: Shanghai Gencun Technology Co ltd
Current assignee: Shanghai Gencun Technology Co ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-03-01
Anticipated expiration: 2041-07-23
Also published as: CN113642419A

Abstract

本发明公开了一种用于目标识别的卷积神经网络及其识别方法，涉及目标识别技术领域，本发明提出一种新型的硬件实现方式，针对卷积神经网络数据流的新型的微结构和处理过程，在卷积神经网络数据流的输入层/输出层采用磁性随机存储器记录前输入数据和输出标签，然后，通过比较输入层上的新进数据和现存数据，仅更新和重算以事件驱动发生改变的子集。在复杂度/能量/电池寿命方面有高强度要求或限制的应用场景中，本发明所述的基于磁性随机存储器的事件驱动卷积神经网络及其识别方法，具有各个方向上的高端性能，比如分辨率，工作频率，数据吞吐量以及准确性，以及工作模式和待机模式下的低功耗。

Description

一种用于目标识别的卷积神经网络及其识别方法

技术领域

本发明涉及目标识别的图像或视频领域，尤其涉及一种用于目标识别基于磁性随机存储器的事件驱动卷积神经网络。

背景技术

至今为止，目标识别存在多种解决方案和硬件实现方式，如GPU/CPU/DSP/基于MCU的芯片，以及基于神经网络的专用硬件，如卷积神经网络CNN或脉冲神经网络SNN。基于推理的GPU或CPU是灵活可编程的，提供了目标识别较高的吞吐量/分辨率和准确度，然而，这些方案都受限于功率效率，从几瓦到几百瓦，不能达到几毫瓦到几十毫瓦的平均功率目标。具体来说，为了提高功率效率，必须使用专用的结构：

内嵌DSP的低功耗MCU可以提供很低的低功耗能力(如零点几毫瓦)，为了保持这样的功率效率，只能受限于处理低分辨率的图像识别任务。虽然内嵌DSP的低功耗MCU可以提供较低的待机电流和可能的高频率，但要以吞吐量和复杂度受限为代价。

卷积神经网络CNN是高度并行的，分别处理输入单元，是数字的且以同步的方式处理。现有的CNN数据流采用SRAM储存输入，输出和中间结果。非易失性存储器NVM，包括磁性随机存储器MRAM，能用来存储深度神经网络DNN模型的突触权值和馈送(以只读方式)，给处理单元进行乘加操作。然而，SRAM是易失的，而且待机状态下有泄漏功耗。在一些高端的应用中，这样的结构，如果不是花费大量的功耗，是无法从前次运行中保持数据的。唯一的解决办法是关闭芯片进行重新计算，甚至在某些数据并没有变化的场合，而且重新计算又再次带来巨大的功耗。

脉冲神经网络SNN是将信息通过脉冲序列编码，使用异步逻辑(计算时不使用时钟)，也就是，脉冲神经网络从基本上来说，是事件驱动的，仅当变化发生时处理输入。和卷积神经网络一样，脉冲神经网络也是分别处理输入单元(以网格方式)。这样的结构在活动和待机状态下都是高度节能的，并能提供高吞吐量，但是只能处理低分辨率和图像识别的任务，准确度和可靠性，最高频率也是受限的。和完成类似任务的数字芯片相比，脉冲神经网络也在芯片面积上占用较多(由于使用模拟和异步技术)，而且脉冲神经网络的可编程性也比较差。

内存内计算并不真的算本发明的现有技术，现有技术中已采用内存内计算技术来提高功耗效率，面积利用率和吞吐量。在图像处理任务中，它可以替换模拟/数字神经元、CPU或DSP来进行乘加操作。

在上述现有技术中，现有技术的缺点是受限的功率效率，较低的功率效率限制了各类应用场景的复杂度，如低分辨率、低工作频率、低数据吞吐量、低准确性以及低可靠性。同时，现有技术的高功耗(包括活动功耗和待机功耗)也限制了各类以电池为电源的应用场景。

在复杂度/能量/电池寿命方面有高强度要求或限制的应用场景中，这些问题限制了现有技术中的结构的运用。因此，本领域的技术人员致力于开发一种基于磁性随机存储器的事件驱动卷积神经网络，使其具有各个方向上的高端性能，比如分辨率，工作频率，数据吞吐量以及准确性，以及工作模式和待机模式下的低功耗。

发明内容

有鉴于现有技术的上述缺陷，本发明所要解决的技术问题主要是如何处理功率随着吞吐量/频率/分辨率和准确度的提高而增加的问题，以及平均处理延迟随着识别的复杂度/分辨率和准确度的提高而增加的问题。本发明将会聚焦在现有的卷积神经网络的拓扑结构或脉冲神经网络，内存内计算技术，MCU/DSP等的能量效率。

为实现上述目的，本发明提供了一种用于目标识别卷积神经网络的识别方法，提供所述卷积神经网络的数据流，所述数据流包括输入层、缓存区、比较器、至少一个卷积层、至少一个池化层和输出层；

比较在所述输入层的前一次采集的图像和在所述缓存区的当前采集的图像；

如果比较结果为相同，则旁路卷积和池化操作，直接从输出层获取前一次的计算结果；

如果比较结果为不相同，则对当前采集图像进行卷积和池化操作，将计算结果存入输出层，同时，将当前采集的图像存入所述输入层，替换掉前一次采集的图像。

进一步地，所述输入层和输出层的数据存储在磁性随机存储器上。

进一步地，所述卷积层和池化层的数据存储在SRAM上，所述SRAM被配置为根据比较结果的不同而进入工作模式或待命模式，所述SRAM在所述待命模式中，所述SRAM的电源被关闭。

进一步地，所述图像采用多个像素表示，所述像素的颜色采用一个或多个字节表示，在图像比较步骤中，只比较所述字节的最高一位或几位，省略剩余位的比较。

进一步地，所述磁性随机存储器为自旋轨道矩类型或自旋转移矩类型。

本发明还提供了一种用于目标识别卷积神经网络，所述卷积神经网络的数据流包括输入层、缓存区、比较器、至少一个卷积层、至少一个池化层和输出层，其中，所述输入层被配置为存储前一次采集的图像，所述缓存区被配置为存储当前采集的图像，所述比较器被配置为比较前一次采集的图像和当前采集的图像，如果比较结果为相同，则跳过所述卷积层和池化层；如果比较的结果为不同，则将当前采集图像进行卷积和池化处理，将处理结果存入输出层，同时在输入层中将前一次采集的图像更新为当前采集的图像。

进一步地，所述图像采用多个像素表示，所述像素的颜色采用一个或多个字节表示，所述比较器被配置为只比较所述字节的最高一位或几位，省略剩余位的比较。

进一步地，所述磁性随机存储器为自旋轨道矩类型或自旋转移矩类型。本发明聚焦在数据流部分。卷积神经网络的数据流由输入层/输出层和其他多个隐含层(如卷积层，池化层等等)组成，在解决目标识别的问题中，通常希望在图像中找到所有的可能的目标。因此，识别采用图像上的网格或滑动窗口(作为输入，中间结果)。识别过程串行或并行运行在不同的子集上(子集的数量取决于网格，窗口大小，以及图像分辨率)。

基于以下几个原因，仅仅简单地把现有卷积神经网络技术中的SRAM全部替换为MRAM，从功耗效率和吞吐量等角度来说，并不是最有效率的解决方案：

如果不加入事件驱动机制，那么就无法在每次迭代运算中排除无数据变化的情形，数据运算和处理的量没有得到有效地控制，由于MRAM的读写功耗比SRAM高很多(10倍以上)，这样整体功耗会更大。另外，由于MRAM的读写延迟比SRAM大，数据吞吐量也会因此受到影响。

如果将事件驱动机制应用到所有的MRAM中，这虽然可以节省第一次向输入层进行数据写入的写入延迟(因为MRAM是非易失性的，和SRAM相比，掉电不掉数据)，因而也最小化了整体的写入功耗和写入延迟。如果输入数据没有变化，则只要读取输入层和输出层，在MRAM中，读出操作比写入操作要更有功耗效率(10倍以上)。但是，如果在中间计算阶段仍使用MRAM，那么，如果数据有变化，就需要从不同的MRAM层中去读写(处理数据/卷积环节)，就会在不需要保存的中间数据上花费更多的动态功耗。SRAM不需要时可以关闭，消除静态泄漏功耗，这时，在中间数据处理和卷积环节使用SRAM，从处理延时和动态功耗上都是更有效率的方案。

因此，本发明提出一种新型的硬件实现方式，针对上述卷积神经网络数据流的新型的微结构和处理过程。本发明所述技术方案是：在卷积神经网络数据流的输入层/输出层采用磁性随机存储器记录前输入数据和输出标签，然后，通过比较输入层上的新进数据和现存数据，仅更新和重算以事件驱动发生改变的子集。

以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明，以充分地了解本发明的目的、特征和效果。

附图说明

图1是本发明的一个较佳实施例的系统结构图；

图2是本发明的一个较佳实施例的系统工作流程图；

图3-图6是本发明的一个基于固定图像监控器的较佳实施例。

具体实施方式

以下参考说明书附图介绍本发明的多个优选实施例，使其技术内容更加清楚和便于理解。本发明可以通过许多不同形式的实施例来得以体现，本发明的保护范围并非仅限于文中提到的实施例。

在附图中，结构相同的部件以相同数字标号表示，各处结构或功能相似的组件以相似数字标号表示。附图所示的每一组件的尺寸和厚度是任意示出的，本发明并没有限定每个组件的尺寸和厚度。为了使图示更清晰，附图中有些地方适当夸大了部件的厚度。

本发明所述基于磁性随机存储器的事件驱动卷积神经网络，包括输入层、卷积层、池化层和输出层，其中输入层和输出层采用MRAM进行存储，卷积层和池化层采用SRAM进行存储。如图1所示的系统结构图，卷积神经网络的输入是一幅24X24的图片，存储在MRAM中，经过卷积得到4张20X20的特征图，再经过下采样得到4张10X10的特征图，再经过卷积得8张8X8的特征图，再经过下采样得到8张4X4的特征图，最后经过卷积得到20张1X1的输出结果，采用MRAM进行存储。

如图2所示，在一个本发明所述的基于事件驱动的卷积神经网络中，输入层存储在MRAM上，输入层中的前一次的计算结果(特征图)与来自输入缓存的当前计算结果进行比较，如果比较结果为不相同，则当前的计算结果被送入处理单元，处理单元内的数据是存储在SRAM上的，所处理的数据包括多个隐藏层，如卷积层和池化层等，上述的SRAM在待命(不工作)时被关闭，以节省动态功耗。于此同时，当比较器的判断结果为不相同时，系统给出一个控制信号，这个控制信号用于更新MRAM内的计算结果，即将当前的计算结果从缓存区写入MRAM，覆盖/替换掉前一次的计算结果。如果比较器的结果为相同，则直接将比较结果输出到输出层，此时，存储在MRAM上输出层的计算结果不做改变，SRAM上的处理单元维持待命状态(即电源关闭状态)，等待下一个比较结果的到来。

另外，上述的图片(像素)比较功能，有两种实现方式，第一种是直接比较，例如针对每个像素，对于表示颜色的字节的每一位，都进行逐一比较，这样就能确保分辨每个像素的细微差别。另一种较快的简化的方式，就是只比较表示颜色的字节的最高一位或几位，而忽略或省去剩余位的比较，这样便可以过滤掉一些来自图像传感器本身的干扰，排除掉一些“假的”图像变化的比较结果。

图3-图6是本发明所述的基于磁性随机存储器的事件驱动卷积神经网络的具体实例，这是一个固定监控探头的图像处理/目标识别的实例，在图3中示出的是卷积神经网络的初始化环节T0，在初始化环节T0中，系统将整幅监控画面分割成9个相同的子图片，分别存储在MRAM中作为输入层的数据，开启处理单元所在的SRAM，SRAM上包括隐含的卷积层和池化层等，然后将MRAM中的原始数据载入SRAM后进行卷积和池化等操作，并将计算结果(识别出来的车辆，人员，以及他们的位置信息等)存入输出层，输出层的数据也同样存储在MRAM上。在初始化环节T0中，由于每张子图片均需处理，因此在T0环节中的平均功耗是最大的，计算延迟也是最大的。

图4是在图3的基础上，经过T1时间段以后，监控器重新捕获的整张图片(存储在缓冲区中)，系统仍然把它分割成9张子图片，将缓冲区中的每张子图片与存储在MRAM中的T0时刻的输入层数据进行逐一比对，很明显，子图片1/2/3/4/7/8的图片内容没有变化，系统可跳过处理单元，直接从同样存储在MRAM上的输出层取得识别的计算结果，然后开启处理单元所在的SRAM，然后仅针对子图片5/6/9进行卷积和池化等计算，并将子图片5/6/9更新至输入层，最后将子图片5/6/9的计算结果(目标识别)结果更新在输出层。由于本环节中只处理了3张图片，因此在T0+T1环节中的平均功耗是有所下降，大约是前次的三分之二，计算延迟也大约是前次的三分之二。

图5是在图4的基础上，经过T2-T1时间段以后，监控器重新捕获的整张图片(存储在缓冲区中)，系统仍然把它分割成9张子图片，将缓冲区中的每张子图片与存储在MRAM中的T0+T1时刻的输入层数据进行逐一比对，很明显，子图片1/2/3/4/6/7/8/9的图片内容没有变化，系统可跳过处理单元，直接从同样存储在MRAM上的输出层取得识别的计算结果，然后开启处理单元所在的SRAM，然后仅针对子图片5行卷积和池化等计算，并将子图片5更新至输入层，最后将子图片5的计算结果(目标识别)结果更新在输出层。由于本环节中只处理了1张图片，因此在T0+T2环节中的平均功耗是又有所下降，大约是前次的二分之一，计算延迟也大约是前次的二分之一。

图6是在图5的基础上，经过T3-T2-T1时间段以后，监控器重新捕获的整张图片(存储在缓冲区中)，系统仍然把它分割成9张子图片，将缓冲区中的每张子图片与存储在MRAM中的T0+T1+T2时刻的输入层数据进行逐一比对，很明显，子图片1/2/3/4/6/7/8/9的图片内容没有变化，系统可跳过处理单元，直接从同样存储在MRAM上的输出层取得识别的计算结果，然后开启处理单元所在的SRAM，然后仅针对子图片5行卷积和池化等计算，并将子图片5更新至输入层，最后将子图片5的计算结果(目标识别)结果更新在输出层。由于本环节中只处理了1张图片，因此在T0+T3环节中的平均功耗是和前次相比，大致维持。

在本发明所述的技术方案中，传统的MRAM也是不适合的，因为在卷积神经网络计算结构中，内存必须具有高可靠性(大于10¹⁰)，最佳的选择是低保持时间或多种保持时间(数周，数月)的MRAM，SOT-MRAM，VCMA-MRAM，低写入功耗，高写入速度。

本发明需要使用MRAM或者相类似的NVM技术，功能和效率需要一种低功耗的写操作(RAM型)，相当高的耐久可靠性和与CMOS工艺兼容的能力，因此，MRAM是最佳选择，STT-MRAM和SOT-MRAM可以提供最高的耐久力，是高端数据密集型应用的不二选择。

本发明可以用于目标识别图像处理以外的其他应用，比如以时间为参数的模式识别领域(ECG，语音/音频，依赖时间的工业数据)，当我们需要根据时间演化来决定，检查是否和“正常”状态有区别，可以使用循环神经网络(长短期记忆网络)来实现。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种用于目标识别卷积神经网络的识别方法，其特征在于，所述卷积神经网络的数据流包括输入层、缓存区、比较器、至少一个卷积层、至少一个池化层和输出层，所述输入层和输出层的数据存储在磁性随机存储器上，所述卷积层和池化层的数据存储在SRAM上，所述SRAM被配置为根据比较结果的不同而进入工作模式或待命模式，所述SRAM在所述待命模式中，所述SRAM的电源被关闭，其中，所述输入层被配置为存储前一次采集的图像，所述缓存区被配置为存储当前采集的图像，所述比较器被配置为比较前一次采集的图像和当前采集的图像，如果比较结果为相同，则所述SRAM进入所述待命模式，跳过所述卷积层和池化层；如果比较的结果为不同，则所述SRAM进入所述工作模式，将当前采集图像进行卷积和池化处理，将处理结果存入输出层，同时在输入层中将前一次采集的图像更新为当前采集的图像，所述图像采用多个像素表示，所述像素的颜色采用一个或多个字节表示，所述比较器被配置为只比较所述字节的最高一位或几位，省略剩余位的比较。

2.如权利要求1所述的用于目标识别卷积神经网络的识别方法，其特征在于，所述磁性随机存储器为自旋轨道矩类型或自旋转移矩类型。