CN111026445A

CN111026445A - 一种智能识别方法及芯片

Info

Publication number: CN111026445A
Application number: CN201911301194.8A
Authority: CN
Inventors: 李春江; 刘宗林; 龚国辉; 张晓明; 刘蓬侠; 罗恒; 夏一民; 王磊; 徐雪刚
Original assignee: Hunan Greatwall Galaxy Technology Co ltd
Current assignee: Hunan Greatwall Galaxy Technology Co ltd
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2020-04-17

Abstract

本发明公开了一种智能识别方法及芯片，包括如下步骤：若待处理任务所需的数据采集速率为低速，则执行第一处理模式：仅由一个DSP对待处理任务进行预处理，另一个DSP休眠；若待处理任务所需的数据采集速率为中速，则执行第二处理模式：两个DSP对待处理任务进行流水预处理；若待处理任务所需的数据采集速率为高速，则执行第三处理模式：两个DSP对待处理任务进行并发预处理。由于采用了上述技术方案，与现有技术相比，本发明可以根据不同的数据采集速率提供相应的预处理策略，既可以针对高数据采集速率实现快速预处理，也可以针对低数据采集速率实现节能预处理，兼顾高处理速度和低功耗。

Description

一种智能识别方法及芯片

技术领域

本发明涉及智能识别领域，具体涉及一种智能识别方法及芯片。

背景技术

近年来，采用深度神经网络的深度学习方法极大地推动了人工智能的发展，多种云端、终端神经网络处理器接连推出，业界一般将所有这些针对深度神经网络模型进行加速处理的处理单元或处理器称为NPU。当前，大量采用NPU的边缘智能芯片不断涌现，广泛应用于蓬勃发展的智能识别应用领域。在终端领域，采用了NPU的边缘智能芯片主要完成实时识别任务，而图像识别是最主要的应用方向。

实时获取和识别图像是当前边缘智能芯片的应用热点，图像获取和识别的实时性是最重要的指标之一。采用片上系统(SoC)架构在芯片上集成NPU和其他功能的处理器核，不同处理器核分别完成识别任务不同阶段的工作，是常用的实施方案。

为了提升NPU识别的准确性，需要对实时获取的图像进行预处理。图像的预处理通常包括几何变换、灰度变换和图像增强；几何变换如平移、转置、镜像、旋转、缩放等；灰度变换通常通过对多通道像素值的线性变换或非线性变换来使图像的显示效果更加清晰；而图像增强通常采用空间域法或频率域法来突出图像中最关注的信息。而DSP是实时图像预处理的首选，针对不同的图像类型和图像识别的需求，在DSP处理平台上已经实现了非常多的图像预处理算法并在非常多的图像处理场景下得到了广泛应用。

在用于图像、语音等实时智能识别芯片中，通常都采用一个DSP用来对信号(图像、语音等数据流)进行预处理，然后将预处理的结果传递给一个NPU进行识别。结合了DSP和NPU的智能识别芯片的一般结构示意框图如图1所示。这种智能识别芯片，用于不同应用领域的智能识别需求，通常需要配置不同的数据采集外部设备。例如，用于实时图像识别，通常需要配置图像采集外设(如摄像头)，用于实时语音识别，通常需要配置声音采集外设(如麦克风)。这些数据采集外设通过标准的外设接口协议，如USB、1394、GPIO、EMAC等等标准的外设数据传输接口传输到芯片的存储系统(片上SRAM或片外DDR)。这些通用的标准数据传输接口目前已经发展出多种不同的规格，支持不同的数据传输速率。然而，现有技术中的智能识别芯片，往往仅局限于特定外设和特定的传输速率，无法适配不同的数据采集速率下的目标识别需求。

发明内容

为解决背景技术中现有智能识别芯片无法适配不同的数据采集速率下的目标识别需求的问题，本发明提供了一种智能识别方法，具体技术方案如下。

一种智能识别方法，包括如下步骤：

若待处理任务所需的数据采集速率为低速，则执行第一处理模式：仅由一个DSP对待处理任务进行处理，另一个DSP休眠；

若待处理任务所需的数据采集速率为中速，则执行第二处理模式：两个DSP对待处理任务进行流水预处理；

若待处理任务所需的数据采集速率为高速，则执行第三处理模式：两个DSP对待处理任务进行并发预处理。

所述休眠、流水处理模式和并行处理模式为现有处理器常用的处理模式。上述方法通过根据不同的数据采集速率来执行相应的预处理策略，既可以针对高数据采集速率实现快速预处理，也可以针对低数据采集速率实现节能预处理，兼顾高处理速度和低功耗。

优选地，还包括如下步骤：对两个DSP对应的两个存储单元按照如下规则进行标识：

若执行第一处理模式，则将其中一个存储单元中的所有存储位全部标识为0，将另一个存储单元中的存储位部分或全部标识为1；

若执行第二处理模式，则分别将两个存储单元中的存储位部分或全部标识为1，且两个存储单元中存储位的标识不一致；

若执行第三处理模式，则分别将两个存储单元中的存储位部分或全部标识为1，且两个存储单元中存储位的标识一致。

本发明共设有两个32位存储单元，两个存储单元与两个DSP相对应。在流水预处理方式下，根据两个32存储单元中最高非0位位置大小来判断预处理顺序。上述方法通过标识来设定预处理模式，简单有效。

具体地，标识存储位的具体方法包括如下步骤：将待处理任务拆解为若干个预处理操作，将存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的存储位标识为0。

将DSP需要对输入数据进行的预处理操作分解为一系列步骤(即在DSP上执行的函数)，每个步骤都可以在两个DSP上执行；本发明在片上存储空间中设置了指示两个DSP如何协作的两个存储单元，每个存储单元对应一个DSP。存储单元中用位向量标识要进行的预处理操作，标识为1的存储位表示需要进行对应的预处理操作，即需要在DSP上执行对应的预处理函数。例如用第7位标识需要对图像进行几何变换，那么第7位为1就表明需要进行几何变换这一预处理步骤。执行预处理操作时，采用从高到低的位顺序标识预处理期间各个操作的执行顺序。另一方面，通过存储位的标识，可以在分配具体预处理操作的同时直接设定预处理策略，简单有效，无需额外增加预处理策略分配步骤。

具体地，所述两个DSP对待处理任务进行预处理的方法包括如下步骤：

当执行第一处理模式时，由未休眠DSP对输入数据缓冲队列中的输入数据执行相应的预处理操作，并将预处理结果放置在待识别数据缓冲队列；

当执行第二处理模式时，由其中一个DSP对输入数据缓冲队列中的输入数据执行相应的预处理操作，并将该DSP的预处理结果存储在流水预处理缓冲队列中，然后由另一个DSP对流水预处理缓冲队列中的数据执行相应的预处理操作，并将最终的预处理结果存储在待识别数据缓冲队列中；

当执行第三处理模式时，由两个DSP分别对输入数据缓冲队列中的不同固定位置上的输入数据执行相应的预处理操作，并将预处理结果放置在待识别数据缓冲队列的固定位置上；

预处理结果在所述流水预处理缓冲队列以及所述待识别数据缓冲队列中的存放位置与输入数据在所述输入数据缓冲队列中的存放位置一致。

在并发预处理模式下，两个DSP核同时对采集来的数据的不同数据单元(如图像的不同帧)进行预处理，两个DSP预处理的结果数据提供到同一条待识别数据队列中由NPU读取识别。为此，本发明设计了一条输入数据缓冲队列和一条待识别队列。为使两个DSP预处理之后结果数据保持输入的序，本发明采用了固定起始地址和偏移的处理方法。即，两个DSP核中每个DSP核处理固定位置的数据并将预处理后的数据放置到固定位置，例如0号DSP处理输入图像的奇数帧、1号DSP处理偶数帧；两个DSP预处理之后的数据也放置到待识别队列中的相应的奇数帧位置和偶数帧位置，这种方法可以快速计算出待处理数据和预处理后的数据的存放位置，可简化数据读取和存入的地址计算过程。在流水处理模式下，两个DSP分别对输入数据进行不同的预处理操作，所进行的预处理操作和顺序由协作控制存储单元的内容确定。在流水处理模式下，本发明在片上缓存开辟两个DSP共享的流水预处理缓冲队列(数据流先经DSP0进行一些预处理之后，再由DSP1接着对这些数据进行其他一些预处理操作)，即DSP0进行第一阶段的数据预处理，将处理结果放入该缓冲区，DSP1读取该缓冲区进行后续的预处理并将预处理后的结果数据放入待识别数据缓冲队列。

基于相同的发明构思，本发明还提供一种智能识别芯片，包括策略单元和两个DSP以及一个NPU，所述策略单元分别与所述两个DSP通信；所述策略单元用于根据待处理任务所需的数据采集速率，确定预处理模式：

若待处理任务所需的数据采集速率为低速，则执行第一处理模式：仅由一个DSP对待处理任务进行预处理，另一个DSP休眠；

所述数据采集速率的高中低速档次根据具体数据源和识别需求来认定。例如，对于768X 460的图像格式数据，每秒30帧属于低速率，30到90帧属于中速率，高于90帧则属于高速率。而对于320X 224的图像格式数据，每秒50帧属于低速率，50到120帧属于中速率，高于120帧则属于高速率。

通过上述方法，可以根据不同的数据采集速率提供相应的预处理策略，既可以针对高数据采集速率实现快速预处理，也可以针对低数据采集速率实现节能预处理，兼顾高处理速度和低功耗。

优选地，还包括标识单元以及与所述两个DSP相对应的存储单元；所述标识单元用于根据所述策略单元传送的预处理模式分别对所述两个存储单元按照如下规则进行标识：

若执行第一处理模式，则将其中一个存储单元中的所有存储位全部标识为0，将另一个存储单元中的所有存储位部分或全部标识为1；

若执行第二处理模式，则分别将两个存储单元中的所有存储位部分或全部标识为1，且两个存储单元中存储位的标识不一致；

若执行第三处理模式，则分别将两个存储单元中的所有存储位部分或全部标识为1，且两个存储单元中存储位的标识一致。

本发明共设有两个32位存储单元，两个存储单元与两个DSP相对应，用于控制两个DSP协作进行预处理。在流水预处理方式下，根据两个32存储单元中最高非0位位置大小来判断预处理顺序。上述方法通过标识来设定预处理模式，简单有效。

具体地，所述标识单元标识存储位的具体方法包括：将待处理任务拆解为若干个预处理操作，并将存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的存储位标识为0。

存储单元中用位向量标识要进行的预处理操作，每个非0位(即1)代表一个预处理步骤。例如用第7位标识需要对图像进行几何变换，那么第7位为1就表明需要进行几何变换这一预处理步骤。执行预处理操作时，采用从高到低的位顺序标识预处理期间各个操作的执行顺序。另一方面，通过存储位的标识，可以在分配具体预处理操作的同时直接设定预处理策略，简单有效，无需额外增加预处理策略分配步骤。

优选地，还包括输入数据缓冲队列、流水预处理缓冲队列和待识别数据缓冲队列；

基于相同的发明构思，本发明还提供一种计算机存储介质，其存储有程序，该程序用于执行本发明方法的步骤。

由于采用了以上技术方案，与现有技术相比较，本发明可以根据不同的数据采集速率提供相应的预处理策略，既可以针对高数据采集速率实现快速预处理，也可以针对低数据采集速率实现节能预处理，兼顾高处理速度和低功耗。此外，通过存储位的标识，可以在分配具体预处理操作的同时直接设定预处理策略，简单有效，无需额外增加预处理策略分配步骤。本发明还采用了固定起始地址和偏移的处理方法，可以快速计算出待处理数据和预处理后的数据的存放位置，可简化数据读取和存入的地址计算过程。

附图说明

图1为现有智能识别芯片的结构示意图；

图2为本发明智能识别方法的流程图；

图3为本发明智能识别芯片执行并发预处理策略的数据传输示意图；

图4为本发明智能识别芯片执行流水预处理策略的数据传输示意图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

实施例1

如图2所示，一种智能识别方法，包括如下步骤：

根据待处理任务所需的数据采集速率，确定处理模式；

将待处理任务拆解为若干个预处理操作；

根据确定的处理模式以及预处理操作，进行存储位标识；

根据标识内容对待处理任务进行预处理。

具体的，确定处理模式的方法如下：

具体的，进行存储位标识的方法如下：

若执行第一处理模式，则将其中一个存储单元中的所有存储位全部标识为0，将另一个存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的存储位标识为0；

若执行第二处理模式，则分别将两个存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的存储位标识为0，且两个存储单元中存储位的标识不一致；

若执行第三处理模式，则分别将存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的存储位标识为0，且两个存储单元中存储位的标识一致。

具体的，对待处理任务进行预处理的方法如下：

若预处理策略为两个DSP执行流水预处理，由其中一个DSP对输入数据缓冲队列中的输入数据执行相应的预处理操作，并将该DSP的预处理结果存储在流水预处理缓冲队列中，然后由另一个DSP对流水预处理缓冲队列中的数据执行相应的预处理操作，并将最终的预处理结果存储在待识别数据缓冲队列中；

若预处理策略为两个DSP执行并发预处理，两个DSP分别对输入数据缓冲队列中的不同固定位置上的输入数据执行相应的预处理操作，并将预处理结果放置在待识别数据缓冲队列的固定位置上；

实施例2

如图3和图4所示，一种智能识别芯片，包括策略单元、标识单元、两个DSP(DSP0和DSP1)、两个与DSP分别对应的存储单元(存储单元1和存储单元2)、输入数据缓冲队列、流水预处理缓冲队列、待识别数据缓冲队列以及NPU。

所述策略单元根据待处理任务所需的数据采集速率确定预处理模式，并将预处理模式发送给识别单元；所述识别单元将待处理任务拆解为若干个预处理操作，并根据预处理模式和预处理操作对分别对存储单元1和存储单元2进行存储位标识，所述DSP0和DPS1根据标识内容对输入数据进行预处理。

所述策略单元根据待处理任务所需的数据采集速率确定预处理模式的方法如下：

所述识别单元进行存储位标识的方法如下：

DSP0和DSP1对待处理任务进行预处理的方法如下：

如图3所示，若预处理策略为两个DSP执行并发预处理，两个DSP分别对输入数据缓冲队列中的不同固定位置上的输入数据执行相应的预处理操作，并将预处理结果放置在待识别数据缓冲队列的固定位置上；

如图4所示，若预处理策略为两个DSP执行流水预处理，由其中一个DSP对输入数据缓冲队列中的输入数据执行相应的预处理操作，并将该DSP的预处理结果存储在流水预处理缓冲队列中，然后由另一个DSP对流水预处理缓冲队列中的数据执行相应的预处理操作，并将最终的预处理结果存储在待识别数据缓冲队列中；

待识别数据缓冲队列中的预处理结果最终由NPU读取并进行识别处理。

本实施例中，所述策略单元、标识单元虽然是独立的模块，但本领域技术人员也可以根据本发明的发明构思，设计成直接由DSP来执行这两个单元的任务(DSP对待处理任务进行拆解，并对相应的存储单元进行标识)，本实施例并不对其构成限制。本实施例中，输入数据缓冲队列、流水预处理缓冲队列、待识别数据缓冲队列虽然是独立的模块，但本领域技术人员也可以根据本发明的发明构思，设计为直接将所述存储单元划分成为这三个缓冲队列，本实施例并不对其构成限制。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种智能识别方法，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，还包括如下步骤：对两个DSP对应的两个存储单元按照如下规则进行标识：

3.根据权利要求2所述的方法，其特征在于，标识存储位的具体方法包括如下步骤：将待处理任务拆解为若干个预处理操作，将存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的存储位标识为0。

4.根据权利要求1-3之一所述的方法，其特征在于，所述两个DSP对待处理任务进行预处理的方法包括如下步骤：

5.根据权利要求4所述的方法，其特征在于，所述方法还包括如下步骤：将所述待识别数据缓冲队列中的预处理结果由NPU进行读取并进行识别处理。

6.一种智能识别芯片，其特征在于：包括策略单元和两个DSP，所述策略单元分别与所述两个DSP通信；所述策略单元用于根据待处理任务所需的数据采集速率，确定预处理模式：

7.根据权利要求6所述的智能识别芯片，其特征在于：还包括标识单元以及与所述两个DSP相对应的存储单元；所述标识单元用于根据所述策略单元传送的预处理模式分别对所述两个存储单元按照如下规则进行标识：

8.根据权利要求7所述的智能识别芯片，其特征在于：所述标识单元标识存储位的具体方法包括：将待处理任务拆解为若干个预处理操作，并将存储单元中与所述预处理操作对应的存储位标识为1，未对应预处理操作的位标识为0。

9.根据权利要求6-8之一所述的智能识别芯片，其特征在于：还包括输入数据缓冲队列、流水预处理缓冲队列和待识别数据缓冲队列；

10.根据权利要求9所述的智能识别芯片，其特征在于：还包括NPU，所述NPU用于从所述待识别数据缓冲队列读取数据，并对所述待识别数据缓冲队列中的预处理结果进行识别处理。

11.一种计算机存储介质，其特征在于，其存储有程序，该程序用于执行权利要求1—4之一所述方法的步骤。