CN112766483B

CN112766483B - 异构系统的数据处理方法、装置及计算机可读存储介质

Info

Publication number: CN112766483B
Application number: CN202011608763.6A
Authority: CN
Inventors: 冯建豪
Original assignee: Thinkforce Electronic Technology Co ltd
Current assignee: Thinkforce Electronic Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-01-31
Anticipated expiration: 2040-12-30
Also published as: CN112766483A

Abstract

本发明提供了一种异构系统的数据处理方法、装置及计算机可读存储介质，包括：将多个神经网络中的算子进行分类，分为加速算子和非加速算子；获取各个算子的权值；进行神经网络的加速程序，调度核选择和某个加速算子的权值相匹配的非加速算子，或选择和某个非加速算子初始权值相匹配的加速算子；不同的运算单元分别运算被选择的加速算子和非加速算子。

Description

异构系统的数据处理方法、装置及计算机可读存储介质

技术领域

本发明涉及基于神经网络的计算机系统技术领域，特别涉及一种异构系统的数据处理方法、装置及计算机可读存储介质。

背景技术

神经网络是由处理单元广泛地互相连接形成的复杂网络系统，通过调整内部节点之间相互连接的关系，从而达到处理信息的目的。随着科技的不断发展，神经网络算法的使用越来越广泛。其在图像识别、语音识别、自然语言处理等领域中都得到了良好的应用。但由于神经网络算法的复杂度越来越高，其模型的规模不断增大。基于神经网络处理器(Neural network Processing Unit，简称NPU)、中央处理器(Central Processing Unit，简称CPU)的片上系统(System on Chip，简称SOC)，具有较高的复杂度。

中断作为计算机体系结构中的重要概念，是外设与CPU交互的重要方式。但是随着神经网络的发展，促进了NPU等异构系统的出现，往往在一个SOC芯片中会有多个异构加速器存在，另外如直接存储器访问(Direct Memory Access，简称DMA)或者USB控制器等外设会加重系统的中断负担。同时Linux系统的中断处理机制导致中断过程中存在内核态与用户态的切换耗时，现有的加速器的速度需求下，已不再采用中断处理机制，换句话说，对于高性能场景来说，通过接受中断来控制不同外设的开始结束时机已经不再适用。

目前带神经网络加速器的SOC为了高性能需求，取消了硬中断带来的耗时，一般由用户自己确认加速器是否完成运算，往往在软件上采用轮询方式，在轮询结束后，如果加速器未完成运算，再通过平台延时指令主动出让CPU以避免空余。

但是现有的采用轮询机制的方法，由用户态发现硬件结束时间会造成CPU空转消耗，对于神经网络来说，应充分挖掘CPU与NPU等所有算力，应避免这种CPU空转消耗。对于主动出让CPU的操作，又会不可避免的造成无效等待。比如采用固定时间休眠的方案，对于算力较小的算子，会因为很快算完而休眠，直到设定时间结束才被唤醒。采用平台延时指令的方式又会因为得到CPU运行权的线程可能过早或过晚归还CPU运行权而造成浪费。

发明内容

本发明的目的在于提供一种异构系统的数据处理方法、装置及计算机可读存储介质，以解决现有的CPU和加速器的通信造成CPU空转消耗的问题。

为解决上述技术问题，本发明提供一种异构系统的数据处理方法，包括：

将多个神经网络中的算子进行分类，分为加速算子和非加速算子；

获取各个算子的权值；

进行神经网络的加速程序，调度核选择和某个加速算子的权值相匹配的非加速算子，或选择和某个非加速算子初始权值相匹配的加速算子；

不同的运算单元分别运算被选择的加速算子和非加速算子。

可选的，在所述的异构系统的数据处理方法中，

所述加速算子由神经网络处理器完成计算，所述非加速算子由中央处理器完成计算。

可选的，在所述的异构系统的数据处理方法中，还包括：

在调度核中形成第一队列和第二队列；

对当前需要执行的所有神经网络按照执行顺序建立多个执行队列，每个神经网络对应一个执行队列；

对每个执行队列的队首算子执行弹出操作，将弹出的队首算子分类后进行入队，加速算子归入所述第一队列，非加速算子归入所述第二队列。

可选的，在所述的异构系统的数据处理方法中，还包括：当前需要执行的所有神经网络的队首算子均归入到第一队列或第二队列后，分别从第一队列和/或第二队列中弹出一个算子进行权值匹配，直至找出权值匹配的加速算子和非加速算子。

可选的，在所述的异构系统的数据处理方法中，还包括：将多个所述神经网络进行预运行，获取各个算子的初始权值，进行神经网络的加速程序时，对各个算子的初始权值进行更新。

可选的，在所述的异构系统的数据处理方法中，还包括：

进行多次所述神经网络的预运行，每次预运行获取各个算子的单次运行时间；

根据每个算子的多个单次运行时间，获得各个算子的平均运行时间；

所述各个算子的初始权值根据各个算子的平均运行时间获取；

实时获取各个算子的单次运行时间和/或平均运行时间，并根据实时获取的单次运行时间和/或平均运行时间更新各个算子的初始权值。

可选的，在所述的异构系统的数据处理方法中，还包括：当无法得到初始权值相匹配的加速算子或非加速算子时，进行算力分配；

对加速算子和/或非加速算子进行算子切分，和/或对加速算子和/或非加速算子进行算子合并。

可选的，在所述的异构系统的数据处理方法中，还包括：从第一队列和第二队列中分别随机弹出一个算子；

判断是否第一队列和第二队列各弹出一个算子，若是则判断两个算子的权值是否匹配，否则无法匹配，正常执行算子；

判断两个算子的权值是否匹配时，若是则匹配成功，两个算子同时执行；否则判断第一队列或第二队列中是否有最合适的算子可以替换；

判断第一队列或第二队列中是否有最合适的算子可以替换时，若是匹配成功，两个算子同时执行，否则对权值较小的算子所在的队列执行合并算法；

判断合并后加速算子和非加速算子的权值是否匹配，若是则匹配成功，两个算子同时执行，否则对权值较大的算子执行对半切分，将第一部分返还至其所在的队列；

判断切分形成的第二部分的权值是否大于另一个算子的权值，若是则返回上一步骤，否则撤销上一步骤，且匹配成功，两个算子同时执行。

本发明还提供一种异构系统的数据处理装置，包括设置在神经网络处理器中的调度核，所述调度核用于执行存储器中存储的计算机程序时实现如上任一项所述异构系统的数据处理方法的步骤。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有异构系统的数据处理程序，所述异构系统的数据处理程序被处理器执行时实现如上任一项所述异构系统的数据处理方法的步骤。

在本发明提供的异构系统的数据处理方法、装置及计算机可读存储介质中，通过将多个神经网络中的算子分为加速算子和非加速算子，获取各个算子的权值，调度核选择和某个加速算子的权值相匹配的非加速算子，或选择和某个非加速算子初始权值相匹配的加速算子，不同的运算单元分别运算被选择的加速算子和非加速算子，实现了不同的运算单元在大致相同的时间内均处于运算状态，不浪费算力，不空转消耗和等待，避免了相有的采用平台延时指令，使得得到CPU运行权的线程可能过早或过晚归还CPU运行权而造成浪费；避免了算力较小的算子因为很快算完而休眠，直到设定时间结束才被唤醒所造成的无效等待。

随着神经网络的发展，软件对于算力的需求越来越大，在这些硬件平台的软件开发包中也出现了为了对这种紧缺算力进行分配的需求。这种动态分析每个算子在各个专有加速器和CPU的运行时间，在保证正确性的情况下进行并行匹配，可以保证神经网络的并行性得到充分发挥，每个算力不会出现等待的情况。本方案在多神经网络运行时，对于异构SOC的各个硬件，神经网络的利用率可以充分提高。

附图说明

图1是本发明一实施例异构系统的数据处理方法流程示意图；

图2是本发明一实施例异构系统的数据处理方法流程示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的异构系统的数据处理方法、装置及计算机可读存储介质作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

本发明的核心思想在于提供一种异构系统的数据处理方法、装置及计算机可读存储介质，以解决现有的CPU和加速器的通信造成CPU空转消耗的问题。

为实现上述思想，本发明提供了一种异构系统的数据处理方法、装置及计算机可读存储介质，包括：将多个神经网络中的算子进行分类，分为加速算子和非加速算子；获取各个算子的权值；进行神经网络的加速程序，调度核选择和某个加速算子的权值相匹配的非加速算子，或选择和某个非加速算子初始权值相匹配的加速算子；不同的运算单元分别运算被选择的加速算子和非加速算子。

本实施例提供一种异构系统的数据处理方法，包括：将多个神经网络中的算子进行分类，分为加速算子和非加速算子；获取各个算子的权值；进行神经网络的加速程序，调度核选择和某个加速算子的权值相匹配的非加速算子，或选择和某个非加速算子初始权值相匹配的加速算子；不同的运算单元分别运算被选择的加速算子和非加速算子。

其中，本实施例所指的多个神经网络，即可以包括多个独立的神经网络，也可以指一个大的神经网络中的多个子神经网络，这些子神经网络是并行的关系。

在本发明的一个实施例中，在所述的异构系统的数据处理方法中，所述加速算子由神经网络处理器完成计算，所述非加速算子由中央处理器完成计算。所述的异构系统的数据处理方法还包括：在调度核中形成第一队列和第二队列；对当前需要执行的所有神经网络按照执行顺序建立多个执行队列，每个神经网络对应一个执行队列；对每个执行队列的队首算子执行弹出操作，将弹出的队首算子分类后进行入队，加速算子归入所述第一队列，非加速算子归入所述第二队列。还包括：当前需要执行的所有神经网络的队首算子均归入到第一队列或第二队列后，分别从第一队列和/或第二队列中弹出一个算子进行权值匹配，直至找出权值匹配的加速算子和非加速算子。

在本发明的一个实施例中，在所述的异构系统的数据处理方法中，还包括：将多个所述神经网络进行预运行，获取各个算子的初始权值，进行神经网络的加速程序时，对各个算子的初始权值进行更新。其中所述的异构系统的数据处理方法还包括：进行多次所述神经网络的预运行，每次预运行获取各个算子的单次运行时间；根据每个算子的多个单次运行时间，获得各个算子的平均运行时间；所述各个算子的初始权值根据各个算子的平均运行时间获取；实时获取各个算子的单次运行时间和/或平均运行时间，并根据实时获取的单次运行时间和/或平均运行时间更新各个算子的初始权值。

在本发明的一个实施例中，在所述的异构系统的数据处理方法中，还包括：当无法得到初始权值相匹配的加速算子或非加速算子时，进行算力分配；对加速算子和/或非加速算子进行算子切分，和/或对加速算子和/或非加速算子进行算子合并。如图2所示，所述的异构系统的数据处理方法还包括：从第一队列和第二队列中分别随机弹出一个算子；判断是否第一队列和第二队列各弹出一个算子，若是则判断两个算子的权值是否匹配，否则无法匹配，正常执行算子；判断两个算子的权值是否匹配时，若是则匹配成功，两个算子同时执行；否则判断第一队列或第二队列中是否有最合适的算子可以替换；判断第一队列或第二队列中是否有最合适的算子可以替换时，若是匹配成功，两个算子同时执行，否则对权值较小的算子所在的队列执行合并算法；判断合并后加速算子和非加速算子的权值是否匹配，若是则匹配成功，两个算子同时执行，否则对权值较大的算子执行对半切分，将第一部分返还至其所在的队列；判断切分形成的第二部分的权值是否大于另一个算子的权值，若是则返回上一步骤，否则撤销上一步骤，且匹配成功，两个算子同时执行。

可以把各实施例提供为可包括其上存储有机器可执行指令的一个或多个机器可读介质的计算机程序产品，这些指令在由诸如计算机、计算机网络或其他电子设备等的一个或多个机器执行时，可以引起一个或多个机器执行根据本发明的各实施例的操作。机器可读介质可以包括但不限于软盘、光盘、CD-ROM(紧致盘只读存储器)和磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁或光卡、闪速存储器或适用于存储机器可执行指令的其他类型的介质/机器可读介质。

此外，可以作为计算机程序产品下载各实施例，其中，可以经由通信链路(例如，调制解调器和/或网络连接)由载波或其他传播介质实现和/或调制的一种或多种数据信号把程序从远程计算机(例如，服务器)传输给请求计算机(例如，客户机)。因此，在此所使用的机器可读介质可以包括这样的载波，但对此不作要求。

本实施例还提供一种异构系统的数据处理装置，包括设置在神经网络处理器中的调度核，所述调度核用于执行存储器中存储的计算机程序时实现如上所述异构系统的数据处理方法的步骤。

本实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有异构系统的数据处理程序，所述异构系统的数据处理程序被处理器执行时实现如上所述异构系统的数据处理方法的步骤。

本发明通过把运行时间作为权值，使用权值匹配的方式来充分发挥多神经网络的并行性。本发明还提供了一个按以下顺序实施该方法的实施例，一个多神经网络的系统将完成以下步骤：

将所有神经网络中的所有算子分为非加速算子(即非NPU加速算子，通常这种算子由CPU完成)和加速算子(即NPU算子)；

运行几遍神经网络，根据每个算子的平均运算时间给各个算子赋予相应的初始权值；

将两类算子在神经网络中的运行依照顺序，分成多个执行队列；

形成第一队列和第二队列，第一队列将容置加速算子，第二队列将容置非加速算子；

在加速程序中，硬件(在这个语境中是指NPU)进入等待完成时，加速程序自动切入调度核。在调度核中会根据权值(可以是初始权值，也可以是更新的权值，权值在后续步骤中不断更新)匹配接近NPU算子完成时间的非NPU算子，并开始运算该非NPU算子，或者相反。

当遇到无法完美匹配时，开始算力分配，具体包括：因为神经网络算子本身往往具有一定并行性，对于存在较大算力的算子时，可以进行算子的切分，对于有多个较小算力的算子时，可以进行算子的合并。整个切分和合并的分配过程可以采用linux的内存分配算法(即Buddy伙伴算法)。

在运行时，也会实时统计各个算子的运算时间(包括平均运算时间和/或单次运算时间)，与先前的权值一起生成更新的权值。

综上，上述实施例对异构系统的数据处理方法、装置及计算机可读存储介质的不同构型进行了详细说明，当然，本发明包括但不局限于上述实施中所列举的构型，任何在上述实施例提供的构型基础上进行变换的内容，均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。

Claims

1.一种异构系统的数据处理方法，其特征在于，包括：

获取各个算子的权值；

不同的运算单元分别运算被选择的加速算子和非加速算子；

2.如权利要求1所述的异构系统的数据处理方法，其特征在于，还包括：

在调度核中形成第一队列和第二队列；

3.如权利要求2所述的异构系统的数据处理方法，其特征在于，还包括：当前需要执行的所有神经网络的队首算子均归入到第一队列或第二队列后，分别从第一队列和/或第二队列中弹出一个算子进行权值匹配，直至找出权值匹配的加速算子和非加速算子。

4.如权利要求1所述的异构系统的数据处理方法，其特征在于，还包括：将多个所述神经网络进行预运行，获取各个算子的初始权值，进行神经网络的加速程序时，对各个算子的初始权值进行更新。

5.如权利要求4所述的异构系统的数据处理方法，其特征在于，还包括：

6.如权利要求1所述的异构系统的数据处理方法，其特征在于，还包括：当无法得到初始权值相匹配的加速算子或非加速算子时，进行算力分配；

7.如权利要求6所述的异构系统的数据处理方法，其特征在于，还包括：从第一队列和第二队列中分别随机弹出一个算子；

8.一种异构系统的数据处理装置，其特征在于，包括设置在神经网络处理器中的调度核，所述调度核用于执行存储器中存储的计算机程序时实现如权利要求1至7任一项所述异构系统的数据处理方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有异构系统的数据处理程序，所述异构系统的数据处理程序被处理器执行时实现如权利要求1至7任一项所述异构系统的数据处理方法的步骤。