CN115454507B

CN115454507B - 多任务并行执行的方法、装置、计算设备及可读存储介质

Info

Publication number: CN115454507B
Application number: CN202211402032.5A
Authority: CN
Inventors: 郭克
Original assignee: Uniontech Software Technology Co Ltd
Current assignee: Uniontech Software Technology Co Ltd
Priority date: 2022-11-10
Filing date: 2022-11-10
Publication date: 2023-03-24
Anticipated expiration: 2042-11-10
Also published as: CN115454507A

Abstract

本发明涉及忆阻器技术领域，公开了一种多任务并行执行的方法、装置、计算设备及可读存储介质，该方法在忆阻器中执行，包括：获取各任务对应的程序，程序包括第一忆阻器指令；将程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用；并行执行一个或多个组合调用中的第一忆阻器指令。本发明的技术方案实现了多任务在忆阻器中的并行执行。本发明的技术方案，在多任务并行执行时能够充分利用忆阻器阵列的计算资源，提升依赖忆阻器阵列进行加速的系统的系统吞吐。

Description

多任务并行执行的方法、装置、计算设备及可读存储介质

技术领域

本发明涉及忆阻器技术领域，尤其涉及一种多任务并行执行的方法、装置、计算设备及可读存储介质。

背景技术

目前，人工智能、信号处理、科学计算等计算密集应用领域得到了飞速发展，矩阵向量乘法作为这类应用中出现次数极高的运算，也是运算中耗能最多的部分。因此，如果能够对多任务的矩阵向量乘法运算进行并行执行，对计算密集应用的运行效率能够产生显著提升。

然而，传统的实现多任务并行执行的方案基本上都是基于存储和计算分离的冯诺依曼架构的，这种架构的计算机系统在计算时需要由控制器将数据从存储系统取出到计算单元，计算后再存储回存储系统，在数据来回搬运的过程中除了计算单元的有效运算外，存取数据消耗了大量的机器周期和功耗。

为此，开发一种多任务并行执行方案在忆阻器中对矩阵向量乘法进行计算成为当前亟需解决的问题。

发明内容

为此，本发明提供一种多任务并行执行的方法、装置、计算设备及可读存储介质，以解决或至少缓解上面存在的问题。

根据本发明的第一个方面，提供一种多任务并行执行的方法，在忆阻器中执行，方法包括：获取各任务对应的程序，程序包括第一忆阻器指令；将程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用；并行执行一个或多个组合调用中的第一忆阻器指令。

可选地，在根据本发明的多任务并行执行的方法中，还包括：将一个或多个组合调用组合为一个组合调用的队列；执行组合调用的队列中的各组合调用。

可选地，在根据本发明的多任务并行执行的方法中，将程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用，包括：通过运行时进程，将程序中包括的各第一忆阻器指令插入组合调用的队列中的一个可并行执行的组合调用中。

可选地，在根据本发明的多任务并行执行的方法中，将程序中包括的各第一忆阻器指令插入组合调用的队列中的一个可并行执行的组合调用中，包括：在程序包括的各第一忆阻器指令中，判断每个第一忆阻器指令与组合调用的队列中的各组合调用的全部指令的输入行和输出列之间是否存在重合；如果该第一忆阻器指令与组合调用的队列中一组合调用的全部指令均不重合，则将该第一忆阻器指令插入到该组合调用中；如果该第一忆阻器指令与组合调用的队列中的每个组合调用的任一指令存在重合，则创建一个新的组合调用，并将该第一忆阻器指令插入到新的组合调用中。

可选地，在根据本发明的多任务并行执行的方法中，第一忆阻器指令包括第一矩阵的输入地址、结果输出地址和第二矩阵的位置信息，方法还包括：将输入地址和结果输出地址放置到第二矩阵的注册区域中；在消息缓冲区中创建一个消息，消息包括指令缓冲区；调用第二忆阻器指令，将第一忆阻器指令放置到指令缓冲区；将消息发送至运行时进程；其中，并行执行一个或多个组合调用中的第一忆阻器指令，包括：运行时进程从注册区域中的输入地址获取第一矩阵，根据指令缓冲区中的指令，将第一矩阵与第二矩阵进行矩阵相乘，其中，第二矩阵预先部署在忆阻器上。

可选地，在根据本发明的多任务并行执行的方法中，消息还包括实时性信息，其中，并行执行一个或多个组合调用中的第一忆阻器指令，还包括：根据实时性信息，确定一个或多个组合调用中的第一忆阻器指令的执行方式；如果执行方式为立即执行，则在运行时进程接收到消息后，立即对一个或多个组合调用中的第一忆阻器指令进行并行执行；如果执行方式为间隔执行，则在运行时进程接收到消息的预定时间后，对一个或多个组合调用中的第一忆阻器指令进行并行执行。

可选地，在根据本发明的多任务并行执行的方法中，还包括：并行执行结束后，通过运行时进程将执行结果发送至相应的任务。

根据本发明的第二个方面，提供一种多任务并行执行的装置，包括：任务获取模块，适于获取各任务对应的程序，程序包括第一忆阻器指令；指令合并模块，适于将程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用；并行执行模块，适于并行执行一个或多个组合调用中的第一忆阻器指令。

根据本发明的第三个方面，提供一种计算设备，包括：至少一个处理器；存储器，存储有程序指令，其中，程序指令被配置为适于由上述至少一个处理器执行，程序指令包括用于执行如上所述的方法的指令。

根据本发明的第四个方面，提供一种存储有程序指令的可读存储介质，当该程序指令被计算设备读取并执行时，使得该计算设备执行如上所述的方法。

根据本发明的技术方案，通过将程序中可并行执行的第一忆阻器指令合并为组合调用后，对组合调用中的第一忆阻器指令并行执行，使得多任务在忆阻器中可以并行执行，不同的任务的第一忆阻器指令能够同时在忆阻器阵列中执行，并且在多任务并行执行时能够充分利用忆阻器阵列的计算资源，提升依赖忆阻器阵列进行加速的系统的系统吞吐。

进一步地，通过运行时进程将来自不同任务的第一忆阻器指令插入组合调用队列中的一个可并行执行的组合调用，根据第一忆阻器指令与组合调用的队列中的各组合调用的全部指令的输入行和输出列之间不可重合的原则，将各任务的第一忆阻器指令插入可并行执行的组合调用的队列中的组合调用中，提升了忆阻器对多任务执行的处理效率。

而且，通过在消息中设置实时性信息，指示组合调用中第一忆阻器指令的执行方式，针对例如一些对时延要求高的任务可以采用立即执行的方式，牺牲一部分系统吞吐使任务及时提交。还可以采用间隔执行的方式，在一定时延后，可以积累来自不同任务的第一忆阻器指令形成的组合调用，一并提交执行，增加多任务同时在一个忆阻器阵列上执行的可能性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了实现上述以及相关目的，本文结合下面的描述和附图来描述某些说明性方面，这些方面指示了可以实践本文所公开的原理的各种方式，并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述，本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开，相同的附图标记通常指代相同的部件或元素。

图1示出了传统的CPU架构的示意图；

图2示出了忆阻器的示意图；

图3示出了根据本发明一个实施例的多任务并行执行的方法300的流程图；

图4示出了根据本发明的忆阻器的简化示意图；

图5示出了根据本发明一个实施例的多任务并行执行的示意图；

图6示出了根据本发明一个实施例的消息发送的示意图；

图7示出了计算设备700的物理组件(即，硬件)的框图；

图8示出了根据本发明一个实施例的多任务并行执行的装置800的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

目前，采用传统的冯诺依曼架构的计算机在进行矩阵乘法等运算时消耗大部分时间和功耗在数据的搬运上，造成性能瓶颈和巨大的能源消耗，这里，矩阵乘法运算通常表示矩阵之间相乘的运算。为了降低这部分运算带来的能耗并提高运算性能，克服数据搬运带来的性能瓶颈，业内逐渐打破了传统的冯诺伊曼存算分离的系统架构，设计出了基于忆阻器(RRAM)的存算一体的计算器件，旨在减少数据搬运，使数据计算发生在存储数据的地方，以降低功耗，提高性能。基于忆阻器的存算一体计算器件利用基尔霍夫定律和欧姆定律加速向量矩阵乘法操作，减少处理器与存储器之间数据传输的时间开销和能量。因此，利用存算一体的设计思想加速矩阵向量乘法是解决或至少缓解现在人工智能、信号处理等应用耗能巨大问题的关键。

忆阻器通常采用交叉阵列的方式进行高密度的集成，在忆阻器交叉阵列（即忆阻器阵列）一端施加电压矢量时，另一端的输出电流矢量是施加电压矢量与忆阻器电导矩阵的乘积。基于基尔霍夫电压定律和欧姆定律，忆阻器阵列能够在一个周期内完成矢量与矩阵的乘累加运算。乘法的因子可直接存储在忆阻器阵列中，无需单独的存储单元，从而突破了冯诺依曼架构的瓶颈。而且基于忆阻器阵列乘累加运算的核心单元的计算能效相比现有的CMOS器件提高了几个数量级，这对具有大量乘累加运算的智能处理任务具有重要意义。基于忆阻器的存算一体器件以卓越的性能和易大规模集成等特点成为在富计算应用中进行矩阵向量乘法计算的极有前景的候选器件。忆阻器存算一体计算器件因具有非常密集的计算资源，是进行大规模矩阵计算的理想器件。忆阻器和传统的基于互补金属氧化物半导体（Complementary Metal Oxide Semiconductor，简称CMOS）的CPU之间的差异极大。图1示出了传统的CPU架构的示意图，如图1所示，在传统的CPU架构中，当CPU进行计算时，CPU计算所需的数据通过几级缓存从动态随机存取存储器（DRAM）或者永久性存储设备（Store）加载，在计算完成之后，再存到动态随机存取存储器或永久性存储设备。在大量数据参与计算的情况下，大部分的功耗和延时都消耗在CPU和DRAM之间存取数据的过程中。

而忆阻器的计算过程与传统的计算设备完全不同，下面针对在忆阻器上进行矩阵向量乘法的原理进行说明。图2示出了忆阻器的示意图，图2的忆阻器包括一个忆阻器阵列，在如图2所示的忆阻器上进行的矩阵向量乘法可以由下式表示：

(g11, g12, g13, g14,

(v1, v2, v3, v4) * g21, g22, g23, g24, = (I1, I2, I3, I4)

g31, g32, g33, g34,

g41, g42, g43, g44)

其中，v1, v2, v3, v4表示输入电压，每个行上的输入电压相同，即同一个行上的输入电压相同，每个列上的电流为该列上流经所有电阻的电流相加的结果，gxy(x,y)表示电阻的电导，x和y分别表示电导矩阵的行和列，在本示例中的取值范围在1至4之间，忆阻器的忆阻器阵列上每个电阻串联有一个场效应晶体管（MOS管）做开关，当对一MOS管加正电压时，开关打开，与该MOS管串联的电阻可以将其所在行接入的电流流经自身后导入其所在列的结果汇集线。例如：当图2中的电阻g11前方的MOS管（即与电阻g11串联的MOS管）的开关打开时，其输入为电压v1,流经的电流为v1*g11（这里g11表示电阻g11的电导值）,该电流被标识I1的第一个列线收集，假设g11、 g21、g31、g41四个电阻的MOS管开关都打开时，第一根列线收集的电流则为v1*g11+v2*g21+v3*g31+v4*g41。同理，如果只有g11和g21的开关打开时，则第一个列线收集的电流为v1*g11+v2*g21。忆阻器阵列上其他列线的原理与这里给出的第一根列线的示例等同。在需要进行矩阵计算时，通过将对应电阻的MOS管开关打开，开关开启的电阻就能将其所在行线的输入电压导入到其所在列的列线的输出电流中。

关于电导(即电阻的倒数)的设置，可以通过电脉冲将忆阻器阵列中任何一个电阻的电导设置为确定的值。假设图2中的全部电阻的MOS开关均是开启的，I1、I2、I3、I4为相应线路上的输出电流。由于在同一列的电阻是并联的，根据基尔霍夫第一定律I1=v1*g11+v2*g21+v3*g31+v4*g41,同理可得Ix=v1*gx1+v2*gx1+v3*gx1+v4*gx1，其中，x表示相应的行号。因此，可以通过将上述矩阵的值作为电导值设置到十字交叉处对应的电阻上，如图2所示，当输入电压向量为(v1, v2, v3, v4)时，测量I1、I2、I3、I4的值即可得到矩阵（设置到忆阻器阵列电阻上的矩阵与输入电压对应的矩阵）乘法运算的结果，完成了一次矩阵向量的乘法运算。然而，CPU完成同样的运算却需要16次乘法，16次加法。矩阵乘法的运算是深度学习、信号处理、科学计算等计算密集应用当中使用率最高的运算操作，因此，忆阻器存算一体器件对加速这类运算具有重要意义。

前述图2的示例仅给出了一个大小为4*4的运算单元，由于忆阻器特别适合集成，目前的忆阻器阵列规模可以很轻易地做到1024*576，甚至更大。忆阻器适合集成的特征可以提供密集的计算资源，提供了使很多计算任务并行进行矩阵乘法运算的潜能。由于基于忆阻器的存算一体计算阵列独特的特征，现有的操作系统中用于管理GPU和CPU的任务管理系统难以对忆阻器存算一体计算器件进行有效的多任务管理。因此，如何开发一种针对忆阻器的多任务管理方法，对忆阻器存算一体计算器件及其操作系统具有重要意义。为此，本发明提供一种多任务并行执行的方案，为忆阻器在多任务管理上的空缺提供一种可行方案。

下面对本发明提供的多任务并行执行方案进行说明。

图3示出了根据本发明一个实施例的多任务并行执行的方法300的流程图。方法300适于在计算设备（例如：忆阻器）中执行，执行方法300的忆阻器可以实现为一种基于忆阻器的存算一体计算器件，基于忆阻器的存算一体计算器件是一种将矩阵元素作为电导值存储在忆阻器阵列上，利用基尔霍夫第一定律将输入的电压向量与电导矩阵乘积表示为电流的计算器件。对每一个输入电压向量，经过与电导矩阵乘积，最后通过测量输出电流值来计算一个用电压表示的向量和一个电导矩阵的乘积。基于忆阻器的存算一体计算器件具有容易集成，功耗低的特点，成为解决人工智能应用耗能高以及提高计算性能的重要候选计算器件。方法300也可以在基于忆阻器的存算一体计算器件的操作系统中执行，也可以在基于忆阻器的存算一体计算器件的操作系统中的任务管理器中执行。

如图3所示，在方法300的步骤310中，获取各任务对应的程序，其中，程序包括第一忆阻器指令。

这里，多任务中的各任务可以是由软件完成的一个活动，一个任务可以是一个进程，也可以是一个线程。任务对应的程序可以包括忆阻器调用（即第一忆阻器指令），还可以包括CPU指令。程序中矩阵向量乘法以外的运算可以通过CPU指令执行，这类运算例如：加法、减法、乘法、触发、系统调用指令、外设访问指令等等，程序中的矩阵向量乘法则通过第一忆阻器指令执行。一个程序可以包括一个或多个第一忆阻器指令，对于多任务所对应的多个程序，则包括多个第一忆阻器指令。

其中，第一忆阻器指令包括第一矩阵的输入地址、结果输出地址和第二矩阵的位置信息。第一矩阵表示输入忆阻器的矩阵，第二矩阵表示部署在忆阻器上的与第一矩阵相乘的矩阵，结果输出地址表示存放第一矩阵与第二矩阵相乘后得到的结果的地址。第二矩阵的位置信息可以包括第二矩阵在忆阻器中的起始位置所在行（StartR）、第二矩阵在忆阻器中的起始位置所在列（StartC）、第二矩阵的行数（n）以及第二矩阵的列数（m）。

第一忆阻器指令可以是一个矩阵向量乘法指令(Matrix-VectorMultiplication，简称MVM指令)来指示矩阵相乘运算，MVM指令的形式如下示例所示：MVM（deviceID，input，output，startR，StartC，n，m）。其中，该指令的参数及其释义如下：device ID表示忆阻器的设备标识，input表示输入向量（也称输入矩阵，即第一矩阵）的输入地址，output表示运算结束后得到的输出向量（也称输出矩阵，即矩阵乘法运算后得到的结果）的输出地址，StartR表示第二矩阵在忆阻器阵列中的起始位置所在行，StartC表示第二矩阵在忆阻器阵列中的起始位置所在列，n表示第二矩阵的行数，m表示第二矩阵的列数。该指令表示在ID为deviceID的忆阻器中，执行输入向量为1*n，乘以n*m的矩阵(该矩阵的行起始点是startR，列起始点是StartC)，得到一个1*m的输出向量。

根据本发明的一个实施例，将第一忆阻器指令注册到部署其待乘矩阵的忆阻器阵列上。可选地，将第一忆阻器指令包括的第一矩阵的输入地址和结果输出地址放置到第二矩阵的注册区域中。然后，在消息缓冲区中创建一个消息，其中，消息包括指令缓冲区。其次，调用第二忆阻器指令，将第一忆阻器指令放置到指令缓冲区。将消息发送至运行时进程（runtime）。可选地，消息还包括实时性信息。例如：图4示出了根据本发明的忆阻器的简化示意图，如图4所示，当执行指令MVM 0，input1， output1， 0，0，2，2时，将起始坐标位置为（0,0）的大小为2x2的矩阵部署在ID为0的忆阻器上，注册C0（起始坐标位置为（0,0）的大小为2x2的矩阵所占的电导存储阵列）到注册区域，并将C0计算所需的参数input1，output1(input1和output1分别为输入和输出的内存地址)放入C0的注册区域。

具体地，为了充分利用硬件的性能不直接使用MVM指令，而是调用第二忆阻器指令pushMVM。其中，第二忆阻器指令的示例性形式如下：pushMVM (deviceID，input，output，startR，StartC，n，m)，pushMVM指令的参数的含义与第一忆阻器相同。图5示出了根据本发明一个实施例的多任务并行执行的示意图。如图5所示，调用第二忆阻器指令时，第二忆阻器指令通过调用构造一个第一忆阻器指令（MVM指令）并放入指令缓冲区，再次调用pushMVM调用时则在该指令缓冲区追加一条指令，将该指令缓冲区的MVM指令通过MVMSend消息发送给运行时进程（runtime进程），并且阻塞等到runtime进程执行完成返回结果。runtime进程收到MVMSend消息后对来自不同任务的MVM指令进行汇聚后发送给硬件（例如：忆阻器阵列）执行，硬件执行结束后，当一个MVMSend消息包含的所有MVM指令执行结束后，runtime向MVMResponse回复该消息，并将执行结果放入回复消息中发送给相应任务（例如：用户进程）。

在320中，将程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用。

其中，一个组合调用为一个包含至少一个第一忆阻器指令的调用，通过执行组合调用，可以同时执行其中的全部第一忆阻器指令。一个组合调用可以实现为一个DOALL调用，DOALL调用为对合并到DOALL调用中的一个或多个第一忆阻器指令进行同时执行的一次调用。DOALL调用可以以DOALL结构进行描述，在DOALL结构中包含所有可以在一次忆阻器硬件事务中并行执行的一组MVM指令及其描述数据。DOALL结构可以由MVMList、inputBitMap和outputBitMap组成。其中，MVMList表示一个DOALL调用中所有要执行的MVM指令形成的链表，链表每个项由一个MVM结构构成，MVM结构包括执行一个MVM指令所需要的所有信息，其中可以包括MVM deviceID(设备标识)，input(输入数据)， output(输出数据)， startR（矩阵起始行坐标）， StartC(矩阵起始列坐标)，n(矩阵行数)， m(矩阵列数)，MVM结构还可以包含一个字段next用于指向下一个MVM结构，以组成链表。其中，inputBitMap用于表示在DOALL调用中相应的输入通道（输入行）是否被占用，outputBitMap用于表示在DOALL调用中相应的输出通道（输出列）是否被占用。

一次硬件事务的执行过程如下：当需要执行一个DOALL调用时，一次硬件事务开始。依次执行该DOALL中的每个MVM指令(例如：MVM(deviceID，input，output，startR，StartC，n，m)), 将该MVM指令注册到忆阻器设备中。执行DOALL指令，所有的在先前注册到忆阻器的指令一次执行完毕并且获得输出结果。清除忆阻器上所有指令的注册数据，一个DOALL调用运行结束。硬件事务结束。

通过inputBitMAP的比特位置可以判断一个忆阻器阵列上的输入通道是否被占用，当一个输入通道被占用时，inputBitMap上该输入通道对应的比特位置为1。同理，通过outputBitMAP的比特位置可以判断一个忆阻器阵列上的输出通道是否被占用，当一个输出通道被占用时，outputBitMap上该输出通道对应的比特位置为1。当一个第一忆阻器指令合并到一个组合调用时，在该组合调用中的DOALL结构的inputBitMap中，将该第一忆阻器指令占用的输入通道对应的比特位置设置为1，在该组合调用中的DOALL结构的outputBitMap中，将该第一忆阻器指令占用的输出通道对应的比特位置设置为1，以便之后通过DOALL结构便可判断输入通道和输出通道是否被占用。

下面对可并行执行的组合调用的条件进行说明。

图4示出了根据本发明的忆阻器的简化示意图。根据忆阻器存算一体器件的特点，将忆阻器的示意图简化为如图4的表示，其中，图4中的每个方格表示一个电阻，行和列的含义与图2的示例相同，可以参考前述对图2的说明。如图4所示，in0、in1、in2、in3表示第一矩阵的输入线路，以电压的形式输入到忆阻器中，out0、out1、out2、out3、out4、out5表示结果输出矩阵的输出线路，在忆阻器中以电流的形式输出。图中C0、C1、C2、C3、C4、C5表示部署在忆阻器上占用了忆阻器一部分电导的存储阵列。通过开启忆阻器上与电阻串联的MOS管的开关，可以将与该电阻相连的行线上的电流引入到列线上进行汇集，通过这样的过程可以实现矩阵相乘运算。其中，第二矩阵预先部署在忆阻器上,通过电脉冲在忆阻器阵列上设置第二矩阵相应的电导值。

如图4所示，当忆阻器的某一行(输入线路)或者某一列(输出线路)被一个矩阵相乘运算占用时，和该运算的行或列存在重合的运算将无法同时进行。例如：由于C0存储阵列和C1存储阵列同时占有输入线路in0和in1，输入行有所重合，而涉及C0的运算和涉及C1的运算的输入是不同的，因此一个涉及C0的运算和一个涉及C1的运算无法同时进行计算，同理可知存在输入线路重合或矩阵的行重合的运算无法同时执行。同理，由于C0存储阵列和C3存储阵列占有相同的输出线路（out0和out1），如果涉及C0的运算和涉及C3的运算同时进行，运算结果均需要通过输出线路out0和out1进行输出，那么输出的运算结果将出现错误，因此，涉及C0和C3的运算也不能进行同时执行，同理可知存在输出线路重合或矩阵的列重合的运算无法同时执行。

由于上述物理约束的存在，在忆阻器阵列中，能够同时运行的运算须是占据忆阻器阵列上不同行和不同列的运算。在图4的示例中，可以同时进行计算的矩阵相乘运算可以部署到C0和C4、C0和C5、C1和C3、C1和C5、C2和C4、C2和C3，这些存储阵列均占据不同的行和列，使得同时部署在其上进行运行的运算之间不受干扰可并行执行。综上所述，基于忆阻器的存算一体器件的物理约束，使不同的矩阵乘法运算能够同时并行执行的前提是不同的矩阵乘法运算所占据的忆阻器的行(输入线路)和列(输出线路)不能发生重合。

由于可并行执行的第一忆阻器指令的输入行和输出列均不能重合，因此可以通过判断不同的第一忆阻器指令的输入行和输出列之间是否存在重合，判断不同的第一忆阻器指令是否可并行执行。

可选地，将一个或多个组合调用组合为一个组合调用的队列。执行组合调用的队列中的各组合调用。

根据本发明的一个实施例，通过运行时进程，将程序中包括的各第一忆阻器指令插入组合调用的队列中的一个可并行执行的组合调用中。

具体地，在程序包括的各第一忆阻器指令中，判断每个第一忆阻器指令与组合调用的队列中的各组合调用的全部指令的输入行和输出列之间是否存在重合。如果该第一忆阻器指令与组合调用的队列中一组合调用的全部指令均不重合，则将该第一忆阻器指令插入到该组合调用中。如果该第一忆阻器指令与组合调用的队列中的每个组合调用的任一指令存在重合，则创建一个新的组合调用，并将该第一忆阻器指令插入到新的组合调用中。

可选地，通过组合调用的DOALL结构中的inputBitMap和outputBitMap判断一个第一忆阻器指令是否可以插入到一个组合调用中。在初始化状态的组合调用的DOALL结构的inputBitMap和outputBitMap中所有比特都是0，当加入一个新的第一忆阻器指令时，判断该第一忆阻器指令输入（输入行）的startR<=x<startR+n（即startR和startR+n之间）的比特位和输出（输出列）的startR<=y<startR+m（即startR和startR+m之间）的比特位是否存在1，如果存在，则第一忆阻器指令不可以插入到一个组合调用中，如果不存在，则第一忆阻器指令可以插入到一个组合调用中。然后，将该第一忆阻器指令输入的startR<=x<startR+n（即startR和startR+n之间）的比特位和输出的startR<=y<startR+m（即startR和startR+m之间）的比特位设置为1，用于指示忆阻器阵列上涉及第一忆阻器指令输入和输出的部分已被占用。

当运行时进程接收到消息时，取出消息中的每个第一忆阻器指令，针对每个第一忆阻器指令，遍历组合调用的队列中所有的组合调用，对每个组合调用，检查inputBitMap中的startR<=x<startR+n的比特位，如果startR和 startR+n之间的比特位都是0且检查outputBitMap中startR<=y<startR+m的比特位，如果startR和startR+m之间的比特位也都是0，则将该第一忆阻器指令插入该组合调用；否则，尝试队列中的下一个组合调用，如果队列中所有的组合调用均不符合条件，则新建一个空的组合调用（由DOALL结构构成），将其对应的inputBitMap和outputBitMap先设置为0，然后插入该第一忆阻器指令，然后将inputBitMap对应的startR<=x<startR+n的比特位设置为1，将outputBitMap对应的startR<=y<startR+m的比特位设置为1。

在330中，并行执行一个或多个组合调用中的第一忆阻器指令。

可选地，运行时进程从注册区域中的输入地址获取第一矩阵，根据指令缓冲区中的指令，将第一矩阵与第二矩阵进行矩阵相乘。

可选地，根据实时性信息，确定一个或多个组合调用中的第一忆阻器指令的执行方式。如果执行方式为立即执行，则在运行时进程接收到消息后，立即对一个或多个组合调用中的第一忆阻器指令进行并行执行。如果执行方式为间隔执行，则在运行时进程接收到消息的预定时间后，对一个或多个组合调用中的第一忆阻器指令进行并行执行。

可选地，通过调用组合调用对其中的全部第一忆阻器指令进行执行，在执行完成后返回执行结果，将DOALL结构释放。在并行执行组合调用中的第一忆阻器指令结束后，通过运行时进程将执行结果发送至相应的任务。

根据本发明的一个实施例，将实时性信息设置为1，表示在处理完消息后，立刻执行DOALL队列中的所有DOALL调用，直到DOALL队列中所有DOALL调用执行结束。随后，在并行执行结束后，通过运行时进程将执行结果发送至相应的任务，相应的任务例如可以是请求第一忆阻器指令的相应进程，执行结果可以是包含执行结果数据的MVMResponse消息。将实时性信息设置为0，表示由运行时进程每隔一个预定时间，执行一个DOALL调用。这里，预定时间可以由系统管理员进行配置，设置为一个时间间隔，例如3毫秒、5毫秒等等，对预定时间的具体数值的选取不做限制。当然，可以将实时性信息设置为0来表示立即执行，实时性信息设置为1来表示间隔执行。实时性信息也可以通过设置为其他标识，例如：数字、字母、字符等，用于表示立即执行或间隔执行。

根据本发明的一个实施例，当各任务对应的程序需要进行矩阵向量乘法计算时，可以通过如下步骤实现多任务的并行执行。

步骤一：调用createMsg调用在消息缓冲区中创建一个消息，一个消息由该进程ID，数据长度，数据，实时性信息四部分组成。其中，数据可以用于存放MVM指令，数据长度表示数据中存储的内容的长度。实时性信息是createMsg的唯一参数，可以由用户进行设定，实时性信息用于表示这个消息里是否触发runtime立即执行，实时性信息为1表示立即执行，为0表示由runtime每隔一个固定时间间隔执行一次。当然，实时性也可以由1表示由runtime每隔一个固定时间间隔执行一次，由0表示立即执行，也可以由其他字符进行表示。

步骤二：不断调用pushMVM(deviceID，input， output， startR， StartC，n， m)将MVM指令追加到创建的消息的数据部分并更新消息长度，其中，MVM指令在消息中的格式为deviceID，输入数据的长度，input(将输入数据拷贝进入缓冲区)，output(结果输出地址)，startR，StartC，n，m。

步骤三：最后在消息末尾调用MVMSend调用将这个消息发送给运行时进程，并等待结果返回。

步骤四：运行时进程接收到MVM指令后，将其装入DOALL队列中尝试执行。图6示出了根据本发明一个实施例的消息发送的示意图，如图6所示，当MVM指令执行完毕后，运行时进程将得到的结果通过pushMVMResponse消息发送至发送pushMVM消息的程序或任务中，程序或任务收到pushMVMResponse发送的消息后，从消息中取出结果继续执行其后的指令。

下面通过一个具体的实施例对本发明提供的多任务并行执行方案进行说明。

假设任务1的指令序列为：普通CPU指令1->普通CPU指令2->createMsg调用(指定实时性)->pushMVM调用(C1)->MVMSend调用->普通CPU指令3。假设任务2的指令序列为：普通CPU指令4->createMsg调用->pushMVM调用(C6)->MVMSend调用->普通CPU指令5。这里，通过指令后跟随不同的数字指代不同的指令，例如普通CPU指令1和普通CPU指令2表示两个不同的CPU指令。这里，C1和C6可参考图4中忆阻器阵列中的C1和C6方阵。

任务1通过MVMSend调用将C1关联的MVM指令提交至runtime的DOALL队列。假设任务1调用createMsg设置的实时性信息为0（间隔执行），则任务1处于阻塞等待状态，runtime不向任务1回复消息。此时任务2通过MVMSend调用将C6关联的MVM指令提交至runtime的DOALL队列。由于C1和C6是行列均不重合，因此将C1对应的MVM指令和C6对应的MVM指令合并为一个DOALL调用。假设任务2调用createMsg设置的实时性信息也为0，则任务2处于阻塞等待状态，runtime不向任务2回复消息。runtime经过一个时间间隔t1(假设t1为3毫秒)，在runtime执行DOALL队列完成后，C1对应的MVM指令的执行结果将通过MVMResponse将带有执行结果的消息返回至任务1，任务1接收到消息后继续执行后续的指令普通CPU指令3。同理，C6对应的MVM指令的执行结果通过MVMResponse将带有执行结果的消息返回至任务2，任务2收到后继续执行后续的指令普通CPU指令5。

图7示出了计算设备700的物理组件(即，硬件)的框图。在基本配置中，计算设备700包括至少一个处理单元702和系统存储器704。根据一个方面，取决于计算设备的配置和类型，处理单元702可以实现为处理器。系统存储器704包括但不限于易失性存储(例如，随机存取存储器)、非易失性存储(例如，只读存储器)、闪速存储器、或者这样的存储器的任何组合。根据一个方面，系统存储器704中包括操作系统705和程序模块706，程序模块706中包括多任务并行执行的装置800，多任务并行执行的装置800被配置为执行本发明的多任务并行执行的方法300。

根据一个方面，操作系统705例如适合于控制计算设备700的操作。此外，示例结合图形库、其他操作系统、或任何其他应用程序而被实践，并且不限于任何特定的应用或系统。在图7中通过在虚线708内的那些组件示出了该基本配置。根据一个方面，计算设备700具有额外的特征或功能。例如，根据一个方面，计算设备700包括额外的数据存储设备(可移动的和/或不可移动的)，例如磁盘、光盘、或者磁带。这样额外的存储在图7中是由可移动存储设备709和不可移动存储设备710示出的。

如在上文中所陈述的，根据一个方面，在系统存储器704中存储有程序模块。根据一个方面，程序模块可以包括一个或多个应用程序，本发明不限制应用程序的类型，例如应用程序可以包括：电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片展示应用程序、绘画或计算机辅助应用程序、网络浏览器应用程序等。

根据一个方面，可以在包括分立电子元件的电路、包含逻辑门的封装或集成的电子芯片、利用微处理器的电路、或者在包含电子元件或微处理器的单个芯片上实践示例。例如，可以经由其中在图7中所示出的每个或许多组件可以集成在单个集成电路上的片上系统(SOC)来实践示例。根据一个方面，这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能，其全部作为单个集成电路而被集成(或“烧”)到芯片基底上。当经由SOC进行操作时，可以经由在单个集成电路(芯片)上与计算设备700的其他组件集成的专用逻辑来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如AND、OR和NOT)的其他技术来实践本发明的实施例，所述其他技术包括但不限于机械、光学、流体、和量子技术。另外，可以在通用计算机内或在任何其他任何电路或系统中实践本发明的实施例。

根据一个方面，计算设备700还可以具有一个或多个输入设备712，例如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可以包括输出设备714，例如显示器、扬声器、打印机等。前述设备是示例并且也可以使用其他设备。计算设备700可以包括允许与其他计算设备718进行通信的一个或多个通信连接716。合适的通信连接716的示例包括但不限于：RF发射机、接收机和/或收发机电路；通用串行总线(USB)、并行和/或串行端口。

如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质可以包括以任何用于存储信息(例如，计算机可读指示、数据结构、或程序模块)的方法或技术来实现的易失性的和非易失性的、可移动的和不可移动的介质。系统存储器704、可移动存储设备709、和不可移动存储设备710都是计算机存储介质的示例(即，存储器存储)。计算机存储介质可以包括随机存取存储器(RAM) 、只读存储器(ROM) 、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可用于存储信息并且可以由计算机设备700访问的任何其他制品。根据一个方面，任何这样的计算机存储介质都可以是计算设备700的一部分。计算机存储介质不包括载波或其他经传播的数据信号。

根据一个方面，通信介质是由计算机可读指令、数据结构、程序模块、或者经调制的数据信号(例如，载波或其他传输机制)中的其他数据实施的，并且包括任何信息传递介质。根据一个方面，术语“经调制的数据信号”描述了具有一个或多个特征集或者以将信息编码在信号中的方式改变的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接之类的有线介质，以及诸如声学、射频(RF)、红外线的、以及其他无线介质之类的无线介质。

在本发明的一个实施例中，计算设备700包括一个或多个处理器、以及存储有程序指令的一个或多个可读存储介质。当程序指令被配置为由一个或多个处理器执行时，使得计算设备执行本发明实施例中的多任务并行执行的方法。

在本发明的另一个实施例中，计算设备700可以实现为基于忆阻器的存算一体计算器件，基于忆阻器的存算一体计算器件是一种将矩阵元素作为电导值存储在忆阻器阵列上，利用基尔霍夫第一定律将输入的电压向量与电导矩阵乘积表示为电流的计算器件。对每一个输入电压向量，经过与电导矩阵乘积，最后通过测量输出电流值来计算一个用电压表示的向量和一个电导矩阵的乘积。基于忆阻器的存算一体计算器件具有容易集成，功耗低的特点，成为解决人工智能应用耗能高的问题，以及提高计算性能重要的候选计算器件。

下面对本发明提供的一种多任务并行执行的装置进行说明。图8示出了根据本发明一个实施例的多任务并行执行的装置800的示意图，多任务并行执行的装置800包括任务获取模块810、指令合并模块820和并行执行模块830。

任务获取模块810，适于获取各任务对应的程序，程序包括第一忆阻器指令。

指令合并模块820，适于将程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用；适于将一个或多个组合调用组合为一个组合调用的队列；适于通过运行时进程，将程序中包括的各第一忆阻器指令插入组合调用的队列中的一个可并行执行的组合调用中。

指令合并模块820，还适于在程序包括的各第一忆阻器指令中，判断每个第一忆阻器指令与组合调用的队列中的各组合调用的全部指令的输入行和输出列之间是否存在重合，如果该第一忆阻器指令与组合调用的队列中一组合调用的全部指令均不重合，则将该第一忆阻器指令插入到该组合调用中，如果该第一忆阻器指令与组合调用的队列中的每个组合调用的任一指令存在重合，则创建一个新的组合调用，并将该第一忆阻器指令插入到新的组合调用中。

指令合并模块820，还适于将输入地址和结果输出地址放置到第二矩阵的注册区域中，在消息缓冲区中创建一个消息，消息包括指令缓冲区，调用第二忆阻器指令，将第一忆阻器指令放置到指令缓冲区，将消息发送至运行时进程，运行时进程从注册区域中的输入地址获取第一矩阵，根据指令缓冲区中的指令，将第一矩阵与第二矩阵进行矩阵相乘，其中，第二矩阵预先部署在忆阻器上。

指令合并模块820，还适于根据实时性信息，确定组合调用中的第一忆阻器指令的执行方式，如果执行方式为立即执行，则在运行时进程接收到消息后，立即对组合调用中的第一忆阻器指令进行并行执行，如果执行方式为间隔执行，则在运行时进程接收到消息的预定时间后，对组合调用中的第一忆阻器指令进行并行执行。

并行执行模块830，适于并行执行一个或多个组合调用中的第一忆阻器指令，适于执行组合调用的队列中的各组合调用，还适于在并行执行结束后，通过运行时进程将执行结果发送至相应的任务。

需要说明的是，多任务并行执行的装置800的执行逻辑及具体细节与前述方法300相似，相关之处可参考对前述多任务并行执行的方法300的说明，此处不再赘述。

这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被所述机器执行时，所述机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，移动终端一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的所述程序代码中的指令，执行本发明的多任务并行执行的方法。

以示例而非限制的方式，可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。

在此处所提供的说明书中，算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。

本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。

Claims

1.一种多任务并行执行的方法，在忆阻器中执行，所述方法包括：

获取各任务对应的程序，所述程序包括第一忆阻器指令,所述第一忆阻器指令包括第一矩阵的输入地址、结果输出地址和第二矩阵的位置信息；

将所述程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用；

将所述输入地址和所述结果输出地址放置到所述第二矩阵的注册区域中；

在消息缓冲区中创建一个消息，所述消息包括指令缓冲区；

调用第二忆阻器指令，将所述第一忆阻器指令放置到所述指令缓冲区；

将消息发送至运行时进程；

其中，并行执行所述一个或多个组合调用中的第一忆阻器指令，包括：所述运行时进程从所述注册区域中的输入地址获取第一矩阵，根据所述指令缓冲区中的指令，将所述第一矩阵与第二矩阵进行矩阵相乘，其中，所述第二矩阵预先部署在所述忆阻器上。

2.根据权利要求1所述的方法，还包括：

将所述一个或多个组合调用组合为一个组合调用的队列；

执行所述组合调用的队列中的各组合调用。

3.根据权利要求2所述的方法，其中，所述将所述程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用，包括：

通过运行时进程，将所述程序中包括的各第一忆阻器指令插入组合调用的队列中的一个可并行执行的组合调用中。

4.根据权利要求3所述的方法，其中，所述将所述程序中包括的各第一忆阻器指令插入组合调用的队列中的一个可并行执行的组合调用中，包括：

在所述程序包括的各第一忆阻器指令中，判断每个第一忆阻器指令与组合调用的队列中的各组合调用的全部指令的输入行和输出列之间是否存在重合；

如果该第一忆阻器指令与组合调用的队列中一组合调用的全部指令均不重合，则将该第一忆阻器指令插入到该组合调用中；

如果该第一忆阻器指令与组合调用的队列中的每个组合调用的任一指令存在重合，则创建一个新的组合调用，并将该第一忆阻器指令插入到所述新的组合调用中。

5.根据权利要求1所述的方法，其中，所述消息还包括实时性信息，其中，所述并行执行所述一个或多个组合调用中的第一忆阻器指令，还包括：

根据所述实时性信息，确定所述一个或多个组合调用中的第一忆阻器指令的执行方式；

如果所述执行方式为立即执行，则在所述运行时进程接收到所述消息后，立即对所述一个或多个组合调用中的第一忆阻器指令进行并行执行；

如果所述执行方式为间隔执行，则在所述运行时进程接收到所述消息的预定时间后，对所述一个或多个组合调用中的第一忆阻器指令进行并行执行。

6.根据权利要求3所述的方法，还包括：

并行执行结束后，通过所述运行时进程将执行结果发送至相应的任务。

7.一种多任务并行执行的装置，包括：

任务获取模块，适于获取各任务对应的程序，所述程序包括第一忆阻器指令，所述第一忆阻器指令包括第一矩阵的输入地址、结果输出地址和第二矩阵的位置信息；

指令合并模块，适于将所述程序中可并行执行的第一忆阻器指令合并为一个或多个组合调用，还适于将所述输入地址和所述结果输出地址放置到所述第二矩阵的注册区域中，在消息缓冲区中创建一个消息，所述消息包括指令缓冲区，调用第二忆阻器指令，将所述第一忆阻器指令放置到所述指令缓冲区，将消息发送至运行时进程，所述运行时进程从所述注册区域中的输入地址获取第一矩阵，根据所述指令缓冲区中的指令，将所述第一矩阵与第二矩阵进行矩阵相乘，其中，所述第二矩阵预先部署在所述忆阻器上；

并行执行模块，适于并行执行所述一个或多个组合调用中的第一忆阻器指令。

8.一种计算设备，包括：

至少一个处理器；以及

存储器，存储有程序指令，其中，所述程序指令被配置为适于由所述至少一个处理器执行，所述程序指令包括用于执行如权利要求1至6中任一项所述方法的指令。

9.一种存储有程序指令的可读存储介质，当所述程序指令被计算设备读取并执行时，使得所述计算设备执行如权利要求1至6中任一项所述方法。