CN113407351A

CN113407351A - 执行运算的方法、装置、芯片、设备、介质和程序产品

Info

Publication number: CN113407351A
Application number: CN202110820258.6A
Authority: CN
Inventors: 徐英男; 杜学亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Kunlun Core Beijing Technology Co ltd
Priority date: 2021-07-20
Filing date: 2021-07-20
Publication date: 2021-09-17
Anticipated expiration: 2041-07-20
Also published as: US20220350607A1; CN113407351B

Abstract

本公开提供了一种执行运算的方法、装置、芯片、设备、介质和程序产品，涉及人工智能领域，尤其涉及深度学习领域。具体实现方案为：一种执行深度学习训练中的运算操作的方法，包括：获取用于运算操作的指令，运算操作包括多个向量操作；针对多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量；以及利用针对向量操作的指令格式，对两个源操作数向量执行向量操作，以得到包括目的操作数向量的运算结果。利用上述方法，可以根据不同的数据类型对用于运算操作的指令进行向量化，增加运算操作的并行度，从而有效提高深度学习训练的计算速度。

Description

执行运算的方法、装置、芯片、设备、介质和程序产品

技术领域

本公开涉及计算机技术领域，尤其涉及执行运算操作的方法、装置、芯片、电子设备、计算机可读存储介质和计算机程序产品，可以用于人工智能领域，尤其可以用于深度学习领域。

背景技术

随着深度学习训练的广泛应用，人们对提高深度学习训练的速度提出了越来越高的要求。深度学习训练中的运算操作可以涉及各种操作，例如标量运算操作(简称为标量操作)，向量运算操作(简称为向量操作)等。在深度学习算法中，常常需要针对各种应用场景进行复杂的运算，例如张量运算。张量运算可以利用编译器被分解为多个连续的向量运算操作，这些向量操作的执行往往需要占用大量的计算资源，导致无法及时处理大量的向量操作，甚至导致进行深度学习训练的系统因计算资源不足而退出运算操作的执行。因此，需要对大量的连续向量操作提高效率，以便提高整个深度学习训练的速度。

发明内容

本公开提供了一种用于执行运算操作的方法、装置、芯片、电子设备、存储介质和程序产品。

根据本公开的第一方面，提供了一种执行深度学习训练中的运算操作的方法，包括：获取用于运算操作的指令，运算操作包括多个向量操作；针对多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量；以及利用针对向量操作的指令格式，对两个源操作数向量执行向量操作，以得到包括目的操作数向量的运算结果。

根据本公开的第二方面，提供了一种执行深度学习训练中的运算操作的装置，包括：获取模块，被配置为获取用于运算操作的指令，运算操作包括多个向量操作；向量确定模块，被配置为针对多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量；以及向量计算模块，被配置为利用针对向量操作的指令格式来对两个源操作数向量执行向量操作，以得到包括目的操作数向量的运算结果。

根据本公开的第三方面，提供了一种芯片，包括至少一个处理器；以及与至少一个处理器通信连接的根据本公开的第二方面的装置。

根据本公开的第四方面，提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；其中存储器存储有可被至少一个处理器执行的指令，该指令被至少一个处理器执行，以使至少一个处理器能够实现根据本公开的第一方面的方法。

根据本公开的第五方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机实现根据本公开的第一方面的方法。

根据本公开的第六方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时，执行根据本公开的第一方面的方法。

根据本公开的技术，提供了一种执行深度学习训练中的运算操作的方法，利用该方法，可以根据不同的数据类型对用于运算操作的指令进行向量化，增加运算操作的并行度，从而实现对运算操作的加速。由此，在深度学习训练中，占用大量的计算资源的大量的连续向量操作能够提高处理效率，进而能够提高整个深度学习训练的计算速度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是可以在其中实现本公开的某些实施例的执行运算操作的方法的深度学习训练环境100的示意性框图；

图2是根据本公开实施例的运算操作方法200的流程图；

图3是根据本公开实施例的运算操作方法300的流程图；

图4是根据本公开实施例的加速向量操作的示意图；

图5是可以实现本公开实施例的执行连续向量操作的场景图；

图6是用来实现本公开实施例的执行运算操作的装置600的框图；

图7是用来实现本公开实施例的执行运算操作的芯片700的示意性框图；以及

图8是用来实施本公开实施例的执行运算操作的方法的电子设备800的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

如以上在背景技术中所描述的，随着深度学习训练的广泛应用，人们对提高深度学习训练的速度提出了越来越高的要求。深度学习算法中的运算操作可以涉及各种操作，例如标量运算操作，向量运算操作等。深度学习算法中典型的张量运算可以被分解为多个连续的向量操作，这些向量操作涉及针对SETcc(条件码condition code)运算操作的计算，例如，SETlt和SETgt都属于SETcc运算操作的一种，其主要操作如表1所示。

表1.SETcc操作

在SETcc操作中，根据两个源操作数比较大小的结果，设置目的操作数为该数据类型的0或者1，目的操作数的数据类型和源操作数的数据类型保持一致。逐元素(Element-Wise)EW比较运算是深度学习算法中常见的运算，在算法训练过程中，EW比较运算的反向梯度计算就使用了SETlt和SETgt两种运算。下面的表2示出了常见的EW比较运算的算法。

表2.EW算法

在深度学习训练中，可以考虑如何通过在人工智能(AI)芯片处理器中反向训练算法的加速单元中对向量操作进行加速，来提高深度学习训练过程的计算速度。当运算操作的数量特别大的情况下，计算运算操作的速度成为了人工智能芯片处理器的计算能力的主要限制。首先，在深度学习训练中，大量的向量操作的执行往往需要占用大量的计算资源，导致无法及时处理大量的连续向量操作，甚至导致进行深度学习训练的系统因计算资源不足而退出该运算操作的执行。其次，传统技术中的主流的深度学习算法在处理大量的向量操作方面存在一定的问题。例如，传统CPU、GPU处理器的向量加速单元没有对SETcc指令的支持，当深度学习算法训练涉及到SETcc运算时，目前普遍采用两个方案来解决：(1)使用标量单元进行串行化的运算；(2)通过启动多核并行的方式进行加速。方案(1)通常使用在intel/ARM厂商的CPU处理器中，这类处理器核数通常比较少，从编程模型上看，不适合将同一个算法内核(kernel)同时执行在多个处理器核上，所以只能通过每个核的标量处理单元进行串行处理，串行处理时间比较长，延时是并行处理的N(典型N＝8、16)倍。方案(2)通常使用在GPU处理器中，GPU的线程(thread)数目较多，并且从编程模型上可以很容易的将一个任务划分到多个线程上执行，相对串行处理速度得到提升，但是存在线程间同步开销大的问题。因此，传统技术对芯片处理器的利用率不足，导致芯片处理器的性能功耗比不高，从而影响深度学习的效率。

为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，本公开的实施例提出了一种执行深度学习训练中的运算操作的方案。在该方案中，通过对用于运算操作的指令进行向量化，增加运算操作的并行度，可以提高对运算操作的计算速度。其次，由于多个向量操作被同时执行，因此该方法可以避免CPU串行化处理的低效性。再次，由于不需要使用线程来同步同一计算任务之间的完成程度，因此该方法可以避免GPU处理的同步开销。利用本公开的技术方案，实现对人工智能芯片处理器的有效利用，从而有效提高深度学习训练的速度。

图1示出了可以在其中实现本公开的某些实施例中的执行运算操作的方法的深度学习训练环境100的示意性框图。根据本公开的一个或多个实施例，深度学习训练环境100可以是云环境。如图1中所示，深度学习训练环境100包括计算设备110。在深度学习训练环境100中，输入数据120作为计算设备110的输入被提供给计算设备110。输入数据120例如可以包括与用于深度学习的运算操作相关联的数据、与针对运算操作的指令相关联的数据等。还如图1中所示，计算设备110包括标量处理单元113和向量加速单元115。

根据本公开的一个或多个实施例，当需要执行针对深度学习的运算操作时，相关联的数据作为输入数据120被提供给计算设备110。而后，计算设备110中的标量处理单元113(有时也称为核心模块)处理针对输入数据120的基本标量运算操作，通过取指(instruction fetch)IF、译码(instruction decode)ID等操作将输入数据120转化为用于运算操作的指令的形式(例如，SETcc指令和向量SETcc指令(vSETcc指令)，但本公开的保护范围并不限于此)。针对运算操作的指令然后可以经过算术逻辑ALU处理后被写回标量处理单元113的存储器，也可以被分发给向量加速单元115(有时也称为向量加速模块)。

在本公开的实施例中，在已有的体系结构32位指令集基础上提出支持新的指令vSETcc以支持针对输入数据120的运算，该指令的格式如表3所示。该指令格式的设计主要考虑两个问题：(1)兼容性，通过采用独立的操作码域，不影响已有的指令格式。(2)扩展性，指令格式上充分考虑后续可能存在的扩展需求，将特定字段作为保留域。应当理解，该指令vSETcc是作为实现运算操作的示例给出的，本领域技术人员能够利用本公开的内容和精神来设置实现类似功能和新功能的指令。仅作为示例，表3中仅示出了vSETlt指令的实现。

表3.vSETcc指令格式

如表3中所示，在vSETlt指令中，特定字段(例如，xfunct字段)被用作保留域。应当理解，其他的字段也可能被用作保留域，以备后续可能存在的扩展需求。还如表3中所示，在操作码域中，操作码(opcode)涉及具体的向量操作，例如用于区分条件码是属于“对象小于另一对象(LessThan)”、“对象大于另一对象(Great Than)”、“对象等于另一对象(Equal)”之一。此外，表3还示出了支持的向量数据的数据类型，例如浮点数(float)、半浮点数(bfloat)、有符号整数(int)、无符号整数(unsignedint)等。应当理解，虽然此处仅示出了以上的数据类型，但是其他的数据类型也可以被使用，例如16位有符号的以二进制补码表示的整数(short)、64位有符号的以二进制补码表示的整数(long)、双精度64位的符合IEEE754标准的浮点数(double)、单一的16位Unicode字符(char)、表示一位的信息的布尔(boolean)等等。

在向量加速单元115中，对用于运算操作的指令(例如SETcc指令)进行向量化，来实现并行地执行多个向量操作(也称为向量化运算)，并且多个向量操作被连续执行。标量处理单元113与向量加速单元115之间通过简单的接口来进行交互，在一定程度上实现模块开发的独立性并减少对已有处理器单元的影响。

应当理解，深度学习训练环境100仅仅是示例性而不是限制性的，并且其是可扩展的，其中可以包括更多的计算设备110，并且可以向计算设备110提供更多的输入数据120，从而使得可以满足更多用户同时利用更多的计算设备110，甚至利用更多的输入数据120来同时或者非同时地确定和执行针对多个用于深度学习的运算操作。此外，计算设备110还可以包括其他的单元，例如数据存储单元，信息预处理单元等。

图2示出了根据本公开实施例的执行运算操作的方法200的流程图。具体而言，执行运算操作的方法200可以由图1中所示的深度学习训练环境100中的计算设备110来执行。应当理解的是，执行运算操作的方法200还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框202，计算设备110获取用于运算操作的指令，该运算操作包括多个向量操作。根据本公开的一个或多个实施例，用于该运算操作的指令可以是输入数据120，也可以是经过计算设备110中的标量处理单元113处理后的指令。

在框204，计算设备110针对在框202获取的针对多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量。根据本公开的一个或多个实施例，每个向量操作所涉及的源操作数按照数据类型被分发到寄存器组(vector register file)VRF，或高速缓存或者其他类型的临时存储装置中。由于方法200的目的在于，在现有的芯片处理器的框架下实现对运算操作的加速，因此所需要解决的问题是降低串行处理标量操作的延时、同时减少或避免不同线程间的同步开销的问题。在这种情况下，在方法200中通过实现针对运算操作的指令的向量化，并且例如利用例如vSETcc指令格式来解决前述问题。

在框206，计算设备110利用针对向量操作的指令格式，对两个源操作数向量执行向量操作，以得到包括目的操作数向量的运算结果。根据本公开的一个或多个实施例，在本公开的上下文中，对于需要进行操作的数据，例如进行比较的数据，将其按照向量的形式组合，并且对于向量中的每个元素执行对应的操作，得到计算结果的过程就是向量化运算或向量操作。通过对用于运算操作的指令进行向量化，增加运算操作的并行度，该方法可以提高对运算操作的计算速度。

图3示出了根据本公开实施例的执行运算操作的方法300的流程图。具体而言，执行运算操作的方法300也可以由图1中所示的深度学习训练环境100中的计算设备110来执行。应当理解的是，执行运算操作的方法300可以被认为是执行运算操作的方法200的扩展，并且其还可以包括未示出的附加操作和/或可以省略所示出的操作，本公开的范围在此方面不受限制。

在框302，计算设备110获取用于运算操作的指令，该运算操作包括多个向量操作。框302所涉及的步骤的具体内容与框202中所涉及的步骤的具体内容相同，在此不再赘述。

在框304，计算设备110针对在框202获取的针对多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量。框304所涉及的步骤的具体内容与框204中所涉及的步骤的具体内容相同，在此不再赘述。

在框306，计算设备110利用针对向量操作的指令格式，对于两个源操作数向量中的每个元素，按照元素的相应数据类型并行地进行第二数量次逐元素比较运算，其中两个源操作数向量分别具有第一数量个元素，第一数量大于或者等于第二数量，以得到包括目的操作数向量的运算结果。

根据本公开的一个或多个实施例，对于需要进行操作的数据，例如进行比较的数据，将其按照向量的形式组合，对由此得到的两个源操作数向量进行操作将优于对两个标量的源操作数进行操作，这是因为相同类型的元素被集中处理。两个源操作数向量分别具有第一数量个元素，而后其中的每个元素按照元素的数据类型并行地进行第二数量次逐元素比较运算。应当理解，在例如资源有限的芯片上，处理器的数量可能相对较少，因此针对第一数量个需要操作的元素，在对应的处理单元中进行的元素操作的次数可以等于或者小于元素的数量，对于向量中未完成操作的元素，可以顺序地等待下一并行处理周期。换言之，在本公开的技术方案中，源操作数向量中的元素的数量(即，第一数量)可以大于或者等于所执行的向量操作的数量(即，第二数量)。因此，本公开的技术方案不仅可以用在计算功能强大的下一代芯片处理器上，也可以在现有的资源有限的芯片处理器上实现，从而提高现有芯片处理器的利用率。

图4是根据本公开实施例的加速向量操作的过程400的示意图。根据一个或多个实施例，在图4中，向量操作的执行首先开始于从存储器中加载数据到相应的源操作数寄存器组VRF(401)，操作数准备好之后送入相应的比较子模块(431-437)中的一个比较子模块进行运算，运算结果最终被写回(store)到存储空间中。应当理解，对于部分可重复利用的数据，可以省略从存储器中加载的过程。

如图4所示，分别具有第一数量N₁个元素的源操作数向量src0(1x N₁向量)411和src1(1x N₂向量)413中的每个元素按照数据类型被分发到相同数据类型的第二数量N₂个运算子模块中，也就是说，并行地参与当前的逐元素比较运算的元素数量是N₂。如前所述，在例如资源有限的芯片上，处理器的数量可能相对较少，通过将并行执行逐元素比较运算的比较子模块的数量N₂设置为小于或等于源操作数向量中元素的数量N₁，本公开的技术方案能够有效地利用芯片处理器，从而有效提高在芯片处理器上进行深度学习算法的训练速度。在经过相同数据类型的运算子模块的计算后，以浮点数运算子模块431为例，可以对src0 411中的浮点数元素和src1413中的对应浮点数元素进行比较，在复用器451处进行判定src0 411中的浮点数元素和src1 413中的对应浮点数元素的比较结果为真或为假。应当理解，进行比较的条件码可以是属于“对象小于另一对象(Less Than)”、“对象大于另一对象(Great Than)”、“对象等于另一对象(Equal)”之一。而后，在复用器471处进行针对数据类型(vtype)的判定后，如果数据类型是一致的，则目的操作数dst 491被设置为该数据类型的常数1，否则设置为该数据类型的常数0。

根据本公开的一个或多个实施例，由于在图4中，每种数据类型的比较子模块针对所有数据类型的指令都进行了运算，所以在比较计算结果处判定具体的数据类型是有效的。应当理解，图4中对于数据类型的判定也可以在源操作数向量处进行，这样就可以在进行运算前确定只有一种类型的比较子模块执行。此外，应当理解，图4中所列出的具体数据类型仅是作为示例示出，而不限制其他可能的数据类型。

图5是可以实现本公开实施例的执行连续向量操作500的场景图。如图5所示，连续的向量操作中的每个向量操作不是被串行执行的，而是按照加载(LD)、ALU运算、存储(ST)的顺序被执行，其中连续向量操作中相邻两个向量操作的执行是部分重叠的。实际上，通过实现对连续的向量操作的执行，结合图4中对逐元素比较运算的并行执行，本公开的技术方案相对于传统的CPU处理器和GPU处理器在处理大量复杂的运算操作方面而言具备明显的进步，既降低了串行处理的延时，也避免了并行处理中的线程间同步开销大的问题。

以上参考图1至图5描述了与可以在其中实现本公开的某些实施例中的执行运算操作的方法的深度学习训练环境100、根据本公开实施例的执行运算操作的方法200、根据本公开实施例的执行运算操作的方法300、根据本公开实施例的加速向量操作以及实现本公开实施例的执行连续向量操作的相关内容。应当理解，上述描述是为了更好地展示本公开中所记载的内容，而不是以任何方式进行限制。

应当理解，本公开的上述各个附图中所采用的各种元件的数目和物理量的大小仅为举例，而并不是对本公开的保护范围的限制。上述数目和大小可以根据需要而被任意设置，而不会对本公开的实施方式的正常实施产生影响。

上文已经参见图1至图5描述了根据本公开的实施方式的执行运算操作的方法200和执行运算操作的方法300的细节。在下文中，将参见图6描述执行运算操作的装置中的各个模块。

图6是用来实现本公开实施例的执行运算操作的装置600的框图。如图6所示，执行运算操作的装置600包括：获取模块610，被配置为获取用于运算操作的指令，运算操作包括多个向量操作；向量确定模块620，被配置为针对多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量；以及向量计算模块630，被配置为利用针对向量操作的指令格式来对两个源操作数向量执行向量操作，以得到包括目的操作数向量的运算结果。

在一个或多个实施例中，其中两个源操作数向量分别具有第一数量个元素，对两个源操作数向量执行向量操作包括：对于两个源操作数向量中的每个元素，按照元素的相应数据类型并行地进行第二数量次逐元素比较运算，其中第一数量大于或者等于第二数量。

在一个或多个实施例中，其中对两个源操作数向量执行向量操作还包括：确定目的操作数向量中的相应元素的值。

在一个或多个实施例中，其中指令格式包括用于两个源操作数向量的域、用于目的操作数向量的域、用于数据类型的域、操作码域、和/或保留域。

在一个或多个实施例中，其中在操作码域中，操作码包括以下中的一项：比较对象是否小于另一对象；比较对象是否大于另一对象；以及比较对象是否等于另一对象。

在一个或多个实施例中，其中目的操作数向量的数据类型包括以下中的一项：浮点数、半浮点数、有符号整数、以及无符号整数。

在一个或多个实施例中，其中多个向量操作按照加载、ALU运算、存储的顺序被执行，多个向量操作中的每个向量操作的执行是部分重叠的。

通过以上参考图1至图6的描述，根据本公开的实施方式的技术方案相对于传统方案具有诸多优点。例如，利用根据本公开实施例的技术方案，通过对用于运算操作的指令进行向量化，增加运算操作的并行度，实现对连续的向量操作并行地执行逐元素比较运算，本公开的技术方案能够有效提高深度学习训练的计算速度。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

图7是用来实现本公开实施例的执行运算操作的芯片700的示意性框图。如图7所示，执行运算操作的芯片700可以包括：处理器710以及向量加速模块720，处理器710通过取指、译码等操作将输入数据转化为用于运算操作的指令的形式并且分发给向量加速模块720，同样，向量加速模块720也可以将加速后的向量运算结果返回给处理器710。应当理解，芯片700可以包括多个处理器710和多个向量加速模块720，并且向量加速模块720可以是图6所示的装置600，也可以是多个装置的组合。还应当理解，芯片700可以被单独地运算或者组合地被加入到其他现有的硬件架构中，从而加快了芯片的运算速度和提高了对包括芯片在内的硬件系统的利用率。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如方法200、300。例如，在一些实施例中，方法200、300可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的方法200、300的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法200、300。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种执行深度学习训练中的运算操作的方法，包括：

获取用于所述运算操作的指令，所述运算操作包括多个向量操作；

针对所述多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量；以及

利用针对所述向量操作的指令格式，对所述两个源操作数向量执行所述向量操作，以得到包括目的操作数向量的运算结果。

2.根据权利要求1所述的方法，其中所述两个源操作数向量分别具有第一数量个元素，对所述两个源操作数向量执行所述向量操作包括：

对于所述两个源操作数向量中的每个元素，按照所述元素的数据类型并行地进行第二数量次逐元素比较运算，其中所述第一数量大于或者等于所述第二数量。

3.根据权利要求2所述的方法，还包括：

确定所述目的操作数向量中的相应元素的值。

4.根据权利要求1所述的方法，其中所述指令格式包括用于所述两个源操作数向量的域、用于所述目的操作数向量的域、用于数据类型的域、操作码域、和/或保留域。

5.根据权利要求4所述的方法，其中在所述操作码域中，操作码包括以下中的一项：比较对象是否小于另一对象；比较对象是否大于另一对象；以及比较对象是否等于另一对象。

6.根据权利要求4所述的方法，其中所述数据类型包括以下中的一项：浮点数、半浮点数、有符号整数、以及无符号整数。

7.根据权利要求1所述的方法，其中所述多个向量操作中的每个向量操作按照加载、ALU运算、存储的顺序被执行，所述多个向量操作中的相邻两个向量操作的所述执行是部分重叠的。

8.一种执行深度学习训练中的运算操作的装置，包括：

至少一个向量加速模块，所述至少一个向量加速模块包括：

获取模块，被配置为获取用于所述运算操作的指令，所述运算操作包括多个向量操作；

向量确定模块，被配置为针对所述多个向量操作中的每个向量操作，确定用于比较的两个源操作数向量；以及

向量计算模块，被配置为利用针对所述向量操作的指令格式来对所述两个源操作数向量执行所述向量操作，以得到包括目的操作数向量的运算结果。

9.根据权利要求8所述的装置，其中所述两个源操作数向量分别具有第一数量个元素，对所述两个源操作数向量执行所述向量操作包括：

对于所述两个源操作数向量中的每个元素，按照所述元素的相应数据类型并行地进行第二数量次逐元素比较运算，其中所述第一数量大于或者等于所述第二数量。

10.根据权利要求9所述的装置，对所述两个源操作数向量执行所述向量操作还包括：

确定所述目的操作数向量中的相应元素的值。

11.根据权利要求8所述的装置，其中所述指令格式包括用于所述两个源操作数向量的域、用于所述目的操作数向量的域、用于数据类型的域、操作码域、和/或保留域。

12.根据权利要求11所述的装置，其中在所述操作码域中，操作码包括以下中的一项：比较对象是否小于另一对象；比较对象是否大于另一对象；以及比较对象是否等于另一对象。

13.根据权利要求11所述的装置，其中所述目的操作数向量的所述数据类型包括以下中的一项：浮点数、半浮点数、有符号整数、以及无符号整数。

14.根据权利要求8所述的装置，其中所述多个向量操作中的每个向量操作按照加载、ALU运算、存储的顺序被执行，所述多个向量操作中的相邻两个向量操作的所述执行是部分重叠的。

15.一种芯片，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的根据权利要求8-14中任一项所述的装置。

16.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

18.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。