CN111860773A

CN111860773A - 处理装置和用于信息处理的方法

Info

Publication number: CN111860773A
Application number: CN202010617337.2A
Authority: CN
Inventors: 严小平; 田超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-30
Anticipated expiration: 2040-06-30
Also published as: CN111860773B

Abstract

本公开的实施例提出了一种处理装置、用于信息处理的方法、电子设备和计算机可读存储介质，涉及人工智能领域。该处理装置包括：至少一个通用处理核心，被配置为生成卷积神经网络中的卷积层的中间计算结果；至少一个深度学习专用处理核心，被配置为基于通用处理核心的中间计算结果，执行卷积神经网络中除卷积层以外的其他层的计算；和存储管理装置，分别与至少一个通用处理核心和至少一个深度学习专用处理核心连接，并且被配置为存储通用处理核心的中间计算结果，以实现通用处理核心和深度学习专用处理核心之间的数据交互。这样的处理装置能够显著提高卷积神经网络的计算效率，在计算速度和耗能方面均能得到改进。

Description

处理装置和用于信息处理的方法

技术领域

本公开的实施例概括地涉及数据处理领域和深度学习领域，并且更具体地，涉及人工智能领域。

背景技术

近年来随着人工智能领域硬件和软件的不断提升，深度学习技术得到了飞速发展。深度学习技术可以运用在各个领域，比如计算机视觉、自然语言处理、音频分析等。卷积神经网络(CNN)是深度学习技术中具有影响力的网络模型，特别适合于涉及图像、语音、文本数据的应用。卷积神经网络所涉及的计算主要包括卷积计算、激活计算、池化计算、全连接(FC)计算、柔性最大值(SoftMax)计算等，其中卷积计算的计算量和功耗最为巨大。在卷积神经网络的训练过程中，为实现模型优化，在利用训练数据执行前向计算外，还会利用后向传播方式实现模型的参数优化。

在卷积神经网络的使用过程中涉及卷积层的大量分组操作和卷积操作。在一些卷积神经网络架构中，分组操作和卷积操作可能占据整个架构运算的大多数计算资源和时间。因此，期望处理器能够更快速、高效地处理分组操作和/或卷积操作，这将有助于加速整个深度学习网络、特别是卷积神经网络的使用和训练。

发明内容

根据本公开的示例实施例，提供了一种基于异构多核的处理器方案。

在本公开的第一方面，提供了一种处理装置。该处理装置包括：至少一个通用处理核心，被配置为生成卷积神经网络中的卷积层的中间计算结果；至少一个深度学习专用处理核心，被配置为基于至少一个通用处理核心的中间计算结果，执行卷积神经网络中除卷积层以外的其他层的计算；和存储管理装置，分别与至少一个通用处理核心和至少一个深度学习专用处理核心连接，并且被配置为存储至少一个通用处理核心的中间计算结果，以实现至少一个通用处理核心和至少一个深度学习专用处理核心之间的数据交互。

在本公开的第二方面，提供了一种用于信息处理的方法。该方法包括：借助于至少一个通用处理核心，生成卷积神经网络中的卷积层的中间计算结果；借助于存储管理装置，存储至少一个通用处理核心的中间计算结果；和借助于至少一个深度学习专用处理核心，基于从存储管理装置获取的至少一个通用处理核心的中间计算结果，执行卷积神经网络中除卷积层以外的其他层的计算。

在本公开的第三方面，提供了一种电子设备。该电子设备包括：根据第一方面的处理装置；和语音输入设备，用于采集用户的语音输入信号并传输至该处理装置。

在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现根据本公开的第二方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其他特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示意性示出了示例卷积神经网络的结构的框图；

图2示意性示出了根据一些实施例的处理装置架构的框图；

图3A示意性根据本公开的一些示例实施例的处理装置的示例架构的框图；

图3B示意性根据本公开的另一些示例实施例的处理装置的示例架构的框图；

图4示意性根据本公开的又一些示例实施例的存储管理装置的示例架构的框图；

图5示意性示出了根据本公开的示例实施例的用于执行处理任务的方法的流程图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，在卷积神经网络(CNN)的训练和使用过程中需要处理非常复杂的操作，特别是卷积层的例如卷积操作和反向卷积操作。如果采用单纯的处理器类型，例如单纯的中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、专用集成电路(ASIC)等，很难满足大规模神经网络所需的计算和存储量。另外，这类处理器在计算过程中还会产生大量功耗，导致芯片明显发热。当前一些方案也通过神经网络处理器(NPU)来实现卷积神经网络的处理。但是神经网络模型需要持续调优，而神经网络处理器对网络模型的变化比较敏感，其可编程性明显不如CPU、GPU、DSP等。因此，单纯基于NPU的处理器架构不利于模型升级和扩展。

在介绍用于卷积神经网络的相关处理的处理装置之前，首先简单介绍卷积神经网络。卷积神经网络是一种深度学习模型。深度学习模型中用于处理的参数集的值通过训练过程来确定。机器学习模型利用训练的参数集，将接收到的输入映射到对应的输出。因此，机器学习模型的训练过程可以被认为是从训练数据中学习输入到输出之间的映射或关联关系。

卷积神经网络通常可以包括输入层、卷积层、池化层、激活层、全连接层和输出层。取决于具体处理任务要求和配置，卷积神经网络中的卷积层、池化层、激活层和全连接层的数目、连接关系等都可以变化。图1示出了卷积神经网络100的结构的一个示例，其示出了输入层110、卷积层120、激活层130、池化层140以及全连接层150和输出层160。要由模型处理的输入作为输入层110被提供到卷积神经网络100中进行处理。

在卷积神经网络100的使用过程中，在前向101的处理中，输入的数据首先经过卷积层120的计算，对输入数据进行特征提取。通过激活层130中的激活函数向卷积层的计算结果中引入非线性因素。然后通过池化层140对特征进行选择和信息过滤。再通过全连接层150对提取的特征进行非线性组合。最后得到输出层160的输出结果。

在卷积神经网络100的训练过程中，训练数据需要经过前向101的处理，同时还需要在反向102的处理。在反向102的处理中，通常会计算在卷积神经网络100的参数集的当前值的条件下处理输入的训练数据所得到的输出与理想输出之间的误差，然后将该误差沿着从相反的方向(即从输出层160到输入层110的方向)传播。在反向传播过程中，可以依赖梯度下降算法，调整卷积神经网络100中各个层的参数的当前提。根据多轮训练，卷积神经网络100的输出与理想输出之间的误差会越来越小，直到模型收敛。训练过程完成。

应当理解，图1的卷积神经网络的结构仅是一个示例。在实际应用中可以卷积神经网络可以根据需要具有任何其他网络配置，例如可以具有更多的网络层、其他类型的网络层、以及各种类型的网络层的不同连接关系。本公开的实施例在此方面不受限制。

根据本公开的实施例，将采用基于异构多核的处理器架构设计来改善神经网络运算的性能。图2示意性示出了根据一些实施例的处理装置架构的框图。该处理装置架构200是一种异构机构，包括通用处理核心210和深度学习专用处理核心220。

通用处理核心210例如可以包括一个或多个图形处理单元(GPU)或者一个或多个数字信号处理器(DSP)等。通用处理核心210例如可以是一种通用标量处理器。通用处理核心210可以执行一般的计算机指令，诸如精简指令集计算机(RISC)类型的指令，并且还可以解析和执行自定义的与深度学习处理相关的指令。通用处理核心210可以将与深度学习处理相关的指令提供给深度学习专用处理核心220用于实现深度学习模型的相关处理。

深度学习专用处理核心220例如可以是专门为深度学习、例如卷积神经网络设计的处理器，包括用于实现深度学习计算的软件组件和硬件电路。深度学习专用处理核心220例如可以由现场可编程门阵列(FPGA)、专用集成电路(ASIC)等实现，特别是神经网络处理器(NPU)。深度学习专用处理核心220可以包括多个模块，通过被定义用于深度学习的相关指令来调度多个模块的操作，并且多个模块之间还可以进行数据交互。深度学习专用处理核心220中的模块可以根据要实现的深度学习处理任务来配置。

存储管理装置230分别与通用处理核心210和深度学习专用处理核心220连接。该存储管理装置230例如具有DMA读写功能，支持多端口同时高速读出和写入，从而实现通用处理器装置210和深度学习专用处理核心220之间的数据交换。

如以上提及的，在卷积神经网络的使用和训练过程中涉及卷积层的大量卷积操作和卷积反向操作，对计算资源和时间的消耗较大。另外，卷积层中的运算可以通过分组卷积方式进行简化，与其他层中的运算明显不同。对于上述问题，发明人认识到可以通过基于异构多核的处理器架构，将卷积网络中的不同类型的运算分配给不同的处理装置核心来执行，从而优化卷积神经网络的计算效率，提高计算速度并且降低耗能。

根据本公开的示例实施例，提出了一种处理装置。该处理装置包括：至少一个通用处理核心，被配置为执行卷积神经网络中的卷积层的计算；至少一个深度学习专用处理核心，被配置为基于至少一个通用处理核心的中间计算结果，执行卷积神经网络中除卷积层以外的其他层的计算；和存储管理装置，分别与至少一个通用处理核心和至少一个深度学习专用处理核心连接，并且被配置为存储至少一个通用处理核心的中间计算结果，以实现至少一个通用处理核心和至少一个深度学习专用处理核心之间的数据交互。通过这种方式，在卷积神经网络的运算过程中，通过通用处理核心来执行卷积层中的例如分组和卷积运算，从而能够更有效的完成灵活的分组卷积任务，从而从算法上降低计算量。同时，通过专门为深度学习而设计的深度学习专用处理核心来执行卷积神经网络中的其他层中的运算，能够更有效地达到计算和功耗平衡。

图3A和图3B示出了根据本公开的一些示例实施例的处理装置的示例架构。如图所示，该架构300包括控制器303，其可以根据存储在存储器304中的计算机程序指令，来控制根据本公开的异构多核处理装置301执行各种关于神经网络的计算和处理。异构多核处理装置301可以包括一个或多个通用处理核心210和深度学习专用处理核心220。

控制器303、存储器304、异构多核处理装置301和存储管理装置302通过总线305彼此连接。语音模块306和外围模块307也连接至总线305。

控制器303包括但不限于微控制单元MCU、处理器、微处理器等，其例如可以基于ARM、X86、RISCV架构。存储器304包括但不限于外部高速存储DDR/HBM、低速串行闪存SPIflash、内部静态随机存储器SRAM、只读存储器ROM。总线305包括但不限于AMBA总线、NOC总线、Crossbar交换矩阵以及用户定义的内部联接总线后桥接电路等。语音模块包括但不限于I2S、PDM、PCM、TDM支持语音标准输入的模块。外围模块包括但不限于通用异步收发传输接口UART、集成电路总线接口I2C、串行外设接口SPI、安全数字输入输出接口SDIO、通用输入输出接口GPIO、看门狗WatchDog等。

异构多核处理装置301可以是各种具有处理和计算能力的通用和专用处理组件的组合。异构多核处理装置301的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器。

在图3B所示的示例中，异构多核处理装置301包括作为通用处理核心210的多个数字信号处理器DSP和作为深度学习专用处理核心220的一个神经网络处理器NPU。这种架构设计充分发挥了DSP针对神经网络模型的可变性和软件灵活性，也充分发挥了NPU在神经网络模型运算中的专用性。

数字信号处理器DSP不仅支持各种通用计算，还支持语音、图像等所需的神经网络的计算。DSP的编译器性能尤其突出，能够支持并行处理，这对于卷积神经网络的卷积层中的分组操作和卷积操作尤其有利。

神经网络处理器NPU虽然对于逐个分组卷积神经网络运算、尤其针对同时存在分组个数不确定性并结合多种卷积核的情况相对低效。但是，NPU内置大量的神经网络运算单元，支持点乘、标量和向量运算，并且支持各种非线性激活函数及操作。这对于卷积神经网络中的其他层中运算、例如激活层、池化层、全连接层等特别有利。

在一些实施例中，存储管理装置包括：存储阵列单元；读写控制单元，被配置为执行至少一个通用处理核心和至少一个深度学习专用处理核心对存储阵列单元中的数据的读写操作；和存储分配交换单元，被配置为将存储阵列单元中的数据发送给相应的通用处理核心和深度学习专用处理核心，以实现通用处理核心之间和/或通用处理核心与深度学习专用处理核心之间的数据交换。通过这种方式，实现了异构多核的数据存储、交换和共享。

图4示意性根据本公开的又一些示例实施例的存储管理设备400的示例架构的框图。存储管理设备400包括读写控制单元410、存储阵列单元420和存储分配交换单元430，实现片内存储管理交换共享。

读写控制单元410具有直接内存访问(DMA)的读写功能，例如是增强型直接内存访问(EDMA)单元。EDMA单元在DMA的基础上增加数据通道的增强处理，可以在数据搬移过程中进行数据运算、数据填充、数据位交换等操作。EDMA不仅能够实现对外部存储到片内存储数据的搬移，还可以在片内实现数据的搬移，使得数据的搬移交互更加灵活和高效。

存储阵列单元420包括多个存储单元。在图4的示例中，存储阵列单元420例如包括8个tier层，每个tier层又分成16个通道，其可以并行交叉地连接到DSP或NPU的数据通道上。在图4中为清晰起见仅示出了部分存储单元，应当理解本公开的实施例不限于特定数量的存储单元。例如可以通过格式为tier number+channel number的访问地址，与每个存储单元进行关联。例如t0_ch0即代表tier为0并且通道为0的存储单元。每个存储单元的大小可以依据设计的需要而定，通常每个存储单元的大小均一致。

存储分配交换单元430主要实现DSP到DSP以及DSP到NPU的数据直接交换，其例如直接连接到DSP数据高速数据DTCM扩展接口上，并且连接到NPU的内部高速本地接口上，例如加载/存储型(load/store)接口或静态随机存储器型(SRAM)接口。

在一些实施例中，处理装置还包括：语音模块，被配置为将所接收的语音信号转换成语音数据；存储器，被配置为存储所接收到的语音数据；和控制器，被配置为根据预先定义的程序向至少一个通用处理核心和深度学习专用处理核心分配计算任务，并且控制所述存储器将语音数据传输到存储管理装置。通过这种方式，可以执行关于语音输入的神经网络运算，实现语音唤醒和语音识别等功能。

在一些实施例中，通用处理核心包括并行的多个通用处理核心，多个通用处理核心被配置为并行地执行卷积神经网络中的卷积层的计算。通过这种方式，可以同时由多个通用处理核心(例如DSP)来执行卷积层中的例如分组操作和卷积操作，使得计算更高效。

在一些实施例中，深度学习专用处理核心被配置为执行卷积神经网络中的以下层中的至少一个层的计算：激活层；池化层；长短期记忆层(LSTM)；全连接层；柔性最大值(SoftMax)层等。通过这种方式，利用深度学习专用处理核心(例如NPU)中专门为神经网络计算设计的结构，能够更高效地进行相关计算。

在一些实施例中，根据本公开的处理装置被安装在用户端移动设备，以用于离线语音识别。由此，还可以实现语音输入转换成文本输出等多种应用。通过根据本公开的基于异构多核的处理装置，能够高效地进行复杂的神经网络计算，同时降低能耗，使得不基于云端的离线语音识别成为可能。

在下文中，将参见图5描述本公开的示例实施例的更多细节。图5示意性示出了根据本公开的示例实施例的用于执行处理任务的方法500的流程图。

在510，借助于至少一个通用处理核心210，生成卷积神经网络中的卷积层的中间计算结果。在520，借助于存储管理装置230，存储至少一个通用处理核心210的中间计算结果。在530，借助于至少一个深度学习专用处理核心220，基于从存储管理装置230获取的该至少一个通用处理核心210的中间计算结果，执行卷积神经网络中除卷积层以外的其他层的计算。

在一些实施例中，借助于语音模块，接收语音信号并且将所接收的语音信号转换成语音数据；借助于存储器，存储所接收到的语音数据；并且借助于控制器，根据预先定义的程序向至少一个通用处理核心和至少一个深度学习专用处理核心分配计算任务，并且控制存储器将所述语音数据传输到存储管理装置。

在一些实施例中，借助于至少一个通用处理核心生成卷积神经网络中的卷积层的中间计算结果进一步包括：借助于并行的多个通用处理核心，并行地执行卷积神经网络中的卷积层的计算。

在一些实施例中，借助于至少一个深度学习专用处理核心执行卷积神经网络中除卷积层以外的其他层的计算进一步包括：执行卷积神经网络中的以下层中的至少一个层的计算：激活层；池化层；LSTM层；全连接层；SoftMax层等。

在一些实施例中，至少一个通用处理核心是数字信号处理器DSP，并且至少一个深度学习专用处理核心是神经网络处理器NPU。

在一些实施例中，该方法被配置为在用户端移动设备处进行离线语音识别。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种处理装置，包括：

至少一个通用处理核心，被配置为生成卷积神经网络中的卷积层的中间计算结果；

至少一个深度学习专用处理核心，被配置为基于所述至少一个通用处理核心的所述中间计算结果，执行所述卷积神经网络中除卷积层以外的其他层的计算；和

存储管理装置，分别与所述至少一个通用处理核心和所述至少一个深度学习专用处理核心连接，并且被配置为存储所述至少一个通用处理核心的所述中间计算结果，以实现所述至少一个通用处理核心和所述至少一个深度学习专用处理核心之间的数据交互。

2.根据权利要求1所述的处理装置，其中所述存储管理装置包括：

存储阵列单元；

读写控制单元，被配置为执行所述至少一个通用处理核心和所述至少一个深度学习专用处理核心对所述存储阵列单元中的数据的读写操作；和

存储分配交换单元，被配置为将所述存储阵列单元中的数据发送给相应的通用处理核心和深度学习专用处理核心，以实现所述通用处理核心之间和/或所述通用处理核心与所述深度学习专用处理核心之间的数据交换。

3.根据权利要求1或2所述的处理装置，还包括：

语音模块，被配置为将所接收的语音信号转换成语音数据；

存储器，被配置为存储所接收到的语音数据；和

控制器，被配置为根据预先定义的程序向所述至少一个通用处理核心和所述至少一个深度学习专用处理核心分配计算任务，并且控制所述存储器将所述语音数据传输到所述存储管理装置。

4.根据权利要求1或2所述的处理装置，其中所述通用处理核心包括并行的多个通用处理核心，所述多个通用处理核心被配置为并行地执行所述卷积神经网络中的卷积层的计算。

5.根据权利要求1或2所述的处理装置，其中所述至少一个深度学习专用处理核心被配置为执行所述卷积神经网络中的以下层中的至少一个层的计算：激活层；池化层；长短期记忆层；全连接层；柔性最大值层。

6.根据权利要求1或2所述的处理装置，其中所述至少一个通用处理核心是数字信号处理器DSP，并且所述至少一个深度学习专用处理核心是神经网络处理器NPU。

7.根据权利要求1或2所述的处理装置，其中所述处理装置被安装在用户端移动设备，以用于离线语音识别。

8.一种用于信息处理的方法，所述方法包括：

借助于至少一个通用处理核心，生成卷积神经网络中的卷积层的中间计算结果；

借助于存储管理装置，存储所述至少一个通用处理核心的所述中间计算结果；和

借助于至少一个深度学习专用处理核心，基于从所述存储管理装置获取的所述至少一个通用处理核心的所述中间计算结果，执行所述卷积神经网络中除卷积层以外的其他层的计算。

9.根据权利要求8所述的方法，还包括：

借助于语音模块，接收语音信号并且将所接收的语音信号转换成语音数据；

借助于存储器，存储所接收到的语音数据；并且

借助于控制器，根据预先定义的程序向所述至少一个通用处理核心和所述至少一个深度学习专用处理核心分配计算任务，并且控制所述存储器将所述语音数据传输到所述存储管理装置。

10.根据权利要求8或9所述的方法，其中借助于至少一个通用处理核心生成卷积神经网络中的卷积层的中间计算结果进一步包括：

借助于并行的多个通用处理核心，并行地执行所述卷积神经网络中的卷积层的计算。

11.根据权利要求8或9所述的方法，其中借助于至少一个深度学习专用处理核心执行所述卷积神经网络中除卷积层以外的其他层的计算进一步包括：

执行所述卷积神经网络中的以下层中的至少一个层的计算：激活层；池化层；长短期记忆层；全连接层；柔性最大值层。

12.根据权利要求8或9所述的方法，其中所述至少一个通用处理核心是数字信号处理器DSP，并且所述至少一个深度学习专用处理核心是神经网络处理器NPU。

13.根据权利要求8或9所述的方法，其中所述方法被配置为在用户端移动设备处进行离线语音识别。

14.一种电子设备，包括：

根据权利要求1至7中任一项所述的处理装置；和

语音输入设备，用于采集用户的语音输入信号并传输至所述处理装置。

15.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求8至13中任一项所述的方法。