CN113971456A

CN113971456A - 人工神经网络处理方法和系统

Info

Publication number: CN113971456A
Application number: CN202110835501.1A
Authority: CN
Inventors: D·卡雷拉; M·科莱拉; G·德索利; G·博拉基; B·罗西; P·弗拉尼托; L·弗里托利
Original assignee: STMicroelectronics SRL
Current assignee: STMicroelectronics SRL
Priority date: 2020-07-24
Filing date: 2021-07-23
Publication date: 2022-01-25

Abstract

本公开的各实施例涉及一种方法，包括：提供具有多个处理层的ANN处理级，处理层具有相应参数，相应参数包括至少一个权重参数集、至少一个输入/输出激活参数以及至少一个激活函数参数；将网格的维度参数设置为整数值，网格具有多个网格点并且由基矢量集来标识；选择相应处理层的权重参数集；将所选择的权重参数集矢量化，从而产生权重矢量集，权重矢量集被布置为权重矢量矩阵的项；将权重矢量矩阵归一化；对经归一化的权重矢量矩阵应用网格矢量量化LVQ处理，产生码字的码本；通过对码本的码字进行编码为网格的函数来进行索引，从而产生相应索引元组。归一化包括求解优化问题，优化问题具有第一项和正则化项Ω_L。

Description

人工神经网络处理方法和系统

技术领域

例如，本说明书涉及用于人工神经网络(ANN)处理(例如，诸如卷积神经网络(CNN)处理)的方法和系统。

例如，一个或多个实施例可以被应用于被配置为执行ANN处理的硬件加速器引擎(例如，诸如神经处理单元(NPU))。

背景技术

卷积(人工)神经网络(简称为CNN)包括基于计算机的工具，基于计算机的工具利用深度学习算法来执行图像处理任务。

将大型猫科动物的图像分类为豹或美洲虎可以作为这种处理的示例被提及。

CNN包括多个层，例如多个(隐藏的)处理层，多个(隐藏的) 处理层被耦合到输入层，并且被配置为将数据处理应用于由其接收的图像张量。处理层可以包括例如卷积和/或池化处理，并且CNN可以包括经由隐藏层而被耦合到输入层的输出层。

卷积处理层使用过滤器(也被称为卷积内核)来执行输入图像数据的卷积，并且将激活函数应用于卷积数据，从而产生特征集作为结果。

池化处理层通过执行子采样(例如，诸如最大或平均采样)来减小特征集的维度。

处理层可以使用多达数百万的参数值(也被称为权重)。通过训练处理级(可能涉及大型训练数据集)来学习权重值，从而设置权重值。

例如，CNN可以使用多个动物的图片来训练，并且可以被配置为标识豹或美洲虎。

如上所述，数百万权重值可以在CNN处理中使用，CNN处理可能使用大的存储器占位面积。

处理层可以涉及权重与特征矢量之间的大量点积运算，从而可能导致高计算成本。

现有解决方案(例如，如在Choi,Y.,El-Khamy,M.,&Lee,J.: “Universal deepneural network compression”,2018,arXiv:1802.02271 中所讨论的)通过权重量化和无损源编码来调查深度神经网络(DNN) 的损耗压缩，以进行存储器有效的部署，从而通过DNN的通用随机化网格量化而引入“通用”DNN压缩，通用随机化网格量化在网格量化之前通过均匀随机抖动而将DNN权重随机化并且可以在无需依赖其概率分布知识的情况下，对任何源近乎最佳地执行。该文献引用了微调矢量的方法，该方法将DNN量化，从而在量化之后恢复性能损失。

发明内容

发明人已经实现了诸如Choi等人的讨论的解决方案，该解决方案可以表现出各种缺点，诸如：

在量化之后CNN的准确性降低；

使用附加的、可能计算繁琐的码字微调处理来应对这样的准确性降低；以及

CNN性能下降的风险增加。

降低CNN的功耗和成本(例如，有助于可以基于边缘计算的物联网(IOT)应用)因此是值得追求的目标。

被配置为执行ANN处理的处理电路(诸如神经处理单元(NPU)) 例如可以包括硬件加速器引擎，硬件加速器引擎包括与权重相关联的压缩/解压缩功能，从而可能减少CNN的存储器存储约束。

相关硬件实现方式可能遭受缺点，诸如：

与获取权重和激活相关联的存储器瓶颈；和/或

存储器面积成本增加。

实施例可以有助于解决前述内容中讨论的缺点。

一个或多个实施例可以涉及对应的计算机程序产品。

为此，一个或多个实施例可以包括计算机程序产品，计算机程序产品可以在至少一个处理电路(例如，计算机)的存储器中加载并且包括用于当产品在至少一个处理电路上运行时执行方法步骤的软件代码部分。如本文所使用的，对这样的计算机程序产品的引用被理解为等同于对包含用于控制处理系统的指令的计算机可读介质的引用，以便根据一个或多个实施例来协调方法的实现方式。对“至少一个计算机”的引用旨在突出以模块化和/或分布式形式实现的一个或多个实施例的可能性。

一个或多个实施例可以涉及对应的系统(HW加速器系统可以是这样的系统的示例)，对应的系统具有利用本文所例示的方法压缩的权重。

一个或多个实施例可以涉及将这样的权重解压缩的对应的方法和对应的计算机程序产品。

一个或多个实施例可以减少与执行CNN处理中的正推法有关的计算负担。

因此，一个或多个实施例可以有助于避免与经常执行的运算相关联的大型并行计算数据路径，诸如可能导致大量乘法加法累加运算 (例如与某个神经网络的系数(权重)数目成比例)的3D张量卷积。

一个或多个实施例可以提供以下优点中的一个或多个优点：

有助于CNN权重的压缩，从而降低了CNN处理的存储器影响；

嵌入式架构中的权重存储面积被保存，从而降低了先进的子纳米硅工艺技术中可能具有重要意义的存储器面积成本；

在减少与网格矢量量化相关联的量化误差时，有助于定制优化，同时保持原始网络的准确性；

有效地抵消了与获取权重和激活相关联的存储器瓶颈的性能下降(特别是对于大型权重张量，例如Fc、LSTM/GU层)；

硬件复杂性降低，这有助于使用相对简单的解压缩电路块，可能导致更有效的设计，也可以用于CNN加速框架；以及

减少了计算对带宽使用的影响。

在实施例中，计算机实现的方法包括：提供人工神经网络ANN 处理级，人工神经网络ANN处理级包括具有相应处理层参数的多个处理层，处理层参数包括至少一个权重参数集、至少一个输入激活参数、至少一个输出激活参数以及至少一个激活函数参数；将网格的维度参数设置为整数值，网格具有多个网格点并且由基矢量集来标识；选择ANN处理级的多个处理层中的相应处理层的权重参数集；对所选择的权重参数集应用矢量化处理，产生权重矢量集作为结果并且将权重矢量集布置为权重矢量矩阵的项；执行权重矢量矩阵的归一化处理，从而产生经归一化的权重矢量矩阵作为结果；对经归一化的权重矢量矩阵应用网格矢量量化LVQ处理，产生码字的码本作为结果；对所产生的码本应用索引处理，索引包括根据网格L来对码本的码字进行编码，产生相应索引元组作为结果；以及向用户电路提供所产生的索引元组，其中执行权重矢量矩阵的归一化处理包括计算优化问题，优化问题具有第一项和正则化项Ω_L：第一项被配置为根据ANN 处理级的至少一个输入激活参数来提供经归一化的权重值，经归一化的权重值近似于ANN处理级的至少一个输出激活参数；并且正则化项Ω_L被配置为将距离所选择的网格的网格点短距离的经归一化的权重值放大。

在实施例中，方法包括：实现具有多个处理层的人工神经网络 (ANN)，处理层具有相应参数，处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j) 以及至少一个激活函数参数(ρ)；将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁，b₂)来标识；选择 ANN的多个处理层中的相应处理层的权重参数集(w_i)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂，u₃) 并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵 (U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；对所产生的码本应用索引处理，索引包括根据网格来对码本的码字进行编码，产生相应索引元组(i_s， i_a，i_a ^LUT)以及向ANN的神经处理电路提供所产生的索引元组(i_s， i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括求解优化问题，优化问题具有第一项和正则化项Ω_L(u)：第一项用于根据ANN的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项 Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。

在实施例中，非暂时性计算机可读介质的内容将计算系统配置为执行方法，方法包括：实现具有多个处理层的人工神经网络(ANN)，处理层具有相应处理层参数，处理层参数包括至少一个权重参数集 (w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁，b₂)来标识；选择ANN 的多个处理层中的相应处理层的权重参数集(w_i)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂，u₃)并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；对所产生的码本应用索引处理，索引包括根据网格来对码本的码字进行编码，产生相应索引元组(i_s，i_a，i_a ^LUT)以及向ANN的神经处理电路提供所产生的索引元组(i_s，i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括求解优化问题，优化问题具有第一项和正则化项Ω_L(u)：第一项用于根据ANN的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。

在实施例中，设备包括：存储器；以及与存储器耦合的处理电路系统，其中处理电路系统在操作中：将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁，b₂)来标识；选择人工神经网络(ANN)的多个处理层中的相应处理层的权重参数集(w_i)，ANN具有多个处理层，多个处理层具有相应处理层参数，处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂，u₃)并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；以及索引所产生的码本，索引包括根据网格来对码本的码字进行编码，从而产生相应索引元组(i_s， i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括求解优化问题，优化问题具有第一项和正则化项Ω_L(u)：第一项用于根据ANN 的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项 Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。

在实施例中，系统包括：在操作中存储经压缩的经归一化的权重值的存储器；处理核；以及与存储器和处理核耦合的硬件加速器引擎，其中硬件加速器引擎在操作中：将所存储的经归一化的权重值解压缩，从而产生经解压缩的权重值，并且根据所述经解压缩的权重值来执行人工神经网络(ANN)的操作，其中所存储的经压缩的经归一化的权重值对应于优化问题的求解，优化问题具有第一项和正则化项 Ω_L(u)：第一项用于根据ANN的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。

附图说明

现在将通过非限制性示例、参考附图来描述一个或多个实施例，其中：

图1是示例性卷积神经网络CNN处理级的图；

图2是示例性硬件加速器引擎的图；

图3A和图3B是一个或多个实施例下的原理的示例性的图；

图4是根据本公开的方法的流程图；

图5A、图5B和图5C是一个或多个实施例下的原理的示例性的图；

图6A和图6B是适用于执行图4的方法的一部分的函数的示例性曲线图；

图7A至图7C是网格可选特征下的原理的示例性的图；

图8是一个或多个实施例下的原理的示例性的图；以及

图9是根据实施例的系统的功能框图。

具体实施方式

在随后的描述中，图示了一个或多个具体细节，旨在提供对本说明书的实施例示例的深入理解。实施例可以在没有一个或多个具体细节的情况下或者利用其他方法、组件、材料等来获得。在其他情况下，已知的结构、材料或操作未详细图示或描述，以使得实施例的某些方面将不被模糊。

本说明书的框架中对“实施例”或“一个实施例”的引用旨在指示关于实施例的特定配置、结构或特性被包括在至少一个实施例中。因此，在本说明书的一个或多个点中可能存在的诸如“在实施例中” 或者“在一个实施例中”的短语不一定指代同一实施例。

此外，特定构象、结构或特性在一个或多个实施例中可以以任何适当方式进行组合。

本文中使用的标题/附图标记仅为了方便而提供，因此不限定实施例的保护程度或范围。

贯穿本文附加的附图，相同的部分或元素使用相同的附图标记来指示；为简洁起见，每个附图不会重复对应的描述。

此外，贯穿本说明书，例如在如人工神经网络(ANN)处理或卷积神经网络(CNN)处理等表述中使用的措辞“神经网络(处理)” 旨在指定经由硬件(HW)和/或软件(SW)工具而执行的信号的机器实现的处理。

除了输入层之外，输入层被配置为接收具有一定尺寸的输入图像张量I，例如具有由图像宽度L乘以图像高度(例如，等于图像宽度 L)乘以图像深度(例如，1)乘以张量I中的图像数目(例如，1) 给出的尺寸的图像张量I，如图1所示的卷积神经网络(CNN)10还可以包括多个处理层100、102、104、106、108、110，多个处理层包括：

多个(隐藏)处理层100、102、104、106、108，其被耦合到输入层并且被配置为将数据处理(诸如例如卷积和/或池化处理)应用于从其接收的图像张量O；以及

经由隐藏层100、102、104、106、108耦合到输入层的输出层110，输出层110包括例如完全连接层。

如图所示，处理层100、102、104、106、108可以被配置为产生相应特征映射F1、F2、F3、F4。每个这样的特征映射可以具有由特征映射宽度L1、L2、L3、L4乘以特征映射高度(可以等于宽度L1、 L2、L3、L4)乘以特征映射信道(例如，具有红色、绿色和蓝色的 RGB图像的三个信道)乘以映射数目所给出的尺寸。

在一个或多个实施例中，处理层100、102、104、106、108可以具有多层感知器(简要地，MLP)架构，多层感知器架构包括被指示为感知器的多个处理单元。

多个感知器中的单个第i感知器可以通过值的元组来标识，值包括权重值w_i、偏移值b_i和激活函数ρ_i。

如图1所例示的，卷积处理层(诸如被称为102的卷积处理层) (作为各个层的示例)包括具有尺寸的至少一个卷积内核(矩阵)w_i，卷积内核可以被表示为：

w_i∈R^C×H×T i＝1，...K

其中：

H表示内核高度，

T表示内核宽度，

K表示内核的数目，例如，K＝1，以及

C表示输入信道的数目，其可以等于输入特征映射F1的(图像颜色)信道数目。

输出层110可以包括完全连接层，完全连接层是与前一层中的所有激活具有连接的卷积层类型。

诸如102的卷积层(作为可能的示例再次采用)可以被配置为将激活函数应用于滑动点积。

这样的运算可以被表示为例如：

其中：

w_i ^T是权重矢量w_i的转置版本(对应于内核)，

a是例如由所考虑的层102之前的处理层100计算的输入特征矢量，

ρ是层102的激活函数，以及

b是将激活函数ρ应用于内核和输入特征矢量的乘积所产生的输出。

如图2中所例示的，神经处理单元或电路(NPU)20可以包括被配置为执行CNN处理的处理电路系统。

文献EP 3 346 425 A1讨论了例如适用于加速CNN处理的NPU 电路。

如图2中所例示的，这样的NPU电路20包括：

片上系统200，被配置为托管处理电路系统；

时钟信号提供块或电路202；

用于以本身已知的方式，例如经由总线接口204来访问存储器电路块的直接存储器访问(DMA)单元或电路206、206a；

多个输入/输出接口208、210；

流式开关电路块220，被配置用于管理板的不同元件之间的数据流量；

权重编码/解码电路块230，被配置为处理来自存储器(例如，由DMA 206检索并由流式开关220传递)的权重值；

配置加速器电路集232、232a、232b；以及

其他处理电路块集234、236、240，例如用于池化、激活、杂项功能。

特别地，权重值可以从经编码的权重值开始解码，经编码的权重值可以被编码(或压缩)来减少在NPU 20上运行CNN的存储器占位面积。

例如，权重值可以通过向其应用量化处理来编码。

可以找到适用于执行这样的量化处理的矢量量化技术。例如，d 维矢量可以被映射到有限的矢量集C＝{c_i:i＝1,2,...,N}，其中每个矢量c_i可以被指示为“码字”。所有码字的集合可以被指示为“码本”。每个码字可以与被指示为“Voronoi区域”的最近邻居区域相关联。

在网格矢量量化(简称为LVQ)中，码本可以包括网格点，网格点具有Voronoi区域的矩心作为近似矢量。

如本文所讨论的，维度d的网格L是d维欧几里德空间中的基矢量b₁，…，b_d的全部整数线性组合集，其可以表示为：

L(b₁，...，b_d)＝{∑x_ib_i|x_i∈Z}，b_i∈R^d

如图3A和图3B所例示的，例如：

第一二维(d＝2)网格具有第一对基矢量b1、b2，在笛卡尔坐标中，其可以被表示为：b₁＝[1,0]；b₂＝[0；1]；并且

第二二维(d＝2)网格，例如六边形网格，具有第二对基矢量b1、b2，在笛卡尔坐标中，其可以被表示为：

b₂＝[0；1]。

在比较其他矢量量化技术中，LVQ可以表现出诸如以下的优点：

使用固定码本，因为网格点通过选择格基来确定；以及

快速量化和索引，因为网格结构有助于保持有组织的网格点。

为简单起见，在前面关于具有设定权重值(例如，基于训练设置) 的经训练的CNN讨论了一个或多个实施例，但是应理解这样的情况仅是示例性的，并且绝不是限制。

如图4所例示的，用于压缩权重值的方法40可以包括：

在CNN参数之中选择(框400)参数集来编码；例如，这可以涉及选择处理层的类型，例如卷积或完全连接层；和/或针对网格，选择维度参数值d来使用，例如整数、偶数值，诸如d＝2或d＝4；

执行权重值的矢量化(框402)，其将权重值存储为矢量元素，其中这样的矢量化可以包括接收权重值矩阵并且将数据变换处理应用于权重值矩阵，从而如以下所讨论的产生权重矢量集合作为结果；

将归一化处理(框404)应用于所产生的权重矢量集，这样的归一化包括如以下所讨论的求解优化问题；

使用所选择的(整数)维度参数值d来执行网格矢量量化 LVQ(框406)，以选择用于量化的网格，从而产生码字的码本作为结果；以及

通过应用LVQ来索引(框408)码字，索引包括使用索引元组(i_s，i_a，i_a ^LUT)来对所选择的网格的第i元素进行编码。

为了简单起见，本文主要关于二维网格(例如，d＝2)讨论了实施例，但是应理解这样的网格维度仅是示例性的，并且绝不是限制。

应当注意的是，在一个或多个实施例中，选择作为内核尺寸的整数倍数或除数的维度参数d的值可以是有利的，因为这可以有助于如以下所讨论的权重值的矢量化402。

如图5A至图5C中所例示的，例如图1中的102所指示的卷积层的权重值w_i的矩阵可以被表示为多维网格w_i，其元素是权重值，网格w_i具有网格高度H、网格宽度T、信道数目C和内核数目K。例如可以通过索引集来标识多维网格w_i的任何元素，每个维度一个索引，例如，w_i ^jlmn。

为了简单起见，图5A至图5C指代矩阵具有相同高度、宽度和信道数目的示例性情况，例如，H＝C＝T＝3，但是应当理解的是，这样的示例性值仅是示例性的，并且绝不是限制。

图5A至图5C是执行权重值402的矢量化的示例图，矢量化可以包括：

选择处理矩阵w_i的元素所遵循的矩阵维度的阶，例如，首先信道维度C之后是宽度T，例如将元素的每个索引与维度相关联，例如，将索引j关联到信道维度C，将索引l关联到宽度维度T，将索引m关联到高度维度H并且将索引k关联到内核数目K；

提取矩阵w_i的权重元素作为相应矢量u1、u2、u3沿所选择的维度的元素，从而产生矢量集u1、u2、u3作为结果，矢量的尺寸d 等于所选择的维度参数值，例如，在所考虑的示例中，偶数值d＝2；以及

重新布置例如逐项堆叠所产生的矢量集而产生的矢量集u1、 u2、u3，从而产生具有逐项(例如，逐列)堆叠的权重矢量u1、u2、 u3的矩阵U。

如图5A至图5C中例示的，重新布置权重w_i的矩阵/网格的权重元素可以包括：

如图5A中例示的，从网格w_i中提取第一组权重值u₁₁、u₁₂并且将这样的第一组值u₁₁、u₁₂重新布置在第一矢量u₁中，例如u₁＝ (u₁₁,u₁₂)，其中第一组权重值u₁₁、u₁₂包括第一权重值u₁₁和第二权重值u₁₂，第一权重值对应于网格w_i中具有第一组索引值的元素，例如 u₁₁＝w_i ¹¹¹¹，第二权重值对应于网格w_i中具有第二组索引值的元素，其中信道维度C的索引j相对于第一组索引值增加了1，例如u₁₂＝w_i ²¹¹¹；

如图5B中所例示的，从权重w_i的网格提取第二组权重值u₂₁、 u₂₂，并且将这样的第二组权重值u₂₁、u₂₂重新布置在第二矢量u₂中，例如u₂＝(u₂₁,u₂₂)，其中第二组权重值u₂₁、u₂₂包括第三权重值u₂₁和第四权重值u₂₂，第三权重值对应于网格w_i中具有第三组索引值的元素，其中信道尺寸C的索引j相对于第二权重值u₁₂增加1，例如u₂₁＝ w_i ³¹¹¹，并且第四权重值对应于网格w_i中具有第四组索引值的元素，其中信道尺寸的索引j由于到达最大值而重置为1，并且宽度维度的索引1相对于第三权重值u₂₁而增加1，例如，u₂₂＝w_i ¹²¹¹；

如图5C中所例示的，从权重w_i的网格中提取第三组权重值 u₂₁、u₂₂并且将这样的第三组值u₃₁、u₃₂重新布置在第二矢量u₂中，例如u₃＝(u₃₁,u₃₂)，其中第三组权重值u₃₁、u₃₂包括第五权重值u₃₁和第六权重值u₃₂，第五权重值对应于网格w_i中具有第五组索引值的元素，其中信道维度C的索引j相对于第四权重值u₁₂增加1，例如u₃₁＝ w_i ²²¹¹，第六权重值对应于网格w_i中具有第六组索引值的元素，其中信道维度C的索引j相对于第五权重值u₃₁增加了1，例如u₃₂＝w_i ³²¹¹。

在所考虑的示例中，重新布置所产生的矢量集u1、u2、u3可以产生具有第一矢量u1、第二矢量u2和第三矢量u3的矩阵U作为相应第一、第二和第三列，U可以被表示为：

从图5A至图5C中所例示的从网格元素来收集值的方式可以基本上沿一定维度(例如，信道维度C)遵循“牛耕式转行书写”路径，在网格中“牛耕”时收集权重值并且每当已到达了与所选择的维度参数d相等数目的“牛耕”时，将它们重新布置在矢量中。

在一个或多个实施例中，作为重新布置权重值402所产生的矩阵 U可以被用于应用归一化处理404，归一化处理404可以包括使用随机梯度下降(SGD)来解决优化问题，优化问题可以被表示为：

其中

S表示所有训练样本的集合，

a_j和b_j分别是所选择的层(例如，图1中的102所示的层) 的输入和输出激活，

ρ是激活函数(例如，ReLU)并且

Ω_L是根据重新布置权重值402所产生的矩阵U的值而计算的正则化项。

具体地，正则化项Ω_L(u)可以被表示为：

其中

σ²是统计方差，其值可以由用户设置，并且

cw是LVQ处理406中使用的网格L的码字矢量。

如果矩阵U的第k列u_k也是网格L的码字，则这样的正则化项被设计为达到最小值。

上述优化问题的选择可以基于以下理由：

给出相同的输入激活，问题的第一项(被表示为

)有助于产生可以充分近似CNN的输出激活的值；以及

正则化项Ω_L(u)可以有助于更靠近(距离减小)所选择的网格L的各点(Voronoi区域质心)的权重。

图6A是函数Ω_L(u)在三维笛卡尔空间中的曲线示例。

图6B是先前曲线针对不同的方差值σ₁、σ₂、σ₃的投影，例如，σ₁＝0.25，σ₂＝0.3，σ₃＝0.4。

可选地，当计算正则化项Ω_L(u)时，进一步的缩放因子λ_k可以被应用于矩阵U，以改进权重矢量到所选择的网格L的匹配。

图7A至图7C是示出了当相对于二维(d＝2)网格L向其应用不同的缩放因子λ1、λ2、λ3时，矩阵U的元素的不同分布(由图中填充的圆点来表示)，二维(d＝2)网格L具有基矢量b1、b2，基矢量b1、b2在笛卡尔坐标(网格L的V氏区域质心由图中的交叉点来表示)中可以被表示为：b₁＝[1,0]；b₂＝[0；1]，例如，λ1＝1，λ2＝0.5， λ3＝0.15。

在一个或多个实施例中，降低缩放因子λ的值可以增加矩阵U相对于所选择的网格L的元素分布密度。

如本文所例示的，在缩放或不缩放的情况下，求解归一化问题可以向进一步的处理级(诸如执行网格矢量量化LVQ的级406)提供归一化矩阵U’。

这可以涉及根据所选择的维度参数d来选择具有基矢量集的网格 L，网格L被配置为用作量化方案，其中网格L可以包括被指示作为码本CB的有限点集，例如，CB可以包含具有最小范数的256个网格点，其中网格点是码字cw。

如本文所例示的，将LVQ执行到经归一化的权重包括将归一化矩阵的每个列映射到码本CB中的最近码字。

如本领域技术人员所理解的，如文献Conway,J.,and N.Sloane: “Fastquantizing and decoding and algorithms for lattice quantizers and codes”,IEEETransactions on Information Theory 28.2(1982):227-232 中所讨论的方法在执行这样的映射时有利。该文献讨论了针对每个网格A_{n}(n geq 1)、D_{n}(n geq 2)、E_{6}、E_{7}、E_{8}和他们的双重、最接近任意点的网格点，用于查找的非常快速的算法，使得如果这些网格被用于均匀分布式数据的矢量量化，则算法找到最小失真网格点，并且如果网格被用作高斯信道的代码，则算法执行最大似然解码。

图8是这样的映射处理的级的图示例。

如图8所例示的，执行任何权重矢量u1、u2、u3、u_k的权重压缩涉及：

如从相应权重矢量点开始的箭头所示，执行靠近所选择的网格L的网格点的权重矢量的投影，投影表示由优化给出的移位；以及

如达到网格L中的相应交叉网格点的虚线箭头所示，执行向最近网格点的矢量量化。

在文献Rault,P.and Guillemot,C.:“Indexing algorithms for Zn,An, Dn,andDn++lattice vector quantizers”,Multimedia,IEEE Transactions on.3.395-404,doi:10.1109/6046.966111中讨论的方法被发现在索引网格点408中是有利的。

如本文所例示的，索引网格点408可以包括将任何格点x编码为索引元组(i_s，i_a，i_a ^LUT)，这可以包括：

将网格点x相对于网格L的固定最大范数归一化；

计算x的签名首元(signed leader)l_s和绝对首元(absolute leader)l_a；

根据网格点x和所计算的签名首元l_s，计算网格点z的索引元组的第一索引i_s；

根据所计算的签名首元l_s和所计算的绝对首元l_a，计算网格点x的第二索引i_s；以及

将所计算的绝对首元l_a存储在查找表(LUT)中，并且根据 LUT来计算第三索引i_a ^LUT。

如本文所例示的，索引408可以被执行为使得存储经索引的码字相对于存储完整码本使用减少的存储器量，从而有利于对网络权重的整体压缩。

未压缩权重值的存储器影响可以通过给定每个权重值的32位(假设浮点表示)的量来估计，该位的数目乘以权重的数目。

使用方法40和索引407的存储器占位空间可以仅被用于将LUT 与绝对首元值存储并且存储索引值的元组，有助于减小CNN处理的存储器占位空间。NPU 20随后可以使用经压缩的权重来减少用于存储这样的权重的存储器。以下的表I和II提供了如本文所例示的方法 40的存储器影响的估计。

表I

表II

在备选实施例中，首元的值可以借助生成函数来生成，代替存储在LUT中。

如本领域技术人员所理解的，可以找到如文献Moureaux,J.-M, Loyer,P.andAntonini,M.“Low Complexity Indexing Method for Zⁿand D_nLattice Quantizers”,(1999),Communications,IEEE Transactions on. 46.1602–1609,doi:10.1109/26.737398中所讨论的方法适用于此目的。

下表III可以总结在不同维度中计算地生成相应256和2048个绝对首元的时间(以秒为单位)。

表III

如在前述内容中所讨论的，NPU 20的电路系统206、230可以被配置用于：

例如经由直接存储器访问(DMA)电路系统206，从(较小的)存储器电路中访问/检索使用例如本文所例示的方法40压缩的权重值；

例如在飞行中，将所检索的经归一化的权重值解压缩230；以及

使用作为解压缩230的结果获得的经归一化的权重值来执行改进的CNN处理232、234、236。

如本文所例示的，NPU电路可以被配置为执行解压缩方法，例如将(压缩)方法40的步骤如反向行走。解压缩方法可以被配置用于例如使用相同的压缩/解压缩参数(例如，网格L类型的维度d的值)，与相关的方法(压缩)40协作。

这样的解压缩方法可以从硬件的角度具有低的复杂性，从而不仅根据与存储器存储相关联的存储器占位空间减少而有助于神经处理单元的操作，而且通过以下方式来促使NPU性能正面影响：

有助于每权重传送减少的数据量，从而减少与权重传送相关联的处理延迟；以及

有助于CNN执行的“更紧”的硬件管线。

如本文所例示的，将权重“在飞行中”或者动态地解压缩可以指代可以包括执行任务的解压缩逻辑，以在不需要大的中间缓冲区的情况下，将直接进入或附接到硬件卷积单元的经压缩的索引的传入流解码。这可以显著改进NPU单元20的性能，从而有助于管理存储器瓶颈在执行某些类型的神经网络工作负载和算子(诸如又被称为矩阵/ 矢量乘法的全连接和递归网络(RNN)、长短期存储器(LSTM)或门控递归单元(GRU)时)时占主导地位的关键路径。

图9是可以应用本文描述的实施例(例如，以上参考图1至图8 描述的实施例)的电子设备或系统900的实施例的功能框图。系统900 包括一个或多个处理核或电路902。处理核902可以包括例如一个或多个处理器、状态机、微处理器、可编程逻辑电路、分立电路系统、逻辑门、寄存器等以及其各种组合。处理核可以控制系统900的整体操作、由系统900执行应用程序等。

系统900包括一个或多个存储器，诸如一个或多个易失性和/或非易失性存储器，一个或多个存储器可以存储例如与系统900的控制相关的全部或部分的指令和数据、由系统900执行的应用和操作等。如图所示，系统900包括各自包括存储器管理电路系统或MMU910的一个或多个高速缓存存储器904、一个或多个初级存储器906和一个或多个次级存储器908。存储器904、906、908中的一个或多个可以包括存储器阵列，存储器阵列在操作中可以由系统900执行的一个或多个处理共享。

系统900可以包括一个或多个传感器920(例如，加速度计、压力传感器、温度传感器等)、一个或多个接口930(例如，无线通信接口、有线通信接口等)、一个或多个ANN电路(如图所示的卷积神经网络(CNN)加速器电路940)和其他电路950(可以包括其他功能电路、天线、电源等)以及主总线系统960。主总线系统960可以包括与系统900的各种组件耦合的一个或多个数据、地址、功率和/或控制总线。系统900还可以包括附加总线系统，诸如将高速缓存存储器 904和处理核902通信地耦合的总线系统962、将高速缓存存储器904 和初级存储器通信地耦合的总线系统964、将初级存储器和处理核902 通信地耦合的总线系统966以及将初级存储器和次级存储器908通信地耦合的总线系统968。

一个或多个初级存储器906通常是系统900的工作存储器(例如，处理核902工作的一个或多个存储器或者诸如CNN加速器电路系统 940的协同处理器工作的一个或多个存储器)，并且可以通常是存储与系统900执行的过程相关的代码和数据的有限尺寸的易失性存储器 (例如，DRAM)。为方便起见，本文中对存储器中存储的数据的引用也可以指代存储器中存储的代码。在实施例中，可以在一个或多个初级存储器中使用非易失性存储器，诸如SRAM、ReRAM、PCM、 MRAM、FRAM、多级存储器等。次级存储器908通常可以是存储指令和数据的非易失性存储器，指令和数据可以在系统900需要的情况下被检索并存储在初级存储器中。高速缓存存储器904可以是与次级存储器908相比而相对快的存储器并且通常具有有限尺寸，有限尺寸可以大于初级存储器906的尺寸。

高速缓存存储器904临时存储代码和数据，以供稍后由系统900 使用。代替从次级存储器908检索所需的代码或数据以存储在初级存储器中，系统900可以首先检查高速缓存存储器904来查看数据或代码是否已被存储在高速缓存存储器904中。高速缓存存储器904可以通过减少检索系统900使用的数据和代码所需的时间和其他资源来显著改进诸如系统900的系统的性能。当代码和数据被检索(例如，从次级存储器908)以供系统900使用，或者数据或代码被写入(例如，初级存储器或次级存储器908)时，数据或代码的副本可以被存储在高速缓存存储器904中，以供稍后由系统900使用。各种高速缓存管理例程可以被用来控制一个或多个高速缓存存储器904中存储的数据。

以下概述了示例实施例，其中示例参考附图。如本文所例示的计算机实现的方法(例如，40)包括：

提供人工神经网络ANN处理级(例如，10)，人工神经网络 ANN处理级包括具有相应处理层参数(例如，L₁、L₂、L₃、L₄)的多个处理层(例如，100、102、104、106、108)，所述处理层参数包括至少一个权重参数集(例如，w_i)、至少一个输入激活参数(例如， a_j)、至少一个输出激活参数(例如，b_j)以及至少一个激活函数参数 (例如，ρ)；

将网格的维度参数(例如，d)设置为整数值，所述网格具有多个网格点并且由基矢量集(例如，b₁、b₂)来标识；

选择(例如，400)所述ANN处理级的所述多个处理层中的相应处理层(例如，102)的权重参数集(例如，w_i)；

将矢量化处理(例如，402)应用于所述所选择的权重参数集，从而产生权重矢量集(例如，u₁、u₂、u₃)作为结果并且将所述权重矢量集布置为权重矢量矩阵(例如，U)的项；

执行权重矢量矩阵的归一化处理(例如，404)，从而产生经归一化的权重矢量矩阵(例如，U’)作为结果；

对所述经归一化的权重矢量矩阵应用网格矢量量化LVQ处理，产生码字的码本(例如，CB)作为结果；

将索引处理应(例如，408)应用于所述所产生的码本，所述索引包括根据网格L来对码本的码字进行编码，从而产生相应索引元组(例如，i_s、i_a、i_a ^LUT)作为结果；以及

向用户电路(例如，20)提供所述所产生的索引元组，

其中执行所述权重矢量矩阵的所述归一化处理包括计算优化问题，优化问题具有：

第一项，被配置为根据ANN处理级的至少一个输入激活参数来提供经归一化的权重值，经归一化的权重值近似于ANN处理级的至少一个输出激活参数；以及

正则化项Ω_L，被配置为将距离所选择的网格的所述网格点短距离的经归一化的权重值放大。

如本文所例示的，所述正则化项Ω_L(u)被配置为当距离权重矢量矩阵的项u_k的所选择的网格的所述网格点的所述距离可忽略时达到最小值。

如本文所例示的，所述优化问题被表示为：

其中

S指示所述人工神经网络的所述多个处理层中的所选择的处理层(例如，102)的所述处理层参数，

a_j和b_j是所述人工神经网络的所述多个处理层中的所选择的处理层的所述处理层参数的输入和输出激活参数，

ρ是所述人工神经网络的所述多个处理层中的所选择的处理层的所述处理层参数的激活函数参数，

u_k是权重矢量矩阵的项，以及

λ是缩放因子。

如本文所例示的，所述正则化项Ω_L(u)可以被表示为：

其中

σ²是统计方差参数，并且

cw是所述基矢量集中标识所述网格的基矢量。

如本文所例示的，计算所述正则化项Ω_L(u)包括将缩放因子 (例如，λ₁、λ₂、λ₃)应用于经归一化的权重矢量矩阵，缩放因子的值例如在0和1之间。

如本文所例示的，所述归一化处理包括使用随机梯度下降SGD 处理来计算所述优化问题。

如本文所例示的，执行权重值的所述矢量化包括：

沿着一定维度的有序序列(例如，C、T、H、K)来处理至少一个权重参数集中的元素(例如，w_i)；

沿着所述维度的有序序列，从至少一个权重参数集中提取权重值；以及

通过将所述所提取的权重值布置为所述矢量集中的相应矢量的元素，提供权重矢量集(例如，u₁、u₂、u₃)，其中所述权重矢量集中的权重矢量具有相应矢量尺寸，矢量尺寸等于维度参数(例如， d)的所述整数值。

如本文所例示的，所述LVQ处理包括：

根据所述维度参数(例如，d)的所述整数值，选择具有多个网格点的网格和基矢量集；以及

使用所选择的网格的基矢量集，对所述权重矢量集应用量化。

如本文所例示的，所述ANN处理级是卷积神经网络CNN处理级。

如本文所例示的计算机程序产品包括指令，当程序由计算机执行时，使得计算机执行本文所例示的方法。

本文中所例示的计算机可读介质已被存储，其中使用如本文所例示的方法来获得经归一化的权重值。

如本文所例示的，根据权重值来操作被配置用于执行人工神经网络ANN处理的硬件加速器引擎的方法包括：

访问(例如，206)使用本文所例示的方法获得的经归一化的权重值；

将所访问的经归一化的权重值解压缩(例如，230)来产生经解压缩的权重值；以及

根据所述经解压缩的权重值来执行人工神经网络ANN处理 (例如，10)。

如本文所例示的计算机程序产品包括指令，当程序由计算机执行时，使得计算机执行操作硬件加速器引擎的方法。

如本文所例示的计算机可读介质包括指令，指令在由计算机执行时，使得计算机执行操作硬件加速器引擎的方法。

如本文所例示的硬件加速器引擎电路(例如，20)包括存储器电路系统，存储器电路系统在其中存储：

使用方法获得的经归一化的权重值；以及

在硬件加速器引擎中执行时，使得硬件加速器引擎执行以下方法的指令：

访问(例如，206)所述经归一化的权重值；

根据所述经解压缩的权重值来执行ANN处理(例如， 10)。

应当理解的是，伴随该描述、在整个附图中例示的各个实现方案不一定旨在以在图中例示的相同组合来采用。因此，一个或多个实施例可以通过相对于附图中所例示的组合单独和/或不同的组合来采用这些(非强制性)选项。

在不妨碍潜在原理的情况下，细节和实施例可以在不脱离保护范围的情况下，相对于仅通过示例所描述的内容显著变化。保护范围由所附权利要求来限定。

在实施例中，在与权重矢量矩阵(U)的项u_k的所选择的网格的网格点的距离可忽略时，正则化项Ω_L(u)达到最小值。在实施例中，优化问题被表示为：

其中

S指示ANN的所述多个处理层中的所选择的处理层的处理层参数，

a_j是ANN的多个处理层中的所选择的处理层的处理层参数的输入激活参数并且b_j是输出激活参数，

ρ是ANN的多个处理层中的所选择的处理层的处理层参数的激活函数参数，

u_k是权重矢量矩阵的项，以及

λ是缩放因子。

在实施例中，正则化项Ω_L(u)可以被表示为：

其中

σ²是统计方差参数，并且

cw是基矢量集中标识所述网格的基矢量。

在实施例中，求解优化问题包括对经归一化的权重矢量矩阵(U) 应用第二缩放因子。在实施例中，第二缩放因子的值在0和1之间。在实施例中，归一化处理包括使用随机梯度下降SGD处理来计算优化问题。在实施例中，执行权重值的矢量化包括：沿着维度的有序序列来处理至少一个权重参数集(w_i)中的元素；沿着维度的有序序列，从至少一个权重参数集(w_i)中提取权重值；以及通过将所提取的权重值布置为矢量集(u₁，u₂，u₃)中的相应矢量的元素，提供权重矢量集(u₁，u₂，u₃)，其中权重矢量集(u₁，u₂，u₃)中的权重矢量具有相应矢量尺寸，矢量尺寸等于维度参数(d)的整数值。在实施例中，LVQ处理包括：根据维度参数(d)的整数值，选择具有多个网格点的网格和基矢量集；以及使用所选择的网格的基矢量集，对权重矢量集(u₁，u₂，u₃)应用量化。在实施例中，ANN是卷积神经网络 (CNN)。在实施例中，方法包括：访问经归一化的权重矢量矩阵中的经归一化的权重值；解压缩所访问的经归一化的权重值，以产生经解压缩的权重值；以及使用ANN的硬件加速器引擎，根据经解压缩的权重值来执行操作。

在实施例中，非暂时性计算机可读介质的内容将计算系统配置为执行方法，方法包括：实现具有多个处理层的人工神经网络(ANN)，处理层具有相应处理层参数，处理层参数包括至少一个权重参数集 (w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁，b₂)来标识；选择ANN 的多个处理层中的相应处理层的权重参数集(w_i)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂，u₃)并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；对所产生的码本应用索引处理，索引包括根据网格来对码本的码字进行编码，产生相应索引元组(i_s，i_a，i_a ^LUT)以及向ANN的神经处理电路提供所产生的索引元组(i_s，i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括求解优化问题，优化问题具有第一项和正则化项Ω_L(u)：第一项用于根据ANN的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。在实施例中，优化问题被表示为：

其中

u_k是权重矢量矩阵的项，以及

λ是缩放因子。

在实施例中，方法包括：访问经归一化的权重矢量矩阵中的经归一化的权重值；解压缩所访问的经归一化的权重值，以产生经解压缩的权重值；以及使用ANN的硬件加速器引擎，根据经解压缩的权重值来执行操作。在实施例中，内容包括指令，指令在由计算系统执行时，使计算系统执行方法。

在实施例中，设备包括：存储器；以及与存储器耦合的处理电路系统，其中处理电路系统在操作中：将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁，b₂)来标识；选择人工神经网络(ANN)的多个处理层中的相应处理层的权重参数集(w_i)，ANN具有多个处理层，多个处理层具有相应处理层参数，处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂，u₃)并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；以及索引所产生的码本，索引包括根据网格来对码本的码字进行编码，从而产生相应索引元组(i_s， i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括求解优化问题，优化问题具有第一项和正则化项Ω_L(u)：第一项用于根据ANN 的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项 Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。在实施例中，在与权重矢量矩阵(U)的项u_k的所选择的网格的网格点的距离可忽略时，正则化项Ω_L(u)达到最小值。在实施例中，优化问题被表示为：

其中

u_k是权重矢量矩阵的项，以及

λ是缩放因子。

在实施例中，正则化项Ω_L(u)可以被表示为：

其中

σ²是统计方差参数，并且

cw是基矢量集中标识网格的基矢量。

在实施例中，求解优化问题包括对经归一化的权重矢量矩阵(U) 应用第二缩放因子。在实施例中，第二缩放因子的值在0和1之间。在实施例中，归一化处理包括使用随机梯度下降SGD处理来计算优化问题。在实施例中，执行权重值的矢量化包括：沿着维度的有序序列来处理至少一个权重参数集(w_i)中的元素；沿着维度的有序序列，从至少一个权重参数集(w_i)中提取权重值；以及通过将所提取的权重值布置为矢量集(u₁，u₂，u₃)中的相应矢量的元素，提供权重矢量集(u₁，u₂，u₃)，其中权重矢量集(u₁，u₂，u₃)中的权重矢量具有相应矢量尺寸，矢量尺寸等于维度参数(d)的整数值。在实施例中，LVQ处理包括：根据维度参数(d)的整数值，选择具有多个网格点的网格和基矢量集；以及使用所选择的网格的基矢量集，对权重矢量集(u₁，u₂，u₃)应用量化。在实施例中，ANN是卷积神经网络 (CNN)。在实施例中，处理电路系统在操作中：访问经归一化的权重矢量矩阵中的经归一化的权重值；解压缩所访问的经归一化的权重值，以产生经解压缩的权重值；以及根据经解压缩的权重值来执行 ANN的操作。

在实施例中，系统包括：在操作中存储经压缩的经归一化的权重值的存储器；处理核；以及与存储器和处理核耦合的硬件加速器引擎，其中硬件加速器引擎在操作中：将所存储的经归一化的权重值解压缩，从而产生经解压缩的权重值，并且根据所述经解压缩的权重值来执行人工神经网络(ANN)的操作，其中所存储的经压缩的经归一化的权重值对应于优化问题的求解，优化问题具有第一项和正则化项 Ω_L(u)：第一项用于根据ANN的至少一个输入激活参数(a_j)来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数(b_j)；并且正则化项Ω_L(u)被配置为将与所选择的网格的网格点有距离的经归一化的权重值放大。在实施例中，处理核在操作中：生成所存储的经压缩的经归一化的权重值，生成包括：将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁， b₂)来标识；选择ANN的多个处理层中的相应处理层的权重参数集 (w_i)，ANN具有多个处理层，多个处理层具有相应处理层参数，处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂， u₃)并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；以及索引所产生的码本，索引包括根据网格来对码本的码字进行编码，从而产生相应索引元组(i_s， i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括求解优化问题。

在实施例中，一种系统包括：存储器，在操作中存储经压缩的经归一化的权重值；处理电路系统，被耦合到存储器。处理电路系统在操作中：实现人工神经网络；将所存储的经归一化的权重值解压缩，从而产生经解压缩的权重值；以及根据经解压缩的权重值来执行ANN 的操作。所存储的经压缩的经归一化的权重值对应于优化问题的求解，优化问题具有：第一项，用于根据ANN的至少一个输入激活参数来提供经归一化的权重值，经归一化的权重值近似于ANN的至少一个输出激活参数；以及正则化项，用于将与所选择的网格的网格点有距离的经归一化的权重值放大。系统使用ANN对图像进行分类，分类包括执行ANN的操作。在实施例中，处理电路系统在操作中生成所存储的经压缩的经归一化的权重值，生成包括：将网格的维度参数(d)设置为整数值，网格具有多个网格点并且由基矢量集(b₁， b₂)来标识；选择ANN的多个处理层中的相应处理层的权重参数集(w_i)，ANN具有多个处理层，多个处理层具有相应处理层参数，处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；对所选择的权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂， u₃)，并且将权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；执行权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；将网格矢量量化(LVQ)处理应用于经归一化的权重矢量矩阵(U’)，从而产生码字的码本；以及对所产生的码本进行索引，索引包括根据网格来将码本的码字编码，从而产生相应索引元组(i_s， i_a，i_a ^LUT)，其中执行权重矢量矩阵(U)的归一化处理包括解决优化问题。在实施例中，处理电路系统包括：处理核；以及硬件加速器引擎，被耦合到存储器和处理核，其中硬件加速器引擎在操作中将所存储的经归一化的权重值解压缩并执行ANN的操作。

一些实施例可以采用或包括计算机程序产品的形式。例如，根据一个实施例，提供了包括计算机程序的计算机可读介质，计算机程序被适配用于执行上述方法或功能中的一个或多个方法或功能。介质可以是物理存储介质，诸如例如只读存储器(ROM)芯片，或诸如数字多功能磁盘(DVD-ROM)、光盘(CD-ROM)、硬盘的盘、存储器、网络、或者通过适当的驱动装置或经由适当的连接读取的便携式介质制品，包括在一个或多个条形码中或者在一个或多个这样的计算机可读介质上存储并被适当读取设备读取的其他相关代码中编码的便携式介质制品。

此外，在一些实施例中，方法和/或功能中的一些或全部可以以其他方式来实现或提供，诸如至少部分地在固件和/或硬件中实现，固件和/或硬件包括但不限于一个或多个专用集成电路(ASICS)、数字信号处理器、分立电路系统、逻辑门、标准集成电路、控制器(例如，通过执行适当的指令，并且包括微控制器和/或嵌入式控制器)、现场可编程门阵列(FPGA)、复杂可编程逻辑设备(CPLD)等以及采用 RFID技术的设备及其各种组合。

上述各种实施例可以被组合来提供进一步的实施例。根据需要，实施例的各个方面可以被修改，以采用各种专利、申请和出版物的概念来提供其他实施例。

鉴于上述描述，可以对实施例进行这些和其他改变。通常，在所附权利要求中，所使用的术语不应被解释为将权利要求限制为说明书和权利要求中所公开的特定实施例，而是应被解释为包括这样的权利要求所要求保护的所有可能的实施例以及等同物的全部范围。因此，权利要求不受本公开内容的限制。

Claims

1.一种方法，包括：

实现具有多个处理层的人工神经网络(ANN)，所述多个处理层具有相应处理层参数，所述处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；

将网格的维度参数(d)设置为整数值，所述网格具有多个网格点，并且由基矢量集(b₁，b₂)来标识；

选择所述ANN的所述多个处理层中的相应处理层的权重参数集(w_i)；

对所选择的所述权重参数集(w_i)应用矢量化处理，产生权重矢量集(u₁，u₂，u₃)，并且将所述权重矢量集(u₁，u₂，u₃)布置为权重矢量矩阵(U)；

执行所述权重矢量矩阵(U)的归一化处理，产生经归一化的权重矢量矩阵(U’)；

对所述经归一化的权重矢量矩阵(U’)应用网格矢量量化(LVQ)处理，产生码字的码本；

对所产生的所述码本应用索引处理，所述索引包括根据所述网格来对所述码本的码字进行编码，产生相应索引元组(i_s，i_a，i_a ^LUT)；以及

向所述ANN的神经处理电路提供所产生的索引元组(i_s，i_a，i_a ^LUT)，

其中执行所述权重矢量矩阵(U)的所述归一化处理包括：求解优化问题，所述优化问题具有：

第一项，用于根据所述ANN的所述至少一个输入激活参数(a_j)来提供经归一化的权重值，所述经归一化的权重值近似于所述ANN的所述至少一个输出激活参数(b_j)；以及

正则化项Ω_L(u)，用于将与所选择的所述网格的所述网格点有距离的经归一化的权重值放大。

2.根据权利要求1所述的方法，其中在与所述权重矢量矩阵(U)的项u_k的所选择的所述网格的所述网格点的距离可忽略时，所述正则化项Ω_L(u)达到最小值。

3.根据权利要求1所述的方法，其中所述优化问题被表示为：

其中

S指示所述ANN的所述多个处理层中所选择的所述处理层的所述处理层参数，

a_j是所述ANN的所述多个处理层中所选择的所述处理层的所述处理层参数的所述输入激活参数，并且b_j是所述输出激活参数，

ρ是所述ANN的所述多个处理层中所选择的所述处理层的所述处理层参数的所述激活函数参数，

u_k是所述权重矢量矩阵的项，以及

λ是缩放因子。

4.根据权利要求3所述的方法，其中所述正则化项Ω_L被表示为：

其中

σ²是统计方差参数；并且

cw是所述基矢量集中标识所述网格的基矢量。

5.根据权利要求4所述的方法，其中求解所述优化问题包括：对所述经归一化的权重矢量矩阵(U)应用第二缩放因子。

6.根据权利要求5所述的方法，其中所述第二缩放因子的值在0与1之间。

7.根据权利要求1所述的方法，其中所述归一化处理包括：使用随机梯度下降(SGD)处理来求解所述优化问题。

8.根据权利要求1所述的方法，其中执行权重值的所述矢量化包括：

沿着维度的有序序列来处理所述至少一个权重参数集(w_i)中的元素；

沿着所述维度的有序序列，从所述至少一个权重参数集(w_i)提取权重值；以及

通过以下来提供权重矢量集(u₁，u₂，u₃)：将所提取的所述权重值布置为所述矢量集(u₁，u₂，u₃)中的相应矢量的元素，其中所述权重矢量集(u₁，u₂，u₃)中的权重矢量具有相应矢量尺寸，所述相应矢量尺寸等于所述维度参数(d)的所述整数值。

9.根据权利要求1所述的方法，其中所述LVQ处理包括：

根据所述维度参数(d)的所述整数值，选择具有多个网格点和基矢量集的所述网格；以及

使用所选择的所述网格的所述基矢量集，对所述权重矢量集(u₁，u₂，u₃)应用量化。

10.根据权利要求1所述的方法，所述ANN是卷积神经网络(CNN)。

11.根据权利要求1所述的方法，包括：

访问所述经归一化的权重矢量矩阵中的经归一化的权重值；

解压缩所访问的所述经归一化的权重值，以产生经解压缩的权重值；以及

使用所述ANN的硬件加速器引擎，根据所述经解压缩的权重值来执行操作。

12.一种具有内容的非暂时性计算机可读介质，所述内容将计算设备配置为执行方法，所述方法包括：

13.根据权利要求12所述的非暂时性计算机可读介质，其中所述优化问题被表示为：

其中

u_k是所述权重矢量矩阵的项，以及

λ是缩放因子。

14.根据权利要求12所述的非暂时性计算机可读介质，其中所述方法包括：

访问所述经归一化的权重矢量矩阵中的经归一化的权重值；

15.根据权利要求12所述的非暂时性计算机可读介质，其中所述内容包括指令，所述指令在由所述计算系统执行时，使所述计算系统执行所述方法。

16.一种设备，包括：

存储器；以及

处理电路系统，被耦合到所述存储器，其中所述处理电路系统在操作中：

选择人工神经网络(ANN)的多个处理层中的相应处理层的权重参数集(w_i)，所述ANN具有多个处理层，所述多个处理层具有相应处理层参数，所述处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；

对所述经归一化的权重矢量矩阵(U’)应用网格矢量量化(LVQ)处理，产生码字的码本；以及

对所产生的所述码本进行索引，所述索引包括根据所述网格来对所述码本的码字进行编码，产生相应索引元组(i_s，i_a，i_a ^LUT)，其中执行所述权重矢量矩阵(U)的所述归一化处理包括：求解优化问题，所述优化问题具有：

17.根据权利要求16所述的设备，其中在与所述权重矢量矩阵(U)的项u_k的所选择的网格的所述网格点的距离可忽略时，所述正则化项Ω_L(u)达到最小值。

18.根据权利要求16所述的设备，其中所述优化问题被表示为：

其中

u_k是所述权重矢量矩阵的项，以及

λ是缩放因子。

19.根据权利要求16所述的设备，其中所述正则化项Ω_L被表示为：

其中

σ²是统计方差参数；并且

cw是所述基矢量集中标识所述网格的基矢量。

20.根据权利要求19所述的设备，其中求解所述优化问题包括：对所述经归一化的权重矢量矩阵(U)应用第二缩放因子。

21.根据权利要求20所述的设备，其中所述第二缩放因子的值在0与1之间。

22.根据权利要求16所述的设备，其中所述归一化处理包括：使用随机梯度下降(SGD)处理来求解所述优化问题。

23.根据权利要求16所述的设备，其中执行权重值的所述矢量化包括：

24.根据权利要求16所述的设备，其中所述LVQ处理包括：

根据所述维度参数(d)的所述整数值，选择具有多个网格点的所述网格和基矢量集；以及

25.根据权利要求16所述的设备，其中所述ANN是卷积神经网络(CNN)。

26.根据权利要求16所述的设备，其中所述处理电路系统在操作中：

访问所述经归一化的权重矢量矩阵中的经归一化的权重值；

根据所述经解压缩的权重值来执行所述ANN的操作。

27.一种系统，包括：

存储器，在操作中存储经压缩的经归一化的权重值；

处理核；以及

硬件加速器引擎，被耦合到所述存储器和所述处理核，其中所述硬件加速器引擎在操作中：

解压缩所存储的经归一化的权重值，产生经解压缩的权重值，以及

根据所述经解压缩的权重值来执行人工神经网络(ANN)的操作，其中所存储的所述经压缩的经归一化的权重值对应于优化问题的求解，所述优化问题具有：

第一项，用于根据所述ANN的至少一个输入激活参数(a_j)来提供经归一化的权重值，所述经归一化的权重值近似于所述ANN的至少一个输出激活参数(b_j)；以及

正则化项Ω_L(u)，用于将与所选择的网格的网格点有距离的经归一化的权重值放大。

28.根据权利要求27所述的系统，其中所述处理核在操作中，生成所存储的所述经压缩的经归一化的权重值，所述生成包括：

将所述网格的维度参数(d)设置为整数值，所述网格具有多个网格点并且由基矢量集(b₁，b₂)来标识；

选择所述ANN的多个处理层中的相应处理层的权重参数集(w_i)，所述ANN具有多个处理层，所述多个处理层具有相应处理层参数，所述处理层参数包括所述至少一个权重参数集(w_i)、所述至少一个输入激活参数(a_j)、所述至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；

对经归一化的权重矢量矩阵(U’)应用网格矢量量化(LVQ)处理，产生码字的码本；以及

对所产生的所述码本进行索引，所述索引包括根据所述网格来对所述码本的码字进行编码，产生相应索引元组(i_s，i_a，i_a ^LUT)，其中执行所述权重矢量矩阵(U)的所述归一化处理包括求解所述优化问题。

29.一种系统，包括：

存储器，在操作中存储经压缩的经归一化的权重值；

实现人工神经网络；

根据所述经解压缩的权重值来执行所述ANN的操作，其中所存储的所述经压缩的经归一化的权重值对应于优化问题的求解，所述优化问题具有：

第一项，用于根据所述ANN的至少一个输入激活参数来提供经归一化的权重值，所述经归一化的权重值近似于所述ANN的至少一个输出激活参数；以及

正则化项，用于将与所选择的网格的网格点有距离的经归一化的权重值放大；以及

使用所述ANN对图像进行分类，所述分类包括执行所述ANN的所述操作。

30.根据权利要求29所述的系统，其中所述处理电路系统在操作中生成所存储的所述经压缩的经归一化的权重值，所述生成包括：

选择所述ANN的多个处理层中的相应处理层的权重参数集(w_i)，所述ANN具有多个处理层，所述多个处理层具有相应处理层参数，所述处理层参数包括至少一个权重参数集(w_i)、至少一个输入激活参数(a_j)、所述至少一个输出激活参数(b_j)以及至少一个激活函数参数(ρ)；

执行所述权重矢量矩阵(U)的归一化处理，从而产生经归一化的权重矢量矩阵(U’)；

31.根据权利要求29所述的系统，其中所述处理电路系统包括：

处理核；以及

硬件加速器引擎，被耦合到所述存储器和所述处理核，其中所述硬件加速器引擎在操作中解压缩所存储的所述经归一化的权重值并且执行所述ANN的所述操作。