CN114781604A - 神经网络权重参数的编码方法、编码器及神经网络处理器 - Google Patents

神经网络权重参数的编码方法、编码器及神经网络处理器 Download PDF

Info

Publication number
CN114781604A
CN114781604A CN202210385708.8A CN202210385708A CN114781604A CN 114781604 A CN114781604 A CN 114781604A CN 202210385708 A CN202210385708 A CN 202210385708A CN 114781604 A CN114781604 A CN 114781604A
Authority
CN
China
Prior art keywords
sub
vector
vectors
prototype
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210385708.8A
Other languages
English (en)
Other versions
CN114781604B (zh
Inventor
王彦飞
濮亚男
胡胜发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Ankai Microelectronics Co ltd
Original Assignee
Guangzhou Ankai Microelectronics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Ankai Microelectronics Co ltd filed Critical Guangzhou Ankai Microelectronics Co ltd
Priority to CN202210385708.8A priority Critical patent/CN114781604B/zh
Publication of CN114781604A publication Critical patent/CN114781604A/zh
Application granted granted Critical
Publication of CN114781604B publication Critical patent/CN114781604B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种神经网络权重参数的编码方法、编码器及神经网络处理器,所述编码方法包括:获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组;将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。通过实施本发明能够降低原始神经网络权重参数的数据量。

Description

神经网络权重参数的编码方法、编码器及神经网络处理器
技术领域
本发明涉及计算机技术领域,尤其涉及一种神经网络权重参数的编码方法、编码器及神经网络处理器。
背景技术
深度神经网络(DNN)为机器学习(Meaching Learning,ML)领域带来了重要突破,通过引入DNN提高了大多数机器学习任务的最优性能。DNN显著的识别效果是以庞大的模型计算量和存储量为代价的,以CNN为例,用于目标检测任务的典型CNN模型(YOLOV3)需要高达320亿次浮点运算操作(Floating-point Operations,FLOP)和60MB以上的模型参数,这使得它们难以部署到硬件资源有限,能量预算紧张的嵌入式设备中。许多为人工智能应用任务设计的专用处理器芯片(AI芯片)也涌现出来。AI芯片内部专门负责实现AI运算和AI应用的模块称为神经网络处理器(Neural-network Processing Unit,NPU)。由于NPU访问存储器的速度无法跟上运算部件消耗数据的速度,再增加运算部件也无法得到充分利用,即形成“内存墙”问题。解决该问题的方向之一是减少访问存储器的数据量,而要减少访问存储器的数据量,就需要减少神经网络权重参数的数据量,因此如何减少神经网络权重参数的数据量是一个亟需解决的问题。
发明内容
本发明实施例提供一种神经网络权重参数的编码方法、编码器及神经网络处理器,能降低神经网络权重参数的数据量。
本发明一实施例提供了一种神经网络权重参数的编码方法,包括:获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组;
将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;
将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。
进一步的,所述将参数组内的参数划分为若干子向量,并将各子向量进行学习聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子,具体包括:
根据参数组内的参数生成一维向量;
初始化子向量的数目,根据子向量的数目将一维向量划分为若干子向量;
初始化若干初始原型向量、每一初始原型向量的索引值以及每一子向量的初始缩放因子,根据各初始原型向量、各初始原型向量的索引值以及各初始缩放因子构建子向量的初始拟合模型;
迭代调整子向量的数目、各初始原型向量、各索引值以及各初始缩放因子,以对初始拟合模型进行迭代训练,直至预设损失函数的函数值最小,生成参数组中每一子向量所对应的原型向量、每一原型向量的索引值以及每一子向量所对应的缩放因子。
进一步的,所述对若干原始神经网络权重参数进行分组,具体包括:
根据各原始神经网络权重参数所属的卷积核,将同一卷积核的原始神经网络权重参数分为一组。
进一步的,还包括:根据各原型向量以及各原型向量的索引值生成原型向量查找表。
在上述方法项实施例的基础上,本发明另一实施例提供了一种编码器,所述编码器,用于获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组;
将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;
将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。
进一步的,编码器将参数组内的参数划分为若干子向量,并将各子向量进行学习聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子,具体包括:
根据参数组内的参数生成一维向量;
初始化子向量的数目,根据子向量的数目将一维向量划分为若干子向量;
初始化若干初始原型向量、每一初始原型向量的索引值以及每一子向量的初始缩放因子,根据各初始原型向量、各初始原型向量的索引值以及各初始缩放因子构建子向量的初始拟合模型;
迭代调整子向量的数目初始值、各初始原型向量、各索引值以及各初始缩放因子,以对初始拟合模型进行迭代训练,直至预设损失函数的函数值最小,生成参数组中每一子向量所对应的原型向量、每一原型向量的索引值以及每一子向量所对应的缩放因子。
进一步的,编码器对若干原始神经网络权重参数进行分组,具体包括:
根据各原始神经网络权重参数所属的卷积核,将同一卷积核的原始神经网络权重参数分为一组。
进一步的,所述编码器,还用于根据各原型向量以及各原型向量的索引值生成原型向量查找表。
在上述方法项实施例的基础上,本发明另一实施例提供了一种神经网络处理器,所述解码器,用于获取由上述神经网络权重参数的编码方法进行编码后的各编码值;
根据各编码值确定各编码值所对应的原型向量的索引值以及缩放因子;
根据各编码值的索引值以及原型向量查找表,提取各编码值所对应的原型向量,并根据各编码值所对应的缩放因子对所提取的原型向量进行缩放,获得各解码后的子向量。
通过实施本发明实施例具有如下有益效果:
本发明实施例提供了一种神经网络权重参数的编码方法、编码器及神经网络处理器,所述编码方法,首先获取各原始神经网络权重参数,并对各神经网络权重参数进行分组,获得若干参数组;紧接着,将每个参数组中的参数划分为若干个子向量,并将子向量进行聚类,获得每一类子向量所对应的原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;最后子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。本发明所公开的神经网络权重参数的编码方法,通过将子向量进行聚类,来生成一类子向量的原型向量,使得参数组中的同一类的多个子向量,可以通过一个原型向量以及各自对应的缩放因子来进行表征,大大降低了数据量,因此采用原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码后,原始神经网络权重参数就可以由各个编码值进行表征,编码后的数据量相对于原始数据量有显著压缩,从而大幅度降低了原始神经网络权重参数的数据量。
附图说明
图1是本发明一实施例提供的一种神经网络权重参数的编码方法的流程示意图。
图2是本发明一实施例所提供的原型向量查找表的示意图。
图3是本发明一实施例中对一参数组编码后的效果示意图。
图4是本发明一实施例提供的神经网络处理器进行神经网络计算的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明一实施例提供了一种神经网络权重参数的编码方法,至少包括如下步骤:
步骤S101:获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组。
步骤S102:将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子。
步骤S103:将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。
对于步骤S101、在一个优选的实施例中,所述对若干原始神经网络权重参数进行分组,具体包括:根据各原始神经网络权重参数所属的卷积核,将同一卷积核的原始神经网络权重参数分为一组。
在本发明中,对所获取的各原始神经网络权重参数进行分组,一般情况下一个卷积核的参数分为一组,也可以按照其他方式进行分组。对分组后的每一组参数单独编码,解码时使用相同的分组规则。
对于步骤S102,在一个优选的实施例中所述将参数组内的参数划分为若干子向量,并将各子向量进行学习聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子,具体包括:
根据参数组内的参数生成一维向量;
初始化子向量的数目,根据子向量的数目将一维向量划分为若干子向量;
初始化若干初始原型向量、每一初始原型向量的索引值以及每一子向量的初始缩放因子,根据各初始原型向量、各初始原型向量的索引值以及各初始缩放因子构建子向量的初始拟合模型;
迭代调整子向量的数目、各初始原型向量、各索引值以及各初始缩放因子,以对初始拟合模型进行迭代训练,直至预设损失函数的函数值最小,生成参数组中每一子向量所对应的原型向量、每一原型向量的索引值以及每一子向量所对应的缩放因子。
具体的,在对各原始神经网络权重参数进行分组,得到若干参数组后,按以下步骤逐一对每一参数组进行处理:
1、将一参数组内的参数展开为一维向量,用A表示,A的维度为1*L,将A分成C个子向量,则每个子向量长度为
Figure BDA0003594914270000061
每一个子向量称为Vi,i∈[0,C-1]。其中,C值在取值范围[1:L]内,后续在训练过程中对C进行迭代调整时,将C值在取值范围[1:L]内遍历,遍历规则为:从L开始(即上述初始子向量的数目为L),等步长减小,不小于1。减小步长为c_step,该值为预设的经验值。
2、初始化N个原型向量Ej(即上述初始化原型向量),j∈[0,N-1],且N<C,Ej的长度等于D,同Vi的长度。原型向量用函数g(Ej),j∈[0,N-1]表示。每一个Vi用N个原型向量中的一个来拟合,则A可用C个原型向量的组合来拟合(C>N,原型向量重复使用),C个原型向量索引用Ki,i∈[0,C-1]来表示,其中Ki∈[1:N]。得到初步拟合方式:Vi≈f(Ki,g(Ej)),其中f(Ki,g(Ej))指该组原型向量中索引值为Ki的原型向量。原型向量索引需要
Figure BDA0003594914270000071
(bit)位来表示。原型向量Ej的数据类型为8位整形。其中N,Ej,Ki为可学习参数。
3、为使得拟合更加灵活,设置缩放因子Si,i∈[0,C-1],每一个Vi对应一个Si,拟合方式变为Vi≈Si*f(Ki,g(Ej)),得到上述初始拟合模型。缩放因子数据类型为整型,用N2(bit)位来表示,可取数值个数为2N2,N2为预设的经验值,Si为可学习参数。
4、迭代调整C、N、Ej、Ki以及Si的值,对上述初始拟合模型Vi≈Si*f(Ki,g(Ej)),进行迭代训练,直至下述损失函数的值loss_c最小:
Figure BDA0003594914270000072
loss_c由两部分组成,前半部分是向量A拟合误差的平方值,后半部分约束N值。其中β为经验值。
完成训练后记录对应的输出,输出包括:原型向量个数N;N个原型向量Ej,j∈[0,N-1];每一个Vi对应的原型向量的索引值Ki,i∈[0,C-1];每一个Vi对应的缩放因子Si,i∈[0,C-1]。即可完成对每一参数组的子向量的划分,以及,生成各子向量所对应的原型向量,原型向量的索引值以及缩放因子。
需要说明的是,在迭代调整时首先按前述所提及的C的遍历规则,确定C值,然后对拟合模型进行训练,训练的目标是使得该C值下的loss_c最小,然后记录该C值下的loss_c最小时对应的输出以及loss_c值;紧接着根据C值的遍历规则,重新选取一C值,然后进行训练,同样记录更新后的C值下loss_c最小时的输出以及loss_c值,重复这一操作,直至C在取值范围[1:L]内遍历完毕,比对所有loss_c值,将loss_c值最小时的输出作为最终的输出。
对于步骤S103,通过步骤S102,所述的方法生成每一参数组的子向量所对应的原型向量、原型向量的索引值以及缩放因子后,将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码,得到编码后的神经网络权重参数。经过编码,各参数组中的参数用训练得到的原型向量编号索引值和缩放因子替代。
在一个优选的实施例中,还包括:根据各原型向量以及各原型向量的索引值生成原型向量查找表。在所有参数组均完成学习后,在网络模型参数文件中存储上述原型向量查找表以及编码后的索引值和缩放因子,其中编码后的索引值和缩放因子作为编码后的神经网络权重参数。
示意性的,一参数组的所对应的原型向量查找表如图2所示,图中左侧部分的数字,代表各原型向量的索引值,右侧部分的图形代表各原型向量。对应的该参数组中的参数进行编码后的效果示意如图3所示,图3中,表示该参数组,分成了10(C=10)个子向量,其对应的原型向量组即图2中的8(N=8)个原型向量,下半部分的数值为对应的编码值,编码值包括索引值Ki和缩放因子Si。以第一个子向量为例,该子向量可以用某个原型向量和某个缩放因子表示,该原型向量编码值为“010”,该缩放因子编码值为“11”。
上述实施例所述的神经网络权重参数的编码方法可适用于一编码器内进行执行,因此在上述方法项实施例的基础上本发明对应提供了一编码器,所述编码器,用于获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组;将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。
在一个优选的实施例中,编码器将参数组内的参数划分为若干子向量,并将各子向量进行学习聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子,具体包括:
根据参数组内的参数生成一维向量;初始化子向量的数目,根据子向量的数目将一维向量划分为若干子向量;初始化若干初始原型向量、每一初始原型向量的索引值以及每一子向量的初始缩放因子,根据各初始原型向量、各初始原型向量的索引值以及各初始缩放因子构建子向量的初始拟合模型;迭代调整子向量的数目初始值、各初始原型向量、各索引值以及各初始缩放因子,以对初始拟合模型进行迭代训练,直至预设损失函数的函数值最小,生成参数组中每一子向量所对应的原型向量、每一原型向量的索引值以及每一子向量所对应的缩放因子。
在一个优选的实施例中,编码器对若干原始神经网络权重参数进行分组,具体包括:根据各原始神经网络权重参数所属的卷积核,将同一卷积核的原始神经网络权重参数分为一组。
在一个优选的实施例中,所述编码器,还用于根据各原型向量以及各原型向量的索引值生成原型向量查找表。
在上述方法项实施例的基础上,本发明对应提供了一种神经网络处理器,所述解码器,用于获取由上述神经网络权重参数的编码方法进行编码后的各编码值,根据各编码值确定各编码值所对应的原型向量的索引值以及缩放因子;根据各编码值的索引值以及原型向量查找表,提取各编码值所对应的原型向量,并根据各编码值所对应的缩放因子对所提取的原型向量进行缩放,获得各解码后的子向量。
具体的,如图4所示,原始神经网络权重参数进行上述方法进行编码后生成编码后的神经网络权重参数以及原型向量查找表,然后编码后的神经网络权重参数以及原型向量查找表存入存储器中,将这一过程通过编码器离线完成。
网络在线推理过程中,神经网络处理器中的解码器从存储器中读取部分或全部编码后的神经网络权重参数和对应的原型向量查找表,根据索引值序列查找各原型向量,基于缩放因子参数对原型向量值进行缩放,获得各解码后的子向量,即得到恢复后的神经网络权重参数,然后神经网络处理器再根据恢复后的神经网络权重参数进行神经网络计算。
影响带宽的权重参数数据量由编码前原始神经网络权重参数,变为编码后神经网络权重参数和原型查找表,对应的参数压缩的效率计算如下:
原始神经网络权重参数数据量:
Q1=L*8(bit);
编码后神经网络权重参数数据量:
Figure BDA0003594914270000101
原型向量查找表数据量:
Figure BDA0003594914270000102
参数压缩率:
Figure BDA0003594914270000103
针对具体应用场景调整超参数,经过训练,可以在压缩率和精度之间取得平衡。
通过实施本发明的实施例,能够降低原始神经网络权重参数的数据量,从而使得后续神经网络处理器在进行神经网络计算时,能够显著减少神经网络处理器访问存储器的数据量,从而缓解带宽压力提高系统整体性能,缓解所存在的“内存墙”问题。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (9)

1.一种神经网络权重参数的编码方法,其特征在于,包括:
获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组;
将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;
将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。
2.如权利要求1所述的神经网络权重参数的编码方法,其特征在于,所述将参数组内的参数划分为若干子向量,并将各子向量进行学习聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子,具体包括:
根据参数组内的参数生成一维向量;
初始化子向量的数目,根据子向量的数目将一维向量划分为若干子向量;
初始化若干初始原型向量、每一初始原型向量的索引值以及每一子向量的初始缩放因子,根据各初始原型向量、各初始原型向量的索引值以及各初始缩放因子构建子向量的初始拟合模型;
迭代调整子向量的数目、各初始原型向量、各索引值以及各初始缩放因子,以对初始拟合模型进行迭代训练,直至预设损失函数的函数值最小,生成参数组中每一子向量所对应的原型向量、每一原型向量的索引值以及每一子向量所对应的缩放因子。
3.如权利要求1所述的神经网络权重参数的编码方法,其特征在于,所述对若干原始神经网络权重参数进行分组,具体包括:
根据各原始神经网络权重参数所属的卷积核,将同一卷积核的原始神经网络权重参数分为一组。
4.如权利要求1-3任意一项所述的神经网络权重参数的编码方法,其特征在于,还包括:根据各原型向量以及各原型向量的索引值生成原型向量查找表。
5.一种编码器,其特征在于,所述编码器,用于获取若干原始神经网络权重参数,并对各原始神经网络权重参数进行分组,获得若干参数组;
将参数组内的参数划分为若干子向量,并将各子向量进行聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子;
将子向量所对应的原型向量的索引值以及缩放因子作为子向量的编码值,对各参数组内的子向量进行编码。
6.如权利要求5所述的编码器,其特征在于,编码器将参数组内的参数划分为若干子向量,并将各子向量进行学习聚类,生成每一类子向量所对应原型向量、每一原型向量的索引值以及每一类子向量中各子向量所对应的缩放因子,具体包括:
根据参数组内的参数生成一维向量;
初始化子向量的数目,根据子向量的数目将一维向量划分为若干子向量;
初始化若干初始原型向量、每一初始原型向量的索引值以及每一子向量的初始缩放因子,根据各初始原型向量、各初始原型向量的索引值以及各初始缩放因子构建子向量的初始拟合模型;
迭代调整子向量的数目初始值、各初始原型向量、各索引值以及各初始缩放因子,以对初始拟合模型进行迭代训练,直至预设损失函数的函数值最小,生成参数组中每一子向量所对应的原型向量、每一原型向量的索引值以及每一子向量所对应的缩放因子。
7.如权利要求5所述的编码器,其特征在于,编码器对若干原始神经网络权重参数进行分组,具体包括:
根据各原始神经网络权重参数所属的卷积核,将同一卷积核的原始神经网络权重参数分为一组。
8.如权利要求5-7任意一项所述的编码器,其特征在于,所述编码器,还用于根据各原型向量以及各原型向量的索引值生成原型向量查找表。
9.一种神经网络处理器,其特征在于,包括解码器;所述解码器,用于获取由权利要求4所述的神经网络权重参数的编码方法进行编码后的各编码值;
根据各编码值确定各编码值所对应的原型向量的索引值以及缩放因子;
根据各编码值的索引值以及原型向量查找表,提取各编码值所对应的原型向量,并根据各编码值所对应的缩放因子对所提取的原型向量进行缩放,获得各解码后的子向量。
CN202210385708.8A 2022-04-13 2022-04-13 神经网络权重参数的编码方法、编码器及神经网络处理器 Active CN114781604B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210385708.8A CN114781604B (zh) 2022-04-13 2022-04-13 神经网络权重参数的编码方法、编码器及神经网络处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210385708.8A CN114781604B (zh) 2022-04-13 2022-04-13 神经网络权重参数的编码方法、编码器及神经网络处理器

Publications (2)

Publication Number Publication Date
CN114781604A true CN114781604A (zh) 2022-07-22
CN114781604B CN114781604B (zh) 2024-02-20

Family

ID=82429865

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210385708.8A Active CN114781604B (zh) 2022-04-13 2022-04-13 神经网络权重参数的编码方法、编码器及神经网络处理器

Country Status (1)

Country Link
CN (1) CN114781604B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017031630A1 (zh) * 2015-08-21 2017-03-02 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
US20180107926A1 (en) * 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization
WO2019155064A1 (en) * 2018-02-09 2019-08-15 Deepmind Technologies Limited Data compression using jointly trained encoder, decoder, and prior neural networks
CN111105035A (zh) * 2019-12-24 2020-05-05 西安电子科技大学 基于稀疏学习与遗传算法相结合的神经网络剪枝方法
EP3716158A2 (en) * 2019-03-25 2020-09-30 Nokia Technologies Oy Compressing weight updates for decoder-side neural networks
CN112381205A (zh) * 2020-09-29 2021-02-19 北京清微智能科技有限公司 一种神经网络低比特量化方法
US20210073643A1 (en) * 2019-09-05 2021-03-11 Vahid PARTOVI NIA Neural network pruning
KR20210131894A (ko) * 2020-04-24 2021-11-03 (주)인시그널 훈련된 심층 신경망의 압축 장치 및 방법
CN113610227A (zh) * 2021-07-23 2021-11-05 人工智能与数字经济广东省实验室(广州) 一种高效的深度卷积神经网络剪枝方法
CN113657415A (zh) * 2021-10-21 2021-11-16 西安交通大学城市学院 一种面向示意图的对象检测方法
CN113748605A (zh) * 2019-03-18 2021-12-03 弗劳恩霍夫应用研究促进协会 用于压缩神经网络的参数的方法和装置
CN114118347A (zh) * 2020-08-28 2022-03-01 辉达公司 用于神经网络量化的细粒度每向量缩放
CN114175056A (zh) * 2019-07-02 2022-03-11 Vid拓展公司 用于神经网络压缩的基于聚类的量化
CN114341882A (zh) * 2019-09-03 2022-04-12 微软技术许可有限责任公司 用于训练深度神经网络的无损指数和有损尾数权重压缩

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017031630A1 (zh) * 2015-08-21 2017-03-02 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
US20180107926A1 (en) * 2016-10-19 2018-04-19 Samsung Electronics Co., Ltd. Method and apparatus for neural network quantization
WO2019155064A1 (en) * 2018-02-09 2019-08-15 Deepmind Technologies Limited Data compression using jointly trained encoder, decoder, and prior neural networks
CN113748605A (zh) * 2019-03-18 2021-12-03 弗劳恩霍夫应用研究促进协会 用于压缩神经网络的参数的方法和装置
EP3716158A2 (en) * 2019-03-25 2020-09-30 Nokia Technologies Oy Compressing weight updates for decoder-side neural networks
CN114175056A (zh) * 2019-07-02 2022-03-11 Vid拓展公司 用于神经网络压缩的基于聚类的量化
CN114341882A (zh) * 2019-09-03 2022-04-12 微软技术许可有限责任公司 用于训练深度神经网络的无损指数和有损尾数权重压缩
US20210073643A1 (en) * 2019-09-05 2021-03-11 Vahid PARTOVI NIA Neural network pruning
CN111105035A (zh) * 2019-12-24 2020-05-05 西安电子科技大学 基于稀疏学习与遗传算法相结合的神经网络剪枝方法
KR20210131894A (ko) * 2020-04-24 2021-11-03 (주)인시그널 훈련된 심층 신경망의 압축 장치 및 방법
CN114118347A (zh) * 2020-08-28 2022-03-01 辉达公司 用于神经网络量化的细粒度每向量缩放
CN112381205A (zh) * 2020-09-29 2021-02-19 北京清微智能科技有限公司 一种神经网络低比特量化方法
CN113610227A (zh) * 2021-07-23 2021-11-05 人工智能与数字经济广东省实验室(广州) 一种高效的深度卷积神经网络剪枝方法
CN113657415A (zh) * 2021-10-21 2021-11-16 西安交通大学城市学院 一种面向示意图的对象检测方法

Also Published As

Publication number Publication date
CN114781604B (zh) 2024-02-20

Similar Documents

Publication Publication Date Title
US11403528B2 (en) Self-tuning incremental model compression solution in deep neural network with guaranteed accuracy performance
CN109635935B (zh) 基于模长聚类的深度卷积神经网络模型自适应量化方法
CN109859281B (zh) 一种稀疏神经网络的压缩编码方法
CN112732864B (zh) 一种基于稠密伪查询向量表示的文档检索方法
Lee et al. Adaptive vector quantization using a self-development neural network
CN111078911A (zh) 一种基于自编码器的无监督哈希方法
KR20220007853A (ko) 신경망의 매개변수를 압축하기 위한 방법 및 장치
CN116743182B (zh) 一种数据无损压缩方法
CN114254108B (zh) 一种中文文本对抗样本生成的方法、系统及介质
CN116578699A (zh) 基于Transformer的序列分类预测方法和系统
Vereshchagin et al. Kolmogorov's structure functions with an application to the foundations of model selection
Liu et al. Online optimized product quantization
CN113467949B (zh) 边缘计算环境下用于分布式dnn训练的梯度压缩方法
Isik et al. Successive pruning for model compression via rate distortion theory
CN114781604B (zh) 神经网络权重参数的编码方法、编码器及神经网络处理器
Sitaram et al. Efficient codebooks for vector quantization image compression with an adaptive tree search algorithm
CN111243578A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN114925658B (zh) 开放性文本生成方法以及存储介质
CN113761834A (zh) 自然语言处理模型的获取词向量的方法、装置和存储介质
CN112464014B (zh) 一种基于图卷积的无监督哈希工业布匹纹理图片检索方法
Kim et al. Towards Accurate Low Bit DNNs with Filter-wise Quantization
Song et al. SqueezeBlock: A Transparent Weight Compression Scheme for Deep Neural Networks
Huang High-Quality Codebook Generation of Vector Quantization Using the HT-ABC-LBG Algorithm.
CN115761020B (zh) 一种基于神经网络自动构建的影像数据压缩方法
Athar An Overview of Datatype Quantization Techniques for Convolutional Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant