CN106485316A - 神经网络模型压缩方法以及装置 - Google Patents

神经网络模型压缩方法以及装置 Download PDF

Info

Publication number
CN106485316A
CN106485316A CN201610943049.XA CN201610943049A CN106485316A CN 106485316 A CN106485316 A CN 106485316A CN 201610943049 A CN201610943049 A CN 201610943049A CN 106485316 A CN106485316 A CN 106485316A
Authority
CN
China
Prior art keywords
quantization
value
parameter
model
parameters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610943049.XA
Other languages
English (en)
Other versions
CN106485316B (zh
Inventor
朱志凡
冯仕堃
周坤胜
石磊
何径舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201610943049.XA priority Critical patent/CN106485316B/zh
Publication of CN106485316A publication Critical patent/CN106485316A/zh
Application granted granted Critical
Publication of CN106485316B publication Critical patent/CN106485316B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • H03M1/34Analogue value compared with reference values
    • H03M1/38Analogue value compared with reference values sequentially only, e.g. successive approximation type
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • H03M1/50Analogue/digital converters with intermediate conversion to time interval
    • H03M1/54Input signal sampled and held with linear return to datum

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种神经网络模型压缩方法以及装置。其中方法包括:针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数;对多个模型参数进行第一变换以生成多个中间参数;根据预设的量化步长对多个中间参数进行量化,得到多个量化参数;根据预设的量化位数,从多个量化参数中选取多个采样量化点;根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值;根据量化值对多个模型参数进行压缩存储。该方法可以更好地保持模型效果,大大减少了神经网络模型的大小,减少了计算资源,特别是减少了内存资源的占用。

Description

神经网络模型压缩方法以及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种神经网络模型压缩方法以及装置。
背景技术
目前,深度神经网络随着训练数据的增加,为了更好学习训练数据的特征以提升效果,相应用于表示模型的参数迅速增长,于是计算资源的消耗也迅速增长,而这样会制约了深度神经网络的应用场景,如手机等计算资源有限的设备。
相关技术中,通常是通过对神经网络模型进行量化压缩的方式,来减少模型的大小。目前,神经网络模型压缩方法通常有以下两种:1)基于半精度的压缩方法,其原理是将神经网络模型中利用32bit(位)表示的浮点数,压缩到用16bit表示;2)基于随机采样的量化方法,即通过在神经网络模型中采样寻找量化点,再通过寻找到的量化点进行量化压缩;3)基于线性的量化方法,即对神经网络模型的参数的值域进行平均分割,来寻找量化点,再通过量化点进行量化压缩。
但是,目前存在的问题是:上述基于半精度的压缩方法仅是对浮点数压缩到16bit,使得压缩的大小有限;上述基于随机采样的量化方法,由于采样带有随机性,使得随机采样的采样点会落波峰附近,而重要的、数值大的元素采样可能不足;上述基于线性的量化方法中,线性量化将大权值和小权值平均对待,没有在数据分布密集的地方更多地采样,导致模型数据损失较大,压缩效果差。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种神经网络模型压缩方法。该方法可以更好地保持模型效果,大大减少了神经网络模型的大小,减少了计算资源,特别是减少了内存资源的占用。
本发明的第二个目的在于提出一种神经网络模型压缩装置。
本发明的第三个目的在于提出一种非临时性计算机可读存储介质。
本发明的第四个目的在于提出一种计算机程序产品。
为达到上述目的,本发明第一方面实施例提出的神经网络模型压缩方法,包括:针对神经网络模型中的每一个神经元层,确定所述每个神经元层的模型参数集合,其中,所述模型参数集合包含多个模型参数;对所述多个模型参数进行第一变换以生成多个中间参数;根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数;根据预设的量化位数,从所述多个量化参数中选取多个采样量化点;根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值;根据所述量化值对所述多个模型参数进行压缩存储。
本发明实施例的神经网络模型压缩方法,针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数,之后,对多个模型参数进行第一变换以生成多个中间参数,并根据预设的量化步长对多个中间参数进行量化,得到多个量化参数,然后,根据预设的量化位数,从多个量化参数中选取多个采样量化点,之后,根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值,最后,根据量化值对多个模型参数进行压缩存储。即根据需要压缩的数据调节量化步长,并根据预设的量化位数,从排列在多个量化参数的靠前位置开始采取采样量化点,可以更加充分的对压缩数据进行采样,更好地保留重要的权值信息,更好地保持模型效果,大大减少了神经网络模型的大小,减少了计算资源,特别是减少了内存资源的占用。
为达到上述目的,本发明第二方面实施例提出的神经网络模型压缩装置,包括:确定模块,用于针对神经网络模型中的每一个神经元层,确定所述每个神经元层的模型参数集合,其中,所述模型参数集合包含多个模型参数;第一变换模块,用于对所述多个模型参数进行第一变换以生成多个中间参数;量化模块,用于根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数;采样模块,用于根据预设的量化位数,从所述多个量化参数中选取多个采样量化点;生成模块,用于根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值;压缩模块,用于根据所述量化值对所述多个模型参数进行压缩存储。
本发明实施例的神经网络模型压缩装置,可通过确定模块针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数,第一变换模块对多个模型参数进行第一变换以生成多个中间参数,量化模块根据预设的量化步长对多个中间参数进行量化,得到多个量化参数,采样模块根据预设的量化位数,从多个量化参数中选取多个采样量化点,生成模块根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值,压缩模块根据量化值对多个模型参数进行压缩存储。即根据需要压缩的数据调节量化步长,并根据预设的量化位数,从排列在多个量化参数的靠前位置开始采取采样量化点,可以更加充分的对压缩数据进行采样,更好地保留重要的权值信息,更好地保持模型效果,大大减少了神经网络模型的大小,减少了计算资源,特别是减少了内存资源的占用。
为达到上述目的,本发明第三方面实施例提出的非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器被执行时,使得电子设备能够执行一种神经网络模型压缩方法,所述方法包括:针对神经网络模型中的每一个神经元层,确定所述每个神经元层的模型参数集合,其中,所述模型参数集合包含多个模型参数;对所述多个模型参数进行第一变换以生成多个中间参数;根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数;根据预设的量化位数,从所述多个量化参数中选取多个采样量化点;根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值;根据所述量化值对所述多个模型参数进行压缩存储。
为达到上述目的,本发明第四方面实施例提出的计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种神经网络模型压缩方法,所述方法包括:针对神经网络模型中的每一个神经元层,确定所述每个神经元层的模型参数集合,其中,所述模型参数集合包含多个模型参数;对所述多个模型参数进行第一变换以生成多个中间参数;根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数;根据预设的量化位数,从所述多个量化参数中选取多个采样量化点;根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值;根据所述量化值对所述多个模型参数进行压缩存储。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的神经网络模型压缩方法的流程图;
图2是根据本发明一个实施例的神经网络模型压缩方法的流程图;
图3是根据本发明一个实施例的神经网络模型压缩装置的结构示意图;
图4是根据本发明一个具体实施例的神经网络模型压缩装置的结构示意图;
图5是根据本发明另一个具体实施例的神经网络模型压缩装置的结构示意图;
图6是根据本发明又一个具体实施例的神经网络模型压缩装置的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的神经网络模型压缩方法以及装置。
图1是根据本发明一个实施例的神经网络模型压缩方法的流程图。需要说明的是,本发明实施例的神经网络模型压缩方法可应用于本发明实施例的神经网络模型压缩装置中。
还需要说明的是,本发明实施例的神经网络模型压缩方法是针对已经训练收敛的神经网络模型的参数进行压缩。
如图1所示,该神经网络模型压缩方法可以包括:
S110,针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数。
需要说明的是,由于对于神经网络的每个layer(神经元层)的压缩方法是一样的,所以本发明实施例的神经网络模型压缩方法仅是示出了对神经网络模型中的一个layer(神经元层)进行了描述,可以理解,神经网络模型的其他神经元层也可通过该神经网络模型压缩方法来实现量化压缩的目的。其中,上述神经元层可以是神经网络中的输入层、输出层和隐含层中的任意一个,也可以是神经网络中隐含层的任一个神经元层,在此不做具体限定。
具体地,对于神经网络模型中的每一个神经元层,可找出该神经元层中的所有模型参数,并将这些模型参数用集合方式进行表示,得到该神经元层的模型参数集合。
S120,对多个模型参数进行第一变换以生成多个中间参数。
为了实现对神经网络模型中的参数进行量化压缩的目的,本发明可先对模型参数进行第一变换,以使模型参数变换成浮点数。可以理解,将模型参数变换成浮点数的方式有很多种,例如,该第一变换可以是LOG对数变换、正弦函数正切函数等。优选地,在本发明的实施例中,该第一变换为LOG对数变换。
为了能够在后续实际应用中,能够对压缩的数据进行解压以实现正常使用的目的,在后续还需对压缩后的参数值进行第二变换,使其变换为原数据类型,即可以理解,即第一变换和第二变换可以是任一种函数,只需第二变换与第一变换互为正反函数。优选地,该第一变换为LOG变换,第二变换为指数变换。
例如,以第一变换为LOG变换为例,假设模型参数集合为M,xi是M中的元素,即xi是模型参数集合中的第i个模型参数,可分别对模型参数集合M中的每个模型参数进行LOG变换,得到LOG参数集合L,该LOG参数集合L中的元素即为上述的中间参数。其中,可通过以下公式(1)实现对模型参数集合M中的元素xi进行LOG变换:
yi=log(|xi|) (1)
其中,yi为中间参数,yi∈L。
S130,根据预设的量化步长对多个中间参数进行量化,得到多个量化参数。
具体地,可通过预设的量化公式,分别将每个中间参数量化到间隔为该预设的量化步长的数轴上并取整,得到该中间参数对应的量化参数的值。其中,上述预设的量化步长可以是根据实际需求决定的,也可以是根据实际试验而得到的经验值,例如,该预设的量化步长可为0.125。
其中,在本发明的实施例中,上述预设的量化公式可为:
其中,qi为第i个量化参数的值,第i个量化参数是由第i个中间参数进行量化后得到的,yi为第i个中间参数,第i个中间参数是由第i个模型参数进行第一变换后得到的,l为预设的量化步长,round()为取整函数。
S140,根据预设的量化位数,从多个量化参数中选取多个采样量化点。
具体地,可根据多个量化参数的值,对多个量化参数进行降序排列,并根据预设的量化位数确定目标个数,之后,从降序排列后的多个量化参数中,选取排列在前目标个数的量化参数,最后,将排列在前目标个数的量化参数作为多个采样量化点。作为一种示例,上述目标个数可为2b-1,其中,b为预设的量化位数。其中,上述预设的量化位数可以是根据实际需求决定的,也可以是根据实际试验而得到的经验值,例如,该预设的量化位数可为8。
也就是说,可对多个量化参数的值进行从大到小排序,并从排序后的多个量化参数的值中,选取排列靠前目标个数(如Top 2b-1)的值,将这些排列靠前Top 2b-1的值所对应的量化参数作为采样量化点。
S150,根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值。
具体而言,在本发明的一个实施例中,可针对第i个量化参数,分别计算第i个量化参数的值与每个采样量化点之间的差值的平方值,之后,从多个平方值中选取最小值,并确定多个平方值中最小值所对应的采样量化点的标识值,当第i模型参数的值为正数时,将标识值作为第i模型参数的量化值;当第i模型参数的值为负数时,计算标识值与目标个数之间的和值,并将和值作为第i模型参数的量化值。
举例而言,遍历模型参数集合M的元素xi,通过上述得到的该元素xi所对应的量化参数的值,查找多个采样量化点,使得满足以下公式(3):
id=argjminj(qi-log_dict[j])2 (3)
其中,qi为元素xi所对应的量化参数的值,log_dict[j]为第j采样量化点的值,id为上述标识值。
在获得该标识值之后,需判断该元素xi是正数还是负数,当该元素xi为正数时,该标识值即为第i模型参数的量化值;当该元素xi为负数时,可计算该标识值与目标个数之间的和值,如id=id=2b-1,并将该和值作为第i模型参数的量化值。
可以看出,本发明通过将原神经网络模型的模型参数用量化点的值(实际上是量化点的id)来代替,最终,这里的id是一个0~2b-1的数,只需用b个bit(位)保存即可,达到了压缩的目的。
S160,根据量化值对多个模型参数进行压缩存储。
也就是说,在得到每个模型参数的量化值之后,可根据每个模型参数的量化值,对每个模型参数进行压缩存储,以达到压缩的目的。
综上,本发明实施例的神经网络模型压缩方法,关键在于量化点的选取,首先是通过第一变换(如LOG变换)将模型参数变换到LOG域,再对该LOG域上的数值选取采样量化点,然后,将原神经网络模型的模型参数用采样量化点的值(即采样量化点的id)来代替,最终得到模型参数的取值只在采样量化点集合之内的量化模型,最后,再经过压缩存储达到压缩的目的。
本发明实施例的神经网络模型压缩方法,针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数,之后,对多个模型参数进行第一变换以生成多个中间参数,并根据预设的量化步长对多个中间参数进行量化,得到多个量化参数,然后,根据预设的量化位数,从多个量化参数中选取多个采样量化点,之后,根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值,最后,根据量化值对多个模型参数进行压缩存储。即根据需要压缩的数据调节量化步长,并根据预设的量化位数,从排列在多个量化参数的靠前位置开始采取采样量化点,可以更加充分的对压缩数据进行采样,更好地保留重要的权值信息,更好地保持模型效果,大大减少了神经网络模型的大小,减少了计算资源,特别是减少了内存资源的占用。
图2是根据本发明另一个实施例的神经网络模型压缩方法的流程图。
为了提高本发明的可用性以及可行性,在本发明的实施例中,在对模型参数进行压缩的过程中,还可根据预设的变换模型对多个采样量化点的值进行第二变换,并将经过第二变换后的多个采样量化点的值进行组合以形成量化字典,使得在需要使用模型参数时,可通过查找该量化字典即可得出该模型参数的原始值。具体地,如图2所示,该神经网络模型压缩方法可以包括:
S210,针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数。
S220,对多个模型参数进行第一变换以生成多个中间参数。
S230,根据预设的量化步长对多个中间参数进行量化,得到多个量化参数。
S240,根据预设的量化位数,从多个量化参数中选取多个采样量化点。
具体地,可根据多个量化参数的值,对多个量化参数进行降序排列,并根据预设的量化位数确定目标个数,之后,从降序排列后的多个量化参数中,选取排列在前目标个数的量化参数,最后,将排列在前目标个数的量化参数作为多个采样量化点。作为一种示例,上述目标个数可为2b-1,其中,b为预设的量化位数。
S250,根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值。
具体而言,在本发明的一个实施例中,可针对第i个量化参数,分别计算第i个量化参数的值与每个采样量化点之间的差值的平方值,之后,从多个平方值中选取最小值,并确定多个平方值中最小值所对应的采样量化点的标识值,当第i模型参数的值为正数时,将标识值作为第i模型参数的量化值;当第i模型参数的值为负数时,计算标识值与目标个数之间的和值,并将和值作为第i模型参数的量化值。
S260,根据量化值对多个模型参数进行压缩存储。
S270,对多个采样量化点的值进行第二变换以生成量化字典,并存储量化字典。
作为一种示例,,该第二变换可为指数变换。
具体而言,在本发明的一个实施例中,可根据预设的变换模型对多个采样量化点的值进行第二变换,并将经过第二变换后的多个采样量化点的值进行组合以形成量化字典。其中,在本发明的实施例中,该预设的变换模型可为:
其中,quant_dict[i]为量化字典中第i的元素,b为预设的量化位数,2b-1为目标个数,exp()为指数变换,log_dict[i]为多个采样量化点中第i元素的值。
举例而言,以2b-1个采样量化点为例,可对每个采样量化点的值进行指数变换,并将指数变换结果加上正负号,得到2b个量化权值组成的量化字典quant_dict,使得量化字典中的每个元素满足以上式(4)。
可选地,上述步骤S270可以是在上述步骤S240之后被执行,也可以是在步骤S260被执行时,执行该步骤S270,即可在根据量化值对多个模型参数进行压缩存储时,可也对多个采样量化点的值进行第二变换以生成量化字典,并存储该量化字典,具体执行顺序不做具体限制,只要能够被本发明的实施例所属技术领域的技术人员所理解,实现神经网络模型压缩的目的即可。
S280,当检测需要使用多个模型参数时,根据多个模型参数的量化值和存储的量化字典获取多个模型参数的原始值。
具体地,可根据量化值对多个模型参数进行压缩存储,并可将量化字典进行存储,这样,在监测到需要使用神经网络模型中的模型参数时,可根据该模型参数的量化值查找已存储的量化字典,即可得到该模型参数的原始值。
可以理解,压缩存储的思想就是只存储有限(如2b)个采样量化点的量化权值组成的量化字典,然后,神经网络模型的模型参数使用采样量化点的id来表示,在检测到需要使用神经网络模型中的模型参数时,通过查找该量化字典即可得到该模型参数的原始值。其中,量化字典的大小可以忽略,例如,当量化字典大小为256时,量化后的神经网络模型保存模型参数的量化值id只需要用8bit表示即可,而原来的单精度浮点数却需要32bit,这样可以达到压缩的目的。
本发明实施例的神经网络模型压缩方法,在对模型参数进行压缩的过程中,还可根据预设的变换模型对多个采样量化点的值进行第二变换,并将经过第二变换后的多个采样量化点的值进行组合以形成量化字典,使得在需要使用模型参数时,可通过查找该量化字典即可得出该模型参数的原始值,提高了本发明的可用性以及可行性。
与上述几种实施例提供的神经网络模型压缩方法相对应,本发明的一种实施例还提供一种神经网络模型压缩装置,由于本发明实施例提供的神经网络模型压缩装置与上述几种实施例提供的神经网络模型压缩方法相对应,因此在前述神经网络模型压缩方法的实施方式也适用于本实施例提供的神经网络模型压缩装置,在本实施例中不再详细描述。图3是根据本发明一个实施例的神经网络模型压缩装置的结构示意图。如图3所示,该神经网络模型压缩装置可以包括:确定模块310、第一变换模块320、量化模块330、采样模块340、生成模块350和压缩模块360。
具体地,确定模块310可用于针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数。
第一变换模块320可用于对多个模型参数进行第一变换以生成多个中间参数。
量化模块330可用于根据预设的量化步长对多个中间参数进行量化,得到多个量化参数。具体而言,在本发明的一个实施例中,该量化模块330根据预设的量化步长对多个中间参数进行量化,得到多个量化参数的具体实现过程可如下:针对每个中间参数,将每个中间参数量化至间隔为预设的量化步长的数轴上并取整,得到每个中间参数对应的量化参数。
采样模块340可用于根据预设的量化位数,从多个量化参数中选取多个采样量化点。作为一种示例,如图4所示,该采样模块340可包括:排练单元341、确定单元342、选取单元343和获取单元344。其中,排练单元341用于根据多个量化参数的值,对多个量化参数进行降序排列。确定单元342用于根据预设的量化位数确定目标个数。选取单元343用于从降序排列后的多个量化参数中,选取排列在前目标个数的量化参数。获取单元344用于将排列在前目标个数的量化参数作为多个采样量化点。
生成模块350可用于根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值。作为一种示例,如图5所示,该生成模块350可以包括:计算单元351、确定单元352和生成单元353。
其中,计算单元351可用于针对第i个量化参数,分别计算第i个量化参数的值与每个采样量化点之间的差值的平方值。确定单元352可用于从多个平方值中选取最小值,并确定多个平方值中最小值所对应的采样量化点的标识值。生成单元353可用于在第i模型参数的值为正数时,将标识值作为第i模型参数的量化值,并在第i模型参数的值为负数时,计算标识值与目标个数之间的和值,并将和值作为第i模型参数的量化值。
压缩模块360可用于根据量化值对多个模型参数进行压缩存储。
为了提高本发明的可用性以及可行性,进一步地,在本发明的一个实施例中,如图6所示,该神经网络模型压缩装置还可包括:第二变换模块370、存储模块380和解压模块390。其中,第二变换模块370可用于对多个采样量化点的值进行第二变换以生成量化字典。存储模块380可用于存储量化字典。解压模块390可用于在检测需要使用多个模型参数时,根据多个模型参数的量化值和存储的量化字典获取多个模型参数的原始值。其中,在本发明的实施例中,第一变换为对数LOG变换,第二变换为指数变换。
作为一种示例,第二变换模块370对多个采样量化点的值进行第二变换以生成量化字典的具体实现过程可如下:根据预设的变换模型对多个采样量化点的值进行第二变换,并将经过第二变换后的多个采样量化点的值进行组合以形成量化字典。其中,在本发明的实施例中,预设的变换模型为:
quant_dict[i]=-1*quant_dict[i+2b-1]
quant_dict[i]=exp(log_dict[i])
其中,quant_dict[i]为量化字典中第i的元素,b为预设的量化位数,2b-1为目标个数,exp()为指数变换,log_dict[i]为多个采样量化点中第i元素的值。
本发明实施例的神经网络模型压缩装置,可通过确定模块针对神经网络模型中的每一个神经元层,确定每个神经元层的模型参数集合,其中,模型参数集合包含多个模型参数,第一变换模块对多个模型参数进行第一变换以生成多个中间参数,量化模块根据预设的量化步长对多个中间参数进行量化,得到多个量化参数,采样模块根据预设的量化位数,从多个量化参数中选取多个采样量化点,生成模块根据多个量化参数的值和多个采样量化点,生成多个模型参数的量化值,压缩模块根据量化值对多个模型参数进行压缩存储。即根据需要压缩的数据调节量化步长,并根据预设的量化位数,从排列在多个量化参数的靠前位置开始采取采样量化点,可以更加充分的对压缩数据进行采样,更好地保留重要的权值信息,更好地保持模型效果,大大减少了神经网络模型的大小,减少了计算资源,特别是减少了内存资源的占用。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种神经网络模型压缩方法,其特征在于,包括以下步骤:
针对神经网络模型中的每一个神经元层,确定所述每个神经元层的模型参数集合,其中,所述模型参数集合包含多个模型参数;
对所述多个模型参数进行第一变换以生成多个中间参数;
根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数;
根据预设的量化位数,从所述多个量化参数中选取多个采样量化点;
根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值;
根据所述量化值对所述多个模型参数进行压缩存储。
2.如权利要求1所述的方法,其特征在于,所述根据预设的量化位数,从所述多个量化参数中选取多个采样量化点,包括:
根据所述多个量化参数的值,对所述多个量化参数进行降序排列;
根据所述预设的量化位数确定目标个数;
从所述降序排列后的多个量化参数中,选取排列在前所述目标个数的量化参数;
将所述排列在前所述目标个数的量化参数作为所述多个采样量化点。
3.如权利要求1所述的方法,其特征在于,所述根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数,包括:
针对每个中间参数,将所述每个中间参数量化至间隔为所述预设的量化步长的数轴上并取整,得到所述每个中间参数对应的量化参数。
4.如权利要求2所述的方法,其特征在于,所述根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值,包括:
针对第i个量化参数,分别计算所述第i个量化参数的值与每个采样量化点之间的差值的平方值;
从多个所述平方值中选取最小值,并确定所述多个所述平方值中最小值所对应的采样量化点的标识值;
当所述第i模型参数的值为正数时,将所述标识值作为所述第i模型参数的量化值;
当所述第i模型参数的值为负数时,计算所述标识值与所述目标个数之间的和值,并将所述和值作为所述第i模型参数的量化值。
5.如权利要求1所述的方法,其特征在于,还包括:
对所述多个采样量化点的值进行第二变换以生成量化字典,并存储所述量化字典;
当检测需要使用所述多个模型参数时,根据所述多个模型参数的量化值和所述存储的量化字典获取所述多个模型参数的原始值。
6.如权利要求5所述的方法,其特征在于,其中,所述第一变换为对数LOG变换;所述第二变换为指数变换。
7.如权利要求6所述的方法,其特征在于,所述对所述多个采样量化点的值进行第二变换以生成量化字典,包括:
根据预设的变换模型对所述多个采样量化点的值进行第二变换,并将经过所述第二变换后的多个采样量化点的值进行组合以形成所述量化字典。
8.一种神经网络模型压缩装置,其特征在于,包括:
确定模块,用于针对神经网络模型中的每一个神经元层,确定所述每个神经元层的模型参数集合,其中,所述模型参数集合包含多个模型参数;
第一变换模块,用于对所述多个模型参数进行第一变换以生成多个中间参数;
量化模块,用于根据预设的量化步长对所述多个中间参数进行量化,得到多个量化参数;
采样模块,用于根据预设的量化位数,从所述多个量化参数中选取多个采样量化点;
生成模块,用于根据所述多个量化参数的值和所述多个采样量化点,生成所述多个模型参数的量化值;
压缩模块,用于根据所述量化值对所述多个模型参数进行压缩存储。
9.如权利要求8所述的装置,其特征在于,所述采样模块包括:
排练单元,用于根据所述多个量化参数的值,对所述多个量化参数进行降序排列;
确定单元,用于根据所述预设的量化位数确定目标个数;
选取单元,用于从所述降序排列后的多个量化参数中,选取排列在前所述目标个数的量化参数;
获取单元,用于将所述排列在前所述目标个数的量化参数作为所述多个采样量化点。
10.如权利要求8所述的装置,其特征在于,所述量化模块具体用于:
针对每个中间参数,将所述每个中间参数量化至间隔为所述预设的量化步长的数轴上并取整,得到所述每个中间参数对应的量化参数。
11.如权利要求9所述的装置,其特征在于,所述生成模块包括:
计算单元,用于针对第i个量化参数,分别计算所述第i个量化参数的值与每个采样量化点之间的差值的平方值;
确定单元,用于从多个所述平方值中选取最小值,并确定所述多个所述平方值中最小值所对应的采样量化点的标识值;
生成单元,用于在所述第i模型参数的值为正数时,将所述标识值作为所述第i模型参数的量化值,并在所述第i模型参数的值为负数时,计算所述标识值与所述目标个数之间的和值,并将所述和值作为所述第i模型参数的量化值。
12.如权利要求8所述的装置,其特征在于,还包括:
第二变换模块,用于对所述多个采样量化点的值进行第二变换以生成量化字典;
存储模块,用于存储所述量化字典;
解压模块,用于在检测需要使用所述多个模型参数时,根据所述多个模型参数的量化值和所述存储的量化字典获取所述多个模型参数的原始值。
13.如权利要求12所述的装置,其特征在于,其中,所述第一变换为对数LOG变换;所述第二变换为指数变换。
14.如权利要求13所述的装置,其特征在于,所述第二变换模块具体用于:
根据预设的变换模型对所述多个采样量化点的值进行第二变换,并将经过所述第二变换后的多个采样量化点的值进行组合以形成所述量化字典。
CN201610943049.XA 2016-10-31 2016-10-31 神经网络模型压缩方法以及装置 Active CN106485316B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610943049.XA CN106485316B (zh) 2016-10-31 2016-10-31 神经网络模型压缩方法以及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610943049.XA CN106485316B (zh) 2016-10-31 2016-10-31 神经网络模型压缩方法以及装置

Publications (2)

Publication Number Publication Date
CN106485316A true CN106485316A (zh) 2017-03-08
CN106485316B CN106485316B (zh) 2019-04-02

Family

ID=58271422

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610943049.XA Active CN106485316B (zh) 2016-10-31 2016-10-31 神经网络模型压缩方法以及装置

Country Status (1)

Country Link
CN (1) CN106485316B (zh)

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038546A (zh) * 2017-12-29 2018-05-15 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
CN108053034A (zh) * 2018-01-02 2018-05-18 武汉斗鱼网络科技有限公司 模型参数处理方法、装置、电子设备及存储介质
CN108319971A (zh) * 2018-01-17 2018-07-24 上海爱优威软件开发有限公司 一种基于移动端的Camera智能识别设计方法及系统
CN108665067A (zh) * 2018-05-29 2018-10-16 北京大学 用于深度神经网络频繁传输的压缩方法及系统
CN108932124A (zh) * 2018-06-26 2018-12-04 Oppo广东移动通信有限公司 神经网络模型压缩方法、装置、终端设备及存储介质
CN109102064A (zh) * 2018-06-26 2018-12-28 杭州雄迈集成电路技术有限公司 一种高精度的神经网络量化压缩方法
CN109376854A (zh) * 2018-11-02 2019-02-22 矽魅信息科技(上海)有限公司 用于深度神经网络的多底数对数量化方法及装置
CN109389208A (zh) * 2017-08-09 2019-02-26 上海寒武纪信息科技有限公司 数据的量化装置及量化方法
CN109389209A (zh) * 2017-08-09 2019-02-26 上海寒武纪信息科技有限公司 处理装置及处理方法
WO2019056946A1 (zh) * 2017-09-21 2019-03-28 杭州海康威视数字技术股份有限公司 一种基于深度神经网络的激活量量化方法及装置
CN109583561A (zh) * 2017-09-28 2019-04-05 杭州海康威视数字技术股份有限公司 一种深度神经网络的激活量量化方法及装置
WO2019076095A1 (zh) * 2017-10-20 2019-04-25 上海寒武纪信息科技有限公司 处理方法及装置
CN109697507A (zh) * 2017-10-24 2019-04-30 上海寒武纪信息科技有限公司 处理方法及装置
CN109697508A (zh) * 2017-10-23 2019-04-30 北京深鉴智能科技有限公司 利用非均匀量化和查找表加速神经网络计算的方法和系统
CN109840589A (zh) * 2019-01-25 2019-06-04 深兰人工智能芯片研究院(江苏)有限公司 一种在fpga上运行卷积神经网络的方法、装置及系统
WO2019106619A1 (en) * 2017-11-30 2019-06-06 International Business Machines Corporation Compression of fully connected/recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression
CN109978144A (zh) * 2019-03-29 2019-07-05 联想(北京)有限公司 一种模型压缩方法和系统
CN109993298A (zh) * 2017-12-29 2019-07-09 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
WO2019136755A1 (zh) * 2018-01-15 2019-07-18 深圳鲲云信息科技有限公司 人工智能处理装置设计模型优化方法、系统、存储介质、终端
KR20190104406A (ko) * 2017-10-20 2019-09-09 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 처리방법 및 장치
CN110309904A (zh) * 2019-01-29 2019-10-08 广州红贝科技有限公司 一种神经网络压缩方法
CN110322008A (zh) * 2019-07-10 2019-10-11 杭州嘉楠耘智信息科技有限公司 一种基于残差卷积神经网络的量化处理方法及装置
CN110348562A (zh) * 2019-06-19 2019-10-18 北京迈格威科技有限公司 神经网络的量化策略确定方法、图像识别方法和装置
CN110637460A (zh) * 2017-07-11 2019-12-31 索尼公司 利用深层神经网络的视觉质量保持量化参数预测
KR20200013710A (ko) * 2017-07-07 2020-02-07 미쓰비시덴키 가부시키가이샤 데이터 처리 장치, 데이터 처리 방법 및 기억 매체
CN110799994A (zh) * 2017-08-14 2020-02-14 美的集团股份有限公司 神经网络的自适应位宽缩减
CN110809771A (zh) * 2017-07-06 2020-02-18 谷歌有限责任公司 用于机器学习模型的压缩和分发的系统和方法
CN110837890A (zh) * 2019-10-22 2020-02-25 西安交通大学 一种面向轻量级卷积神经网络的权值数值定点量化方法
CN110889503A (zh) * 2019-11-26 2020-03-17 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
WO2020056718A1 (zh) * 2018-09-21 2020-03-26 华为技术有限公司 在设备中的神经网络模型的量化方法和装置
CN110929837A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 神经网络模型压缩方法及装置
CN111045726A (zh) * 2018-10-12 2020-04-21 上海寒武纪信息科技有限公司 支持编码、解码的深度学习处理装置及方法
CN111582229A (zh) * 2020-05-21 2020-08-25 中国科学院空天信息创新研究院 一种网络自适应半精度量化的图像处理方法和系统
CN112036554A (zh) * 2020-11-04 2020-12-04 深圳追一科技有限公司 神经网络模型的处理方法、装置、计算机设备和存储介质
WO2021036362A1 (zh) * 2019-08-28 2021-03-04 上海寒武纪信息科技有限公司 用于处理数据的方法、装置以及相关产品
WO2021147362A1 (zh) * 2020-01-21 2021-07-29 苏州浪潮智能科技有限公司 基于硬件环境的数据量化方法、装置及可读存储介质
CN113850374A (zh) * 2021-10-14 2021-12-28 安谋科技(中国)有限公司 神经网络模型的量化方法、电子设备及介质
US11397579B2 (en) 2018-02-13 2022-07-26 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
US11442785B2 (en) 2018-05-18 2022-09-13 Shanghai Cambricon Information Technology Co., Ltd Computation method and product thereof
US11513586B2 (en) 2018-02-14 2022-11-29 Shanghai Cambricon Information Technology Co., Ltd Control device, method and equipment for processor
US11544059B2 (en) 2018-12-28 2023-01-03 Cambricon (Xi'an) Semiconductor Co., Ltd. Signal processing device, signal processing method and related products
US11609760B2 (en) 2018-02-13 2023-03-21 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11675676B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
US11710041B2 (en) 2017-05-23 2023-07-25 Shanghai Cambricon Information Technology Co., Ltd Feature map and weight selection method and accelerating device
US11762690B2 (en) 2019-04-18 2023-09-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11966583B2 (en) 2018-08-28 2024-04-23 Cambricon Technologies Corporation Limited Data pre-processing method and device, and related computer device and storage medium
US11972108B2 (en) 2021-11-15 2024-04-30 International Business Machines Corporation Parameter redundancy reduction method
US12001955B2 (en) 2019-08-23 2024-06-04 Anhui Cambricon Information Technology Co., Ltd. Data processing method, device, computer equipment and storage medium

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782743A (zh) * 2010-02-11 2010-07-21 浙江大学 神经网络建模方法及系统
CN102523450A (zh) * 2011-12-30 2012-06-27 清华大学 压缩采样方法及装置
CN102665221A (zh) * 2012-03-26 2012-09-12 南京邮电大学 基于压缩感知与bp神经网络的认知无线电频谱感知方法
CN103026204A (zh) * 2010-07-22 2013-04-03 克拉-坦科股份有限公司 用于自动确定最优参数化的散射测量模型的方法
CN104361548A (zh) * 2014-10-28 2015-02-18 河南师范大学 基于bp神经网络数字图像压缩的图像水印嵌入与提取方法
CN104661037A (zh) * 2013-11-19 2015-05-27 中国科学院深圳先进技术研究院 压缩图像量化表篡改的检测方法和系统
CN105184362A (zh) * 2015-08-21 2015-12-23 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法
CN105320685A (zh) * 2014-07-29 2016-02-10 富士通株式会社 哈希编码方法和装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782743A (zh) * 2010-02-11 2010-07-21 浙江大学 神经网络建模方法及系统
CN103026204A (zh) * 2010-07-22 2013-04-03 克拉-坦科股份有限公司 用于自动确定最优参数化的散射测量模型的方法
CN102523450A (zh) * 2011-12-30 2012-06-27 清华大学 压缩采样方法及装置
CN102665221A (zh) * 2012-03-26 2012-09-12 南京邮电大学 基于压缩感知与bp神经网络的认知无线电频谱感知方法
CN104661037A (zh) * 2013-11-19 2015-05-27 中国科学院深圳先进技术研究院 压缩图像量化表篡改的检测方法和系统
CN105320685A (zh) * 2014-07-29 2016-02-10 富士通株式会社 哈希编码方法和装置
CN104361548A (zh) * 2014-10-28 2015-02-18 河南师范大学 基于bp神经网络数字图像压缩的图像水印嵌入与提取方法
CN105184362A (zh) * 2015-08-21 2015-12-23 中国科学院自动化研究所 基于参数量化的深度卷积神经网络的加速与压缩方法

Cited By (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11907844B2 (en) 2017-05-23 2024-02-20 Shanghai Cambricon Information Technology Co., Ltd Processing method and accelerating device
US11727276B2 (en) 2017-05-23 2023-08-15 Shanghai Cambricon Information Technology Co., Ltd Processing method and accelerating device
US11710041B2 (en) 2017-05-23 2023-07-25 Shanghai Cambricon Information Technology Co., Ltd Feature map and weight selection method and accelerating device
CN110809771B (zh) * 2017-07-06 2024-05-28 谷歌有限责任公司 用于机器学习模型的压缩和分发的系统和方法
CN110809771A (zh) * 2017-07-06 2020-02-18 谷歌有限责任公司 用于机器学习模型的压缩和分发的系统和方法
KR20200013710A (ko) * 2017-07-07 2020-02-07 미쓰비시덴키 가부시키가이샤 데이터 처리 장치, 데이터 처리 방법 및 기억 매체
CN110832507B (zh) * 2017-07-07 2024-06-28 三菱电机株式会社 数据处理装置、数据处理方法以及存储介质
CN110832507A (zh) * 2017-07-07 2020-02-21 三菱电机株式会社 数据处理装置、数据处理方法以及压缩数据
KR102526818B1 (ko) * 2017-07-07 2023-04-27 미쓰비시덴키 가부시키가이샤 데이터 처리 장치, 데이터 처리 방법 및 기억 매체
CN110637460A (zh) * 2017-07-11 2019-12-31 索尼公司 利用深层神经网络的视觉质量保持量化参数预测
CN110637460B (zh) * 2017-07-11 2021-09-28 索尼公司 利用深层神经网络的视觉质量保持量化参数预测
CN109389208A (zh) * 2017-08-09 2019-02-26 上海寒武纪信息科技有限公司 数据的量化装置及量化方法
CN109389209A (zh) * 2017-08-09 2019-02-26 上海寒武纪信息科技有限公司 处理装置及处理方法
CN109389209B (zh) * 2017-08-09 2022-03-15 上海寒武纪信息科技有限公司 处理装置及处理方法
CN110799994B (zh) * 2017-08-14 2022-07-19 美的集团股份有限公司 神经网络的自适应位宽缩减
CN110799994A (zh) * 2017-08-14 2020-02-14 美的集团股份有限公司 神经网络的自适应位宽缩减
US11741339B2 (en) 2017-09-21 2023-08-29 Hangzhou Hikvision Digital Technology Co., Ltd. Deep neural network-based method and device for quantifying activation amount
WO2019056946A1 (zh) * 2017-09-21 2019-03-28 杭州海康威视数字技术股份有限公司 一种基于深度神经网络的激活量量化方法及装置
CN109583561B (zh) * 2017-09-28 2021-05-07 杭州海康威视数字技术股份有限公司 一种深度神经网络的激活量量化方法及装置
CN109583561A (zh) * 2017-09-28 2019-04-05 杭州海康威视数字技术股份有限公司 一种深度神经网络的激活量量化方法及装置
US11437032B2 (en) 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
WO2019076095A1 (zh) * 2017-10-20 2019-04-25 上海寒武纪信息科技有限公司 处理方法及装置
KR20190104406A (ko) * 2017-10-20 2019-09-09 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 처리방법 및 장치
KR102434726B1 (ko) 2017-10-20 2022-08-19 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 처리방법 및 장치
CN109697508A (zh) * 2017-10-23 2019-04-30 北京深鉴智能科技有限公司 利用非均匀量化和查找表加速神经网络计算的方法和系统
CN109697507A (zh) * 2017-10-24 2019-04-30 上海寒武纪信息科技有限公司 处理方法及装置
CN109697507B (zh) * 2017-10-24 2020-12-25 安徽寒武纪信息科技有限公司 处理方法及装置
JP7300798B2 (ja) 2017-11-30 2023-06-30 インターナショナル・ビジネス・マシーンズ・コーポレーション ニューラル・ネットワーク・データを圧縮するためのシステム、方法、コンピュータ・プログラム、およびコンピュータ可読記憶媒体
JP2021504837A (ja) * 2017-11-30 2021-02-15 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 重み行列への空間的局所性を強化すること、および周波数圧縮をもたらすことを通した、完全接続型/回帰型深層ネットワークの圧縮
US11977974B2 (en) 2017-11-30 2024-05-07 International Business Machines Corporation Compression of fully connected / recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression
WO2019106619A1 (en) * 2017-11-30 2019-06-06 International Business Machines Corporation Compression of fully connected/recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression
GB2582233A (en) * 2017-11-30 2020-09-16 Ibm Compression of fully connected/recurrent layers of deep network(s) through enforcing spatial locality to weight matrices and effecting frequency compression
CN108038546A (zh) * 2017-12-29 2018-05-15 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
CN109993298B (zh) * 2017-12-29 2023-08-08 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
US11379723B2 (en) 2017-12-29 2022-07-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for compressing neural network
CN109993298A (zh) * 2017-12-29 2019-07-09 百度在线网络技术(北京)有限公司 用于压缩神经网络的方法和装置
CN108053034A (zh) * 2018-01-02 2018-05-18 武汉斗鱼网络科技有限公司 模型参数处理方法、装置、电子设备及存储介质
CN108053034B (zh) * 2018-01-02 2020-10-16 武汉斗鱼网络科技有限公司 模型参数处理方法、装置、电子设备及存储介质
WO2019136755A1 (zh) * 2018-01-15 2019-07-18 深圳鲲云信息科技有限公司 人工智能处理装置设计模型优化方法、系统、存储介质、终端
CN108319971A (zh) * 2018-01-17 2018-07-24 上海爱优威软件开发有限公司 一种基于移动端的Camera智能识别设计方法及系统
US11704125B2 (en) 2018-02-13 2023-07-18 Cambricon (Xi'an) Semiconductor Co., Ltd. Computing device and method
US11397579B2 (en) 2018-02-13 2022-07-26 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11709672B2 (en) 2018-02-13 2023-07-25 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11620130B2 (en) 2018-02-13 2023-04-04 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11609760B2 (en) 2018-02-13 2023-03-21 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11720357B2 (en) 2018-02-13 2023-08-08 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11663002B2 (en) 2018-02-13 2023-05-30 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US12073215B2 (en) 2018-02-13 2024-08-27 Shanghai Cambricon Information Technology Co., Ltd Computing device with a conversion unit to convert data values between various sizes of fixed-point and floating-point data
US11507370B2 (en) 2018-02-13 2022-11-22 Cambricon (Xi'an) Semiconductor Co., Ltd. Method and device for dynamically adjusting decimal point positions in neural network computations
US11740898B2 (en) 2018-02-13 2023-08-29 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11513586B2 (en) 2018-02-14 2022-11-29 Shanghai Cambricon Information Technology Co., Ltd Control device, method and equipment for processor
US11442785B2 (en) 2018-05-18 2022-09-13 Shanghai Cambricon Information Technology Co., Ltd Computation method and product thereof
US11442786B2 (en) 2018-05-18 2022-09-13 Shanghai Cambricon Information Technology Co., Ltd Computation method and product thereof
CN108665067A (zh) * 2018-05-29 2018-10-16 北京大学 用于深度神经网络频繁传输的压缩方法及系统
CN108665067B (zh) * 2018-05-29 2020-05-29 北京大学 用于深度神经网络频繁传输的压缩方法及系统
CN108932124A (zh) * 2018-06-26 2018-12-04 Oppo广东移动通信有限公司 神经网络模型压缩方法、装置、终端设备及存储介质
CN109102064B (zh) * 2018-06-26 2020-11-13 杭州雄迈集成电路技术股份有限公司 一种高精度的神经网络量化压缩方法
CN109102064A (zh) * 2018-06-26 2018-12-28 杭州雄迈集成电路技术有限公司 一种高精度的神经网络量化压缩方法
US11966583B2 (en) 2018-08-28 2024-04-23 Cambricon Technologies Corporation Limited Data pre-processing method and device, and related computer device and storage medium
CN110929837A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 神经网络模型压缩方法及装置
CN110929837B (zh) * 2018-09-19 2024-05-10 北京搜狗科技发展有限公司 一种联想词预测方法及装置
WO2020056718A1 (zh) * 2018-09-21 2020-03-26 华为技术有限公司 在设备中的神经网络模型的量化方法和装置
CN112449703A (zh) * 2018-09-21 2021-03-05 华为技术有限公司 在设备中的神经网络模型的量化方法和装置
US11703939B2 (en) 2018-09-28 2023-07-18 Shanghai Cambricon Information Technology Co., Ltd Signal processing device and related products
CN111045726B (zh) * 2018-10-12 2022-04-15 上海寒武纪信息科技有限公司 支持编码、解码的深度学习处理装置及方法
CN111045726A (zh) * 2018-10-12 2020-04-21 上海寒武纪信息科技有限公司 支持编码、解码的深度学习处理装置及方法
CN109376854A (zh) * 2018-11-02 2019-02-22 矽魅信息科技(上海)有限公司 用于深度神经网络的多底数对数量化方法及装置
CN109376854B (zh) * 2018-11-02 2022-08-16 矽魅信息科技(上海)有限公司 用于深度神经网络的多底数对数量化装置
US11544059B2 (en) 2018-12-28 2023-01-03 Cambricon (Xi'an) Semiconductor Co., Ltd. Signal processing device, signal processing method and related products
CN109840589A (zh) * 2019-01-25 2019-06-04 深兰人工智能芯片研究院(江苏)有限公司 一种在fpga上运行卷积神经网络的方法、装置及系统
CN110309904A (zh) * 2019-01-29 2019-10-08 广州红贝科技有限公司 一种神经网络压缩方法
CN109978144A (zh) * 2019-03-29 2019-07-05 联想(北京)有限公司 一种模型压缩方法和系统
CN109978144B (zh) * 2019-03-29 2021-04-13 联想(北京)有限公司 一种模型压缩方法和系统
US11934940B2 (en) 2019-04-18 2024-03-19 Cambricon Technologies Corporation Limited AI processor simulation
US11847554B2 (en) 2019-04-18 2023-12-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11762690B2 (en) 2019-04-18 2023-09-19 Cambricon Technologies Corporation Limited Data processing method and related products
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11675676B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
US11676029B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
CN110348562A (zh) * 2019-06-19 2019-10-18 北京迈格威科技有限公司 神经网络的量化策略确定方法、图像识别方法和装置
CN110322008A (zh) * 2019-07-10 2019-10-11 杭州嘉楠耘智信息科技有限公司 一种基于残差卷积神经网络的量化处理方法及装置
US12001955B2 (en) 2019-08-23 2024-06-04 Anhui Cambricon Information Technology Co., Ltd. Data processing method, device, computer equipment and storage medium
WO2021036362A1 (zh) * 2019-08-28 2021-03-04 上海寒武纪信息科技有限公司 用于处理数据的方法、装置以及相关产品
CN110837890A (zh) * 2019-10-22 2020-02-25 西安交通大学 一种面向轻量级卷积神经网络的权值数值定点量化方法
CN110889503A (zh) * 2019-11-26 2020-03-17 中科寒武纪科技股份有限公司 数据处理方法、装置、计算机设备和存储介质
WO2021147362A1 (zh) * 2020-01-21 2021-07-29 苏州浪潮智能科技有限公司 基于硬件环境的数据量化方法、装置及可读存储介质
US11748970B2 (en) 2020-01-21 2023-09-05 Inspur Suzhou Intelligent Technology Co., Ltd. Hardware environment-based data quantization method and apparatus, and readable storage medium
CN111582229A (zh) * 2020-05-21 2020-08-25 中国科学院空天信息创新研究院 一种网络自适应半精度量化的图像处理方法和系统
CN112036554A (zh) * 2020-11-04 2020-12-04 深圳追一科技有限公司 神经网络模型的处理方法、装置、计算机设备和存储介质
CN113850374B (zh) * 2021-10-14 2024-08-02 安谋科技(中国)有限公司 神经网络模型的量化方法、电子设备及介质
CN113850374A (zh) * 2021-10-14 2021-12-28 安谋科技(中国)有限公司 神经网络模型的量化方法、电子设备及介质
US11972108B2 (en) 2021-11-15 2024-04-30 International Business Machines Corporation Parameter redundancy reduction method

Also Published As

Publication number Publication date
CN106485316B (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN106485316A (zh) 神经网络模型压缩方法以及装置
Li et al. Auto-tuning neural network quantization framework for collaborative inference between the cloud and edge
US20180088996A1 (en) Systems and Methods of Memory Allocation for Neural Networks
Ding et al. Research on using genetic algorithms to optimize Elman neural networks
CN107783840B (zh) 一种分布式多层深度学习资源分配方法和装置
CN106022954B (zh) 基于灰色关联度的多重bp神经网络负荷预测方法
CN112200296B (zh) 网络模型量化方法、装置、存储介质及电子设备
CN112529146B (zh) 神经网络模型训练的方法和装置
CN112101525A (zh) 一种通过nas设计神经网络的方法、装置和系统
CN105469376A (zh) 确定图片相似度的方法和装置
CN110210027B (zh) 基于集成学习的细粒度情感分析方法、装置、设备及介质
Dai et al. Da-nas: Data adapted pruning for efficient neural architecture search
CN109376763A (zh) 基于多样本推理神经网络的样本分类方法、系统及介质
Li et al. A compression pipeline for one-stage object detection model
CN117668563B (zh) 文本识别方法、装置、电子设备及可读存储介质
CN112947080B (zh) 一种基于场景参数变换的智能决策模型性能评估系统
CN111368150B (zh) 预测模型的训练方法、装置及电子设备
US20230058500A1 (en) Method and machine learning system to perform quantization of neural network
CN115983362A (zh) 一种量化方法、推荐方法以及装置
CN112653751A (zh) 物联网环境下基于多层极限学习机的分布式入侵检测方法
CN116258190A (zh) 一种量化方法、装置及相关设备
CN107463528A (zh) 基于ks检验的高斯混合模型分裂与合并算法
Yang et al. Research on Small Sample Image Recognition Based on Transfer Learning
CN112990457B (zh) 离线量化调优方法、装置、设备、介质及程序产品
US20210390398A1 (en) Data processing method and device, and computer-readable storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant