CN114444658A - 一种深度学习模型推理方法、系统、设备及计算机介质 - Google Patents
一种深度学习模型推理方法、系统、设备及计算机介质 Download PDFInfo
- Publication number
- CN114444658A CN114444658A CN202111675314.8A CN202111675314A CN114444658A CN 114444658 A CN114444658 A CN 114444658A CN 202111675314 A CN202111675314 A CN 202111675314A CN 114444658 A CN114444658 A CN 114444658A
- Authority
- CN
- China
- Prior art keywords
- channel
- deep learning
- branch
- learning model
- quantization parameter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013136 deep learning model Methods 0.000 title claims abstract description 143
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000013139 quantization Methods 0.000 claims abstract description 268
- 238000004590 computer program Methods 0.000 claims description 38
- 239000013598 vector Substances 0.000 claims description 33
- 238000013135 deep learning Methods 0.000 abstract description 19
- 230000000875 corresponding effect Effects 0.000 description 31
- 238000004364 calculation method Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种深度学习模型推理方法、系统、设备及计算机介质,确定目标深度学习模型中各通道的通道量化参数;根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数;基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型;基于量化后深度学习模型进行推理,得到推理结果。本申请中,确定了目标深度学习模组中各个通道的通道量化参数,实现了细粒度的量化参数确定,并基于通道量化参数确定模型分支的分支量化参数,基于量化后深度学习模型进行推理,得到推理结果,实现了基于细粒度的通道量化参数进行深度学习模型推理,提高了深度学习模型的推理精度。
Description
技术领域
本申请涉及深度学习技术领域,更具体地说,涉及一种深度学习模型推理方法、系统、设备及计算机介质。
背景技术
深度学习(即深度神经网络)是机器学习的一个分支,是一种以人工神经网络为架构,通过对信息特征进行学习(即训练)来实现模式识别(即推理)的算法。深度学习的特点是利用非监督或半监督的特征学习与分层特征提取来代替手工的特征提取。深度学习训练与推理过程的工程实现一般依赖于深度学习框架,深度学习框架首要关注于丰富的深度学习模型结构与算子表达,而对于如何在不同的硬件后端上高效地实现推理任务并没有完善的解决方案。深度学习编译器作为框架和硬件之间的公共组件和桥梁,希望实现的目标是将深度学习框架生成的模型自动为任何设备生成最优的推理代码。比如为CPU开发的算子可以几乎原封不同的用于GPU和ASIC芯片,从而显著降低成本。
深度学习编译器在进行推理计算之前,可以对模型进行量化,通过使用量化参数将模型中的权重以及推理计算过程中的特征图量化至低精度数据,以实现高计算效率的低精度推理。目前主流的量化方式有两种:离线量化及训练时量化。然而,现有的量化方法均是分层量化,使得深度学习模型的推理精度较差。
综上所述,如何提高深度学习模型的推理精度是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种深度学习模型推理方法,其能在一定程度上解决如何提高深度学习模型的推理精度的技术问题。本申请还提供了一种深度学习模型推理系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种深度学习模型推理方法,包括:
确定目标深度学习模型中各通道的通道量化参数;
根据所述目标深度学习模型中通道与模型分支间的关系,基于所述通道量化参数确定所述模型分支的分支量化参数;
基于所述分支量化参数对所述目标深度学习模型进行量化,得到量化后深度学习模型;
基于所述量化后深度学习模型进行推理,得到推理结果。
优选的,所述确定目标深度学习模型中各通道的通道量化参数,包括:
确定所述目标深度学习模型的所述通道的绝对极大值;
基于所述通道的所述绝对极大值确定所述通道对应的所述通道量化参数。
优选的,所述基于所述通道的所述绝对极大值确定所述通道对应的所述通道量化参数,包括:
将所述通道的所述绝对极大值与预设值的和值作为所述通道对应的所述通道量化参数。
优选的,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道量化参数均为标量,则将值较小的所述通道量化参数作为所述模型分支的所述分支量化参数。
优选的,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道量化参数均为向量,则逐通道对比两个所述通道量化参数,并将两个所述通道中均较小的所述通道量化参数作为所述模型分支的所述分支量化参数。
优选的,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道量化参数分别为标量和向量,则将向量的所述通道量化参数的元素与标量的所述通道量化参数的和值作为所述模型分支的分支量化参数的对应元素,以得到所述分支量化参数。
优选的,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道的量化参数既非向量也非标量,则将有卷积操作的所述通道的所述通道量化参数作为所述模型分支的所述分支量化参数。
一种深度学习模型推理系统,包括:
第一确定模块,用于确定目标深度学习模型中各通道的通道量化参数;
第二确定模块,用于根据所述目标深度学习模型中通道与模型分支间的关系,基于所述通道量化参数确定所述模型分支的分支量化参数;
第一量化模块,用于基于所述分支量化参数对所述目标深度学习模型进行量化,得到量化后深度学习模型;
第一推理模块,用于基于所述量化后深度学习模型进行推理,得到推理结果。
一种深度学习模型推理设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述深度学习模型推理方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述深度学习模型推理方法的步骤。
本申请提供的一种深度学习模型推理方法,确定目标深度学习模型中各通道的通道量化参数;根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数;基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型;基于量化后深度学习模型进行推理,得到推理结果。本申请中,确定了目标深度学习模组中各个通道的通道量化参数,实现了细粒度的量化参数确定,并基于通道量化参数确定模型分支的分支量化参数,基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型,基于量化后深度学习模型进行推理,得到推理结果,实现了基于细粒度的通道量化参数进行深度学习模型推理,提高了深度学习模型的推理精度。本申请提供的一种深度学习模型推理系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种深度学习模型推理方法的流程图;
图2为本申请实施例提供的一种深度学习模型推理系统的结构示意图;
图3为本申请实施例提供的一种深度学习模型推理设备的结构示意图;
图4为本申请实施例提供的一种深度学习模型推理设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种深度学习模型推理方法的流程图。
本申请实施例提供的一种深度学习模型推理方法,可以包括以下步骤:
步骤S101:确定目标深度学习模型中各通道的通道量化参数。
实际应用中,可以先确定目标深度学习模型中各通道的通道量化参数,目标深度学习模型的类型及相应的通道信息可以根据实际需要确定,本申请在此不做具体限定。
具体应用场景中,在确定目标深度学习模型中各通道的通道量化参数的过程中,可以确定目标深度学习模型的通道的绝对极大值;基于通道的绝对极大值确定通道对应的通道量化参数,比如将通道的绝对极大值与预设值的和值作为通道对应的通道量化参数等,预设值的具体数值可以根据实际需要确定,比如预设值可以为0.001等。
需要说明的是,在具体应用场景中,对目标深度学习模型的推理过程中,需要进行伪量化,也即在可识别的某些操作内嵌入伪量化节点(simulated quantize nodes),用以统计训练时流经该节点数据的分布,获得量化参数,并且可以使用整型数据范围映射的浮点数据进行伪量化推理,以验证量化算法的理论计算精度;而挂载伪量化算子时需要依据通道的维度来进行相应操作,而Depthwise卷积与普通卷积的权重数据维度不同,所以可以先对将通道标记为Depthwise卷积对应的通道及其他卷积对应的通道,具体的,可以用axis=-1来表示其他卷积对应的通道,用axis=2来表示Depthwise卷积对应的通道等。相应的,对于axis=-1的通道,可以通过axis对张量维度的取模运算将其转化为张量的最后一个维度等。其中,在识别Depthwise卷积对应的通道时,若通道的卷积算子的groups与channels相等且groups不等于1,则该通道便为Depthwise卷积对应的通道。
步骤S102:根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数。
实际应用中,深度学习模型的各个通道间会构成模型分支,所以在确定目标深度学习模型中各通道的通道量化参数之后,还需根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数。
具体应用场景中,在根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数的过程中,无论模型分支是由多少个通道构成的,均可以拆分为两个通道间的量化参数的加和,也即在基于通道量化参数确定模型分支的分支量化参数的过程中,若两个通道量化参数均为标量,则将值较小的通道量化参数作为模型分支的分支量化参数,也即当左右输入两个通道均为int8类型时,优先考虑避免数据范围压缩而非数据截断,当左右输入两个通道为一端int8类型、一端int32类型时,由于int32类型的量化参数较小,加和算子将采用int32类型的量化参数,最大程度保证计算精度。
相应的,若两个通道量化参数均为向量,则逐通道对比两个通道量化参数,并将两个通道中均较小的通道量化参数作为模型分支的分支量化参数。
相应的,若两个通道量化参数分别为标量和向量,则将向量的通道量化参数的元素与标量的通道量化参数的和值作为模型分支的分支量化参数的对应元素,以得到分支量化参数,以避免数据截断。
相应的,若两个通道的量化参数既非向量也非标量,则将有卷积操作的通道的通道量化参数作为模型分支的分支量化参数。
步骤S103:基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型。
实际应用中,在根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数之后,便可以基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型。具体的,可以复用用于tflite预量化模型推理的分通道量化推理计算方法,来基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型等。
步骤S104:基于量化后深度学习模型进行推理,得到推理结果。
实际应用中,在基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型之后,便可以基于量化后深度学习模型进行推理,得到推理结果。
本申请提供的一种深度学习模型推理方法,确定目标深度学习模型中各通道的通道量化参数;根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数;基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型;基于量化后深度学习模型进行推理,得到推理结果。本申请中,确定了目标深度学习模组中各个通道的通道量化参数,实现了细粒度的量化参数确定,并基于通道量化参数确定模型分支的分支量化参数,基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型,基于量化后深度学习模型进行推理,得到推理结果,实现了基于细粒度的通道量化参数进行深度学习模型推理,提高了深度学习模型的推理精度。
为了便于理解本申请提供的深度学习模型推理方法,现结合TVM(Tensor VirtualMachine)来对本申请提供的方法进行描述,需要说明的是,TVM是一个为CPU、GPU与专用加速器(ASIC)设计的开源深度学习编译器,其功能是有效连接关注于丰富性的深度学习框架与关注于性能或效率的硬件后端,TVM中的量化过程可以如下:
1、定义数据结构:也即将算子的量化参数类型设置为向量,使用axis属性用于标记分通道量化中对应通道的所在维度;
2、在Annotation环节,对伪量化算子的实现与挂载进行优化:
(1)Depthwise卷积的识别:在conv2d算子的改写环节,实现对Depthwise卷积的识别。由于Depthwise卷积与普通卷积的权重数据维度不同,Depthwise卷积标志用于后续环节中挂载伪量化算子时区分Depthwise卷积与普通卷积分通道量化时通道所在的维度。Depthwise卷积的判断条件为卷积算子的groups与channels相等且groups不等于1。
(2)伪量化算子的挂载:伪量化算子的挂载入口需要传入axis参数,用于决定进行分通道量化的通道所在的维度,默认axis=-1,对于Depthwise卷积,axis=2。对于axis=-1的默认情况,将在后续计算中通过axis对张量维度的取模运算将其转化为张量的最后一个维度。
3、在Calibration环节,深度学习编译器的量化参数计算环节,由不同的模块控制不同的权重与特征图的量化参数计算方法。但现有主流的权重量化参数计算方法仅有max与power2两种模式,增加channel_max模式。根据axis属性,针对对应的通道进行分通道量化,即取各自通道的绝对极大值为量化参数,为了避免绝对极大值过小造成后续计算精度误差,需要在绝对极大值上加一个epsilon小量,此小量的取值可以为0.0001。
4、在Realization环节中,执行以下步骤:
(1)量化过程实现:Realization环节中,伪量化算子的实现环节调用的关键方法中复用用于tflite预量化模型推理的分通道量化推理计算方法。在Realization的当前层计算输出环节中,反量化过程由标量量化参数计算模式修改为向量参数计算模式。
(2)量化参数融合:现有深度学习编译器量化模块中处理加和算子时,选择两个输入中较小的量化参数作为新的量化参数。当进行分层量化时,量化参数为标量,此处理方法可行;但当进行分通道量化时,量化参数可能为向量也可能为标量,当量化参数为向量时,无法简单地选择两个向量量化参数中“较小”的一个,需按如下方法处理:对于两个输入一个为伪量化算子,一个为非伪量化算子的情况,使用伪量化算子的量化参数作为加和算子的量化参数(主要处理BiasAdd算子中的加和,由于深度学习编译器的后续图优化过程中含有常数折叠的图优化方法,BiasAdd的该处理方式可以避免权重量化计算过程添加额外的算子,而特征图量化过程中无需进行二次量化)。
对于其他二输入情况,若两个通道量化参数均为标量,则将值较小的通道量化参数作为模型分支的分支量化参数;若两个通道量化参数均为向量,则逐通道对比两个通道量化参数,并将两个通道中均较小的通道量化参数作为模型分支的分支量化参数;若两个通道量化参数分别为标量和向量,则将向量的通道量化参数的元素与标量的通道量化参数的和值作为模型分支的分支量化参数的对应元素,以得到分支量化参数;若两个通道的量化参数既非向量也非标量,则将有卷积操作的通道的通道量化参数作为模型分支的分支量化参数。
请参阅图2,图2为本申请实施例提供的一种深度学习模型推理系统的结构示意图。
本申请实施例提供的一种深度学习模型推理系统,可以包括:
第一确定模块101,用于确定目标深度学习模型中各通道的通道量化参数;
第二确定模块102,用于根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数;
第一量化模块103,用于基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型;
第一推理模块104,用于基于量化后深度学习模型进行推理,得到推理结果。
本申请实施例提供的一种深度学习模型推理系统,第一确定模块可以包括:
第一确定单元,用于确定目标深度学习模型的通道的绝对极大值;
第二确定单元,用于基于通道的绝对极大值确定通道对应的通道量化参数。
本申请实施例提供的一种深度学习模型推理系统,第二确定单元可以具体用于:将通道的绝对极大值与预设值的和值作为通道对应的通道量化参数。
本申请实施例提供的一种深度学习模型推理系统,第二确定模块可以包括:
第三确定单元,用于若两个通道量化参数均为标量,则将值较小的通道量化参数作为模型分支的分支量化参数。
本申请实施例提供的一种深度学习模型推理系统,第二确定模块可以包括:
第四确定单元,用于若两个通道量化参数均为向量,则逐通道对比两个通道量化参数,并将两个通道中均较小的通道量化参数作为模型分支的分支量化参数。
本申请实施例提供的一种深度学习模型推理系统,第二确定模块可以包括:
第五确定单元,用于若两个通道量化参数分别为标量和向量,则将向量的通道量化参数的元素与标量的通道量化参数的和值作为模型分支的分支量化参数的对应元素,以得到分支量化参数。
本申请实施例提供的一种深度学习模型推理系统,第二确定模块可以包括:
第六确定单元,用于若两个通道的量化参数既非向量也非标量,则将有卷积操作的通道的通道量化参数作为模型分支的分支量化参数。
本申请还提供了一种深度学习模型推理设备及计算机可读存储介质,其均具有本申请实施例提供的一种深度学习模型推理方法具有的对应效果。请参阅图3,图3为本申请实施例提供的一种深度学习模型推理设备的结构示意图。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
确定目标深度学习模型中各通道的通道量化参数;
根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数;
基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型;
基于量化后深度学习模型进行推理,得到推理结果。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:确定目标深度学习模型的通道的绝对极大值;基于通道的绝对极大值确定通道对应的通道量化参数。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:将通道的绝对极大值与预设值的和值作为通道对应的通道量化参数。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:若两个通道量化参数均为标量,则将值较小的通道量化参数作为模型分支的分支量化参数。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:若两个通道量化参数均为向量,则逐通道对比两个通道量化参数,并将两个通道中均较小的通道量化参数作为模型分支的分支量化参数。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:若两个通道量化参数分别为标量和向量,则将向量的通道量化参数的元素与标量的通道量化参数的和值作为模型分支的分支量化参数的对应元素,以得到分支量化参数。
本申请实施例提供的一种深度学习模型推理设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:若两个通道的量化参数既非向量也非标量,则将有卷积操作的通道的通道量化参数作为模型分支的分支量化参数。
请参阅图4,本申请实施例提供的另一种深度学习模型推理设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现深度学习模型推理设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:
确定目标深度学习模型中各通道的通道量化参数;
根据目标深度学习模型中通道与模型分支间的关系,基于通道量化参数确定模型分支的分支量化参数;
基于分支量化参数对目标深度学习模型进行量化,得到量化后深度学习模型;
基于量化后深度学习模型进行推理,得到推理结果。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:确定目标深度学习模型的通道的绝对极大值;基于通道的绝对极大值确定通道对应的通道量化参数。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:将通道的绝对极大值与预设值的和值作为通道对应的通道量化参数。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:若两个通道量化参数均为标量,则将值较小的通道量化参数作为模型分支的分支量化参数。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:若两个通道量化参数均为向量,则逐通道对比两个通道量化参数,并将两个通道中均较小的通道量化参数作为模型分支的分支量化参数。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:若两个通道量化参数分别为标量和向量,则将向量的通道量化参数的元素与标量的通道量化参数的和值作为模型分支的分支量化参数的对应元素,以得到分支量化参数。
本申请实施例提供的一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如下步骤:若两个通道的量化参数既非向量也非标量,则将有卷积操作的通道的通道量化参数作为模型分支的分支量化参数。
本申请所涉及的计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的深度学习模型推理系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的深度学习模型推理方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种深度学习模型推理方法,其特征在于,包括:
确定目标深度学习模型中各通道的通道量化参数;
根据所述目标深度学习模型中通道与模型分支间的关系,基于所述通道量化参数确定所述模型分支的分支量化参数;
基于所述分支量化参数对所述目标深度学习模型进行量化,得到量化后深度学习模型;
基于所述量化后深度学习模型进行推理,得到推理结果。
2.根据权利要求1所述的方法,其特征在于,所述确定目标深度学习模型中各通道的通道量化参数,包括:
确定所述目标深度学习模型的所述通道的绝对极大值;
基于所述通道的所述绝对极大值确定所述通道对应的所述通道量化参数。
3.根据权利要求2所述的方法,其特征在于,所述基于所述通道的所述绝对极大值确定所述通道对应的所述通道量化参数,包括:
将所述通道的所述绝对极大值与预设值的和值作为所述通道对应的所述通道量化参数。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道量化参数均为标量,则将值较小的所述通道量化参数作为所述模型分支的所述分支量化参数。
5.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道量化参数均为向量,则逐通道对比两个所述通道量化参数,并将两个所述通道中均较小的所述通道量化参数作为所述模型分支的所述分支量化参数。
6.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道量化参数分别为标量和向量,则将向量的所述通道量化参数的元素与标量的所述通道量化参数的和值作为所述模型分支的分支量化参数的对应元素,以得到所述分支量化参数。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述基于所述通道量化参数确定所述模型分支的分支量化参数,包括:
若两个所述通道的量化参数既非向量也非标量,则将有卷积操作的所述通道的所述通道量化参数作为所述模型分支的所述分支量化参数。
8.一种深度学习模型推理系统,其特征在于,包括:
第一确定模块,用于确定目标深度学习模型中各通道的通道量化参数;
第二确定模块,用于根据所述目标深度学习模型中通道与模型分支间的关系,基于所述通道量化参数确定所述模型分支的分支量化参数;
第一量化模块,用于基于所述分支量化参数对所述目标深度学习模型进行量化,得到量化后深度学习模型;
第一推理模块,用于基于所述量化后深度学习模型进行推理,得到推理结果。
9.一种深度学习模型推理设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述深度学习模型推理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述深度学习模型推理方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111675314.8A CN114444658B (zh) | 2021-12-31 | 2021-12-31 | 一种深度学习模型推理方法、系统、设备及计算机介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111675314.8A CN114444658B (zh) | 2021-12-31 | 2021-12-31 | 一种深度学习模型推理方法、系统、设备及计算机介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114444658A true CN114444658A (zh) | 2022-05-06 |
CN114444658B CN114444658B (zh) | 2024-09-20 |
Family
ID=81366373
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111675314.8A Active CN114444658B (zh) | 2021-12-31 | 2021-12-31 | 一种深度学习模型推理方法、系统、设备及计算机介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444658B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108985450A (zh) * | 2018-06-28 | 2018-12-11 | 中国人民解放军国防科技大学 | 面向向量处理器的卷积神经网络运算向量化方法 |
CN109034371A (zh) * | 2018-06-27 | 2018-12-18 | 北京文安智能技术股份有限公司 | 一种深度学习模型推理期加速方法、装置及系统 |
CN109284388A (zh) * | 2018-10-29 | 2019-01-29 | 深兰科技(上海)有限公司 | 字符数字唯一可译深度模型的文本分类方法及存储介质 |
CN111310890A (zh) * | 2020-01-19 | 2020-06-19 | 深圳云天励飞技术有限公司 | 深度学习模型的优化方法、装置及终端设备 |
CN112200313A (zh) * | 2020-09-18 | 2021-01-08 | 苏州浪潮智能科技有限公司 | 一种深度学习模型推理加速的方法、系统、设备及介质 |
US20210089922A1 (en) * | 2019-09-24 | 2021-03-25 | Qualcomm Incorporated | Joint pruning and quantization scheme for deep neural networks |
CN112906294A (zh) * | 2021-01-28 | 2021-06-04 | 三星(中国)半导体有限公司 | 用于深度学习模型的量化方法和量化装置 |
WO2021147362A1 (zh) * | 2020-01-21 | 2021-07-29 | 苏州浪潮智能科技有限公司 | 基于硬件环境的数据量化方法、装置及可读存储介质 |
-
2021
- 2021-12-31 CN CN202111675314.8A patent/CN114444658B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109034371A (zh) * | 2018-06-27 | 2018-12-18 | 北京文安智能技术股份有限公司 | 一种深度学习模型推理期加速方法、装置及系统 |
CN108985450A (zh) * | 2018-06-28 | 2018-12-11 | 中国人民解放军国防科技大学 | 面向向量处理器的卷积神经网络运算向量化方法 |
CN109284388A (zh) * | 2018-10-29 | 2019-01-29 | 深兰科技(上海)有限公司 | 字符数字唯一可译深度模型的文本分类方法及存储介质 |
US20210089922A1 (en) * | 2019-09-24 | 2021-03-25 | Qualcomm Incorporated | Joint pruning and quantization scheme for deep neural networks |
CN111310890A (zh) * | 2020-01-19 | 2020-06-19 | 深圳云天励飞技术有限公司 | 深度学习模型的优化方法、装置及终端设备 |
WO2021147362A1 (zh) * | 2020-01-21 | 2021-07-29 | 苏州浪潮智能科技有限公司 | 基于硬件环境的数据量化方法、装置及可读存储介质 |
CN112200313A (zh) * | 2020-09-18 | 2021-01-08 | 苏州浪潮智能科技有限公司 | 一种深度学习模型推理加速的方法、系统、设备及介质 |
CN112906294A (zh) * | 2021-01-28 | 2021-06-04 | 三星(中国)半导体有限公司 | 用于深度学习模型的量化方法和量化装置 |
Also Published As
Publication number | Publication date |
---|---|
CN114444658B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101525A (zh) | 一种通过nas设计神经网络的方法、装置和系统 | |
KR102214837B1 (ko) | 컨벌루션 신경망 파라미터 최적화 방법, 컨벌루션 신경망 연산방법 및 그 장치 | |
WO2022227217A1 (zh) | 文本分类模型的训练方法、装置、设备及可读存储介质 | |
CN112000770A (zh) | 面向智能问答的基于语义特征图的句子对语义匹配方法 | |
US11288414B2 (en) | Artificial intelligence-based manufacturing part design | |
CN117175664B (zh) | 基于使用场景的储能充电设备输出功率自适应调节系统 | |
CN115249315A (zh) | 面向异构计算设备的深度学习图像分类方法及装置 | |
CN118036661B (zh) | 大语言模型混合精度量化方法、装置、电子设备及介质 | |
CN116881641A (zh) | 预训练模型调整方法及装置、存储介质、计算设备 | |
CN118364909A (zh) | 一种模型推理优化方法、装置、电子设备及存储介质 | |
CN117196000A (zh) | 一种容器化部署的边缘侧模型推理加速方法 | |
CN113159318A (zh) | 一种神经网络的量化方法、装置、电子设备及存储介质 | |
CN114444658A (zh) | 一种深度学习模型推理方法、系统、设备及计算机介质 | |
CN115544033B (zh) | 查重向量库更新、数据查重方法、装置、设备和介质 | |
CN115412401B (zh) | 训练虚拟网络嵌入模型及虚拟网络嵌入的方法和装置 | |
CN116644180A (zh) | 文本匹配模型的训练方法、训练系统和文本标签确定方法 | |
CN115496181A (zh) | 深度学习模型的芯片适配方法、装置、芯片及介质 | |
CN112100453B (zh) | 一种字符串分布统计方法、系统、设备及计算机存储介质 | |
CN114492787A (zh) | 自适应的神经网络训练方法、电子设备、介质和程序产品 | |
CN114861934A (zh) | 用于机器学习模型的模型量化方法、装置及设备 | |
CN114065913A (zh) | 模型量化方法、装置及终端设备 | |
CN102457333B (zh) | 获取秩约束条件下优化变量的方法及设备 | |
CN113760380A (zh) | 网络模型的运行代码的确定方法、装置、设备及存储介质 | |
WO2019165679A1 (zh) | 一种包括比特转换装置的神经网络处理器及其方法 | |
CN111031606A (zh) | 无线网络资源分配方法、系统及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |