CN115829035B - 一种分布式量化方法、系统及终端设备 - Google Patents
一种分布式量化方法、系统及终端设备 Download PDFInfo
- Publication number
- CN115829035B CN115829035B CN202211712173.7A CN202211712173A CN115829035B CN 115829035 B CN115829035 B CN 115829035B CN 202211712173 A CN202211712173 A CN 202211712173A CN 115829035 B CN115829035 B CN 115829035B
- Authority
- CN
- China
- Prior art keywords
- quantization
- model
- offline
- quantization model
- quantized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 341
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000007667 floating Methods 0.000 claims description 51
- 238000004891 communication Methods 0.000 claims description 10
- 238000002372 labelling Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本申请公开了一种分布式量化方法、系统及终端设备,所述方法包括获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。本申请将量化后的离线量化模型发送给嵌入设备进行模型推理,然后基于嵌入设备的推理结果对量化模型进行修正,并将修正的量化模型布置于嵌入设备,这样可以保证量化模型本身的推理结果与其布置于嵌入设备后的推理结果一致,保证了嵌入设备的推理准确性。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种分布式量化方法、系统及终端设备。
背景技术
目前在电脑侧开发神经网络时,一般采取32-bit浮点型来进行网络流动的数值计算以及存储网络的权值,且电脑侧可以使用拥有大量浮点计算单元的图形处理器对神经网络进行加速。然而,随着神经网络的快速发展,神经网络已经被方法应于嵌入设备,但是由于嵌入设备的计算资源和计算能力的限制,需要神经网络进行量化处理。
目前普遍使用过的量化方法分为训练后量化PTQ和训练感知量化QAT,其中,PTQ量化不需要重新训练网络模型,仅需要少量参考图片来计算量化参数,QAT量化需要使用标注数据对网络模型进行重训。无论哪种量化方法,其量化过程普遍是由PC端对网络模型进行量化已得到离线量化模型,然后直接将离线量化模型布置于嵌入设备,嵌入设备通过该离线量化模型进行模型推理。然而,由于嵌入设备在执行离线量化模型时,会对数据的类型、执行顺序以及计算方式进行修改,这就导致嵌入设备的计算顺序与PC端存在差异,同时又由于嵌入设备和PC端的计算位数不同,导致嵌入设备容易出现计算溢出问题,进而造成嵌入设备的推荐结果与PC端的推理结果不同,因而影响嵌入设备的推理准确性。
因而现有技术还有待改进和提高。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种分布式量化方法、系统及终端设备。
为了解决上述技术问题,本申请实施例第一方面提供了一种分布式量化方法,所述方法包括:
获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;
将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;
接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
所述的分布式量化方法,其中,所述获取待量化模型对应的量化模型具体包括:
标注待量化模型中的待量化算子,并将标注后的待量化模型发送给浮点服务端;
接收所述浮点服务端反馈的所述待量化模型对应的量化参数,并基于所述量化参数确定所述待量化模型对应的量化模型。
所述的分布式量化方法,其中,所述编译所述量化模型以得到离线量化模型具体为:
将所述量化模型发送给编译服务端,并接收所述编译服务端反馈离线量化模型,其中,所述离线量化模型为通过所述编译服务端对所述量化模型进行编译所得到的。
所述的分布式量化方法,其中,所述接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理具体包括:
接收所述嵌入设备反馈的推理结果,并将所述推理结果发送给浮点服务端;
接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,并基于量化参数更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
所述的分布式量化方法,其中,所述接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型之后,所述方法还包括:
接收所述浮点服务端反馈的基于所述推理结果确定的量化参数;
重复执行编译所述量化模型以得到离线量化模型的步骤,直至所述量化模型的量化精度满足预设量化要求。
本申请实施例第二方面提供了一种分布式量化系统,所述系统控制端和嵌入设备,所述嵌入设备与所述控制端相连接;所述控制用于获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
所述分布式量化系统,其中,所述系统还包括浮点服务端,所述浮点服务端与所述控制端相连接;所述控制端还用于标注待量化模型中的待量化算子,并将标注后的待量化模型发送给浮点服务端;接收所述浮点服务端反馈的所述待量化模型对应的量化参数,并基于所述量化参数确定所述待量化模型对应的量化模型;以及接收所述嵌入设备反馈的推理结果,并将所述推理结果发送给浮点服务端;接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,并基于量化参数更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
所述分布式量化系统,其中,所述系统还包括编译服务端,所述编译服务端与所述控制端相连接,所述控制端还用于将所述量化模型发送给编译服务端,并接收所述编译服务端反馈离线量化模型,其中,所述离线量化模型为通过所述编译服务端对所述量化模型进行编译所得到的。
本申请实施例第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上任一所述的分布式量化方法中的步骤。
本申请实施例第四方面提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上任一所述的分布式量化方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种分布式量化方法、系统及终端设备,所述方法包括获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。本申请将量化后的离线量化模型发送给嵌入设备进行模型推理,然后基于嵌入设备的推理结果对量化模型进行修正,并将修正的量化模型布置于嵌入设备,这样可以保证量化模型本身的推理结果与其布置于嵌入设备后的推理结果一致,保证了嵌入设备的推理准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有量化过程的流程示意图。
图2为本申请提供的分布式量化方法的流程图。
图3为本申请提供的分布式量化系统的结构原理图。
图4为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种分布式量化方法、系统及终端设备,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
应理解,本实施例中各步骤的序号和大小并不意味着执行顺序的先后,各过程的执行顺序以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
经过研究发现,目前普遍使用过的量化方法分为训练后量化PTQ和训练感知量化QAT,其中,PTQ量化不需要重新训练网络模型,仅需要少量参考图片来计算量化参数,QAT量化需要使用标注数据对网络模型进行重训。如图1所示,现有的模型量化过程普遍是由PC端对网络模型进行量化已得到离线量化模型,然后直接将离线量化模型布置于嵌入设备,嵌入设备通过该离线量化模型进行模型推理。然而,由于嵌入设备在执行离线量化模型时,会对数据的类型、执行顺序以及计算方式进行修改,这就导致嵌入设备的计算顺序与PC端存在差异,同时又由于嵌入设备和PC端的计算位数不同,导致嵌入设备容易出现计算溢出问题,进而造成嵌入设备的推荐结果与PC端的推理结果不同,因而影响嵌入设备的推理准确性。
为了解决上述问题,在本申请实施例中,获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。本申请将量化后的离线量化模型发送给嵌入设备进行模型推理,然后基于嵌入设备的推理结果对量化模型进行修正,并将修正的量化模型布置于嵌入设备,这样可以保证量化模型本身的推理结果与其布置于嵌入设备后的推理结果一致,保证了嵌入设备的推理准确性。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施例提供了一种分布式量化方法,如图2所示,所述方法包括:
S10、获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型。
具体地,待量化模型为基于深度学习的网络模型,例如,待量化模型为Resnet50、VGG-16等。量化模型为对待量化模型进行量化所得到网络模型,例如,将待量化模型中的32浮点数据转换为低8bit的整形数据等。在本实施例中,所述量化模型通过训练后量化得到,也就是说,待量化模型为经过训练的网络模型,通过对待量化模型进行训练后量化得到量化模型。
在一个实现方式中,所述获取待量化模型对应的量化模型具体包括:
标注待量化模型中的待量化算子,并将标注后的待量化模型发送给浮点服务端;
接收所述浮点服务端反馈的所述待量化模型对应的量化参数,并基于所述量化参数确定所述待量化模型对应的量化模型。
具体地,待量化算子为待量化模型中需要进行量化的算子,在获取到待量化模型后,对待量化模型中需要进行量化的算子进行标注,然后将标注好的待量化模型发送给浮点服务端,浮点服务端在接受到待量化模型后,会确定待量化模型对应的量化参数,并将量化参数反馈给发送待量化模型的控制端,控制端可以基于量化参数确定待量化模型对应的量化模型。这样通过浮点服务端来进行量化参数确定,可以使得量化过程中的各步骤由不同执行主体(例如,嵌入设备,控制端以及嵌入设备)来执行,这样可以重复利用各执行主体的资源,并且可以使得各执行主体并行,从而提高量化效率。
在一个实现方式中,量化模型采用训练后量化方式确定的,相应的,5在获取到待量化模型时,会获取待量化模型对应的参考图片,并将参考图片与待量化模型同步发送给浮点服务端,浮点服务端基于参考图片确定待量化算子对应的最大值和最小值,然后再根据量化的位数来确定量化算子。在一个实现方式中,最大值和最小值可以通过统计方式确定得到,即通过对参考图片进行推理以统计最大值和最小值。
0进一步,在将标注后的待量化模型发送给浮点服务端可以直接将待量化模型发送给浮点服务端,也可以是将待量化模型的存储地址发送给浮点服务端,浮点服务端通过存储地址从存储设备获取到待量化模型,其中,
控制端、嵌入设备和浮点服务端均与存储设备相连接。当然,值得说明的
是,当量化模型采用训练后量化方式确定的时,参考图片也可以存储于存5储设备,浮点服务端从存储设备获取参考图片。
所述离线量化模型可以是由控制端进行编译得到的,也可以是外部设备进行编译后发送给控制端。在本实施例中,离线量化模型是通过与控制端连接的编译服务端编译的。相应的,所述编译所述量化模型以得到离散量化模型具体为:0将所述量化模型发送给编译服务端,并接收所述编译服务端反馈离线量化模型。
具体地,编译服务端接收到量化模型后,对量化模型进行编译已得到离线量化模型,编译服务端在编译得到离散量化模型后,可以将离散量化
模型反馈给控制端。当然,在实际应用中,编译服务端可以与存储设备相5连接,控制端将量化模型的存储地址发送给编译服务端,并编译服务端根据存储地址从存储设备获取量化模型,并对量化模型进行编译已得到离线量化模型,将离线量化模型存储于存储设备,并将离线量化模型的存储地址反馈给控制端。此外,控制端、编译服务端、浮点服务端和存储设备可以部署在统一设备上,也可以是部分部署于一个设备上,部分不部署于一个设备上,或者全部都不部署于同一设备上。
S20、将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果。
具体地,嵌入设备接收到离线量化模型,运行所述离线量化模型得到离线量化模型对应的推理结果,并将推理结果反馈给控制端。其中,控制端可以直接将离线量化模型发送给嵌入设备,也可以把离线量化模型的存储地址发送给嵌入设备。此外,控制端在将离线量化模型发送给嵌入设备时,将参考图片发送给嵌入设备,嵌入设备运行参考图片已得到推理结果。
S30、接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
具体地,接收到推理结果后,通过待量化模型确定参考图片对应的浮点结果,然后基于浮点结果和推理结果对离线量化模型的量化参数,以得到更新后的离散量化模型,这样可以使得更新后的离线量化模型应用于嵌入设备时得到的推理结果,更新后的离线量化模型的浮点结果一致,从而可以提高通过嵌入设备得到的推理结果的准确性。
在一个实现方式中,所述接收所述嵌入设备反馈的推理结果,基于所述推理结果更新所述离线量化模型,以使得所述嵌入设备基于更新后的离散量化模型进行推理具体包括:
接收所述嵌入设备反馈的推理结果,并将所述推理结果发送给浮点服务端;
接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,并基于量化参数更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
具体地,浮点服务端基于推理结果来确定量化参数,然后将量化参数反馈给控制端,控制端根据量化参数更新离线的量化模型,其中,量化参数包括缩放尺寸scale和零点zero point。此外,控制端在基于量化参数更新所述离线量化模型后,可以将更新后的离线量化模型作为用于嵌入设备的离线量化模型,嵌入设备采用更新后的离散量化模型进行推理,其中,基于量化参数更新所述离线量化模型的过程可以为根据量化参数来更新量化模型,然后将更新后的量化模型发送给编译服务端,通过编译服务端对更新后的离线量化模型进行编译。
此外,在实际应用中,在基于推理结果更新离线量化模型后,嵌入设备部署更新后的离线量化模型确定的推理结果和离线量化模型本身的推理结果还存在差异,从而可以重复基于嵌入设备的推理结果更新离线量化模型的过程。相应的,所述接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,以使得所述嵌入设备基于量化参数更新的离散量化模型进行推理之后,所述方法还包括:
重复执行编译所述量化模型以得到离线量化模型,直至所述量化模型的量化精度满足预设量化要求。
具体地,预设量化要求为预先设置的,为量化参数更新迭代的结束调条件,其中,当量化模型的量化精度满足预设量化要求时,结束量化参数的迭代过程,得到用于布置于嵌入设备的量化模型,并将量化模型对应的离线量化模型部署于嵌入设备;当量化模型的量化精度未满足预设量化要求时,重新量化参数的迭代过程,直至量化模型的量化精度满足预设量化要求,或者迭代次数达到预设次数,以避免出现死循环的问题。
综上所述,本实施例提供了一种分布式量化方法,所述方法包括获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。本申请将量化后的离线量化模型发送给嵌入设备进行模型推理,然后基于嵌入设备的推理结果对量化模型进行修正,并将修正的量化模型布置于嵌入设备,这样可以保证量化模型本身的推理结果与其布置于嵌入设备后的推理结果一致,保证了嵌入设备的推理准确性。
基于上述分布式量化方法,本实施例提供了一种分布式量化系统,如同3所示,所述系统控制端和嵌入设备,所述嵌入设备与所述控制端相连接;所述控制用于获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
如图3所示,所述系统还包括浮点服务端,所述浮点服务端与所述控制端相连接;所述控制端还用于标注待量化模型中的待量化算子,并将标注后的待量化模型发送给浮点服务端;接收所述浮点服务端反馈的所述待量化模型对应的量化参数,并基于所述量化参数确定所述待量化模型对应的量化模型;以及接收所述嵌入设备反馈的推理结果,并将所述推理结果发送给浮点服务端;接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,并基于量化参数更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
如图3所示,所述系统还包括编译服务端,所述编译服务端与所述控制端相连接,所述控制端还用于将所述量化模型发送给编译服务端,并接收所述编译服务端反馈离线量化模型,其中,所述离线量化模型为通过所述编译服务端对所述量化模型进行编译所得到的。
基于上述分布式量化方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的分布式量化方法中的步骤。
基于上述分布式量化方法,本申请还提供了一种终端设备,如图4所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (5)
1.一种分布式量化方法,其特征在于,所述方法包括:
获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;
所述获取待量化模型对应的量化模型具体包括:
标注待量化模型中的待量化算子,并将标注后的待量化模型发送给浮点服务端;
接收所述浮点服务端反馈的所述待量化模型对应的量化参数,并基于所述量化参数确定所述待量化模型对应的量化模型;
所述编译所述量化模型以得到离线量化模型具体为:
将所述量化模型发送给编译服务端,并接收所述编译服务端反馈离线量化模型,其中,所述离线量化模型为通过所述编译服务端对所述量化模型进行编译所得到的;
将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;
接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理;
所述接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理具体包括:
接收所述嵌入设备反馈的推理结果,并将所述推理结果发送给浮点服务端;
接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,并基于量化参数更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理。
2.根据权利要求1所述分布式量化方法,其特征在于,所述接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型之后,所述方法还包括:
重复执行编译所述量化模型以得到离线量化模型的步骤,直至所述量化模型的量化精度满足预设量化要求。
3.一种分布式量化系统,其特征在于,所述分布式量化系统包括控制端和嵌入设备,所述嵌入设备与所述控制端相连接;所述控制端用于获取待量化模型对应的量化模型,并编译所述量化模型以得到离线量化模型;将所述离线量化模型发送给嵌入设备,以使得嵌入设备基于所述离线量化模型进行模型推理以得到推理结果;接收所述嵌入设备反馈的推理结果,基于所述推理结果更新量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理;
所述系统还包括浮点服务端,所述浮点服务端与所述控制端相连接;所述控制端还用于标注待量化模型中的待量化算子,并将标注后的待量化模型发送给浮点服务端;接收所述浮点服务端反馈的所述待量化模型对应的量化参数,并基于所述量化参数确定所述待量化模型对应的量化模型;以及接收所述嵌入设备反馈的推理结果,并将所述推理结果发送给浮点服务端;接收所述浮点服务端反馈的基于所述推理结果确定的量化参数,并基于量化参数更新所述量化模型,以使得所述嵌入设备基于更新后的量化模型对应的离线量化模型进行推理;
所述系统还包括编译服务端,所述编译服务端与所述控制端相连接,所述控制端还用于将所述量化模型发送给编译服务端,并接收所述编译服务端反馈离线量化模型,其中,所述离线量化模型为通过所述编译服务端对所述量化模型进行编译所得到的。
4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1-2任意一项所述的分布式量化方法中的步骤。
5.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1-2任意一项所述的分布式量化方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712173.7A CN115829035B (zh) | 2022-12-29 | 2022-12-29 | 一种分布式量化方法、系统及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211712173.7A CN115829035B (zh) | 2022-12-29 | 2022-12-29 | 一种分布式量化方法、系统及终端设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115829035A CN115829035A (zh) | 2023-03-21 |
CN115829035B true CN115829035B (zh) | 2023-12-08 |
Family
ID=85519420
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211712173.7A Active CN115829035B (zh) | 2022-12-29 | 2022-12-29 | 一种分布式量化方法、系统及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115829035B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128547A1 (zh) * | 2017-12-29 | 2019-07-04 | 华为技术有限公司 | 一种神经网络模型的训练方法及装置 |
CN111178258A (zh) * | 2019-12-29 | 2020-05-19 | 浪潮(北京)电子信息产业有限公司 | 一种图像识别的方法、系统、设备及可读存储介质 |
CN113067873A (zh) * | 2021-03-19 | 2021-07-02 | 北京邮电大学 | 基于深度强化学习的边云协同优化方法 |
CN113297855A (zh) * | 2021-06-25 | 2021-08-24 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法 |
EP3968184A1 (en) * | 2019-05-10 | 2022-03-16 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, electronic device, and computer storage medium for optimizing quantization model |
CN114399019A (zh) * | 2021-12-30 | 2022-04-26 | 南京风兴科技有限公司 | 神经网络编译方法、系统、计算机设备及存储介质 |
CN114580281A (zh) * | 2022-03-04 | 2022-06-03 | 北京市商汤科技开发有限公司 | 模型量化方法、装置、设备、存储介质及程序产品 |
WO2022121034A1 (zh) * | 2020-12-10 | 2022-06-16 | 广州广电运通金融电子股份有限公司 | 一种处理大数据标注服务高并发方法、系统及设备 |
CN114817500A (zh) * | 2022-04-26 | 2022-07-29 | 山东浪潮科学研究院有限公司 | 一种基于量化的长文本问答推理方法、设备及介质 |
-
2022
- 2022-12-29 CN CN202211712173.7A patent/CN115829035B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128547A1 (zh) * | 2017-12-29 | 2019-07-04 | 华为技术有限公司 | 一种神经网络模型的训练方法及装置 |
EP3968184A1 (en) * | 2019-05-10 | 2022-03-16 | Tencent Technology (Shenzhen) Company Limited | Method, apparatus, electronic device, and computer storage medium for optimizing quantization model |
CN111178258A (zh) * | 2019-12-29 | 2020-05-19 | 浪潮(北京)电子信息产业有限公司 | 一种图像识别的方法、系统、设备及可读存储介质 |
WO2022121034A1 (zh) * | 2020-12-10 | 2022-06-16 | 广州广电运通金融电子股份有限公司 | 一种处理大数据标注服务高并发方法、系统及设备 |
CN113067873A (zh) * | 2021-03-19 | 2021-07-02 | 北京邮电大学 | 基于深度强化学习的边云协同优化方法 |
CN113297855A (zh) * | 2021-06-25 | 2021-08-24 | 中国人民解放军战略支援部队航天工程大学 | 一种面向卫星在轨应用的嵌入式遥感影像文本生成方法 |
CN114399019A (zh) * | 2021-12-30 | 2022-04-26 | 南京风兴科技有限公司 | 神经网络编译方法、系统、计算机设备及存储介质 |
CN114580281A (zh) * | 2022-03-04 | 2022-06-03 | 北京市商汤科技开发有限公司 | 模型量化方法、装置、设备、存储介质及程序产品 |
CN114817500A (zh) * | 2022-04-26 | 2022-07-29 | 山东浪潮科学研究院有限公司 | 一种基于量化的长文本问答推理方法、设备及介质 |
Non-Patent Citations (1)
Title |
---|
曾凡毅 ; .基于深度学习的嵌入式云检测系统的设计与实现.工业控制计算机.2020,(第05期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN115829035A (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11861499B2 (en) | Method, terminal-side device, and cloud-side device for data processing and terminal-cloud collaboration system | |
US11410044B2 (en) | Application development platform and software development kits that provide comprehensive machine learning services | |
US11436050B2 (en) | Method, apparatus and computer program product for resource scheduling | |
CN105447498A (zh) | 配置有神经网络的客户端设备、系统和服务器系统 | |
WO2023050707A1 (zh) | 网络模型量化方法、装置、计算机设备以及存储介质 | |
CN110928553A (zh) | 深度学习模型的部署方法、装置和系统 | |
CN113033806B (zh) | 用于分布式计算集群调度的深度强化学习模型训练方法、装置及调度方法 | |
CN112884146B (zh) | 一种训练基于数据量化与硬件加速的模型的方法及系统 | |
CN112200296A (zh) | 网络模型量化方法、装置、存储介质及电子设备 | |
US11816545B2 (en) | Optimizing machine learning models | |
CN113434699A (zh) | Bert模型的预训练方法、计算机装置和存储介质 | |
CN116881641A (zh) | 预训练模型调整方法及装置、存储介质、计算设备 | |
CN115829035B (zh) | 一种分布式量化方法、系统及终端设备 | |
CN114258035B (zh) | 通信方法及装置、系统 | |
CN117251150A (zh) | 行业代码模型的训练和行业代码处理方法、装置、一体机 | |
CN110689137B (zh) | 参数确定方法、系统、介质和电子设备 | |
CN110502715B (zh) | 点击概率的预测方法及装置 | |
CN117396851A (zh) | 确定分布式训练算法框架配置方法、装置及系统 | |
CN113392249A (zh) | 图文信息分类方法、图文分类模型训练方法、介质及设备 | |
CN113485257A (zh) | 一种工业协议解析内置程序优化方法 | |
CN113822307A (zh) | 一种图像预测方法、设备和存储介质 | |
CN110795947B (zh) | 语句翻译方法和装置、存储介质及电子装置 | |
CN114186043B (zh) | 预训练方法、装置、设备和存储介质 | |
CN118378727B (zh) | 基于混合精度的数据处理方法、系统、产品、设备及介质 | |
CN115617381A (zh) | 持续集成流水线生成方法、装置、服务器、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |