CN116432742A - 一种模型压缩系统、方法及设备 - Google Patents

一种模型压缩系统、方法及设备 Download PDF

Info

Publication number
CN116432742A
CN116432742A CN202310435910.1A CN202310435910A CN116432742A CN 116432742 A CN116432742 A CN 116432742A CN 202310435910 A CN202310435910 A CN 202310435910A CN 116432742 A CN116432742 A CN 116432742A
Authority
CN
China
Prior art keywords
model
target model
compression
target
compressed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310435910.1A
Other languages
English (en)
Inventor
张长浩
申书恒
傅欣艺
傅幸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202310435910.1A priority Critical patent/CN116432742A/zh
Publication of CN116432742A publication Critical patent/CN116432742A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种模型压缩系统、方法及设备,该方法应用于模型压缩系统,包括:获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构,基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型,导出所述压缩后的目标模型。

Description

一种模型压缩系统、方法及设备
技术领域
本文件涉及计算机技术领域,尤其涉及一种模型压缩系统、方法及设备。
背景技术
在深度学习时代,算力的需求和消耗日益增长,而且近年来鲜有资源的被大批量申请使用,在有限的资源下开发某些算法逐渐降成为后续常态的工作方式,另外,低碳排放成为全球的主题,因此绿色AI的趋势也越来越明显,基于以上因素,模型压缩成为至关重要的技术,因为大多数的模型压缩技术能够实现在模型精度不降低太多的情况下,减少较多的资源消耗。为此,需要提供一种更好的模型轻量化的压缩框架,从而实现模型的最大化自动化压缩。
发明内容
本说明书实施例的目的是提供一种更好的模型轻量化的压缩框架,从而实现模型的最大化自动化压缩。
为了实现上述技术方案,本说明书实施例是这样实现的:
第一方面,本说明书实施例提供的一种模型压缩系统,所述系统包括模型结构拓扑子系统、模型压缩子系统和导出子系统,其中:所述模型结构拓扑子系统,被配置为获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构。所述模型压缩子系统,被配置为基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型。所述导出子系统,被配置为将所述模型压缩子系统得到的压缩后的目标模型导出。
第二方面,本说明书实施例提供的一种模型压缩方法,所述方法应用于模型压缩系统,包括:获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构。基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型。导出所述压缩后的目标模型。
第三方面,本说明书实施例提供的一种模型压缩设备,所述模型压缩设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构。基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型。导出所述压缩后的目标模型。
第四方面,本说明书实施例还提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令在被处理器执行时实现以下流程:获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构。基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型。导出所述压缩后的目标模型。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图;
图1为本说明书一种模型压缩系统的结构示意图;
图2为本说明书另一种模型压缩系统的结构示意图;
图3为本说明书一种模型的分层压缩的示意图;
图4为本说明书一种模型压缩方法实施例;
图5为本说明书另一种模型压缩方法实施例;
图6为本说明书一种模型压缩设备实施例。
图例说明:
100-模型压缩系统,110-模型结构拓扑子系统、120-模型压缩子系统,121-量化模块,122-剪枝模块,130-导出子系统。
具体实施方式
本说明书实施例提供一种模型压缩系统、方法及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种更优的模型轻量化的压缩框架,该框架可以封装成相应的模型压缩系统,该模型压缩系统可以通过软件的方式安装在指定的电子设备中,这样,模型压缩系统可以运行于电子设备中,其中的电子设备可以是终端设备,也可以是服务器等,终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以如IoT设备(具体如智能手表、车载设备等)等,服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器,还可以是用于进行模型压缩的服务器等,具体可以根据实际情况设定。在实际应用中,模型压缩更多地需要从算法层面来进行压缩,但模型压缩中的算法形式非常多样,包括很多不同种类的算法,而且,上述算法使用门槛高,不同算法需要了解其内部的原理,并且需要改写相应的程序代码,此外,不同算法组合较困难,为此,针对模型压缩算法的门槛等问题,以便利高效为目的,提出了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,此外,还可以实现压缩分级,以便更好适应不同接入成本和不同压缩的目的,而且,能够将计算图谱层面的优化自动完成。具体处理可以参见下述实施例中的具体内容。
实施例一
如图1所示,本说明书实施例提供一种模型压缩系统,该模型压缩系统可以提供模型轻量化的压缩框架,该模型压缩系统可以实现对多种不同业务中的模型进行压缩的目的,其中的不同业务可以包括如支付业务、购物业务或风险防控业务等,不同的业务,其需要进行压缩处理的模型可以不同,例如,支付业务中需要进行压缩处理的模型可以包括生物识别模型、支付风险检测模型等,购物业务中需要进行压缩处理的模型可以包括信息推荐模型等,风险防控业务中需要进行压缩处理的模型可以包括针对欺诈风险、非法交易风险的风险防控模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
如图1所示,针对模型压缩系统100,由于其包含多种不同的功能,因此,可以基于模型压缩系统100的功能不同和分工不同,将模型压缩系统100划分为3个不同的子系统,即模型压缩系统100可以包括模型结构拓扑子系统110、模型压缩子系统120和导出子系统130。其中:
模型结构拓扑子系统110可以作为模型压缩系统100的输入端,同时可以对输入的模型进行分析,进而确定模型中包含的各个结构,以及不同结构之间的关联关系,为了实现上述处理,模型结构拓扑子系统110中设置有一个或多个不同的算法,也可以设置有多种不同的处理流程等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
模型压缩子系统120是模型压缩系统100的重要组成部分,模型压缩子系统120中可以包括多种不同的压缩工具或压缩算法,通过多种不同的压缩工具或压缩算法,可以逐步地将待压缩的模型压缩到较优的状态,从而实现对模型的最大化压缩。需要说明的是,针对不同的模型,可以选择模型压缩子系统120中不同的压缩工具或压缩算法进行处理,例如,针对模型A,可以使用模型压缩子系统120中的算法1、算法2和算法3相结合,从而对模型A进行压缩处理,针对模型B,可以使用模型压缩子系统120中的算法1、算法4和算法5相结合,从而对模型B进行压缩处理。可以根据实际情况选取合适的压缩工具或压缩算法设置于模型压缩子系统120,例如可以选取较优的、兼容性较好的模型剪枝算法和模型量化算法等多种不同的算法设置于模型压缩子系统120,不同的模型,可以选择不同的模型剪枝算法和模型量化算法对该模型进行压缩处理。
导出子系统130可以作为模型压缩系统100的输出端,可以用于将指定的模型导出,以便后续可以存储或使用该模型,此外,为了满足不同的模型导出要求,其中可以设置有多个不同的转换算法,可以将指定的模型转换为满足要求的模型。
在深度学习时代,算力的需求和消耗日益增长,而且近年来鲜有资源的被大批量申请使用,在有限的资源下开发某些算法逐渐降成为后续常态的工作方式,另外,低碳排放成为全球的主题,因此绿色AI的趋势也越来越明显,基于以上因素,模型压缩成为至关重要的技术,因为大多数的模型压缩技术能够实现在模型精度不降低太多的情况下,减少较多的资源消耗。
模型压缩更多地需要从算法层面来进行压缩,但模型压缩中的算法形式非常多样,包括很多不同种类的算法,而且,上述算法使用门槛高,不同算法需要了解其内部的原理,并且需要改写相应的程序代码,此外,不同算法组合较困难。为此,需要提供一种更优的模型轻量化的压缩机制。本说明书实施例提供一种可实现的技术方案,即一种模型压缩系统100,该模型压缩系统100可以包括模型结构拓扑子系统110、模型压缩子系统120和导出子系统130等,模型结构拓扑子系统110可以与模型压缩子系统120相连接,模型压缩子系统120可以与导出子系统130相连接。该模型压缩系统100具体可以包括以下内容:
模型结构拓扑子系统110,被配置为获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构。
其中,目标模型可以是任意模型,例如,目标模型可以是支付业务中的生物识别模型、支付风险检测模型等,也可以是购物业务中的信息推荐模型等,还可以是风险防控业务中针对欺诈风险、非法交易风险的风险防控模型等,具体还可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,当需要对某模型(即目标模型)进行压缩时,可以将该目标模型输入到模型压缩系统100中,此时,可以进入模型压缩过程的准备阶段,具体地,模型压缩系统100中的模型结构拓扑子系统110可以获取目标模型,并可以将目标模型确定为待压缩的模型,模型结构拓扑子系统110可以对目标模型执行准备阶段的处理,模型结构拓扑子系统110可以启动预先设置的算法或处理流程对目标模型进行初步分析,确定目标模型属于哪一类(如神经网络类、决策树类等)模型,然后,可以根据模型所属的类别,选取相应的分析算法或分析流程对目标模型进行分析,从而确定目标模型中包含的不同算子之间的拓扑关系,可以根据目标模型中包含的不同算子之间的拓扑关系,进一步分析得到目标模型的拓扑结构,从而可以得到目标模型中包含的网络层和网络层中包含的算子等,而且还可以得到目标模型中不同网络层之间的关系,以及不同网络层中不同算子之间的关系等,具体也可以根据实际情况设定。
模型压缩子系统120,被配置为基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型。
其中,压缩规则可以包括多种,例如,压缩规则中可以包括使用哪些压缩算法、所要达到的压缩程度(如压缩比例等)等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,模型结构拓扑子系统110得到目标模型的拓扑结构后,可以将目标模型的拓扑结构传递给模型压缩子系统120,此外,模型结构拓扑子系统110也可以将分析出的目标模型的模型参数传递给模型压缩子系统120,或者,模型压缩子系统120也可以从目标模型中提取其中包含的模型参数,具体可以根据实际情况设定。模型压缩子系统120可以对目标模型的拓扑结构和目标模型中的模型参数进行联合分析,确定目标模型的复杂程度、目标模型中不同结构的重要性、不同模型参数的重要性等分析结果,可以基于上述分析结果从原先设置的压缩规则中选取与该分析结果相匹配的压缩规则,可以将选取的压缩规则作为目标模型的压缩规则。然后,可以使用确定的压缩规则,对目标模型的拓扑结构和目标模型中的模型参数进行相应的计算处理,从而使得目标模型的结构更加简化,从而达到对目标模型进行压缩处理的目的,最终,可以得到压缩后的目标模型。例如,根据对目标模型的拓扑结构和目标模型中的模型参数进行联合分析的分析结果确定目标模型中包含很多冗余的模型参数,模型压缩子系统120可以选取相应的压缩规则,并可以通过该压缩规则将上述冗余的模型参数消除,并可以基于消除的模型参数适应性的修剪目标模型的模型结构,最终处理后的模型即可以作为压缩后的目标模型。
需要说明的是,在实际应用中,对目标模型的压缩处理可以包括多种,上述处理方式仅是一种可选的处理方式,在实际应用中还可以通过其它多种不同的方式对目标模型进行压缩处理,具体可以根据实际情况设定,本说明书实施例对此不做限定。
导出子系统130,被配置为将模型压缩子系统120得到的压缩后的目标模型导出。
在实际应用中,导出子系统130可以直接将上述压缩后的目标模型导出给指定的设备存储或使用,也可以再对压缩后的目标模型进行转换,以将压缩后的目标模型转换为满足指定要求的模型,之后导出该模型,具体可以根据实际情况设定,本说明书实施例对此不做限定。
本说明书实施例提供一种模型压缩系统,包括模型结构拓扑子系统、模型压缩子系统和导出子系统,其中:模型结构拓扑子系统,被配置为获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构,模型压缩子系统,被配置为基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型,导出子系统,被配置为将模型压缩子系统得到的压缩后的目标模型导出,这样,提供了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,全程不需要手动进行模型压缩处理,而是由系统自动完成模型的压缩,进而提供模型压缩的效率,而且,能够将计算图谱层面的优化自动完成,从而使得模型压缩算法的门槛降低,可以更加便利高效的进行模型压缩处理。
实施例二
本说明书实施例提供一种模型压缩系统,该模型压缩系统包含了图1所示的模型压缩系统的全部功能单元,并在其基础上,对其进行了改进,改进内容如下:
其中,模型结构拓扑子系统110确定目标模型中包含的算子之间的拓扑关系的处理,可以多种多样,以下再提供一种可实现的处理方式,具体可以包括:模型结构拓扑子系统110,被配置为通过对目标模型进行前向传播,确定目标模型中包含的算子之间的拓扑关系,或者,通过对目标模型进行逆向传播,确定目标模型中包含的算子之间的拓扑关系。
在实施中,可以预先设定传播因子(具体如包含目标模型的输入数据的因子),并可以在该传播因子中设置多个不同的检测埋点,然后,可以将该传播因子输入到目标模型中,随着传播因子在目标模型中逐步传播,检测埋点可以检测传播过程中所经过的模型结构和算子,以及不同模型结构之间的关系和不同算子之间的关系等,最终,可以得到目标模型中包含的算子之间的拓扑关系。同样的,还可以预先设定逆向传播的传播因子(具体如包含目标模型的梯度的因子),并可以在该传播因子中设置多个不同的检测埋点,然后,可以将该传播因子输入到目标模型的输出层中,随着传播因子在目标模型中逆向传播,检测埋点可以检测传播过程中所经过的模型结构和算子,以及不同模型结构之间的关系和不同算子之间的关系等,最终,可以得到目标模型中包含的算子之间的拓扑关系。
此外,在实际应用中,如图2所示,模型压缩处理可以包括多种不同的处理方式,例如模型量化处理、模型剪枝处理等,本说明书实施例中提供两种处理方式,具体可以包括:模型压缩子系统120包括量化模块121和/或剪枝模块122,其中:量化模块121,被配置为使用确定的压缩规则,基于预设的量化算法分别对目标模型的拓扑结构和目标模型中的模型参数进行量化处理;和/或,剪枝模块122,被配置为使用确定的压缩规则,基于预设的剪枝类算法对目标模型的拓扑结构和目标模型中的模型参数进行剪枝处理。
在实施中,模型量化是通过一组整数值来近似目标模型中的连续值信号的过程,考虑到目标模型中可能会存在浮点参数,而浮点参数会增加读写存储的计算和时延,从而降低嵌入式系统推理的速度,为此,可以在模型压缩子系统120中设置量化模块121,量化模块121中可以设置有量化算法,量化算法不同,量化处理的具体方式可以不同,例如,针对模型权重,可以使用确定的压缩规则,基于相应的量化算法对模型权重进行量化处理,通过量化、聚类和共享等处理,可以将目标模型的存储所需要的空间大大降低,对于训练后的目标模型,也可以使用确定的压缩规则,基于相应的量化算法对模型权重进行量化处理,通过量化、聚类和共享等处理,之后再重新训练优化目标模型。
再例如,可以通过该量化算法将目标模型中的浮点参数转换成针对硬件并行计算更友好的int整数进行计算,具体如,可以将FP32浮点参数转换成int8乃至int4、int2等类型的整数,从而可以大大降低读写存储的计算和时延,提高嵌入式系统推理的速度,具体地,可以构建一种FP32数据向Int8数据的映射关系,对从目标模型中采集的数据构建一个直方图,并生成多个量化分布,然后寻找最小阈值的量化,该最小阈值可以通过一个矫正数据来进行选择,选择的标准可以是最小化KL散度,最终可以得到上述映射关系。可以基于上述映射关系将FP32浮点参数转换成int8整数形式的参数,从而达到量化目标模型的目的。
又例如,可以采用对数量化的方式对应的量化算法和使用确定的压缩规则对目标模型进行量化处理,与乘法运算相比,移位运算在硬件中的实现成本较低,可以去掉浮点乘法运算,取而代之的是位反转和位移位等处理,从而达到量化目标模型的目的。
模型剪枝可以是探索目标模型中的模型参数的冗余情况,并尝试去除目标模型中的冗余和对结果影响不大的非关键模型参数的方式,模型剪枝可以分为基于度量标准、基于重建误差、基于稀疏训练的方式等,其中,基于度量标准的方式可以通过判断目标模型中的某部分的重要性,将重要性较低的部分进行裁剪,其中,可以用于度量目标模型中的某部分重要性的元素包括:模型权重Weight和激活Activation。其中针对模型权重Weight的方式,可以如对滤波器进行剪枝,通过权重的L1-Norm判断滤波器的重要性,进而剪掉重要性较低的权重,或者,基于重要性因子网络微调Network Trimming,评估一个通道的有效性,再结合约束一些通道使得目标模型结构本身具有稀疏性从而进行剪枝处理,也可以利用重建误差来指导剪枝,间接衡量一个通道对于输出的影响,还可以基于优化目标的变化来衡量通道的敏感性,进而进行剪枝处理。针对激活Activation的方式,可以采用激活Activations中的比例(具体如用激活activations中0的比例)作为度量标准,通过激活的稀疏性来判断一个通道的重要性,将更高稀疏性的通道剪除,或者,也可以基于信息熵进行剪枝处理等。除了可以通过上述方式进行剪枝处理外,还可以通过反向传播来对整个目标模型中的网络的重要性进行打分评估,一次性完成剪枝处理。此外,还可以通过动态剪枝的方式对应的量化算法和使用确定的压缩规则对目标模型进行量化处理,具体地,可以使用通道阈值加权来决策需要动态修剪的通道,进而利用改变输入数据减少计算、带宽和功耗来克服静态修剪的限制。另外,还可以通过自动化剪枝的方式对应的量化算法和使用确定的压缩规则对目标模型进行量化处理,具体如,可以使用强化学习来实现自动化压缩目标模型,采用强化学习中的DDPG(深度确定性策略梯度法)来产生连续空间上的具体压缩比率,通过约束FLOPs和准确率设定奖励值,上述得到的压缩策略是可以适应当前硬件环境的。
另外,量化模块中设置有量化算法,该量化算法可以包括QAT算法和PTQ算法,剪枝模块中设置有剪枝类算法,该剪枝类算法可以包括OneShot算法。
在实施中,量化感知QAT算法是一种在训练阶段引入量化处理的算法,通过一边量化一边训练,可以降低量化过程带来的精度损失,通过end-to-end training微调训练后的目标模型的模型参数,使得目标模型对量化的鲁棒性更强,从而缓和造成的精度下降问题,而且通过QAT,也能够达成更低位,例如INT4的量化处理,从而进一步轻量化模型与提高推理效率。
后量化PTQ算法可以使用全局(逐层)量化将全精度的目标模型缩减为整数位的目标模型。通过QAT算法和PTQ算法分别可以实现对目标模型的拓扑结构和目标模型中的模型参数进行量化处理,具体地,可以使用确定的压缩规则,基于QAT算法对目标模型的拓扑结构和目标模型中的模型参数进行量化处理,或者,可以使用确定的压缩规则,基于PTQ算法对目标模型的拓扑结构和目标模型中的模型参数进行量化处理。
此外,模型压缩子系统120,被配置为获取用于训练压缩后的目标模型的训练程序,将训练程序与压缩后的目标模型进行融合处理,得到融合后的目标模型;导出子系统130,被配置为将模型压缩子系统120得到的融合后的目标模型导出。
另外,上述训练程序可以包括使用知识蒸馏算法对压缩后的目标模型进行模型训练的程序,和/或,包括使用网络架构搜索NAS算法对压缩后的目标模型进行模型优化训练的程序。
在实施中,还可以通过网络结构优化的方式对目标模型进行压缩,具体地,可以使用知识蒸馏算法实现对目标模型的压缩,知识蒸馏算法通过参数量巨大且性能优异的压缩后的目标模型训练一个小的模型,也可以通过自蒸馏的方式挑选一个性能和推理速度相对平衡的模型,从而可以通过知识蒸馏的方式学习蒸馏模型并训练更紧凑和更小的模型来再现更大模型的输出和保持相当的性能。
NAS算法是通过自动搜索更紧凑和更小参数量的模型来保持较高的性能的一种模型压缩算法,此外,在模型部署到嵌入式系统之前,还可以通过算子转换(例如卷积转换GEMM、Winagrad等)以及算子融合等手段进一步降低计算量和降低存储读写带宽,加快模型推理的速度。
基于NAS的知识蒸馏算法,上述的知识蒸馏算法中知识迁移的成功不仅取决于教师模型的知识,还取决于学生模型的架构,但是教师模型和学生模型存在较大的能力差距,导致较难让学生模型很好的学习到教师模型的知识,因此,采用NAS算法来找到合适的学生模型。
此外,导出子系统130,还被配置为将融合后的目标模型或压缩后的目标模型转换为能够由TensorRT运行的转换模型,导出该转换模型,或者,支持CPU的TVM框架。
另外,量化模块,被配置为获取目标模型中包含的预设运算操作,并使用确定的压缩规则,基于预设的量化算法为预设运算操作创建相应的算子;获取Fuse_Model函数,并使用Fuse_Model函数对预设算子进行融合处理,得到融合的算子;获取目标模型中包含的Forward函数,并使用确定的压缩规则,基于预设的量化算法将Forward函数替换为QuantStub函数或DeQuantStub函数;获取Prepare_Qat函数,并使用Prepare_Qat函数将得到的计算图谱转换为量化计算图谱。
在实施中,可以根据实际情况,可以通过PyTorch设计量化模块,通过量化模块中设置的应用程序自动修改目标模型的Forward函数,插入QuantStub函数或DeQuantStub函数。此外,可以通过量化模块中设置的应用程序自动将目标模型中涉及的所有add、mul、cat等预设运算操作替换为相应的算子,如torch.nn.quantized.FloatFunctional,具体如Forward函数中的程序代码行x=a+b,可以创建一个对应的算子self.add0=torch.nn.quantized.FloatFunctional(),然后在Forward函数中调用x=self.add0.add(a,b)。此外,可以预先编写Fuse_Model函数,并使用Fuse_Model函数对预设算子进行融合处理,得到融合的算子,例如相邻的Conv2D与BatchNorm2D,可以融合为ConvBN2D等。此外,可以构建更智能的Prepare_Qat函数,可以调用Prepare_Qat函数将计算图转换为量化计算图。
此外,上述模型压缩系统可以实现分层压缩,在实际应用中,如图3所示,可以分成三级自动压缩机制,第一层,可以只需要直接导入目标模型中的数据和未压缩的目标模型,可以得到初步压缩后的目标模型,第二层,为了进一步提高效果,比如量化后或者剪枝后,再进行知识蒸馏处理,需要加入训练程序,得到更好的模型压缩比,第三层,如果考虑更优的压缩效果,就可以采用硬件感知的NAS,结合硬件的耗时等信息进行压缩处理。
本说明书实施例提供一种模型压缩系统,模型压缩系统,包括模型结构拓扑子系统、模型压缩子系统和导出子系统,其中:模型结构拓扑子系统,被配置为获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构,模型压缩子系统,被配置为基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型,导出子系统,被配置为将模型压缩子系统得到的压缩后的目标模型导出,这样,提供了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,全程不需要手动进行模型压缩处理,而是由系统自动完成模型的压缩,进而提供模型压缩的效率,而且,能够将计算图谱层面的优化自动完成,从而使得模型压缩算法的门槛降低,可以更加便利高效的进行模型压缩处理。此外,还可以实现压缩分级,以便更好适应不同接入成本和不同压缩的目的。
实施例三
如图4所示,本说明书实施例提供一种模型压缩方法,该方法的执行主体可以为模型压缩系统,模型压缩系统可以包括模型结构拓扑子系统、模型压缩子系统和导出子系统,各子系统的功能可以参见上述实施例中的相关内容,在此不再赘述。模型压缩系统中可以设置于终端设备或服务器中等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法具体可以包括以下步骤:
在步骤S402中,获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构。
在步骤S404中,基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型。
在步骤S406中,导出压缩后的目标模型。
本说明书实施例提供一种模型压缩方法,应用于模型压缩系统,模型压缩系统包括模型结构拓扑子系统、模型压缩子系统和导出子系统,通过上述模型压缩系统可以实现获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构,然后,基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型,最终,可以将模型压缩子系统得到的压缩后的目标模型导出,这样,提供了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,全程不需要手动进行模型压缩处理,而是由系统自动完成模型的压缩,进而提供模型压缩的效率,而且,能够将计算图谱层面的优化自动完成,从而使得模型压缩算法的门槛降低,可以更加便利高效的进行模型压缩处理。
实施例四
如图5所示,本说明书实施例提供一种模型压缩方法,该方法的执行主体可以为模型压缩系统,模型压缩系统可以包括模型结构拓扑子系统、模型压缩子系统和导出子系统,各子系统的功能可以参见上述实施例中的相关内容,在此不再赘述。模型压缩系统中可以设置于终端设备或服务器中等,其中的终端设备可以如手机、平板电脑等移动终端设备,还可以如笔记本电脑或台式电脑等计算机设备,或者,也可以为IoT设备(具体如智能手表、车载设备等)等,其中的服务器可以是独立的一个服务器,还可以是由多个服务器构成的服务器集群等,该服务器可以是如金融业务或网络购物业务等的后台服务器,也可以是某应用程序的后台服务器等。该方法具体可以包括以下步骤:
在步骤S502中,获取待压缩的目标模型,并通过对目标模型进行前向传播,确定目标模型中包含的算子之间的拓扑关系;或者,通过对目标模型进行逆向传播,确定目标模型中包含的算子之间的拓扑关系。
在步骤S504中,基于该拓扑关系,确定目标模型的拓扑结构。
在步骤S506中,基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则。
在步骤S508中,使用确定的压缩规则,基于预设的量化算法分别对目标模型的拓扑结构和目标模型中的模型参数进行量化处理;和/或,使用确定的压缩规则,基于预设的剪枝类算法对目标模型的拓扑结构和目标模型中的模型参数进行剪枝处理。
其中,量化算法可以包括QAT算法和PTQ算法,该剪枝类算法可以包括OneShot算法。
上述步骤S508的具体可以通过下述方式实现:获取目标模型中包含的预设运算操作,并使用确定的压缩规则,基于预设的量化算法为预设运算操作创建相应的算子;获取Fuse_Model函数,并使用Fuse_Model函数对预设算子进行融合处理,得到融合的算子;获取目标模型中包含的Forward函数,并使用确定的压缩规则,基于预设的量化算法将Forward函数替换为QuantStub函数或DeQuantStub函数;获取Prepare_Qat函数,并使用Prepare_Qat函数将得到的计算图谱转换为量化计算图谱。
通过上述方式得到的压缩后的目标模型后,可以导出压缩后的目标模型或进行转换,即将压缩后的目标模型转换为能够由TensorRT运行的转换模型,导出该转换模型。
在步骤S510中,获取用于训练压缩后的目标模型的训练程序,将训练程序与压缩后的目标模型进行融合处理,得到融合后的目标模型。
其中,训练程序可以包括使用知识蒸馏算法对压缩后的目标模型进行模型训练的程序,和/或,可以包括使用网络架构搜索NAS算法对压缩后的目标模型进行模型优化训练的程序。
在步骤S512中,导出融合后的目标模型,或者,将融合后的目标模型转换为能够由TensorRT运行的转换模型,导出该转换模型。
本说明书实施例提供一种模型压缩方法,应用于模型压缩系统,模型压缩系统包括模型结构拓扑子系统、模型压缩子系统和导出子系统,通过上述模型压缩系统可以实现获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构,然后,基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型,最终,可以将模型压缩子系统得到的压缩后的目标模型导出,这样,提供了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,全程不需要手动进行模型压缩处理,而是由系统自动完成模型的压缩,进而提供模型压缩的效率,而且,能够将计算图谱层面的优化自动完成,从而使得模型压缩算法的门槛降低,可以更加便利高效的进行模型压缩处理。此外,还可以实现压缩分级,以便更好适应不同接入成本和不同压缩的目的。
实施例五
以上为本说明书实施例提供的模型压缩方法,基于同样的思路,本说明书实施例还提供一种模型压缩设备,如图6所示。
所述模型压缩设备中可以设置有为上述实施例提供的模型压缩系统,模型压缩系统可以包括模型结构拓扑子系统、模型压缩子系统和导出子系统,各子系统的功能可以参见上述实施例中的相关内容,在此不再赘述。模型压缩系统中可以设置于终端设备或服务器中等。
模型压缩设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器601和存储器602,存储器602中可以存储有一个或一个以上存储应用程序或数据。其中,存储器602可以是短暂存储或持久存储。存储在存储器602的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对模型压缩设备中的一系列计算机可执行指令。更进一步地,处理器601可以设置为与存储器602通信,在模型压缩设备上执行存储器602中的一系列计算机可执行指令。模型压缩设备还可以包括一个或一个以上电源603,一个或一个以上有线或无线网络接口604,一个或一个以上输入输出接口605,一个或一个以上键盘606。
具体在本实施例中,模型压缩设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对模型压缩设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构;
基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型;
导出所述压缩后的目标模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于模型压缩设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种模型压缩设备,其中包括模型压缩系统,模型压缩系统包括模型结构拓扑子系统、模型压缩子系统和导出子系统,通过上述模型压缩系统可以实现获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构,然后,基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型,最终,可以将模型压缩子系统得到的压缩后的目标模型导出,这样,提供了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,全程不需要手动进行模型压缩处理,而是由系统自动完成模型的压缩,进而提供模型压缩的效率,而且,能够将计算图谱层面的优化自动完成,从而使得模型压缩算法的门槛降低,可以更加便利高效的进行模型压缩处理。此外,还可以实现压缩分级,以便更好适应不同接入成本和不同压缩的目的。
实施例六
进一步地,基于上述图4到图5所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为U盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构;
基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型;
导出所述压缩后的目标模型。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于上述一种存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书实施例提供一种存储介质,通过获取待压缩的目标模型,并确定目标模型中包含的算子之间的拓扑关系,基于该拓扑关系,确定目标模型的拓扑结构,然后,基于目标模型的拓扑结构和目标模型中的模型参数,确定目标模型的压缩规则,使用确定的压缩规则,基于目标模型的拓扑结构和目标模型中的模型参数对目标模型进行压缩处理,得到压缩后的目标模型,最终,可以将模型压缩子系统得到的压缩后的目标模型导出,这样,提供了一种模型轻量化的压缩框架,可以将模型压缩的三个主要要素进行整合,能够实现统一优化或配合优化,全程不需要手动进行模型压缩处理,而是由系统自动完成模型的压缩,进而提供模型压缩的效率,而且,能够将计算图谱层面的优化自动完成,从而使得模型压缩算法的门槛降低,可以更加便利高效的进行模型压缩处理。此外,还可以实现压缩分级,以便更好适应不同接入成本和不同压缩的目的。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray,FPGA))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(Hardware Description Language,HDL),而HDL也并非仅有一种,而是有许多种,如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等,目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。

Claims (11)

1.一种模型压缩系统,所述系统包括模型结构拓扑子系统、模型压缩子系统和导出子系统,其中:
所述模型结构拓扑子系统,被配置为获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构;
所述模型压缩子系统,被配置为基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型;
所述导出子系统,被配置为将所述模型压缩子系统得到的压缩后的目标模型导出。
2.根据权利要求1所述的系统,所述模型结构拓扑子系统,被配置为通过对所述目标模型进行前向传播,确定所述目标模型中包含的算子之间的拓扑关系,或者,通过对所述目标模型进行逆向传播,确定所述目标模型中包含的算子之间的拓扑关系。
3.根据权利要求2所述的系统,所述模型压缩子系统包括量化模块和/或剪枝模块,其中:
所述量化模块,被配置为使用确定的压缩规则,基于预设的量化算法分别对所述目标模型的拓扑结构和所述目标模型中的模型参数进行量化处理;和/或,
所述剪枝模块,被配置为使用确定的压缩规则,基于预设的剪枝类算法对所述目标模型的拓扑结构和所述目标模型中的模型参数进行剪枝处理。
4.根据权利要求3所述的系统,所述量化模块中设置有所述量化算法,所述量化算法包括QAT算法和PTQ算法,所述剪枝模块中设置有所述剪枝类算法,所述剪枝类算法包括OneShot算法。
5.根据权利要求4所述的系统,所述量化模块,被配置为获取所述目标模型中包含的预设运算操作,并使用确定的压缩规则,基于预设的量化算法为所述预设运算操作创建相应的算子;
获取Fuse_Model函数,并使用所述Fuse_Model函数对预设算子进行融合处理,得到融合的算子;
获取所述目标模型中包含的Forward函数,并使用确定的压缩规则,基于预设的量化算法将所述Forward函数替换为QuantStub函数或DeQuantStub函数;
获取Prepare_Qat函数,并使用所述Prepare_Qat函数将得到的计算图谱转换为量化计算图谱。
6.根据权利要求1-5中任一项所述的系统,所述模型压缩子系统,被配置为获取用于训练所述压缩后的目标模型的训练程序,将所述训练程序与所述压缩后的目标模型进行融合处理,得到融合后的目标模型;
所述导出子系统,被配置为将所述模型压缩子系统得到的融合后的目标模型导出。
7.根据权利要求6所述的系统,所述训练程序包括使用知识蒸馏算法对所述压缩后的目标模型进行模型训练的程序,和/或,包括使用网络架构搜索NAS算法对所述压缩后的目标模型进行模型优化训练的程序。
8.根据权利要求6所述的系统,所述导出子系统,还被配置为将所述融合后的目标模型或压缩后的目标模型转换为能够由TensorRT运行的转换模型,导出所述转换模型。
9.一种模型压缩方法,所述方法应用于模型压缩系统,包括:
获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构;
基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型;
导出所述压缩后的目标模型。
10.根据权利要求9所述的方法,所述导出所述压缩后的目标模型,包括:
将所述压缩后的目标模型转换为能够由TensorRT运行的转换模型,导出所述转换模型。
11.一种模型压缩设备,所述模型压缩设备包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待压缩的目标模型,并确定所述目标模型中包含的算子之间的拓扑关系,基于所述拓扑关系,确定所述目标模型的拓扑结构;
基于所述目标模型的拓扑结构和所述目标模型中的模型参数,确定所述目标模型的压缩规则,使用确定的压缩规则,基于所述目标模型的拓扑结构和所述目标模型中的模型参数对所述目标模型进行压缩处理,得到压缩后的目标模型;
导出所述压缩后的目标模型。
CN202310435910.1A 2023-04-19 2023-04-19 一种模型压缩系统、方法及设备 Pending CN116432742A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310435910.1A CN116432742A (zh) 2023-04-19 2023-04-19 一种模型压缩系统、方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310435910.1A CN116432742A (zh) 2023-04-19 2023-04-19 一种模型压缩系统、方法及设备

Publications (1)

Publication Number Publication Date
CN116432742A true CN116432742A (zh) 2023-07-14

Family

ID=87094214

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310435910.1A Pending CN116432742A (zh) 2023-04-19 2023-04-19 一种模型压缩系统、方法及设备

Country Status (1)

Country Link
CN (1) CN116432742A (zh)

Similar Documents

Publication Publication Date Title
CN109933834B (zh) 一种时序数据预测的模型创建方法及装置
CN116304720B (zh) 一种代价模型训练的方法、装置、存储介质及电子设备
Haleem et al. Haar wavelet-based adaptive finite volume shallow water solver
CN116663618B (zh) 一种算子优化方法、装置、存储介质及电子设备
CN114943307B (zh) 一种模型训练的方法、装置、存储介质以及电子设备
CN110634030A (zh) 应用的业务指标挖掘方法、装置及设备
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN115660070A (zh) 一种对抗生成神经网络压缩方法
JP2016521024A (ja) データ量軽減装置
Guo et al. Boolnet: minimizing the energy consumption of binary neural networks
CN117009093B (zh) 降低神经网络推理所需内存占用量的重计算方法和系统
CN116341642B (zh) 一种数据处理的方法、装置、存储介质及电子设备
CN116432742A (zh) 一种模型压缩系统、方法及设备
CN114861871B (zh) 一种卷积神经网络在加速器上的推理性能评估系统
CN116561584A (zh) 基于变分量子电路的语音隐私推断方法、装置及存储介质
CN116822606A (zh) 一种异常检测模型的训练方法、装置、设备及存储介质
CN115545943A (zh) 一种图谱的处理方法、装置及设备
CN111242195B (zh) 模型、保险风控模型训练方法、装置及电子设备
CN115905624B (zh) 一种用户行为状态的确定方法、装置及设备
Kamath et al. Compressing unstructured mesh data using spline fits, compressed sensing, and regression methods
CN116451802A (zh) 一种模型的处理方法、装置及设备
US12118018B2 (en) Data classification method and apparatus, device and storage medium
CN116340469B (zh) 一种同义词挖掘方法、装置、存储介质及电子设备
CN116185307B (zh) 一种模型数据的存储方法、装置、存储介质及电子设备
CN118245800A (zh) 数据增强处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination