CN115510299A - 数据分类方法、模型压缩方法、装置、设备及程序产品 - Google Patents

数据分类方法、模型压缩方法、装置、设备及程序产品 Download PDF

Info

Publication number
CN115510299A
CN115510299A CN202110634130.0A CN202110634130A CN115510299A CN 115510299 A CN115510299 A CN 115510299A CN 202110634130 A CN202110634130 A CN 202110634130A CN 115510299 A CN115510299 A CN 115510299A
Authority
CN
China
Prior art keywords
model
data
local
global
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110634130.0A
Other languages
English (en)
Inventor
汤人杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202110634130.0A priority Critical patent/CN115510299A/zh
Publication of CN115510299A publication Critical patent/CN115510299A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种数据分类方法、模型压缩方法、装置、设备及程序产品,该模型压缩方法包括:获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。

Description

数据分类方法、模型压缩方法、装置、设备及程序产品
技术领域
本发明涉及智能分类技术领域,尤其涉及一种数据分类方法、模型压缩方法、装置、设备及程序产品。
背景技术
目前,为了实现各种智能分类系统,常常基于深度学习构建分类模型,通常会先构建出全局模型,由于本地的小型设备如便携式设备的模型输入维度一般不同于全局模型的输入维度,无法直接将全局模型部署在便携式设备上,需要将全局模型压缩得到压缩模型,将压缩模型应用于本地的便携式设备。例如,为了实现心血管疾病智能分类系统,常常基于深度学习构建心血管疾病分类模型,该模型最终将部署在不同类型医疗节点上,以实现各类医疗环境下的心血管疾病智能分类,全局模型多为胸联导和肢体联导综合检测,便携式设备多为肢体联导设备,在模型输入维度上存在着差异,全局模型无法直接在这些设备部署,需要利用模型压缩机制将全局模型压缩后再应用于便携式设备。
传统的模型压缩技术包括模型裁剪技术与知识蒸馏,但是,模型裁剪技术一般只关注于模型结构本身,知识蒸馏则依赖于教师模型的知识迁移,这些模型压缩技术对输入维度的变化并不敏感,当需要的压缩模型的输入维度与全局模型不同时,进行模型压缩往往会丢失重要信息,压缩模型的泛化能力弱。
发明内容
本发明的主要目的在于提供一种数据分类方法、模型压缩方法、装置、设备及程序产品,旨在解决如何在模型压缩的过程中,在不丢失信息的前提下实现输入维度的匹配,从而提高压缩模型的泛化能力的技术问题。
为实现上述目的,本发明实施例提供一种模型压缩方法,所述模型压缩方法包括以下步骤:
获取全局模型及本地数据,确定所述全局模型的输入维度;
获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
可选地,所述全局模型为全局教师模型,所述获取与所述全局模型相关的特征扩展模块的步骤包括:
获取卷积神经网络模型,以及经过所述本地数据训练后的本地教师模型;
将所述本地数据输入所述本地教师模型,再将所述本地教师模型的输出分别输入所述卷积神经网络模型和所述全局教师模型;
根据所述卷积神经网络模型与所述全局教师模型的输出计算第一联合损失函数,根据所述第一联合损失函数训练所述卷积神经网络模型,得到所述特征扩展模块。
可选地,所述初始本地模型为初始本地学生模型,所述根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型的步骤包括:
将所述本地数据分别输入所述本地教师模型和所述初始本地学生模型,再将所述特征扩展数据输入所述全局教师模型;
根据所述本地教师模型、所述初始本地学生模型和所述全局教师模型的输出计算第二联合损失函数;
根据所述第二联合损失函数训练所述初始本地学生模型,得到所述目标本地模型。
可选地,所述特征扩展模块包括特征升维模块,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
将所述本地数据输入所述特征升维模块进行升维处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据;
或者,所述特征扩展模块包括所述特征升维模块和特征扩充模块,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
将所述本地数据分别输入所述特征升维模块与所述特征扩充模块进行升维处理,将所述特征升维模块与所述特征扩充模块的输出数据作融合处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据。
可选地,所述获取全局模型的步骤包括:
获取深度神经网络模型,基于联邦学习机制获取全局数据;
利用联邦训练框架基于标准的监督学习,根据所述全局数据训练所述深度神经网络模型,得到所述全局模型。
本发明实施例还提供一种数据分类方法,所述数据分类方法包括以下步骤:
获取待分类数据;
将所述待分类数据输入至预先创建的目标本地模型,得到分类结果,所述目标本地模型是通过利用特征扩展模块将本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再根据所述本地数据、所述特征扩展数据与所述全局模型对初始本地模型进行知识蒸馏得到的;
输出所述分类结果。
可选地,所述将所述待分类数据输入至预先创建的目标本地模型的步骤之前,还包括:
获取所述全局模型及所述本地数据,确定所述全局模型的输入维度;
获取与所述全局模型相关的所述特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的所述特征扩展数据;
获取所述初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到所述目标本地模型。
此外,本发明实施例还提出一种模型压缩装置,所述模型压缩装置包括:
获取模块,用于获取全局模型及本地数据,确定所述全局模型的输入维度;
数据升维模块,用于获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
知识蒸馏模块,用于获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
此外,本发明实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的模型压缩方法,或者数据分类方法。
此外,本发明实施例还提出一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如上所述的模型压缩方法,或者数据分类方法。
本发明实施例提出的数据分类方法、模型压缩方法、装置、设备及程序产品,通过获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。
附图说明
图1为本发明模型压缩装置所属终端设备的功能模块示意图;
图2为本发明数据分类装置所属终端设备的功能模块示意图;
图3为本发明模型压缩方法第一实施例的流程示意图;
图4为本发明模型压缩方法第二实施例的流程示意图;
图5为本发明模型压缩方法第三实施例的流程示意图;
图6为本发明模型压缩方法第五实施例的流程示意图;
图7为本发明数据分类方法第一实施例的流程示意图;
图8为本发明数据分类方法第二实施例的流程示意图;
图9为本发明模型压缩装置较佳实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例的主要解决方案是:获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。
本发明实施例考虑到,现有相关方案中,传统的模型压缩技术包括模型裁剪技术与知识蒸馏,但是,模型裁剪技术一般只关注于模型结构本身,知识蒸馏则依赖于教师模型的知识迁移,这些模型压缩技术对输入维度的变化并不敏感,当需要的压缩模型的输入维度与全局模型不同时,进行模型压缩往往会丢失重要信息,压缩模型的泛化能力弱。
因此,本发明实施例提出解决方案,可以在模型压缩的过程中,在不丢失信息的前提下实现输入维度的匹配,从而提高压缩模型的泛化能力。
具体地,参照图1,图1为本发明模型压缩装置所属终端设备的功能模块示意图。该模型压缩装置可以为独立于终端设备的、能够实现模型压缩的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等智能移动终端,还可以为服务器等网络设备。
在本实施例中,该模型压缩装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及模型压缩程序;输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,作为一种实施例方式,存储器130中的模型压缩程序被处理器执行时实现以下步骤:
获取全局模型及本地数据,确定所述全局模型的输入维度;
获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
进一步地,存储器130中的模型压缩程序被处理器执行时还实现以下步骤:
获取卷积神经网络模型,以及经过所述本地数据训练后的本地教师模型;
将所述本地数据输入所述本地教师模型,再将所述本地教师模型的输出分别输入所述卷积神经网络模型和所述全局教师模型;
根据所述卷积神经网络模型与所述全局教师模型的输出计算第一联合损失函数,根据所述第一联合损失函数训练所述卷积神经网络模型,得到所述特征扩展模块。
进一步地,存储器130中的模型压缩程序被处理器执行时还实现以下步骤:
将所述本地数据分别输入所述本地教师模型和所述初始本地学生模型,再将所述特征扩展数据输入所述全局教师模型;
根据所述本地教师模型、所述初始本地学生模型和所述全局教师模型的输出计算第二联合损失函数;
根据所述第二联合损失函数训练所述初始本地学生模型,得到所述目标本地模型。
进一步地,所述特征扩展模块包括特征升维模块,存储器130中的模型压缩程序被处理器执行时还实现以下步骤:
将所述本地数据输入所述特征升维模块进行升维处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据;
或者,所述特征扩展模块包括所述特征升维模块和特征扩充模块,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
将所述本地数据分别输入所述特征升维模块与所述特征扩充模块进行升维处理,将所述特征升维模块与所述特征扩充模块的输出数据作融合处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据。
进一步地,存储器130中的模型压缩程序被处理器执行时还实现以下步骤:
获取深度神经网络模型,基于联邦学习机制获取全局数据;
利用联邦训练框架基于标准的监督学习,根据所述全局数据训练所述深度神经网络模型,得到所述全局模型。
具体地,参照图2,图2为本发明数据分类装置所属终端设备的功能模块示意图。该数据分类装置可以为独立于终端设备的、能够实现数据分类的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等智能移动终端,还可以为服务器等网络设备。
在本实施例中,该数据分类装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及数据分类程序;输出模块110可为显示屏、扬声器等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,作为一种实施例方式,存储器130中的数据分类程序被处理器执行时实现以下步骤:
获取待分类数据;
将所述待分类数据输入至预先创建的目标本地模型,得到分类结果,所述目标本地模型是通过利用特征扩展模块将本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再根据所述本地数据、所述特征扩展数据与所述全局模型对初始本地模型进行知识蒸馏得到的;
输出所述分类结果。
进一步地,存储器130中的数据分类程序被处理器执行时还实现以下步骤:
获取所述全局模型及所述本地数据,确定所述全局模型的输入维度;
获取与所述全局模型相关的所述特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的所述特征扩展数据;
获取所述初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到所述目标本地模型。
本实施例通过上述方案,获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。
基于上述终端设备架构但不限于上述架构,提出本发明方法实施例。
参照图3,图3为本发明模型压缩方法第一实施例的流程示意图。
本发明实施例提供了模型压缩方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图3所示,本发明实施例提出一种模型压缩方法,所述方法包括以下步骤:
步骤S101,获取全局模型及本地数据,确定所述全局模型的输入维度;
传统的模型压缩技术包括模型裁剪技术与知识蒸馏,但是,模型裁剪技术一般只关注于模型结构本身,知识蒸馏则依赖于教师模型的知识迁移,这些模型压缩技术对输入维度的变化并不敏感,当需要的压缩模型的输入维度与全局模型不同时,进行模型压缩往往会丢失重要信息,压缩模型的泛化能力弱。
为解决如何在进行模型压缩的过程中,在不丢失信息的前提下实现输入维度的匹配,从而提高压缩模型的泛化能力的技术问题。本发明实施例提出一种模型压缩方法,旨在通过获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。
在本实施例中,获取全局模型,全局模型通常结构复杂但性能优越,方式可以是,通过联邦学习机制,获取高维全局数据,同时确定深度神经网络模型,利用联邦训练框架训练深度神经网络模型,得到全局模型
Figure BDA0003102793200000091
训练全局模型采用标准的监督学习方式,即训练的数据中包含真实的类别标签;获取方式也可以是直接获取已经通过高维数据训练好的全局模型;获取方式还可以是接收用户输入的全局模型。其中,一般确定参数数量较多的深度神经网络模型。同时获取本地数据,本地数据指当前节点的私有数据集合Dp:
Dp={Dpi|1<i<N},Dpi={xi,yi}
其中,Dpi表示数据集合中的第i个数据元组,xi表示第i个数据,yi表示其对应的类别标签,本地数据是用来训练目标本地模型的数据,本地数据的维度低于训练全局模型的数据的维度,一般应用于本地的小型设备如便携式设备。再确定全局模型的输入维度,即训练全局模型的数据的维度。
其中,可以基于联邦学习机制,利用多家三甲医院的心电数据构建心电症状分类的全局教师模型,多家三甲医院的心电数据即高维全局数据,一般为12导联心电数据,数据维度为12;全局教师模型即全局模型。本地数据可以是一个医院节点的私有数据集合,一般为单导联心电数据,数据维度为1。
步骤S102,获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
在本实施例中,由于全局数据的维度一般远远高于本地数据的维度,因此为全局模型设计一个独立的特征扩展模块,利用特征扩展模块对本地数据进行升维,得到特征扩展数据,保证其可以作为特征扩展模块的输入。
获取与全局模型相关的特征扩展模块,获取的方式可以是,确定一个卷积神经网络模型,再确定经过本地数据训练后的本地教师模型,通过本地数据、本地教师模型与全局模型不断训练卷积神经网络模型,改变其中的参数权重,使本地教师模型与全局模型之间的差异最小,得到训练好的特征扩展模块;获取的方式也可以是直接获取已经训练好的和全局模型相关的特征扩展模块。
通过特征扩展模块对本地数据Dp进行升维,即增大本地数据图片的channel,以得到特征扩展数据Dp′,使特征扩展数据Dp′的维度能够符合全局模型的输入维度。
通过特征扩展模块对本地数据进行升维的方式可以是,特征扩展模块包含特征升维模块。特征升维模块中包括1*1卷积模块,确定全局模型的输入维度,即训练全局模型的数据的维度,将本地数据输入特征升维模块,通过特征升维模块中的1*1卷积模块对本地数据的channel进行升维,得到维度与全局模型的输入维度相同的特征扩展数据。
进一步地,特征升维模块中还可以包括多头注意力机制模块,将本地数据通过1*1卷积模块进行升维后得到的数据输入多头注意力机制模块中,再得到特征扩展数据,多头注意力机制可以提高数据升维的效果。
进一步地,通过特征扩展模块对本地数据进行升维的方式还可以是,特征扩展模块可以同时包括特征升维模块与特征扩充模块,将本地数据分别输入特征升维模块与特征扩充模块,将特征升维模块与特征扩充模块的输出作融合处理,得到特征扩展数据。
步骤S103,获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
在本实施例中,获取初始本地模型
Figure BDA0003102793200000111
初始本地模型一般为小模型即深度较浅的神经网络模型,将本地数据输入初始本地模型,将特征扩展数据输入全局模型,再根据初始本地模型与全局模型的输出计算联合损失函数,再根据联合损失函数对初始本地模型进行知识蒸馏,不断更新初始本地模型,得到目标本地模型。
对初始本地模型
Figure BDA0003102793200000112
进行知识蒸馏的过程为,将特征扩展数据Dp′作为全局模型
Figure BDA0003102793200000113
的输入,将本地数据Dp作为初始本地模型
Figure BDA0003102793200000114
的输入,分别输出l1,l2两组标签结果。
Figure BDA0003102793200000115
其中,
Figure BDA0003102793200000116
Figure BDA0003102793200000117
分别表示模型的soft标签输出与hard标签输出,其中,soft标签即软标签,为模型输出的概率值,hard标签即硬标签,为输入数据真实的类别标签,即Dpi={xi,yi}中的yi
对全局模型的蒸馏过程设定损失函数Loss1
Figure BDA0003102793200000118
其中,CE表示交叉熵损失函数,
Figure BDA0003102793200000119
表示特征扩展数据Dp′中第i个数据输入全局模型
Figure BDA00031027932000001110
后输出的soft标签,
Figure BDA00031027932000001111
表示Dp′中第i个数据的类别标签,即yi
Figure BDA00031027932000001112
表示本地数据Dp中第i个数据输入初始本地模型后输出的soft标签,
Figure BDA00031027932000001113
表示Dp中第i个数据的类别标签,即yi。Dp′中第i个数据是Dp中第i个数据升维得到的。
再确定表示初始本地模型
Figure BDA00031027932000001114
的输出与真实标签之间差异性的损失函数Loss2
Figure BDA00031027932000001115
最后,将两组损失函数Loss1与Loss2整合得到最终的目标函数LossE,作为训练初始本地模型的总损失函数:
LossE=w1Loss1+w2Loss2
将LossE作为初始本地模型的总损失函数不断更新初始本地模型的参数权重,直到模型收敛,完成知识蒸馏,得到最终的目标本地模型,目标本地模型即压缩全局模型得到的;同样地,也可以预先设置一定次数,当初始本地模型的迭代次数达到预设次数时,完成训练,得到目标本地模型。其中,w1与w2之和为1,可以通过不断改变w1与w2的值来使初始本地模型获得最好的训练效果。
在得到目标本地模型之后,可以通过目标本地模型进行数据分类,获取待分类数据,待分类数据一般是本地的低维图像,通过在压缩全局模型的过程中将本地数据升维得到特征扩展数据,以特征扩展数据作为全局模型的输入,避免了信息的丢失,使全局模型压缩后得到的目标本地模型对本地的低维数据具有良好的分类效果。将待分类数据输入目标本地模型中,可以得到分类结果,通过可以输出该分类结果。
本发明通过获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。
参照图4,图4为本发明模型压缩方法第二实施例的流程示意图。
进一步地,如图4所示,提出本发明模型压缩方法第二实施例,上述步骤S102中,所述全局模型为全局教师模型,所述获取与所述全局模型相关的特征扩展模块的步骤包括:
步骤S10211,获取卷积神经网络模型,以及经过所述本地数据训练后的本地教师模型;
步骤S10212,将所述本地数据输入所述本地教师模型,再将所述本地教师模型的输出分别输入所述卷积神经网络模型和所述全局教师模型;
步骤S10213,根据所述卷积神经网络模型与所述全局教师模型的输出计算第一联合损失函数,根据所述第一联合损失函数训练所述卷积神经网络模型,得到所述特征扩展模块。
在本实施例中,全局模型为全局教师模型,获取经过本地数据训练后的本地教师模型,具体为,获取深度神经网络模型,利用本地数据Dp通过标准的监督学习方式训练深度神经网络模型,得到本地教师模型,其中,一般选择参数数量较多的深度神经网络模型。本地教师模型与全局教师模型的结构可以相同,也可以不同。
获取特征扩展模块的方式可以是,获取一个卷积神经网络模型,将本地数据输入本地教师模型,将本地教师模型的soft标签输出作为卷积神经网络模型与全局教师模型的输入,再根据卷积神经网络模型与全局教师模型的输出计算第一联合损失函数,根据第一联合损失函数更新卷积神经网络模型,调整卷积神经网络模型的参数权重,使本地教师模型
Figure BDA0003102793200000131
和全局教师模型
Figure BDA0003102793200000132
之间的差异LossE′最小化,最后得到训练好的特征扩展模块。
本实施例通过根据本地教师模型与全局教师模型训练卷积神经网络模型得到特征扩展模块,使本地教师模型与全局教师模型之间的差异最小,提高了对本地数据升维的准确性。
参照图5,图5为本发明模型压缩方法第三实施例的流程示意图。
进一步地,如图5所示,提出本发明模型压缩方法第三实施例,上述步骤S103中,所述初始本地模型为初始本地学生模型,所述根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型的步骤包括:
步骤S1031,将所述本地数据分别输入所述本地教师模型和所述初始本地学生模型,再将所述特征扩展数据输入所述全局教师模型;
步骤S1032,根据所述本地教师模型、所述初始本地学生模型和所述全局教师模型的输出计算第二联合损失函数;
步骤S1033,根据所述第二联合损失函数训练所述初始本地学生模型,得到所述目标本地模型。
在本实施例中,初始本地模型为初始本地学生模型,为了提高模型蒸馏的效果以及本地模型对本地数据的识别准确性,可以通过多级教师模型的蒸馏,即同时通过全局教师模型与本地教师模型的蒸馏,来构建目标本地模型。
获取本地教师模型,具体为,获取深度神经网络模型,利用本地数据Dp通过标准的监督学习方式训练深度神经网络模型,得到本地教师模型,其中,一般选择参数数量较多的深度神经网络模型。本地教师模型与全局教师模型的结构可以相同,也可以不同。
将本地数据输入本地教师模型与初始本地学生模型,将特征扩展数据输入全局教师模型,再根据本地教师模型、初始本地学生模型与全局教师模型的输出计算第二联合损失函数,再根据第二联合损失函数训练初始本地学生模型,不断更新初始本地学生模型的参数权重,得到目标本地模型。
全局教师模型蒸馏是为了将高维数据输入的复杂模型的知识蒸馏出来,本地教师模型蒸馏是为了将本地低维数据输入的复杂模型的知识蒸馏出来,指导本地学生简化模型的构建,最终目的在于构建能部署于便携式设备中的简单模型。
对初始本地学生模型
Figure BDA0003102793200000141
进行知识蒸馏的过程为,将特征扩展数据Dp′作为全局教师模型
Figure BDA0003102793200000142
的输入,将本地数据Dp作为初始本地学生模型
Figure BDA0003102793200000143
与本地教师模型
Figure BDA0003102793200000144
的输入,分别输出l1,l2,l3三组标签结果。
Figure BDA0003102793200000145
其中,
Figure BDA0003102793200000146
Figure BDA0003102793200000147
分别表示模型的soft标签输出与hard标签输出,其中,soft标签即软标签,为模型输出的概率值,hard标签即硬标签,为输入数据真实的类别标签,即数据Dp中的y。
针对两个教师模型的蒸馏过程设定不同的损失函数Loss1和Loss3
Figure BDA0003102793200000148
Figure BDA0003102793200000149
其中,CE表示交叉熵损失函数,
Figure BDA00031027932000001410
表示特征扩展数据Dp′中第i个数据输入全局教师模型
Figure BDA00031027932000001411
后输出的soft标签,
Figure BDA00031027932000001412
表示Dp′中第i个数据的类别标签,即yi
Figure BDA00031027932000001413
Figure BDA00031027932000001414
表示本地数据Dp中第i个数据输入初始本地学生模型与本地教师模型后输出的soft标签,
Figure BDA00031027932000001415
Figure BDA00031027932000001416
表示Dp中第i个数据的类别标签,即yi。Dp′中第i个数据是Dp中第i个数据升维得到的。
再确定表示初始本地学生模型
Figure BDA00031027932000001417
的输出与真实标签之间差异性的损失函数Loss2
Figure BDA0003102793200000151
最后,将多组损失函数整合得到最终的目标函数Losse,作为训练初始本地学生模型的总损失函数,该总损失函数Losse即为第二联合损失函数:
Losse=w1Loss1+w2Loss2+w3LosS3
将Losse作为初始本地学生模型的总损失函数不断更新初始本地学生模型的参数权重,直到模型收敛,完成知识蒸馏,得到最终的目标本地模型,目标本地模型是同时压缩全局教师模型与本地教师模型得到的;同样地,也可以预先设置一定次数,当初始本地学生模型的迭代次数达到预设次数时,完成训练,得到目标本地模型。其中,w1、w2与w3之和为1,可以通过不断改变w1、w2与w3的值来使初始本地学生模型获得最好的训练效果。
本实施例通过利用多级教师模型的蒸馏,即利用全局教师模型与本地教师模型对初始本地学生模型进行知识蒸馏得到目标本地模型,提高了目标本地模型对本地数据识别的准确性。
进一步地,提出本发明模型压缩方法第四实施例,所述特征扩展模块包括特征升维模块,上述步骤S102中,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
步骤S1022,将所述本地数据输入所述特征升维模块进行升维处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据。
在本实施例中,特征扩展模块包括特征升维模块,特征升维模块中有1*1卷积模块,可以通过1*1卷积模块对数据进行升维或者降维。
确定全局模型的输入维度,将本地数据输入1*1卷积模块中,可以将本地数据的维度升至全局模型的输入维度,输出维度与全局模型的输入维度相同的特征扩展数据。
进一步地,特征升维模块中还可以包括多头注意力机制模块,将本地数据输入1*1卷积模块后得到的输出数据再输入多头注意力机制模块中,可以通过多头注意力机制提高数据升维的效果。
或者,所述特征扩展模块包括所述特征升维模块和特征扩充模块,上述步骤S102中,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
步骤S1023,将所述本地数据分别输入所述特征升维模块与所述特征扩充模块进行升维处理,将所述特征升维模块与所述特征扩充模块的输出数据作融合处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据。
特征扩展模块除了包括特征升维模块以外,还包括特征扩充模块,将本地数据升维至特征扩展数据的方式可以是,分别将本地数据输入特征升维模块与特征扩充模块进行升维处理,然后将得到的输出数据作融合处理,得到特征扩展数据。
特征扩充模块的主要功能为,通过全连接层将输入的本地数据的维度大小扩充至全局模型的输入维度大小,再对扩充后的数据进行高斯加噪处理,得到特征扩充模块的输出数据,最后将本地数据输入特征升维模块得到的输出数据与本地数据输入特征扩充模块得到的输出数据做融合处理,即将输出数据直接相加,得到特征扩展数据。
例如,若本地数据为心电单导联数据,数据维度为(5000,1),表示存在5000个数据,数据的channel为1,数据进入特征扩展模块后分别进入特征升维模块与特征扩充模块,在特征升维模块中,心电数据通过1*1卷积模块将channel升维至12,并利用多头注意力机制进一步处理;在特征扩充模块中,将单导联数据的channel通过全连接层扩充至12后,再进行高斯加噪处理,最后将2个模块输出的特征做融合处理,此时特征扩展模块的输出数据维度升为(5000,12),用于模拟12导联数据的输入。
本实施例通过特征模块对本地数据进行升维,以得到符合全局模型的输入维度的特征扩展数据,可以在不丢失信息的前提下实现输入维度匹配。
参照图6,图6为本发明模型压缩方法第五实施例的流程示意图。
进一步地,如图5所示,提出本发明模型压缩方法的第五实施例,上述步骤S101中,所述获取全局模型的步骤包括:
步骤S1001,获取深度神经网络模型,基于联邦学习机制获取全局数据;
步骤S1002,利用联邦训练框架基于标准的监督学习,根据所述全局数据训练所述深度神经网络模型,得到所述全局模型。
在本实施例中,获取全局模型之前,可以通过联邦学习构建全局模型,具体为,获取深度神经网络模型,一般选择获取参数数量较多的深度神经网络模型。再基于联邦学习机制获取大量全局数据,全局数据一般为高维数据,利用联邦训练框架使用全局数据训练深度神经网络模型,训练过程采用标准的监督学习方式,不断更新深度神经网络模型,直到模型收敛,得到全局模型,全局模型是结构复杂但性能优越的分类模型。
本实施例通过联邦学习构建全局模型,可以获取结构复杂但性能优越的全局模型,使全局模型压缩后得到的压缩模型分类效果更好。
在心电诊断领域,上述模型压缩方法可以存在如下方案:
首先,基于联邦学习机制,获取多家三甲医院数据,利用联邦训练框架训练心电症状分类的全局教师模型
Figure BDA0003102793200000171
全局教师模型即全局模型,多家三甲医院数据即高维全局数据,一般为心电12导联数据。可以确定全局教师模型
Figure BDA0003102793200000172
的输入维度为12。
再获取本地私有数据Dp,Dp表示一个医院节点的私有数据集合,一般为心电单导联数据。
Dp={Dpi|1<i<N},Dpi={xi,yi}
其中,Dpi表示ECG数据集合中的第i个数据元组,xi表示第i个心电数据,yi表示其对应的类别标签。利用本地私有数据训练私有教师模型
Figure BDA0003102793200000173
全局教师模型与本地教师模型都采用标准的监督学习方式训练,
Figure BDA0003102793200000174
Figure BDA0003102793200000175
的模型结构可以一致也可以不一致,一般都采取参数数量较多的深度神经网络模型。
为全局教师模型设计一个独立的特征扩展模块ME,由于全局数据的维度遥远高于局部节点部署于移动端的本地数据维度,因此利用ME对本地数据进行扩充,保证其可作为
Figure BDA0003102793200000176
的输入。
获取一个卷积神经网络模型,将本地数据输入本地教师模型,将本地教师模型的soft标签输出作为卷积神经网络模型与全局教师模型的输入,再根据卷积神经网络模型与全局教师模型的输出计算联合损失函数,根据联合损失函数更新卷积神经网络模型,调整卷积神经网络模型的参数权重,使本地教师模型
Figure BDA0003102793200000177
和全局教师模型
Figure BDA0003102793200000178
之间的差异LossE′最小化,最后得到训练好的特征扩展模块。
将本地数据输入特征扩展模块进行升维处理的步骤为,本地数据为单导联数据,数据进入特征扩展模块后分别进入特征升维模块与特征扩充模块,在特征升维模块中,心电数据通过1*1卷积模块将channel升维至12,并利用多头注意力机制进一步处理;在特征扩充模块中,特征扩充模块的主要功能为将单导联数据的维度通过全连接层扩充至12后,再做高斯加噪处理,最后将2个模块输出的特征做融合处理,得到特征扩展数据,此时输出数据维度升为12,用于模拟12导联数据的输入。
最后将特征扩展数据作为全局教师模型
Figure BDA0003102793200000181
的输入,将本地数据Dp作为初始本地学生模型
Figure BDA0003102793200000182
与本地教师模型
Figure BDA0003102793200000183
的输入,分别输出l1,l2,l3三组标签结果。
Figure BDA0003102793200000184
其中,
Figure BDA0003102793200000185
Figure BDA0003102793200000186
分别表示模型的soft标签输出与hard标签输出,其中,soft标签即软标签,为模型输出的概率值,hard标签即硬标签,为输入数据真实的类别标签,即数据Dp中的y。
针对两个教师模型的蒸馏过程设定不同的损失函数Loss1和Loss3
Figure BDA0003102793200000187
Figure BDA0003102793200000188
Figure BDA0003102793200000189
上述公式表示了将教师模型的知识蒸馏到学生模型的基本约束规范。损失函数Loss2表示初始本地学生模型
Figure BDA00031027932000001810
的输出与真实标签之间的差异性。
其中,CE表示交叉熵损失函数,
Figure BDA00031027932000001811
表示特征扩展数据中第i个数据输入全局教师模型
Figure BDA00031027932000001812
后输出的soft标签,
Figure BDA00031027932000001813
表示特征扩展数据中第i个数据的类别标签,即yi
Figure BDA00031027932000001814
Figure BDA00031027932000001815
表示本地数据Dp中第i个数据输入初始本地学生模型与本地教师模型后输出的soft标签,
Figure BDA00031027932000001816
Figure BDA00031027932000001817
表示Dp中第i个数据的类别标签,即yi。特征扩展数据中第i个数据是Dp中第i个数据升维得到的。
最后,将多组损失函数整合得到最终的目标函数Losse,作为训练初始本地学生模型的总损失函数:
Losse=w1Loss1+w2Loss2+w3Loss3
根据总损失函数Losse对初始本地学生模型进行训练,得到目标本地学生模型,目标本地学生模型即目标本地模型。通过上述方式,可以将全局教师模型即12导联复杂模型的知识蒸馏出来,本地教师模型的目的在于将本地单导联复杂模型的知识蒸馏出来,指导本地学生简化模型的构建,其最终目的在于构建能部署于便携式设备中的简单模型。
参照图7,图7为本发明数据分类方法第一实施例的流程示意图。
本发明实施例提供了数据分类方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
所述数据分类方法包括:
步骤S201,获取待分类数据;
在本实施例中,获取待分类数据,待分类数据指本地的待分类图像数据,一般为低维数据,图像的channel即图像通道数较低,例如,灰度图的通道数为1,是低维数据。
步骤S202,将所述待分类数据输入至预先创建的目标本地模型,得到分类结果,所述目标本地模型是通过利用特征扩展模块将本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再根据所述本地数据、所述特征扩展数据与所述全局模型对初始本地模型进行知识蒸馏得到的;
在本实施例中,将待分类数据输入至预先创建的目标本地模型,得到分类结果。
目标本地模型是通过知识蒸馏将全局模型压缩得到的,全局模型一般是通过高维数据训练得到的,具有复杂的结构和优越的性能,而目标本地模型的训练数据一般为低维数据,所以为了在模型压缩的过程中匹配输入维度,会将目标本地模型的训练数据进行升维得到高维数据,即将本地数据升维至与全局模型的输入维度相同的特征扩展数据,再将高维的特征扩展数据输入全局模型,将低维的本地数据输入初始本地模型中,通过它们的输出计算联合损失函数,根据联合损失函数进行知识蒸馏,训练初始本地模型,得到目标本地模型。
步骤S203,输出所述分类结果。
在本实施例中,得到数据的分类结果之后,输出数据的分类结果。
本发明通过将待分类数据输入全局模型压缩后得到的目标本地模型,可以准确输出数据的分类结果。
参照图8,图8为本发明数据分类方法第二实施例的流程示意图。
进一步地,如图7所示,提出本发明数据分类方法第二实施例,上述步骤S202中,所述将所述待分类数据输入至预先创建的目标本地模型的步骤之前,还包括:
步骤S2011,获取所述全局模型及所述本地数据,确定所述全局模型的输入维度;
步骤S2012,获取与所述全局模型相关的所述特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的所述特征扩展数据;
步骤S2013,获取所述初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到所述目标本地模型。
在本实施例中,获取全局模型,全局模型通常结构复杂但性能优越,方式可以是,通过联邦学习机制,获取高维全局数据,同时确定深度神经网络模型,利用联邦训练框架训练深度神经网络模型,得到全局模型
Figure BDA0003102793200000201
训练全局模型采用标准的监督学习方式,即训练的数据中包含真实的类别标签;获取方式也可以是直接获取已经通过高维数据训练好的全局模型;获取方式还可以是接收用户输入的全局模型。其中,一般确定参数数量较多的深度神经网络模型。
同时获取本地数据,本地数据指当前节点的私有数据集合Dp:
Dp={Dpi|1<i<N},Dpi={xi,yi}
其中,Dpi表示数据集合中的第i个数据元组,xi表示第i个数据,yi表示其对应的类别标签,本地数据是用来训练目标本地模型的数据,本地数据的维度低于训练全局模型的数据的维度,一般应用于本地的小型设备如便携式设备。再确定全局模型的输入维度,即训练全局模型的数据的维度。
其中,可以基于联邦学习机制,利用多家三甲医院的心电数据构建心电症状分类的全局教师模型,多家三甲医院的心电数据即高维全局数据,一般为12导联心电数据,数据维度为12;全局教师模型即全局模型。本地数据可以是一个医院节点的私有数据集合,一般为单导联心电数据,数据维度为1。
由于全局数据的维度一般远远高于本地数据的维度,因此为全局模型设计一个独立的特征扩展模块,利用特征扩展模块对本地数据进行升维,得到特征扩展数据,保证其可以作为特征扩展模块的输入。
获取与全局模型相关的特征扩展模块,获取的方式可以是,确定一个卷积神经网络模型,再确定经过本地数据训练后的本地教师模型,通过本地数据、本地教师模型与全局模型不断训练卷积神经网络模型,改变其中的参数权重,使本地教师模型与全局模型之间的差异最小,得到训练好的特征扩展模块;获取的方式也可以是直接获取已经训练好的和全局模型相关的特征扩展模块。
通过特征扩展模块对本地数据Dp进行升维,即增大本地数据图片的channel,以得到特征扩展数据Dp′,使特征扩展数据Dp′的维度能够符合全局模型的输入维度。
通过特征扩展模块对本地数据进行升维的方式可以是,特征扩展模块包含特征升维模块。特征升维模块中包括1*1卷积模块,确定全局模型的输入维度,即训练全局模型的数据的维度,将本地数据输入特征升维模块,通过特征升维模块中的1*1卷积模块对本地数据的channel进行升维,得到维度与全局模型的输入维度相同的特征扩展数据。
进一步地,特征升维模块中还可以包括多头注意力机制模块,将本地数据通过1*1卷积模块进行升维后得到的数据输入多头注意力机制模块中,再得到特征扩展数据,多头注意力机制可以提高数据升维的效果。
进一步地,通过特征扩展模块对本地数据进行升维的方式还可以是,特征扩展模块可以同时包括特征升维模块与特征扩充模块,将本地数据分别输入特征升维模块与特征扩充模块,将特征升维模块与特征扩充模块的输出作融合处理,得到特征扩展数据。
获取初始本地模型
Figure BDA0003102793200000211
初始本地模型一般为小模型即深度较浅的神经网络模型,将本地数据输入初始本地模型,将特征扩展数据输入全局模型,再根据初始本地模型与全局模型的输出计算联合损失函数,再根据联合损失函数对初始本地模型进行知识蒸馏,不断更新初始本地模型,得到目标本地模型。
对初始本地模型
Figure BDA0003102793200000221
进行知识蒸馏的过程为,将特征扩展数据Dp′作为全局模型
Figure BDA0003102793200000222
的输入,将本地数据Dp作为初始本地模型
Figure BDA0003102793200000223
的输入,分别输出l1,l2两组标签结果。
Figure BDA0003102793200000224
其中,
Figure BDA0003102793200000225
Figure BDA0003102793200000226
分别表示模型的soft标签输出与hard标签输出,其中,soft标签即软标签,为模型输出的概率值,hard标签即硬标签,为输入数据真实的类别标签,即Dpi={xi,yi}中的yi
对全局模型的蒸馏过程设定损失函数Loss1
Figure BDA0003102793200000227
其中,CE表示交叉熵损失函数,
Figure BDA0003102793200000228
表示特征扩展数据Dp′中第i个数据输入全局模型
Figure BDA0003102793200000229
后输出的soft标签,
Figure BDA00031027932000002210
表示Dp′中第i个数据的类别标签,即yi
Figure BDA00031027932000002211
表示本地数据Dp中第i个数据输入初始本地模型后输出的soft标签,
Figure BDA00031027932000002212
表示Dp中第i个数据的类别标签,即yi。Dp′中第i个数据是Dp中第i个数据升维得到的。
再确定表示初始本地模型
Figure BDA00031027932000002213
的输出与真实标签之间差异性的损失函数Loss2
Figure BDA00031027932000002214
最后,将两组损失函数Loss1与Loss2整合得到最终的目标函数LossE,作为训练初始本地模型的总损失函数:
LosSE=w1Loss1+w2Loss2
将LossE作为初始本地模型的总损失函数不断更新初始本地模型的参数权重,直到模型收敛,完成知识蒸馏,得到最终的目标本地模型,目标本地模型即压缩全局模型得到的;同样地,也可以预先设置一定次数,当初始本地模型的迭代次数达到预设次数时,完成训练,得到目标本地模型。其中,w1与w2之和为1,可以通过不断改变w1与w2的值来使初始本地模型获得最好的训练效果。
本实施例通过获取全局模型与本地数据,确定全局模型的输入维度,获取与全局模型相关的特征扩展模块,根据特征扩展模块对本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再确定初始本地模型,根据本地数据、特征扩展数据与全局模型对初始本地模型进行知识蒸馏,得到目标本地模型。本发明提出的模型压缩方法可以在模型压缩时,通过特征扩展模块在不丢失信息的前提下实现输入维度的匹配,提高了压缩模型的泛化能力。
本发明还提供一种模型压缩装置。
参照图9,图9为本发明模型压缩装置第一实施例的功能模块示意图。所述模型压缩装置包括:
获取模块10,用于获取全局模型及本地数据,确定所述全局模型的输入维度;
数据升维模块20,用于获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
知识蒸馏模块30,用于获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
此外,本发明还提出一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上所述的模型压缩方法,或者数据分类方法。
本发明计算机程序产品具体实施方式与上述模型压缩方法,或者上述数据分类方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本发明每个实施例的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种模型压缩方法,其特征在于,所述模型压缩方法包括以下步骤:
获取全局模型及本地数据,确定所述全局模型的输入维度;
获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
2.如权利要求1所述的模型压缩方法,其特征在于,所述全局模型为全局教师模型,所述获取与所述全局模型相关的特征扩展模块的步骤包括:
获取卷积神经网络模型,以及经过所述本地数据训练后的本地教师模型;
将所述本地数据输入所述本地教师模型,再将所述本地教师模型的输出分别输入所述卷积神经网络模型和所述全局教师模型;
根据所述卷积神经网络模型与所述全局教师模型的输出计算第一联合损失函数,根据所述第一联合损失函数训练所述卷积神经网络模型,得到所述特征扩展模块。
3.如权利要求2所述的模型压缩方法,其特征在于,所述初始本地模型为初始本地学生模型,所述根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型的步骤包括:
将所述本地数据分别输入所述本地教师模型和所述初始本地学生模型,再将所述特征扩展数据输入所述全局教师模型;
根据所述本地教师模型、所述初始本地学生模型和所述全局教师模型的输出计算第二联合损失函数;
根据所述第二联合损失函数训练所述初始本地学生模型,得到所述目标本地模型。
4.如权利要求1所述的模型压缩方法,其特征在于,所述特征扩展模块包括特征升维模块,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
将所述本地数据输入所述特征升维模块进行升维处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据;
或者,所述特征扩展模块包括所述特征升维模块和特征扩充模块,所述根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据的步骤包括:
将所述本地数据分别输入所述特征升维模块与所述特征扩充模块进行升维处理,将所述特征升维模块与所述特征扩充模块的输出数据作融合处理,得到维度与所述全局模型的输入维度相同的所述特征扩展数据。
5.如权利要求1所述的模型压缩方法,其特征在于,所述获取全局模型的步骤包括:
获取深度神经网络模型,基于联邦学习机制获取全局数据;
利用联邦训练框架基于标准的监督学习,根据所述全局数据训练所述深度神经网络模型,得到所述全局模型。
6.一种数据分类方法,其特征在于,所述数据分类方法包括以下步骤:
获取待分类数据;
将所述待分类数据输入至预先创建的目标本地模型,得到分类结果,所述目标本地模型是通过利用特征扩展模块将本地数据进行升维处理,得到与全局模型的输入维度相同的特征扩展数据,再根据所述本地数据、所述特征扩展数据与所述全局模型对初始本地模型进行知识蒸馏得到的;
输出所述分类结果。
7.如权利要求6所述的数据分类方法,其特征在于,所述将所述待分类数据输入至预先创建的目标本地模型的步骤之前,还包括:
获取所述全局模型及所述本地数据,确定所述全局模型的输入维度;
获取与所述全局模型相关的所述特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的所述特征扩展数据;
获取所述初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到所述目标本地模型。
8.一种模型压缩装置,其特征在于,所述模型压缩装置包括:
获取模块,用于获取全局模型及本地数据,确定所述全局模型的输入维度;
数据升维模块,用于获取与所述全局模型相关的特征扩展模块,根据所述特征扩展模块对所述本地数据进行升维处理,得到与所述全局模型的输入维度相同的特征扩展数据;
知识蒸馏模块,用于获取初始本地模型,根据所述本地数据、所述特征扩展数据与所述全局模型对所述初始本地模型进行知识蒸馏,得到目标本地模型。
9.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的模型压缩方法,或者如权利要求6-7中任一项所述的数据分类方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的模型压缩方法,或者如权利要求6-7中任一项所述的数据分类方法。
CN202110634130.0A 2021-06-07 2021-06-07 数据分类方法、模型压缩方法、装置、设备及程序产品 Pending CN115510299A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110634130.0A CN115510299A (zh) 2021-06-07 2021-06-07 数据分类方法、模型压缩方法、装置、设备及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110634130.0A CN115510299A (zh) 2021-06-07 2021-06-07 数据分类方法、模型压缩方法、装置、设备及程序产品

Publications (1)

Publication Number Publication Date
CN115510299A true CN115510299A (zh) 2022-12-23

Family

ID=84499975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110634130.0A Pending CN115510299A (zh) 2021-06-07 2021-06-07 数据分类方法、模型压缩方法、装置、设备及程序产品

Country Status (1)

Country Link
CN (1) CN115510299A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115833843A (zh) * 2023-02-14 2023-03-21 临沂云斗电子科技有限公司 一种车辆运行监控数据存储优化方法及管理平台
CN117573728A (zh) * 2024-01-17 2024-02-20 杭银消费金融股份有限公司 一种数据信息的信息维度升维处理方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115833843A (zh) * 2023-02-14 2023-03-21 临沂云斗电子科技有限公司 一种车辆运行监控数据存储优化方法及管理平台
CN117573728A (zh) * 2024-01-17 2024-02-20 杭银消费金融股份有限公司 一种数据信息的信息维度升维处理方法及系统
CN117573728B (zh) * 2024-01-17 2024-04-23 杭银消费金融股份有限公司 一种数据信息的信息维度升维处理方法及系统

Similar Documents

Publication Publication Date Title
CN111386537B (zh) 基于注意力的仅解码器的序列转换神经网络
KR102424085B1 (ko) 기계-보조 대화 시스템 및 의학적 상태 문의 장치 및 방법
WO2020215683A1 (zh) 基于卷积神经网络的语义识别方法及装置、非易失性可读存储介质、计算机设备
CN107609572A (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN116431004B (zh) 康复机器人交互行为的控制方法及系统
WO2019000905A1 (zh) 分诊对话方法、分诊对话设备及系统
US11830478B2 (en) Learning device, learning method, and learning program for images and sound which uses a similarity matrix
CN112529029B (zh) 信息处理方法、装置及存储介质
CN115510299A (zh) 数据分类方法、模型压缩方法、装置、设备及程序产品
CN114259255A (zh) 一种基于频域信号与时域信号的模态融合胎心率分类方法
EP4303759A1 (en) Physiological electrical signal classification and processing method and apparatus, computer device, and storage medium
US20240412004A1 (en) System and method for utilizing weak learners on large language models
CN117633008A (zh) 语句转换模型的训练方法、装置、设备、存储介质及产品
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN117171309A (zh) 针对医学问询提供应答信息的方法、设备和介质
CN113994427A (zh) 通过预测以讲话者表示为条件的隔离音频信号在音频记录中按来源分离语音
CN110334716A (zh) 特征图处理方法、图像处理方法及装置
US20240395247A1 (en) Data processing method, apparatus, device, storage medium and program product
CN111242146B (zh) 基于卷积神经网络的poi信息分类
WO2024114659A1 (zh) 一种摘要生成方法及其相关设备
CN117194631A (zh) 大语言模型的训练方法、装置、存储介质及计算机设备
CN116910270A (zh) 多模态心理知识图谱构建方法、装置、设备及存储介质
CN116645546A (zh) 模型训练方法、图像识别方法和装置
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination