CN115293252A - 信息分类的方法、装置、设备和介质 - Google Patents
信息分类的方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115293252A CN115293252A CN202210908782.3A CN202210908782A CN115293252A CN 115293252 A CN115293252 A CN 115293252A CN 202210908782 A CN202210908782 A CN 202210908782A CN 115293252 A CN115293252 A CN 115293252A
- Authority
- CN
- China
- Prior art keywords
- training
- classification model
- local classification
- local
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
根据本公开的实施例,提供了信息分类的方法、装置、设备和介质。该方法包括至少按照第一训练目标来训练本地分类模型,以降低由本地分类模型产生的信息样本的多个特征表示之间的关联性;以及将经训练的本地分类模型的模型参数发送给远程设备,以用于构建实现信息分类的全局分类模型。通过对模型生成的特征表示执行去相关化,有效且高效地解决了特征表示维度塌陷的问题。
Description
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及信息分类的方法、装置、设备和计算机可读存储介质。
背景技术
当前机器学习已经得到了广泛的应用,其性能通常是随着数据量的增加而提高。随着数据隐私保护问题越来越受到重视,联邦学习得以兴起。联邦学习采用分布式的训练方式,支持跨不同客户端的协作训练而无需共享数据。在联邦学习过程中,客户端在本地对模型进行训练,然后将经过训练的本地模型的相关信息发送给集中式服务器。集中式服务器基于这些信息聚合各客户端处训练的模型,得到全局模型。这样,客户端无需将本地数据上传到服务器,从而保护了用户隐私。
联邦学习中的一个主要挑战是客户端的本地训练数据之间存在差异。这种差异会导致每个客户端处模型的局部最优值和期望的全局模型的最优值之间不一致,从而导致全局模型性能严重下降。
发明内容
在本公开的第一方面,提供了一种信息分类的方法。该方法包括至少按照第一训练目标来训练本地分类模型,以降低由本地分类模型产生的信息样本的多个特征表示之间的关联性;以及将经训练的本地分类模型的模型参数发送给远程设备,以用于构建实现信息分类的全局分类模型。
在本公开的第二方面,提供了一种信息分类的装置。该装置包括训练模块,被配置为至少按照第一训练目标来训练本地分类模型,以降低由本地分类模型产生的信息样本的多个特征表示之间的关联性;以及发送模块,被配置为将经训练的本地分类模型的模型参数发送给远程设备,以用于构建实现信息分类的全局分类模型。
在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,程序被处理器执行时实现第一方面的方法。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了本公开的实施例能够在其中应用的示例环境的示意图;
图2示出根据本公开的一些实施例的用于信息分类的过程的流程图;
图3示出了根据本公开的一些实施例的用于信息分类的装置的框图;以及
图4示出了能够实施本公开的多个实施例的设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
可以理解的是,本技术方案所涉及的数据(包括但不限于数据本身、数据的获取或使用)应当遵循相应法律法规及相关规定的要求。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当根据相关法律法规通过适当的方式对本公开所涉及个人信息的类型、使用范围、使用场景等告知用户并获得用户的授权。
例如,在响应于接收到用户的主动请求时,向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息。
作为一种可选的但非限制性的实现方式,响应于接收到用户的主动请求,向用户发送提示信息的方式,例如可以是弹出窗口的方式,弹出窗口中可以以文字的方式呈现提示信息。此外,弹出窗口中还可以承载供用户选择“同意”或“不同意”向电子设备提供个人信息的选择控件。
可以理解的是,上述通知和获取用户授权过程仅是示意性的,不对本公开的实现方式构成限定,其他满足相关法律法规的方式也可应用于本公开的实现方式中。
如本文中所使用的,术语“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。模型的生成可以基于机器学习技术。深度学习是一种机器学习算法,通过使用多层处理单元来处理输入和提供相应输出。神经网络模型是基于深度学习的模型的一个示例。在本文中,“模型”也可以被称为“机器学习模型”、“学习模型”、“机器学习网络”或“学习网络”,这些术语在本文中可互换地使用。
“神经网络”是一种基于深度学习的机器学习网络。神经网络能够处理输入并且提供相应输出,其通常包括输入层和输出层以及在输入层与输出层之间的一个或多个隐藏层。在深度学习应用中使用的神经网络通常包括许多隐藏层,从而增加网络的深度。神经网络的各个层按顺序相连,从而前一层的输出被提供作为后一层的输入,其中输入层接收神经网络的输入,而输出层的输出作为神经网络的最终输出。神经网络的每个层包括一个或多个节点(也称为处理节点或神经元),每个节点处理来自上一层的输入。
通常,机器学习大致可以包括三个阶段,即训练阶段、测试阶段和应用阶段(也称为推理阶段)。在训练阶段,给定的模型可以使用大量的训练数据进行训练,不断迭代更新参数值,直到模型能够从训练数据中获取一致的满足预期目标的推理。通过训练,模型可以被认为能够从训练数据中学习从输入到输出之间的关联(也称为输入到输出的映射)。训练后的模型的参数值被确定。在测试阶段,将测试输入应用到训练后的模型,测试模型是否能够提供正确的输出,从而确定模型的性能。在应用阶段,模型可以被用于基于训练得到的参数值,对实际的输入进行处理,确定对应的输出。
图1示出了本公开的实施例能够在其中实现的示例环境100的示意图。
环境100适于执行联邦学习,其中包括N个电子设备110-1……110-k、……110-N(其中N为大于1的整数,k=1、2、……N)以及远程设备120。在联邦学习过程中,N个电子设备110-1……110-k、……110-N可以充当客户端节点,用于执行联邦学习的本地训练过程。远程节点120可以充当中央节点,用于对客户端节点的训练结果进行聚合。为便于讨论,电子设备110-1……110-k、……110-N可以被统称为或单独称为电子设备110。
在一些实施例中,电子设备110可以被实现在终端设备处。终端设备可以是任意类型的移动终端、固定终端或便携式终端,包括移动手机、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、媒体计算机、多媒体平板、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者前述各项的任意组合,包括这些设备的配件和外设或者其任意组合。在一些实施例中,终端设备还能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。
远程设备120可以被实现在服务器处。服务器是能够提供计算能力的各种类型的计算系统/服务器,包括但不限于大型机、边缘计算节点、云环境中的计算设备,等等。
在一些其他实施例中,电子设备110-1……110-k、……110-N中的一个或多个可以被实现在服务器处,而远程设备120可以被实现在终端设备处。作为备选,电子设备110和远程设备120可以都实现在终端设备处或者服务器处。在某些应用中,远程设备120除了作为中央节点外,还可以作为客户端节点,以用于进行本地模型训练、性能评估等。
在图1的示例中,电子设备110-1……110-k、……110-N分别维护各自的本地数据集122-1……122-k、……122-N(单独或统称为本地数据集122),其用于对本地分类模型124-1……124-k、……124-N(单独或统称为本地分类模型124)进行训练。经过训练的本地分类模型124-1……124-k、……124-N的模型参数,分别由电子设备110-1……110-k、……110-N发送给远程设备120,以供远程设备120构建全局分类模型126。
本地分类模型124和全局分类模型126可以基于各种机器学习或深度学习的模型架构来构建,并且可以被配置为实现各种分类任务,诸如图像分类、文本分类、音频分类等等,以用于图像识别、文本识别、音频识别等应用场景。
电子设备110处的本地数据集122可以包括信息样本。图1示意性地示出了电子设备110-k处的本地数据集122-k包括多个(M个)信息样本128-1、128-i、……128-M(单独或统称为信息样本128),其中M为大于1的整数,i=1、2、……M。
信息样本128可以包括与分类模型124和126的具体任务相关的输入信息。例如,在分类模型124和126被应用于图像识别、文本识别或者音频识别的情况下,信息样本128可以相应地包括图像样本、文本样本或者音频样本。作为示例,在图像分类任务中,分类模型124和126可以被配置为将输入的图像样本分类为多个类别中的一个类别。
实际上,很多应用都可以被归类为二分类任务,其中输入的信息被分类为两个类别之一。例如,在信息推荐场景中,输入的信息可以被分类为“推荐”和“不推荐”两个类别之一。本文所述的信息分类可以用于任何适当的应用场景。
在本地分类模型124的训练阶段,电子设备110可以基于各自的本地数据集122来进行本地训练。然而,各本地数据集122中的训练数据往往差异比较大。这种数据差异性也称为数据异质性(或者异构性),会导致全局分类模型126的性能下降。
已有的解决方案主要集中于本地训练和全局聚合过程中模型参数的优化。然而,这些方案由于会使深度神经网络过度参数化而引入非常大的计算负担和/或通信开销。
发明人注意到,在异质联邦学习环境下,本地训练的模型会出现维度坍塌的现象。利用本地模型生成的输入信息的特征表示往往只存在于低维子空间,而不是完整的特征表示空间中。另外,通过对本地模型输出的特征表示向量的协方差矩阵进行奇异值分解,发明人发现,随着数据异质性程度增加,更多的奇异值趋近于零。也即,数据异质性程度越大,维度坍塌越严重。
为此,本公开的实施例提供了一种联邦学习的优化方案,其可以防止特征表示维度塌陷从而提高性能。根据该方案,在本地分类模型的训练过程中增加了降低由模型产生的信息样本的多个特征表示之间的关联性这一训练目标(称为“第一训练目标”)。经训练的本地分类模型的模型参数被发送给远程设备,用于构建全局分类模型,以实现信息分类。
该方案通过对模型生成的特征表示执行去相关化,有效地解决了特征表示维度塌陷的问题。而且,该方案简单易行,并且不会引入过多的计算负担以及不必要的通信开销。
图2示出了根据本公开的一些实施例的信息分类的过程200的流程图。过程200可以被实现在电子设备110处。为便于讨论,将结合图1的环境100来描述过程200。
在框210,至少按照第一训练目标来训练本地分类模型(例如,图1中的本地分类模型124),以降低由本地分类模型产生的信息样本(例如,图中的信息样本128)的多个特征表示之间的关联性。这些特征表示可以是从一个或者一批信息样本提取的,可以具有能够表征相应信息样本的任意适当形式。由这些特征表示所表征的信息样本的数目可以根据实际需求来确定。通过降低所产生的特征表示之间的关联性,可以有效缓解特征表示维度塌陷的问题。
可以通过任意适当方式来降低特征表示之间的关联性。在一些实施例中,可以首先对多个特征表示组成的特征表示向量进行归一化,例如,如下面式(1)所示:
可以利用所生成的相关矩阵来训练本地分类模型,以使特征表示之间的关联性降低,从而满足第一训练目标。在一些实施例中,可以通过使相关矩阵的非对角线元素的值减小来降低特征表示之间的关联性。通过归一化操作,可以使特征表示向量的相关矩阵与其协方差矩阵等效。基于这样的相关矩阵来训练本地分类模型,可以进一步降低特征表示之间的关联性,从而进一步有效缓解特征表示的维度塌陷。
还可以通过其他方式来利用相关矩阵降低特征表示之间的关联性。在一些实施例中,可以计算相关矩阵的罗贝尼乌斯(Frobenius)范数的值,通过使Frobenius范数的值减小来训练本地分类模型。Frobenius范数的值越小,则特征表示之间的关联性越低,从而可以有效地缓解特征表示的维度塌陷。
在一些实施例中,还可以基于相关矩阵构造损失函数或者成本函数来促使本地分类模型达到第一训练目标。下面的式(2)示出了基于Frobenius范数构造的损失函数LFedDecorr:
在式(2)中,Frobenius范数的值越小,则损失函数的值越小。通过使损失函数的值越来越小,直到达到收敛条件,可以训练本地分类模型。收敛条件例如可以是通过损失函数得到的损失最小化,例如等于零或者等于其他可接受的值。
在一些实施例中,还可以通过对相关矩阵中各元素求平方和再求平均代替Frobenius范数来构造损失函数。基于这样的损失函数训练本地分类模型,同样可以有效降低特征表示的关联性,从而防止特征表示维度坍塌。
在一些实施例中,在本地分类模型的训练过程中,除了考虑第一训练目标,还可以考虑提高由本地分类模型确定的信息样本的目标类别与信息样本的参考类别之间的一致性的训练目标(称为“第二训练目标”)。信息样本的参考类别可以作为标签与信息样本一起存储在本地数据集中。
在一些实施例中,可以使用交叉熵损失函数来评估信息样本的目标类别与参考类别的一致性。使用其他算法或者采用其他形式的损失函数也是可行的,本公开的范围在此方面不受限制。
在一些实施例中,可以将第一训练目标和第二训练目标两者一起作为本地分类模型的训练目标。下面的式(3)示出了同时考虑第一训练目标和第二训练目标两者而构造的损失函数:
其中,l代表交叉熵损失函数,β代表的LFedDecorr的调整系数,y代表标签。在式(3)中,第一训练目标作为第二训练目标的调整项。基于式(3)所示的损失函数训练本地分类模型可以同时满足这两个训练目标。
在对本地分类模型进行训练后,在框220,将经训练的本地分类模型的模型参数发送给远程设备(例如,图1中的远程设备120),以用于构建实现信息分类的全局分类模型(例如,图1中的全局分类模型126)。利用根据本公开的实施例的方案,全局分类模型的性能可以得到显著提高,同时该方案仅仅增加了非常少的计算开销,不会影响计算效率。
根据本公开的实施例的联邦学习优化方案(表示为FedDecorr),在使用CIFAR10、CIFAR100、TinyImagNet数据集来进行图像识别的仿真中,与其他方法(例如,FedAvg、FebProx、FedAvgM和MOON等方法)相比具有显著改进。下面结合表1至表4讨论本公开的方案与其他方法的性能对比。
首先参考表1,其示出了使用数据集CIFAR10和CIFAR100进行仿真的情况下,采用及未采用本公开的方案的图像识别准确性对比。
表1
其中,Q∈T0.05,0.1,0.5,∞}指示异质性程度,α越小代表异质性程度越高。如表1所示,采用了本公开的方案之后,图像识别的准确性显著提高。
表2示出了使用数据集TinyImagNet进行仿真的情况下,采用及未采用本公开的方案的图像识别准确性对比。
表2
如表2所示,采用本公开的方案相比于未采用该方案,图像识别的准确性显著提高。
表3示出了在客户端数目不同的情况下,采用了根据本公开的方案的图像识别准确性对比。
表3
如表3所示,不论客户端数目多少,采用了本公开的方案后,图像识别的准确性显著提高。
表4示出了本公开的方案与其他方法的计算时间对比。
表4
如表4所示,本公开的方案与其他方方相比,计算时间明显缩短,计算效率很高。与其他方法相比,本公开的方案只会导致可以忽略不计的计算开销。
由于目前数据异构性的程度趋于加重,并且客户端的数目趋于增加,联邦学习环境变得更具挑战性。采用根据本公开的实施例的方案可以带来更多性能改进。
图3示出了根据本公开的一些实施例的用于展示全景图像的装置300的示意性结构框图。装置300可以被实现为或者被包括在电子设备110中。装置300中的各个模块/组件可以由硬件、软件、固件或者它们的任意组合来实现。
如图3所示,装置300包括训练模块310和发送模块320。训练模块310被配置为至少按照第一训练目标来训练本地分类模型,以降低由本地分类模型产生的信息样本的多个特征表示之间的关联性。发送模块320被配置为将经训练的本地分类模型的模型参数发送给远程设备,以用于构建实现信息分类的全局分类模型。
在一些实施例中,多个特征表示可以组成特征表示向量。训练模块310可以进一步被配置为:对特征表示向量归一化;生成经归一化的特征表示向量的相关矩阵;以及基于相关矩阵来训练本地分类模型,以满足第一训练目标。
在一些实施例中,训练模块310可以进一步被配置为:通过使相关矩阵的非对角线元素的值减小来训练本地分类模型。
在一些实施例中,训练模块310可以进一步被配置为:计算相关矩阵的罗贝尼乌斯范数的值;以及通过使罗贝尼乌斯范数的值减小来训练本地分类模型。
在一些实施例中,训练模块310可以进一步被配置为:利用本地分类模型,基于多个特征表示确定信息样本的目标类别;以及进一步按照第二训练目标来训练本地分类模型,以提高目标类别与信息样本的参考类别的一致性。
在一些实施例中,训练模块310可以进一步被配置为:使用交叉熵损失函数来评估目标类别与参考类别的一致性;以及通过使一致性提高来训练本地分类模型,以满足第二训练目标。
在一些实施例中,信息包括图像、文本和音频中的至少一项。全局分类模型被用于图像识别、文本识别和音频识别中的至少一项。
应当理解,上文参考图1和图2讨论的关于过程200的特征和效果同样适用于装置300,在此不再赘述。另外,装置300中所包括的模块可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个模块可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置300中的部分或者全部模块可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD),等等。
图4示出了示出了其中可以实施本公开的一个或多个实施例的电子设备400的框图。应当理解,图4所示出的电子设备400仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。图4所示出的电子设备400可以用于实现图1的电子设备110。
如图4所示,电子设备400是通用计算设备的形式。电子设备400的组件可以包括但不限于一个或多个处理器或处理单元410、存储器420、存储设备430、一个或多个通信单元440、一个或多个输入设备450以及一个或多个输出设备460。处理单元410可以是实际或虚拟处理器并且能够根据存储器420中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高电子设备400的并行处理能力。
电子设备400通常包括多个计算机存储介质。这样的介质可以是电子设备400可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器420可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备430可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在电子设备400内被访问。
电子设备400可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图4中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器420可以包括计算机程序产品425,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元440实现通过通信介质与其他计算设备进行通信。附加地,电子设备400的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,电子设备400可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备450可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备460可以是一个或多个输出设备,例如显示器、扬声器、打印机等。电子设备400还可以根据需要通过通信单元440与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与电子设备400交互的设备进行通信,或者与使得电子设备400与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。
Claims (16)
1.一种信息分类的方法,包括:
至少按照第一训练目标来训练本地分类模型,以降低由所述本地分类模型产生的信息样本的多个特征表示之间的关联性;以及
将经训练的所述本地分类模型的模型参数发送给远程设备,以用于构建实现信息分类的全局分类模型。
2.根据权利要求1所述的方法,其中所述多个特征表示组成特征表示向量,并且其中训练所述本地分类模型包括:
对所述特征表示向量归一化;
生成经归一化的所述特征表示向量的相关矩阵;以及
基于所述相关矩阵来训练所述本地分类模型,以满足所述第一训练目标。
3.根据权利要求2所述的方法,其中基于所述相关矩阵来训练所述本地分类模型包括:
通过使所述相关矩阵的非对角线元素的值减小来训练所述本地分类模型。
4.根据权利要求2所述的方法,其中基于所述相关矩阵来训练所述本地分类模型包括:
计算所述相关矩阵的罗贝尼乌斯范数的值;以及
通过使所述罗贝尼乌斯范数的值减小来训练所述本地分类模型。
5.根据权利要求1所述的方法,其中训练所述本地分类模型包括:
利用所述本地分类模型,基于所述多个特征表示确定所述信息样本的目标类别;以及
进一步按照第二训练目标来训练所述本地分类模型,以提高所述目标类别与所述信息样本的参考类别的一致性。
6.根据权利要求5所述的方法,其中进一步按照所述第二训练目标来训练所述本地分类模型包括:
使用交叉熵损失函数来评估所述目标类别与所述参考类别的一致性;以及
通过使所述一致性提高来训练所述本地分类模型,以满足所述第二训练目标。
7.根据权利要求1所述的方法,其中
所述信息包括图像、文本和音频中的至少一项;并且
所述全局分类模型被用于图像识别、文本识别和音频识别中的至少一项。
8.一种信息分类的装置,包括:
训练模块,被配置为至少按照第一训练目标来训练本地分类模型,以降低由所述本地分类模型产生的信息样本的多个特征表示之间的关联性;以及
发送模块,被配置为将经训练的所述本地分类模型的模型参数发送给远程设备,以用于构建实现信息分类的全局分类模型。
9.根据权利要求8所述的装置,其中所述多个特征表示组成特征表示向量,并且其中所述训练模块进一步被配置为:
对所述特征表示向量归一化;
生成经归一化的所述特征表示向量的相关矩阵;以及
基于所述相关矩阵来训练所述本地分类模型,以满足所述第一训练目标。
10.根据权利要求9所述的装置,其中所述训练模块进一步被配置为:
通过使所述相关矩阵的非对角线元素的值减小来训练所述本地分类模型。
11.根据权利要求9所述的装置,其中所述训练模块进一步被配置为:
计算所述相关矩阵的罗贝尼乌斯范数的值;以及
通过使所述罗贝尼乌斯范数的值减小来训练所述本地分类模型。
12.根据权利要求8所述的装置,其中所述训练模块进一步被配置为:
利用所述本地分类模型,基于所述多个特征表示确定所述信息样本的目标类别;以及
进一步按照第二训练目标来训练所述本地分类模型,以提高所述目标类别与所述信息样本的参考类别的一致性。
13.根据权利要求12所述的装置,其中所述训练模块进一步被配置为:
使用交叉熵损失函数来评估所述目标类别与所述参考类别的一致性;以及
通过使所述一致性提高来训练所述本地分类模型,以满足所述第二训练目标。
14.根据权利要求8所述的装置,其中
所述信息包括图像、文本和音频中的至少一项;并且
所述全局分类模型被用于图像识别、文本识别和音频识别中的至少一项。
15.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现根据权利要求1至7中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210908782.3A CN115293252A (zh) | 2022-07-29 | 2022-07-29 | 信息分类的方法、装置、设备和介质 |
PCT/CN2023/106315 WO2024022082A1 (zh) | 2022-07-29 | 2023-07-07 | 信息分类的方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210908782.3A CN115293252A (zh) | 2022-07-29 | 2022-07-29 | 信息分类的方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115293252A true CN115293252A (zh) | 2022-11-04 |
Family
ID=83825522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210908782.3A Pending CN115293252A (zh) | 2022-07-29 | 2022-07-29 | 信息分类的方法、装置、设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115293252A (zh) |
WO (1) | WO2024022082A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024022082A1 (zh) * | 2022-07-29 | 2024-02-01 | 脸萌有限公司 | 信息分类的方法、装置、设备和介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11227370B2 (en) * | 2019-09-30 | 2022-01-18 | Brother Kogyo Kabushiki Kaisha | Method for generating image processing filter and image processing method using the image processing filter |
CN111723947A (zh) * | 2020-06-19 | 2020-09-29 | 深圳前海微众银行股份有限公司 | 一种联邦学习模型的训练方法及装置 |
CN113095514A (zh) * | 2021-04-26 | 2021-07-09 | 深圳前海微众银行股份有限公司 | 数据处理方法、装置、设备、存储介质及程序产品 |
CN113408743B (zh) * | 2021-06-29 | 2023-11-03 | 北京百度网讯科技有限公司 | 联邦模型的生成方法、装置、电子设备和存储介质 |
CN114580663A (zh) * | 2022-03-01 | 2022-06-03 | 浙江大学 | 面向数据非独立同分布场景的联邦学习方法及系统 |
CN115293252A (zh) * | 2022-07-29 | 2022-11-04 | 脸萌有限公司 | 信息分类的方法、装置、设备和介质 |
-
2022
- 2022-07-29 CN CN202210908782.3A patent/CN115293252A/zh active Pending
-
2023
- 2023-07-07 WO PCT/CN2023/106315 patent/WO2024022082A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024022082A1 (zh) * | 2022-07-29 | 2024-02-01 | 脸萌有限公司 | 信息分类的方法、装置、设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024022082A1 (zh) | 2024-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210256403A1 (en) | Recommendation method and apparatus | |
Zhang et al. | Aligning infinite-dimensional covariance matrices in reproducing kernel hilbert spaces for domain adaptation | |
CN109359725B (zh) | 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质 | |
EP4163831A1 (en) | Neural network distillation method and device | |
Kang et al. | Logdet rank minimization with application to subspace clustering | |
WO2022042123A1 (zh) | 图像识别模型生成方法、装置、计算机设备和存储介质 | |
US20190065957A1 (en) | Distance Metric Learning Using Proxies | |
US10387749B2 (en) | Distance metric learning using proxies | |
WO2018093935A1 (en) | Training neural networks using a clustering loss | |
EP4187440A1 (en) | Classification model training method, hyper-parameter searching method, and device | |
WO2022103682A1 (en) | Face recognition from unseen domains via learning of semantic features | |
Li et al. | Scalable sequential spectral clustering | |
WO2023174036A1 (zh) | 联邦学习模型训练方法、电子设备及存储介质 | |
CN112232397A (zh) | 图像分类模型的知识蒸馏方法、装置和计算机设备 | |
US20220398834A1 (en) | Method and apparatus for transfer learning | |
WO2024022082A1 (zh) | 信息分类的方法、装置、设备和介质 | |
US20220004849A1 (en) | Image processing neural networks with dynamic filter activation | |
CN113807455A (zh) | 构建聚类模型的方法、设备、介质和程序产品 | |
CN112232360A (zh) | 图像检索模型优化方法、图像检索方法、装置及存储介质 | |
CN110009091B (zh) | 学习网络在等价类空间中的优化 | |
CN114926322B (zh) | 图像生成方法、装置、电子设备和存储介质 | |
CN115511104A (zh) | 用于训练对比学习模型的方法、装置、设备和介质 | |
CN113760407A (zh) | 信息处理方法、装置、设备及存储介质 | |
US20230289605A1 (en) | Neural bregman divergences for distance learning | |
CN115545220A (zh) | 用于对比学习的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |