CN111275133B - 分类模型的融合方法、装置及存储介质 - Google Patents
分类模型的融合方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111275133B CN111275133B CN202010113360.8A CN202010113360A CN111275133B CN 111275133 B CN111275133 B CN 111275133B CN 202010113360 A CN202010113360 A CN 202010113360A CN 111275133 B CN111275133 B CN 111275133B
- Authority
- CN
- China
- Prior art keywords
- label
- training sample
- classification
- classification model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
- G06F18/256—Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种分类模型的融合方法、装置、电子设备及存储介质;方法包括:通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果;通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果;以第一分类结果作为第二训练样本的第三标签,对第二训练样本进行标注,并以第二分类结果作为第一训练样本的第四标签,对第一训练样本进行标注;基于标注有第一标签及第四标签的第一训练样本,及标注有第二标签及第三标签的第二训练样本,训练第一融合分类模型;通过本发明,能够实现不同任务类别的分类模型的快速融合,提高融合分类模型的分类精度及性能。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种分类模型的融合方法、装置、电子设备及存储介质。
背景技术
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,机器学习(ML,Machine Learning)是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
在人工神经网络学习技术的研究过程中,发现神经网络模型的融合会带来分类精度、性能等方面的巨大提升,相关技术中,典型的分类模型的融合方案可以分为两类,测试阶段融合和训练阶段融合。对于第一类测试阶段融合的方法,待测样本通常需要经过多个分类模型,且最终输出是在多个分类模型的结果上求加权平均或者利用投票机制得到,从而导致机器内存占用过高、推理耗时过长。
对于第二类训练阶段融合的方法,通常假设多个分类模型是针对同一分类任务进行训练的,即不同分类模型所对应的训练样本均标注有相同的分类标签。但是对于不同任务间的分类模型进行融合时,每个分类模型是由标注有不同分类标签的训练样本训练所得到,因此该分类模型的融合方法是不适用的。
发明内容
本发明实施例提供一种分类模型的融合方法、装置、电子设备及存储介质,能够实现不同任务类别的分类模型的快速融合,提高融合分类模型的分类精度及性能。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种分类模型的融合方法,包括:
通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应所述第二训练样本的第一分类结果;其中,所述第一分类模型基于标注有第一标签的第一训练样本训练得到,所述第一标签对应所述第一类别;
通过第二分类模型对所述第一训练样本进行第二类别的分类预测,得到对应所述第一训练样本的第二分类结果;其中,所述第二分类模型基于标注有第二标签的第二训练样本训练得到,所述第二标签对应所述第二类别;
以所述第一分类结果作为所述第二训练样本的第三标签,对所述第二训练样本进行标注,并以所述第二分类结果作为所述第一训练样本的第四标签,对所述第一训练样本进行标注;
基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,训练第一融合分类模型,使得所述第一融合分类模型能够基于输入的待分类对象,进行所述第一类别和所述第二类别的分类预测,得到相应的分类结果。
本发明实施例还提供一种分类模型的融合装置,包括:
第一分类预测模块,用于通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应所述第二训练样本的第一分类结果;其中,所述第一分类模型基于标注有第一标签的第一训练样本训练得到,所述第一标签对应所述第一类别;
第二分类预测模块,用于通过第二分类模型对所述第一训练样本进行第二类别的分类预测,得到对应所述第一训练样本的第二分类结果;其中,所述第二分类模型基于标注有第二标签的第二训练样本训练得到,所述第二标签对应所述第二类别;
标注模块,用于以所述第一分类结果作为所述第二训练样本的第三标签,对所述第二训练样本进行标注,并以所述第二分类结果作为所述第一训练样本的第四标签,对所述第一训练样本进行标注;
第一模型训练模块,用于基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,训练第一融合分类模型,使得所述第一融合分类模型能够基于输入的待分类对象,进行所述第一类别和所述第二类别的分类预测,得到相应的分类结果。
上述方案中,所述装置还包括:
第二模型训练模块,用于通过第三分类模型对组合训练样本进行第三类别的分类预测,得到对应所述组合训练样本的第三分类结果;其中,所述第三分类模型基于标注有所述第三类别的分类标签的第三训练样本训练得到,所述组合训练样本用于训练所述第一融合分类模型,包括标注有所述第一标签及所述第四标签的第一训练样本、和标注有所述第二标签及所述第三标签的第二训练样本;
通过所述第一融合分类模型对第三训练样本进行所述第一类别和第二类别的分类预测,得到对应所述第三训练样本的第一类别和第二类别的分类结果;
以所述第三分类结果作为所述组合训练样本的第五标签,对所述组合训练样本进行标注,并以对应所述第三训练样本的第一类别和第二类别的分类结果作为所述第三训练样本的第六标签,对所述第三训练样本进行标注;
基于标注有所述第五标签的所述组合训练样本、及标注有所述第三类别的分类标签及所述第六标签的所述第三训练样本,训练第二融合分类模型,使得所述第二融合分类模型能够基于输入的待分类对象,进行所述第一类别、所述第二类别和第三类别的分类预测,得到相应的分类结果。
上述方案中,所述第一模型训练模块,还用于基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,通过所述第一融合分类模型进行分类预测,得到对应第一类别和第二类别的分类结果;
获取所述第一类别的分类结果与所述第一标签之间的第一差异、所述第二类别的分类结果与所述第二标签之间的第二差异、所述第一类别的分类结果与所述第三标签之间的第三差异、所述第二类别的分类结果与所述第四标签之间的第四差异;
基于所述第一差异、第二差异、第三差异及第四差异,更新所述第一融合分类模型的模型参数。
上述方案中,所述第一模型训练模块,还用于基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合分类模型的损失函数的值;
基于所述第一融合分类模型的损失函数的值,更新所述第一融合分类模型的模型参数。
上述方案中,所述第一融合分类模型的损失函数包括交叉熵损失函数及蒸馏损失函数,所述第一模型训练模块,还用于基于所述第一差异和第二差异,确定所述交叉熵损失函数的值;
基于所述第三差异和第四差异,确定所述蒸馏损失函数的值;
获取所述交叉熵损失函数对应的第一权重,及所述蒸馏损失函数对应的第二权重;
结合所述第一权重和第二权重、所述交叉熵损失函数的值和蒸馏损失函数的值,确定所述第一融合分类模型的损失函数的值。
上述方案中,所述第一模型训练模块,还用于当所述第一融合分类模型的损失函数的值超出第一损失阈值时,基于所述第一融合分类模型的损失函数确定所述第一融合分类模型的第一误差信号;
将所述第一误差信号在所述第一融合分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
上述方案中,所述第一模型训练模块,还用于基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合分类模型的损失函数的值;
当所述第一融合分类模型的损失函数的值超出第二损失阈值时,基于所述第一融合分类模型的损失函数确定所述第一融合分类模型的第二误差信号;
将所述第二误差信号在所述第一融合分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
上述方案中,所述装置还包括:
分类模块,用于通过所述第一融合分类模型的特征提取层,对输入的待分类对象进行特征提取,得到待分类对象的对象特征;
基于所述待分类对象的对象特征,通过所述第一融合分类模型的多分类层,进行所述第一类别和第二类别的分类预测,得到对应所述第一类别和第二类别的分类结果。
本发明实施例还提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的分类模型的融合方法。
本发明实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本发明实施例提供的分类模型的融合方法。
本发明实施例具有以下有益效果:
通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果,并通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果,将第一分类结果作为第二训练样本的第三标签进行标注,将第二分类结果作为第一训练样本的第四标签进行标注;如此,基于标注有第一类别和第二类别的分类标签的第一训练样本、标注有第一类别和第二类别的分类标签的第二训练样本,对第一融合分类模型进行训练,使得第一融合分类模型能够进行第一类别和第二类别的分类预测,实现了不同任务类别的分类模型的融合;并且仅需要对融合分类模型进行测试即可,不需要经过多个分类模型,降低了时间消耗;因此实现了不同任务类别的分类模型的快速融合,提高了融合分类模型的分类精度及性能。
附图说明
图1A-B是相关技术中提供的分类模型的融合方法的示意图;
图2是本发明实施例提供的分类模型的融合系统的架构示意图;
图3是本发明实施例提供的电子设备的结构示意图;
图4是本发明实施例提供的分类模型的融合方法的流程示意图;
图5是本发明实施例提供的分类模型的融合方法的数据流走向示意图一;
图6是本发明实施例提供的分类模型的融合方法的流程示意图;
图7A是本发明实施例提供的用于训练分类模型的训练样本的标签示意图;
图7B是本发明实施例提供的训练样本的软标签标注的流程示意图;
图8是本发明实施例提供的分类模型的融合方法的数据流走向示意图二;
图9是本发明实施例提供的分类模型的融合方法的流程示意图;
图10是本发明实施例提供的分类模型的融合装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
2)初始分类标签,为训练样本在用于训练各相应分类模型时所标注,也可称为硬标签;
3)软标签,为基于各分类模型对训练样本进行分类预测所得到的分类结果所标注。
相关技术中,典型的分类模型的融合方案可以分为两类,测试阶段融合和训练阶段融合。对于测试阶段融合方法,一是在融合分类模型的训练收敛过程中,使融合分类模型输出多个局部最优解,以多个不同阶段模型所输出的最优解的平均,作为融合分类模型最终的输出,具体地该方案的模型训练优化过程如图1A所示。二是设目标分类任务有R个类别,分别对回归模型、多二分类模型、自编码模型进行训练,采用投票的方式进行模型融合。而对于此类测试阶段融合的方法,待测样本通常需要经过多个分类模型,且最终输出是在多个分类模型的结果上求加权平均或者利用投票机制得到,从而导致机器内存占用过高、推理耗时过长。
对于训练阶段融合方法,多通过对抗学习的方法将多个模型蒸馏成一个模型,基于各区分网络块的训练损失值来引导优化融合分类模型学习各分类模型的知识信息,该分类模型的融合方法的流程如图1B所示。而对于此类训练阶段融合的方法,通常假设多个分类模型是针对同一分类任务进行训练的,即不同分类模型所对应的训练样本均标注有相同的分类标签。但是对于不同任务间的分类模型进行融合时,每个分类模型是由标注有不同分类标签的训练样本训练所得到,因此该分类模型的融合方法是不适用的。
基于此,本发明实施例提供了一种分类模型的融合方法、装置、系统、电子设备及存储介质,以至少解决相关技术中的上述问题,接下来分别进行说明。
基于上述对本发明实施例中涉及的名词和术语的解释,首先说明本发明实施例提供的分类模型的融合系统,参见图2,图2是本发明实施例提供的分类模型的融合的架构示意图,为实现支撑一个示例性应用,终端(包括终端200-1和终端200-2)通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
服务器100,用于通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果;通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果;以第一分类结果作为第二训练样本的第三标签,对第二训练样本进行标注,并以第二分类结果作为第一训练样本的第四标签,对第一训练样本进行标注;基于标注有第一标签及第四标签的第一训练样本,及标注有第二标签及第三标签的第二训练样本,训练第一融合分类模型;
终端(如终端200-1),用于响应于针对待分类对象的分类预测指令,向服务器发送待分类对象的分类预测请求;
服务器100,用于接收到针对待分类对象的分类预测请求,通过训练完成的融合分类模型,对待分类对象进行第一类别和第二类别的分类预测,得到相应的分类结果,并返回给终端;
终端(如终端200-1),用于接收并呈现对应待分类对象的第一类别和第二类别的分类结果。
在实际应用中,服务器100既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群;终端(如终端200-1)可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。
下面对本发明实施例提供的分类模型的融合方法的电子设备的硬件结构做详细说明,参见图3,图3是本发明实施例提供的电子设备的结构示意图,图3所示的电子设备300包括:至少一个处理器310、存储器350、至少一个网络接口320和用户接口330。电子设备300中的各个组件通过总线系统340耦合在一起。可理解,总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3中将各种总线都标为总线系统340。
处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或多个输入装置332,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位置上远离处理器310的一个或多个存储设备。
存储器350包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器350旨在包括任意适合类型的存储器。
在一些实施例中,存储器350能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统351,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到达其他计算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块353,用于经由一个或多个与用户接口330相关联的输出装置331(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块354,用于对一个或多个来自一个或多个输入装置332之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的分类模型的融合装置可以采用软件方式实现,图3示出了存储在存储器350中的分类模型的融合装置355,其可以是程序和插件等形式的软件,包括以下软件模块:第一分类预测模块3551、第二分类预测模块3552、标注模块3553和第一模型训练模块3554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的分类模型的融合装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的分类模型的融合装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的分类模型的融合方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,ApplicationSpecific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable LogicDevice)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于上述对本发明实施例的分类模型的融合系统及电子设备的说明,下面说明本发明实施例提供的分类模型的融合方法。参见图4,图4是本发明实施例提供的分类模型的融合方法的流程示意图;在一些实施例中,该分类模型的融合方法可由服务器或终端单独实施,或由服务器及终端协同实施,以服务器实施为例,本发明实施例提供的分类模型的融合方法包括:
步骤401:服务器通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果。
其中,第一分类模型基于标注有第一标签的第一训练样本训练得到,第一标签对应第一类别。
步骤402:通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果。
其中,第二分类模型基于标注有第二标签的第二训练样本训练得到,第二标签对应第二类别。
在实际应用中,首先需要构建第一分类模型和第二分类模型,该两个分类模型分别用于不同类别的分类预测,具体的,第一分类模型用于第一类别的分类预测,第二分类模型用于第二类别的分类预测。示例性地,第一分类模型可以是用于对待分类图像所包含的内容进行分类预测的图像分类模型、第二分类模型可以是对待分类图像所呈现的颜色进行分类预测的图像分类模型。
然后获取用于训练第一分类模型的第一训练样本、及用于训练第二分类模型地第二训练样本。该第一训练样本标注有第一类别对应的第一标签,第二训练样本标注有第二类别对应的第二标签。
将标注有第一标签的第一训练样本输入到第一分类模型中,对第一分类模型进行训练,以得到训练完成的第一分类模型;将标注有第二标签的第二训练样本输入到第二分类模型中,对第二分类模型进行训练,以得到训练完成的第二分类模型。
在实际实施时,可以将第一训练样本输入至第一分类模型进行分类预测,得到相应的预测结果;基于得到的预测结果,及第一训练样本所标注的第一标签,确定第一分类模型的损失函数的值;进而基于第一分类模型的损失函数的值,更新第一分类模型的模型参数。同样地,第二分类模型也可以基于与第一分类模型同样的训练方法进行训练,在此不再赘述。
在得到训练完成的第一分类模型和第二分类模型后,通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果;通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果。
示例性地,第一分类模型可以是用于对待分类图像所包含的内容进行分类预测的图像分类模型、第二分类模型可以是对待分类图像所呈现的颜色进行分类预测的图像分类模型;相应地,第一训练样本的第一标签可以是风景、动物萌宠、人物等,第二训练样本的第二标签可以是中国风、文艺风、幽默风、西方艺术等。
将第一训练样本输入第二分类模型中,通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果,即中国风、文艺风、幽默风、西方艺术等;将第二训练样本输入第一分类模型中,通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果,即风景、动物萌宠、人物等。
步骤403:以第一分类结果作为第二训练样本的第三标签,对第二训练样本进行标注,并以第二分类结果作为第一训练样本的第四标签,对第一训练样本进行标注。
继续以第一分类模型为用于对待分类图像所包含的内容进行分类预测的图像分类模型、第二分类模型为对待分类图像所呈现的颜色进行分类预测的图像分类模型为例,将对应第二训练样本的第一分类结果(风景、动物萌宠、人物等)作为第二训练样本的第三标签,对第二训练样本进行标注;将对应第一训练样本的第二分类结果(中国风、文艺风、幽默风、西方艺术等)作为第一训练样本的第四标签,对第一训练样本进行标注。从而得到标注有第一标签和第四标签的第一训练样本、及标注有第二标签和第三标签的第二训练样本,即分别标注有“风景、动物萌宠、人物等”和“中国风、文艺风、幽默风、西方艺术等”的第一训练样本、第二训练样本。
基于此,可实现对缺失相应类别的标签的训练样本进行自动化标注,极大地降低了标注工作中的人力消耗。
步骤404:基于标注有第一标签及第四标签的第一训练样本,及标注有第二标签及第三标签的第二训练样本,训练第一融合分类模型。
这里,第一融合分类模型能够基于输入的待分类对象,进行第一类别和第二类别的分类预测,得到相应的分类结果。
在一些实施例中,服务器还可通过如下方式实现两个以上分类模型的融合:通过第三分类模型对组合训练样本进行第三类别的分类预测,得到对应组合训练样本的第三分类结果;其中,第三分类模型基于标注有第三类别的分类标签的第三训练样本训练得到,组合训练样本用于训练第一融合分类模型,包括标注有第一标签及第四标签的第一训练样本、和标注有第二标签及第三标签的第二训练样本;通过第一融合分类模型对第三训练样本进行第一类别和第二类别的分类预测,得到对应第三训练样本的第一类别和第二类别的分类结果;以第三分类结果作为组合训练样本的第五标签,对组合训练样本进行标注,并以对应第三训练样本的第一类别和第二类别的分类结果作为第三训练样本的第六标签,对第三训练样本进行标注;基于标注有第五标签的组合训练样本、及标注有第三类别的分类标签及第六标签的第三训练样本,训练第二融合分类模型,使得第二融合分类模型能够基于输入的待分类对象,进行第一类别、第二类别和第三类别的分类预测,得到相应的分类结果。
在一些实施例中,服务器可通过如下方式训练第一融合分类模型:基于标注有第一标签及第四标签的第一训练样本,及标注有第二标签及第三标签的第二训练样本,通过第一融合分类模型进行分类预测,得到对应第一类别和第二类别的分类结果;获取第一类别的分类结果与第一标签之间的第一差异、第二类别的分类结果与第二标签之间的第二差异、第一类别的分类结果与第三标签之间的第三差异、第二类别的分类结果与第四标签之间的第四差异;基于第一差异、第二差异、第三差异及第四差异,更新第一融合分类模型的模型参数。
在实际应用中,当训练第一融合分类模型时,可以将标注有第一标签及第四标签的第一训练样本,及标注有第二标签及第三标签的第二训练样本,均输入第一融合分类模型,通过第一融合分类模型进行第一类别和第二类别的分类预测,得到对应第一类别和第二类别的分类结果。
进一步地,获取第一类别的分类结果与第一标签之间的第一差异、第二类别的分类结果与第二标签之间的第二差异、第一类别的分类结果与第三标签之间的第三差异、第二类别的分类结果与第四标签的第四差异,进而基于第一差异、第二差异、第三差异及第四差异,更新第一融合分类模型的模型参数,以实现对第一融合分类模型的训练。
在一些实施例中,服务器可通过如下方式,基于第一差异、第二差异、第三差异及第四差异,更新第一融合分类模型的模型参数:基于第一差异、第二差异、第三差异及第四差异,确定第一融合分类模型的损失函数的值;基于第一融合分类模型的损失函数的值,更新第一融合分类模型的模型参数。
在一些实施例中,上述第一融合分类模型的损失函数可包括交叉熵损失函数和蒸馏损失函数。基于此,服务器可通过如下方式确定第一融合分类模型的损失函数的值:基于第一差异和第二差异,确定交叉熵损失函数的值;基于第三差异和第四差异,确定蒸馏损失函数的值;获取交叉熵损失函数对应的第一权重,及蒸馏损失函数对应的第二权重;结合第一权重和第二权重、交叉熵损失函数的值和蒸馏损失函数的值,确定第一融合分类模型的损失函数的值。
这里,第一标签、第二标签分别为第一训练样本、第二训练样本所对应的初始分类标签,即硬标签;第三标签、第四标签分别为第一训练样本、第二训练样本所对应的软标签。在实际应用中,针对硬标签和软标签,分别设置了不同的损失函数来计算硬标签、软标签与相应分类结果之间的差异损失值。具体地,第一差异和第二差异为硬标签与相应分类结果之间的差异,第三差异和第四差异为软标签与相应分类结果之间的差异,因此,可基于第一差异和第二差异,确定交叉熵损失函数的值;基于第三差异和第四差异,确定蒸馏损失函数的值。
在实际应用中,还针对交叉熵损失函数和蒸馏损失函数,分别设置了对应的权重值。分别获取交叉熵损失函数对应的第一权重、及蒸馏损失函数对应的第二权重,进而第一权重和第二权重、交叉熵损失函数的值和蒸馏损失函数的值,确定第一融合分类模型的损失函数的值。
确定第一融合分类函数的损失函数的值之后,在一些实施例中,服务器可通过如下方式,基于第一融合分类模型的损失函数的值,更新第一融合分类模型的模型参数:当第一融合分类模型的损失函数的值超出第一损失阈值时,基于第一融合分类模型的损失函数确定第一融合分类模型的第一误差信号;将第一误差信号在第一融合分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
具体地,可对比第一融合分类模型的损失函数的值与预设的第一损失阈值,当第一融合分类模型的损失函数的值超过第一损失阈值时,确定第一融合分类模型的第一误差信号,从而基于第一误差信号在第一融合分类模型中反向传播的过程中,更新第一融合分类模型各个层的模型参数。
在一些实施例中,第一融合分类模型的损失函数可仅包含一种损失函数,不再针对软、硬标签分别设置不同的损失函数。基于此,服务器还可通过如下方式更新第一融合分类模型的模型参数:基于第一差异、第二差异、第三差异及第四差异,确定第一融合分类模型的损失函数的值;当第一融合分类模型的损失函数的值超出第二损失阈值时,基于第一融合分类模型的损失函数确定第一融合分类模型的第二误差信号;将第二误差信号在第一融合分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
在一些实施例中,服务器可通过以下方式对待分类对象进行分类预测:通过第一融合分类模型的特征提取层,对输入的待分类对象进行特征提取,得到待分类对象的对象特征;基于待分类对象的对象特征,通过第一融合分类模型的多分类层,进行第一类别和第二类别的分类预测,得到对应第一类别和第二类别的分类结果。
在得到训练完成的第一融合分类模型后,可通过该第一融合分类模型对待分类对象进行分类预测。在实际应用中,第一融合分类模型可包括特征提取层和多分类层。具体地,当通过第一融合分类模型进行分类预测时,首先通过特征提取层对待分类对象进行特征提取,得到待分类对象的对象特征;然后通过多分类层对待分类对象的对象特征进行第一类别和第二类别的分类预测,从而实现对待分类对象的分类,得到待分类对象对应的第一类别和第二类别的分类结果。
应用本发明上述实施例,通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果,并通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果,将第一分类结果作为第二训练样本的第三标签进行标注,将第二分类结果作为第一训练样本的第四标签进行标注;如此,基于标注有第一类别和第二类别的分类标签的第一训练样本、标注有第一类别和第二类别的分类标签的第二训练样本,对第一融合分类模型进行训练,使得第一融合分类模型能够进行第一类别和第二类别的分类预测,实现了不同任务类别的分类模型的融合;并且仅需要对融合分类模型进行测试即可,不需要经过多个分类模型,降低了时间消耗;因此实现了不同任务类别的分类模型的快速融合,提高了融合分类模型的分类精度及性能。
下面继续对本发明实施例提供的分类模型的融合方法进行说明。参见图5和图6,图5是本发明实施例提供的分类模型的融合方法的数据流走向示意图一,图6是本发明实施例提供的分类模型的融合方法的流程示意图,包括:
步骤601:服务器基于第一训练样本训练第一分类模型,基于第二训练样本训练第二分类模型。
这里,第一分类模型和第二分类模型分别对应不同类别的分类任务,第一训练样本标注有对应第一类别的第一标签(即硬标签),第二训练样本标注有对应第二类别的第二标签。
示例性地,该两个分类模型可以为对应有不同类别分类任务的文本分类模型。比如,第一分类模型用于对待分类文本进行所属领域的分类预测,此时第一训练样本所标注的第一标签可以为医学领域、文学领域、经济学领域等;第二分类模型用于对待分类文本进行所属来源的分类预测,此时第二训练样本所标注的第二标签可以为出版物、网络刊物、电子文库、报刊等。参见图7A,图7A是本发明实施例提供的用于训练分类模型的训练样本的标签示意图,这里,第一训练样本仅标注有硬标签a,第二训练样本仅标注有硬标签b,其中硬标签a和硬标签b均为初始分类标签。
步骤602:获取训练完成的第一分类模型、第二分类模型、以及用于训练的第一训练样本和第二训练样本。
步骤603:通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应第二训练样本的第一分类结果。
步骤604:通过第二分类模型对第一训练样本进行第二类别的分类预测,得到对应第一训练样本的第二分类结果。
这里,在步骤603-604中,通过第一分类模型对第二训练样本进行分类预测,得到对应第二训练样本的第一分类结果,通过第二分类模型对第一训练样本进行分类预测,得到对应第一训练样本的第二分类结果。
步骤605:以第一分类结果作为第二训练样本的第三标签,对第二训练样本进行标注;以第二分类结果作为第一训练样本的第四标签,对第一训练样本进行标注。
这里,对应第二训练样本的第三标签即为第二训练样本的软标签,对应第一训练样本的第四标签即为第一训练样本的软标签。
参见图7B,图7B是本发明实施例提供的训练样本的软标签标注的流程示意图,这里,将标注有硬标签a(第一标签)的第一训练样本输入第二分类模型中,得到对应第一训练样本的第二分类结果;将标注有硬标签b(第二标签)的第二训练样本输入第一分类模型中,得到对应第二训练样本的第一分类结果。将第二分类结果作为第一训练样本的软标签β,将第一分类结果作为第二训练样本的软标签α。
采用软标签β对第一训练样本进行标注,得到分别标注有硬标签a和软标签β的第一训练样本;采用软标签α对第二训练样本进行标注,得到分别标注有硬标签b和软标签α的第二训练样本。
继续以该两个分类模型为文本分类模型为例,即,将标注有领域硬标签(医学领域、文学领域、经济学领域等)的第一训练样本,输入到用于对待分类文本进行所属来源的分类预测的第二分类模型中,得到对应第一训练样本的来源软标签(出版物、网络刊物、电子文库、报刊等),进一步采用对应第一训练样本的来源软标签对第一训练样本进行标注,从而得到标注有领域硬标签和来源软标签的第一训练样本。相同地,基于同样的方式,得到标注有来源硬标签和领域软标签的第二训练样本。
步骤606:将标注有第一标签及第四标签的第一训练样本,及标注有第二标签及第三标签的第二训练样本,输入第一融合分类模型,得到对应第一类别和第二类别的分类结果。
这里,第一融合分类模型能够基于输入的待分类对象,进行第一类别和第二类别的分类预测,并得到相应的分类结果。
继续以该两个分类模型为文本分类模型为例,第一分类模型用于对待分类文本进行所属领域的分类预测,第二分类模型用于对待分类文本进行所属来源的分类预测,则第一融合分类模型可用于对待分类文本进行所属领域和所属来源的分类预测。当对该第一融合分类模型进行训练时,则将标注有领域硬标签和来源软标签的第一训练样本、及标注有来源硬标签和领域软标签的第二训练样本输入第一融合分类模型中,以实现对第一融合分类模型的训练。
步骤607:获取第一类别的分类结果与第一标签之间的第一差异、第二类别的分类结果与第二标签之间的第二差异、第一类别的分类结果与第三标签之间的第三差异、第二类别的分类结果与第四标签的第四差异。
步骤608:基于第一差异和第二差异,确定第一融合分类模型的交叉熵损失函数的值。
步骤609:基于第三差异和第四差异,确定第一融合分类模型的蒸馏损失函数的值。
步骤610:获取交叉熵损失函数对应的第一权重、及蒸馏损失函数对应的第二权重。
这里,第一权重和第二权重可根据经验自定义。
步骤611:结合第一权重和第二权重、交叉熵损失函数的值和蒸馏损失函数的值,确定融合分类模型的损失函数的值。
步骤612:基于第一融合分类模型的损失函数的值,更新第一融合分类模型各个层的模型参数,以实现对第一融合分类模型的训练。
步骤613:终端响应于针对待分类对象的分类预测指令,向服务器发送待分类对象的分类预测请求。
步骤614:服务器接收到针对待分类对象的分类预测请求,通过训练完成的第一融合分类模型对待分类对象进行第一类别和第二类别的分类预测,得到分类结果,并返回终端。
继续以该两个分类模型为文本分类模型为例,第一分类模型用于对待分类文本进行所属领域的分类预测,第二分类模型用于对待分类文本进行所属来源的分类预测,则第一融合分类模型可用于对待分类文本进行所属领域和所属来源的分类预测。
当基于第一融合分类模型对待分类文本进行分类预测时,通过第一融合分类模型的特征提取层,对待分类文本进行特征提取,比如one-hot编码、预先训练完成的TextCNN模型、word2vec词向量映射等,得到待分类文本的文本特征;再通过第一融合分类模型的多分类层,对待分类文本的文本特征进行分类预测,得到对应待分类文本的分类结果,即待分类文本所属的领域和来源。
步骤615:终端接收并呈现对应待分类对象的第一类别和第二类别的分类结果。
接下来以三个分类模型的融合为例,继续对本发明实施例提供的分类模型的融合方法进行说明。其中,该三个分类模型包括第一分类模型、第二分类模型和第三分类模型,在实际实施时,可首先通过融合第一分类模型和第二分类模型,以得到第一融合分类模型,具体得到第一融合分类模型的步骤可参照上述步骤601-612,在此不再赘述。下面对第一融合分类模型和第三分类模型的融合过程进行说明,以实现三个分类模型的融合。参见图8和图9,图8是本发明实施例提供的分类模型的融合方法的数据流走向示意图二,图9是本发明实施例提供的分类模型的融合方法的流程示意图,包括:
步骤901:服务器获取训练完成的第三分类模型、第一融合分类模型以及用于训练的第三训练样本和组合训练样本。
这里,第三分类模型基于标注有第三类别的分类标签的第三训练样本训练得到,组合训练样本用于训练第一融合分类模型,包括标注有第一标签及第四标签的第一训练样本、和标注有第二标签及第三标签的第二训练样本。
参见图8,这里第三类别的分类标签即为硬标签c,组合训练样本标注的第一标签为硬标签a,第二标签为硬标签b,第三标签为软标签β,第四标签为软标签α。
步骤902:通过第三分类模型对组合训练样本进行第三类别的分类预测,得到对应组合训练样本的第三分类结果。
步骤903:通过第一融合分类模型对第三训练样本进行第一类别和第二类别的分类预测,得到对应第三训练样本的第一类别和第二类别的分类结果。
步骤904:以第三分类结果作为组合训练样本的第五标签,对组合训练样本进行标注,并以对应第三训练样本的第一类别和第二类别的分类结果作为第三训练样本的第六标签,对第三训练样本进行标注。
这里,第五标签为第三训练样本对应的软标签α和软标签β,第六标签为组合训练样本的软标签C。
步骤905:基于标注有第五标签的组合训练样本、及标注有第三类别的分类标签及第六标签的第三训练样本,训练第二融合分类模型。
这里,第二融合分类模型能够基于输入的待分类对象,进行第一类别、第二类别和第三类别的分类预测,得到相应的分类结果。
在实际实施时,将标注有第五标签的组合训练样本、及标注有第三类别的分类标签及第六标签的第三训练样本,输入第二融合分类模型中,得到相应的分类结果;基于得到的分类结果与相应分类标签的差异,更新第二融合分类模型。
步骤906:终端响应于针对待分类对象的分类预测指令,向服务器发送待分类对象的分类预测请求。
步骤907:服务器接收到针对待分类对象的分类预测请求,通过训练完成的第二融合分类模型对待分类对象进行第一类别、第二类别和第三类别的分类预测,得到分类结果,并返回终端。
步骤908:终端接收并呈现对应待分类对象的第一类别、第二类别和第三类别的分类结果。
下面继续说明本发明实施例提供的分类模型的融合装置355,在一些实施例中,分类模型的融合装置可采用软件模块的方式实现。参见图10,图10是本发明实施例提供的分类模型的融合装置355的结构示意图,本发明实施例提供的分类模型的融合装置355包括:
第一分类预测模块3551,用于通过第一分类模型对第二训练样本进行第一类别的分类预测,得到对应所述第二训练样本的第一分类结果;其中,所述第一分类模型基于标注有第一标签的第一训练样本训练得到,所述第一标签对应所述第一类别;
第二分类预测模块3552,用于通过第二分类模型对所述第一训练样本进行第二类别的分类预测,得到对应所述第一训练样本的第二分类结果;其中,所述第二分类模型基于标注有第二标签的第二训练样本训练得到,所述第二标签对应所述第二类别;
标注模块3553,用于以所述第一分类结果作为所述第二训练样本的第三标签,对所述第二训练样本进行标注,并以所述第二分类结果作为所述第一训练样本的第四标签,对所述第一训练样本进行标注;
第一模型训练模块3554,用于基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,训练第一融合分类模型,使得所述第一融合分类模型能够基于输入的待分类对象,进行所述第一类别和所述第二类别的分类预测,得到相应的分类结果。
在一些实施例中,所述装置还包括:
第二模型训练模块,用于通过第三分类模型对组合训练样本进行第三类别的分类预测,得到对应所述组合训练样本的第三分类结果;其中,所述第三分类模型基于标注有所述第三类别的分类标签的第三训练样本训练得到,所述组合训练样本用于训练所述第一融合分类模型,包括标注有所述第一标签及所述第四标签的第一训练样本、和标注有所述第二标签及所述第三标签的第二训练样本;
通过所述第一融合分类模型对第三训练样本进行所述第一类别和第二类别的分类预测,得到对应所述第三训练样本的第一类别和第二类别的分类结果;
以所述第三分类结果作为所述组合训练样本的第五标签,对所述组合训练样本进行标注,并以对应所述第三训练样本的第一类别和第二类别的分类结果作为所述第三训练样本的第六标签,对所述第三训练样本进行标注;
基于标注有所述第五标签的所述组合训练样本、及标注有所述第三类别的分类标签及所述第六标签的所述第三训练样本,训练第二融合分类模型,使得所述第二融合分类模型能够基于输入的待分类对象,进行所述第一类别、所述第二类别和第三类别的分类预测,得到相应的分类结果。
在一些实施例中,所述第一模型训练模块3554,还用于基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,通过所述第一融合分类模型进行分类预测,得到对应第一类别和第二类别的分类结果;
获取所述第一类别的分类结果与所述第一标签之间的第一差异、所述第二类别的分类结果与所述第二标签之间的第二差异、所述第一类别的分类结果与所述第三标签之间的第三差异、所述第二类别的分类结果与所述第四标签之间的第四差异;
基于所述第一差异、第二差异、第三差异及第四差异,更新所述第一融合分类模型的模型参数。
在一些实施例中,所述第一模型训练模块3554,还用于基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合分类模型的损失函数的值;
基于所述第一融合分类模型的损失函数的值,更新所述第一融合分类模型的模型参数。
在一些实施例中,所述第一融合分类模型的损失函数包括交叉熵损失函数及蒸馏损失函数,所述第一模型训练模块3554,还用于基于所述第一差异和第二差异,确定所述交叉熵损失函数的值;
基于所述第三差异和第四差异,确定所述蒸馏损失函数的值;
获取所述交叉熵损失函数对应的第一权重,及所述蒸馏损失函数对应的第二权重;
结合所述第一权重和第二权重、所述交叉熵损失函数的值和蒸馏损失函数的值,确定所述第一融合分类模型的损失函数的值。
在一些实施例中,所述第一模型训练模块3554,还用于当所述第一融合分类模型的损失函数的值超出第一损失阈值时,基于所述第一融合分类模型的损失函数确定所述第一融合分类模型的第一误差信号;
将所述第一误差信号在所述第一融合分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
在一些实施例中,所述第一模型训练模块3554,还用于基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合分类模型的损失函数的值;
当所述第一融合分类模型的损失函数的值超出第二损失阈值时,基于所述第一融合分类模型的损失函数确定所述第一融合分类模型的第二误差信号;
将所述第二误差信号在所述第一融合分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
在一些实施例中,所述装置还包括:
分类模块,用于通过所述第一融合分类模型的特征提取层,对输入的待分类对象进行特征提取,得到待分类对象的对象特征;
基于所述待分类对象的对象特征,通过所述第一融合分类模型的多分类层,进行所述第一类别和第二类别的分类预测,得到对应所述第一类别和第二类别的分类结果。
本发明实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的分类模型的融合方法。
本发明实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本发明实施例提供的分类模型的融合方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEP ROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。计算机可以是包括智能终端和服务器在内的各种计算设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。
Claims (11)
1.一种文本分类模型的融合方法,其特征在于,所述方法包括:
通过第一文本分类模型对第二训练样本进行第一类别的分类预测,得到对应所述第二训练样本的第一分类结果;其中,所述第一文本分类模型基于标注有第一标签的第一训练样本训练得到,所述第一标签对应所述第一类别,所述第一训练样本所标注的所述第一标签的类型包括医学领域、文学领域和经济学领域;
通过第二文本分类模型对所述第一训练样本进行第二类别的分类预测,得到对应所述第一训练样本的第二分类结果;其中,所述第二文本分类模型基于标注有第二标签的第二训练样本训练得到,所述第二标签对应所述第二类别,所述第二训练样本所标注的所述第二标签的类型包括出版物、网络刊物、电子文库和报刊;
以所述第一分类结果作为所述第二训练样本的第三标签,对所述第二训练样本进行标注,并以所述第二分类结果作为所述第一训练样本的第四标签,对所述第一训练样本进行标注;
基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,训练第一融合文本分类模型,使得所述第一融合文本分类模型能够基于输入的待分类对象,进行所述第一类别和所述第二类别的分类预测,得到相应的分类结果。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过第三文本分类模型对组合训练样本进行第三类别的分类预测,得到对应所述组合训练样本的第三分类结果;其中,所述第三文本分类模型基于标注有所述第三类别的分类标签的第三训练样本训练得到,所述组合训练样本用于训练所述第一融合文本分类模型,包括标注有所述第一标签及所述第四标签的第一训练样本、和标注有所述第二标签及所述第三标签的第二训练样本;
通过所述第一融合文本分类模型对第三训练样本进行所述第一类别和第二类别的分类预测,得到对应所述第三训练样本的第一类别和第二类别的分类结果;
以所述第三分类结果作为所述组合训练样本的第五标签,对所述组合训练样本进行标注,并以对应所述第三训练样本的第一类别和第二类别的分类结果作为所述第三训练样本的第六标签,对所述第三训练样本进行标注;
基于标注有所述第五标签的所述组合训练样本、及标注有所述第三类别的分类标签及所述第六标签的所述第三训练样本,训练第二融合文本分类模型,使得所述第二融合文本分类模型能够基于输入的待分类对象,进行所述第一类别、所述第二类别和第三类别的分类预测,得到相应的分类结果。
3.如权利要求1所述的方法,其特征在于,所述基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,训练第一融合文本分类模型,包括:
基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,通过所述第一融合文本分类模型进行分类预测,得到对应第一类别和第二类别的分类结果;
获取所述第一类别的分类结果与所述第一标签之间的第一差异、所述第二类别的分类结果与所述第二标签之间的第二差异、所述第一类别的分类结果与所述第三标签之间的第三差异、所述第二类别的分类结果与所述第四标签之间的第四差异;
基于所述第一差异、第二差异、第三差异及第四差异,更新所述第一融合文本分类模型的模型参数。
4.如权利要求3所述的方法,其特征在于,所述基于所述第一差异、第二差异、第三差异及第四差异,更新所述第一融合文本分类模型的模型参数,包括:
基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合文本分类模型的损失函数的值;
基于所述第一融合文本分类模型的损失函数的值,更新所述第一融合文本分类模型的模型参数。
5.如权利要求4所述的方法,其特征在于,所述第一融合文本分类模型的损失函数包括交叉熵损失函数及蒸馏损失函数,所述基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合文本分类模型的损失函数的值,包括:
基于所述第一差异和第二差异,确定所述交叉熵损失函数的值;
基于所述第三差异和第四差异,确定所述蒸馏损失函数的值;
获取所述交叉熵损失函数对应的第一权重,及所述蒸馏损失函数对应的第二权重;
结合所述第一权重和第二权重、所述交叉熵损失函数的值和蒸馏损失函数的值,确定所述第一融合文本分类模型的损失函数的值。
6.如权利要求4所述的方法,其特征在于,所述基于所述第一融合文本分类模型的损失函数的值,更新所述第一融合文本分类模型的模型参数,包括:
当所述第一融合文本分类模型的损失函数的值超出第一损失阈值时,基于所述第一融合文本分类模型的损失函数确定所述第一融合文本分类模型的第一误差信号;
将所述第一误差信号在所述第一融合文本分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
7.如权利要求3所述的方法,其特征在于,所述基于所述第一差异、第二差异、第三差异及第四差异,更新所述第一融合文本分类模型的模型参数,包括:
基于所述第一差异、第二差异、第三差异及第四差异,确定所述第一融合文本分类模型的损失函数的值;
当所述第一融合文本分类模型的损失函数的值超出第二损失阈值时,基于所述第一融合文本分类模型的损失函数确定所述第一融合文本分类模型的第二误差信号;
将所述第二误差信号在所述第一融合文本分类模型中反向传播,并在传播的过程中更新各个层的模型参数。
8.如权利要求1所述的方法,其特征在于,所述方法还包括:
通过所述第一融合文本分类模型的特征提取层,对输入的待分类对象进行特征提取,得到待分类对象的对象特征;
基于所述待分类对象的对象特征,通过所述第一融合文本分类模型的多分类层,进行所述第一类别和第二类别的分类预测,得到对应所述第一类别和第二类别的分类结果。
9.一种文本分类模型的融合装置,其特征在于,所述装置包括:
第一分类预测模块,用于通过第一文本分类模型对第二训练样本进行第一类别的分类预测,得到对应所述第二训练样本的第一分类结果;其中,所述第一文本分类模型基于标注有第一标签的第一训练样本训练得到,所述第一标签对应所述第一类别,所述第一训练样本所标注的所述第一标签的类型包括医学领域、文学领域和经济学领域;
第二文本分类预测模块,用于通过第二文本分类模型对所述第一训练样本进行第二类别的分类预测,得到对应所述第一训练样本的第二分类结果;其中,所述第二文本分类模型基于标注有第二标签的第二训练样本训练得到,所述第二标签对应所述第二类别,所述第二训练样本所标注的所述第二标签的类型包括出版物、网络刊物、电子文库和报刊;
标注模块,用于以所述第一分类结果作为所述第二训练样本的第三标签,对所述第二训练样本进行标注,并以所述第二分类结果作为所述第一训练样本的第四标签,对所述第一训练样本进行标注;
第一模型训练模块,用于基于标注有所述第一标签及所述第四标签的所述第一训练样本,及标注有所述第二标签及所述第三标签的所述第二训练样本,训练第一融合文本分类模型,使得所述第一融合文本分类模型能够基于输入的待分类对象,进行所述第一类别和所述第二类别的分类预测,得到相应的分类结果。
10.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于运行所述存储器存储的可执行指令时,实现如权利要求1至8任一项所述的文本分类模型的融合方法。
11.一种计算机可读存储介质,其特征在于,存储有可执行指令,所述可执行指令被执行时,用于实现如权利要求1至8任一项所述的文本分类模型的融合方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010113360.8A CN111275133B (zh) | 2020-02-24 | 2020-02-24 | 分类模型的融合方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010113360.8A CN111275133B (zh) | 2020-02-24 | 2020-02-24 | 分类模型的融合方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275133A CN111275133A (zh) | 2020-06-12 |
CN111275133B true CN111275133B (zh) | 2023-09-29 |
Family
ID=71003664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010113360.8A Active CN111275133B (zh) | 2020-02-24 | 2020-02-24 | 分类模型的融合方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275133B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112329824A (zh) * | 2020-10-23 | 2021-02-05 | 北京中科智加科技有限公司 | 多模型融合训练方法、文本分类方法以及装置 |
CN112529101B (zh) * | 2020-12-24 | 2024-05-14 | 深圳前海微众银行股份有限公司 | 分类模型的训练方法、装置、电子设备及存储介质 |
CN112561000B (zh) * | 2021-02-22 | 2021-05-28 | 腾讯科技(深圳)有限公司 | 基于组合模型的分类方法、装置、设备及存储介质 |
CN113011490B (zh) * | 2021-03-16 | 2024-03-08 | 北京百度网讯科技有限公司 | 模型训练方法、装置及电子设备 |
CN113139463B (zh) * | 2021-04-23 | 2022-05-13 | 北京百度网讯科技有限公司 | 用于训练模型的方法、装置、设备、介质和程序产品 |
CN113312445B (zh) * | 2021-07-29 | 2022-02-11 | 阿里云计算有限公司 | 数据处理方法、模型构建方法、分类方法及计算设备 |
CN117237744B (zh) * | 2023-11-10 | 2024-01-30 | 之江实验室 | 一种图像分类模型的训练方法、装置、介质及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778796A (zh) * | 2016-10-20 | 2017-05-31 | 江苏大学 | 基于混合式协同训练的人体动作识别方法及系统 |
CN109086825A (zh) * | 2018-08-03 | 2018-12-25 | 北京邮电大学 | 一种基于模型自适应选择的多分类模型融合方法 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN110458245A (zh) * | 2019-08-20 | 2019-11-15 | 图谱未来(南京)人工智能研究院有限公司 | 一种多标签分类模型训练方法、数据处理方法及装置 |
CN110659646A (zh) * | 2019-08-21 | 2020-01-07 | 北京三快在线科技有限公司 | 一种多任务证件图像自动处理方法、装置、设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106548210B (zh) * | 2016-10-31 | 2021-02-05 | 腾讯科技(深圳)有限公司 | 基于机器学习模型训练的信贷用户分类方法及装置 |
-
2020
- 2020-02-24 CN CN202010113360.8A patent/CN111275133B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106778796A (zh) * | 2016-10-20 | 2017-05-31 | 江苏大学 | 基于混合式协同训练的人体动作识别方法及系统 |
CN109086825A (zh) * | 2018-08-03 | 2018-12-25 | 北京邮电大学 | 一种基于模型自适应选择的多分类模型融合方法 |
CN109582793A (zh) * | 2018-11-23 | 2019-04-05 | 深圳前海微众银行股份有限公司 | 模型训练方法、客服系统及数据标注系统、可读存储介质 |
CN110458245A (zh) * | 2019-08-20 | 2019-11-15 | 图谱未来(南京)人工智能研究院有限公司 | 一种多标签分类模型训练方法、数据处理方法及装置 |
CN110659646A (zh) * | 2019-08-21 | 2020-01-07 | 北京三快在线科技有限公司 | 一种多任务证件图像自动处理方法、装置、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
小样本目标检测的研究现状;潘兴甲 等;《南京信息工程大学学报(自然科学版)》;第11卷(第6期);第698-705页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111275133A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275133B (zh) | 分类模型的融合方法、装置及存储介质 | |
CN111291823B (zh) | 分类模型的融合方法、装置、电子设备及存储介质 | |
CN111090987B (zh) | 用于输出信息的方法和装置 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
US20230025317A1 (en) | Text classification model training method, text classification method, apparatus, device, storage medium and computer program product | |
CN111090756B (zh) | 基于人工智能的多目标推荐模型的训练方法及装置 | |
CN110140133A (zh) | 机器学习任务的隐式桥接 | |
CN113762052A (zh) | 视频封面提取方法、装置、设备及计算机可读存储介质 | |
JP2021096813A (ja) | データ処理方法及び装置 | |
CN111274473B (zh) | 基于人工智能的推荐模型的训练方法、装置及存储介质 | |
CN111897934B (zh) | 问答对生成方法及装置 | |
Burke | Occluded algorithms | |
CN114564666B (zh) | 百科信息展示方法、装置、设备和介质 | |
You et al. | TISK 1.0: An easy-to-use Python implementation of the time-invariant string kernel model of spoken word recognition | |
CN113010702A (zh) | 多媒体信息的互动处理方法、装置、电子设备及存储介质 | |
CN111860653A (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN113688245A (zh) | 基于人工智能的预训练语言模型的处理方法、装置及设备 | |
CN114386386B (zh) | 基于增量学习的评论生成方法、系统、设备及存储介质 | |
CN111104874A (zh) | 人脸年龄预测方法及模型的训练方法、装置及电子设备 | |
CN116894188A (zh) | 业务标签集更新方法、装置、介质及电子设备 | |
CN113869377A (zh) | 训练方法、装置及电子设备 | |
CN117216544A (zh) | 模型训练方法、自然语言处理方法、装置及存储介质 | |
CN116912187A (zh) | 图像生成模型训练及图像生成方法、装置、设备和介质 | |
CN111767290B (zh) | 用于更新用户画像的方法和装置 | |
CN115129971A (zh) | 基于能力评估数据的课程推荐方法、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40023594 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |