CN111507419B - 图像分类模型的训练方法及装置 - Google Patents

图像分类模型的训练方法及装置 Download PDF

Info

Publication number
CN111507419B
CN111507419B CN202010320553.0A CN202010320553A CN111507419B CN 111507419 B CN111507419 B CN 111507419B CN 202010320553 A CN202010320553 A CN 202010320553A CN 111507419 B CN111507419 B CN 111507419B
Authority
CN
China
Prior art keywords
image
classification model
training
image sample
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010320553.0A
Other languages
English (en)
Other versions
CN111507419A (zh
Inventor
郭卉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010320553.0A priority Critical patent/CN111507419B/zh
Publication of CN111507419A publication Critical patent/CN111507419A/zh
Application granted granted Critical
Publication of CN111507419B publication Critical patent/CN111507419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种图像分类模型的训练方法及装置;方法包括:获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及图像样本集中各图像样本的特征,图像样本标注有原类别标签;确定至少两个类别的类中心特征与各图像样本的特征的相似度;针对各图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有原类别标签及新类别标签的目标图像样本;基于原类别标签、新类别标签以及确定的相似度,构建图像分类模型的损失函数;基于损失函数,采用目标图像样本训练图像分类模型。通过本发明,能够提高训练得到的图像分类模型的预测准确度。

Description

图像分类模型的训练方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种图像分类模型的训练方法及装置。
背景技术
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术,人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,机器学习(ML,Machine Learning)是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。
图像的分类与识别是人工智能的重要应用分支,为实现图像的分类,通常需要通过图像样本集,对图像分类模型进行训练。由于标注人员的失误、概念不清等原因,图像样本集通常包括噪声图像样本,而基于包括噪声图像样本的图像数据集训练得到的图像分类模型的分类预测性能较低。
发明内容
本发明实施例提供一种图像分类模型的训练方法及装置,能够对噪声图像样本的标签进行修正,提高训练得到的图像分类模型的预测准确度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供一种图像分类模型的训练方法,包括:
获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征,所述图像样本标注有原类别标签;
确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;
针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;
基于所述原类别标签、所述新类别标签以及确定的所述相似度,构建所述图像分类模型的损失函数;
基于所述损失函数,采用所述目标图像样本训练所述图像分类模型。
本发明实施例提供一种图像分类模型的训练装置,包括:
获取模块,用于获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征,所述图像样本标注有原类别标签;
确定模块,用于确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;
标注模块,用于针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;
构建模块,用于基于所述原类别标签、所述新类别标签以及确定的所述相似度,构建所述图像分类模型的损失函数;
训练模块,用于基于所述损失函数,采用所述目标图像样本训练所述图像分类模型。
上述方案中,所述训练模块,还用于通过所述图像样本集,对所述图像分类模型进行第一阶段的训练,直至确定所述第一阶段的训练完成;
相应的,所述获取模块,还用于通过完成第一阶段训练的图像分类模型中的特征提取层,提取所述图像样本集中各图像样本的特征。
上述方案中,所述训练模块,还用于每完成一轮训练,获取所述图像分类模型的错误率;
当连续目标轮数所获取的错误率均低于错误率阈值时,确定所述第一阶段的训练完成。
上述方案中,所述训练模块,还用于每完成一轮训练,获取所述图像分类模型的错误率;
当连续目标轮数所获取的错误率均未下降时,确定所述第一阶段的训练完成。
上述方案中,所述获取模块,还用于从所述图像样本集中,分别选取对应各所述类别的目标样本数量的图像样本;
获取对应各所述类别的所述图像样本的特征;
分别对应各所述类别的所述图像样本的特征进行聚类处理,以分别从对应各所述类别的所述图像样本的特征中,确定目标数量的类中心特征。
上述方案中,所述构建模块,还用于构建对应所述原类别标签的第一损失函数;
构建对应所述新类别标签的第二损失函数;
根据确定的所述相似度,确定所述第一损失函数的权重和所述第二损失函数的权重;
根据所述第一损失函数的权重和所述第二损失函数的权重,对所述第一损失函数和所述第二损失函数进行加权求和,得到所述图像分类模型的损失函数。
上述方案中,所述构建模块,还用于获取对应所述原类别标签的至少两个类中心特征中,与所述图像样本的相似度最大的目标类中心特征;
获取所述目标类中心特征与所述图像样本的相似度、以及所述目标类中心特征的权重;
将所述相似度与所述权重的乘积确定为所述第一损失函数的权重;
将所述最大相似度作为所述第二损失函数的权重。
上述方案中,所述训练模块,还用于通过所述图像分类模型,对所述目标图像样本进行分类预测,得到相应的预测结果;
根据相应的预测结果,确定所述损失函数的值;
根据所述损失函数的值,更新所述图像分类模型的模型参数。
上述方案中,所述训练模块,还用于当所述图像样本集中包括干净图像样本时,获取所述干净图像样本,并确定所述干净图像样本的数量;
根据所述干净图像样本的数量,确定所述图像分类模型中所要进行参数调整的层;
根据所述干净图像样本,对所述层的模型参数进行调整。
本发明实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的图像分类模型的训练方法。
本发明实施例提供一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本发明实施例提供的图像分类模型的训练方法。
本发明实施例具有以下有益效果:
通过确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;基于所述原类别标签、所述新类别标签以及确定的所述相似度,构建所述图像分类模型的损失函数;基于所述损失函数,采用所述目标图像样本训练所述图像分类模型;如此,通过确定新类别标签,对噪声图像样本的类别标签进行修正,并基于确定的新类别标签和原类别标签建立训练目标,使得训练得到的图像分类模型的预测准确度得到了提高。
附图说明
图1是相关技术提供的Curriculum Net的实现流程示意图;
图2是相关技术提供的Clean Net的实现流程示意图;
图3是本发明实施例提供的图像分类模型的训练方法的实施场景示意图;
图4是本发明实施例提供的电子设备的结构示意图;
图5是本发明实施例提供的图像分类模型的训练方法的流程示意图;
图6是本发明实施例提供的ResNet模块的结构示意图;
图7是本发明实施例提供的图像分类模型应用于服装图像分类的示意图;
图8是本发明实施例提供的图像分类模型的训练方法的流程示意图;
图9是本发明实施例提供的图像分类模型的训练方法的流程示意图;
图10是本发明实施例提供的获取权重及新类别标签的流程示意图;
图11是本发明实施例提供的获取权重及新类别标签的数据走向图;
图12是本发明实施例提供的图像分类模型的训练装置455的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)图像分类,指对图像所属的类别进行识别,通过对图像中包含的对象(如人、狗、猫、鸟等)的类别进行识别,以将图像划分至对象所属的类别。
2)噪声图像样本,指图像样本所标注的类别标签与其实际对应的类别不一致的图像样本,可以是由于标注人员失误造成的,也可以是由于概念不清造成的,如两个类别间概念部分重叠造成某张图像具有2种类别属性,但仅被标注成1种类别。
3)干净图像样本,指经过人工确认的图像样本,其标注的类别标签一定是正确的。
4)校验图像样本,指经过人工噪声校验的样本,即标注有是否为噪声图像样本的标签,若是噪声图像样本则标注为1,若不是噪声图像样本则标注为0。
5)全量图像样本集,包括噪声图像样本和干净图像样本。
当图像样本数据集中包括噪声图像样本时,相关技术提供了两种图像的模型的训练方法,即课程网络(Curriculum Net)技术和净化网络(Clean Net)技术,以提升训练得到的图像分类模型的分类预测性能。
Curriculum Net是一种基于大规模网络图像的弱监督学习算法。图1是相关技术提供的Curriculum Net的实现流程示意图,参见图1,首先,通过聚类的方式将图像样本集划分为三个子图像样本集,包括第一子图像样本集、第二子图像样本集和第三子图像样本集,每个图像样本集都有一个密度值来衡量其内的图像分布,其中,密度最高为干净图像样本集,即第一子样本数据集,仅包括干净图像样本。需要说明的是,密度越低,表示该子图像样本集包含的噪声图像样本的数量越多。
然后,通过干净图像样本集,对图像分类模型进行第一阶段训练;在第一阶段训练的图像分类模型收敛后,通过包含部分噪声图像样本的第二子图像样本集,对图像分类模型进行第二阶段训练;第二阶段训练完成后,通过包含大量噪声图像样本的第三子图像样本集对图像分类模型进行训练,以得到最终的图像分类模型。其中,在第二阶段训练和第三阶段训练中,采用微调(finetune)的方法。
上述方案具有以下缺点:
1)需要通过干净图像样本来初始化模型,带来人工标注的额外需求;
2)在第二阶段和第三阶段的训练中,将噪声图像样本直接抑制掉,会导致信息的丢失;
3)存在噪声图像样本被误判的情况;
4)噪声判决是离线学习的,一旦确定不再变化,然而通过密度判决噪声总会带有偏差,容易造成学习不准确以致后续模型优化陷入困境。
图2是相关技术提供的Clean Net的实现流程示意图,参见图2,首先,通过图像样本集对图像分类模型进行第一阶段训练,然后根据校验图像样本集,对噪声判断模型进行训练;接着,通过训练得到的噪声判断模型对图像样本集进行噪声预测,并将预测结果作为样本权重;最后将样本权重应用到对图像分类模型的第二阶段训练中,作为样本加权。
上述方案具有以下缺点:
1)需要收集校验图像样本,校验图像样本越多效果越好,带来额外的人工投入;
2)将噪声图像样本直接抑制掉,会导致信息的丢失;
3)存在噪声图像样本被误判的情况;
4)噪声判决一旦确定不再变化,容易造成学习不准确以致后续模型优化陷入困境。
基于此,本发明实施例提供一种图像分类模型的训练方法及装置,以至少解决相关技术中的上述问题,接下来分别说明。
基于上述对本发明实施例中涉及的名词和术语的解释,接下来首先说明本发明实施例提供的图像分类模型的训练方法的实施场景,参见图3,图3是本发明实施例提供的图像分类模型的训练方法的实施场景示意图,为实现支撑一个示例性应用,终端包括终端200-1和终端200-2,其中终端200-1位于开发人员侧,用以控制图像分类模型的训练,终端200-2位于用户侧,用以请求针对待分类图像的分类预测;终端200通过网络300连接服务器100,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
终端200-1,用于向服务器发送针对图像分类模型的训练指令;
服务器100,用于获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征,所述图像样本标注有原类别标签;确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;基于所述原类别标签、所述新类别标签以及确定的所述相似度,构建所述图像分类模型的损失函数;基于所述损失函数,采用所述目标图像样本训练所述图像分类模型。
当图像分类模型完成训练后,终端200-2,用于发送针对待分类图像的图像分类指令;
服务器100,用于响应于该图像分类指令,通过训练得到的图像分类模型,对待分类对象进行分类预测,得到相应的图像分类结果并返回给终端200-2。
在实际应用中,服务器100既可以为单独配置的支持各种业务的一个服务器,亦可以配置为一个服务器集群;终端(如终端200-1)可以为智能手机、平板电脑、笔记本电脑等各种类型的用户终端,还可以为可穿戴计算设备、个人数字助理(PDA)、台式计算机、蜂窝电话、媒体播放器、导航设备、游戏机、电视机、或者这些数据处理设备或其他数据处理设备中任意两个或多个的组合。
下面对本发明实施例提供的图像分类模型的训练方法的电子设备的硬件结构做详细说明,电子设备包括但不限于服务器或终端。参见图4,图4是本发明实施例提供的电子设备的结构示意图,图4所示的电子设备包括:至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。电子设备400中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图4中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Mem ory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiF i)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置442之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本发明实施例提供的图像分类模型的训练装置可以采用软件方式实现,图4示出了存储在存储器450中的图像分类模型的训练装置455,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块4551、确定模块4552、标注模块4553、构建模块4554及训练模块4555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本发明实施例提供的图像分类模型的训练装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的图像分类模型的训练装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的图像分类模型的训练方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Cir cuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
基于上述对本发明实施例的图像分类模型的训练方法的实施场景及电子设备的说明,下面说明本发明实施例提供的图像分类模型的训练方法。参见图5,图5是本发明实施例提供的图像分类模型的训练方法的流程示意图;在一些实施例中,该图像分类模型的训练方法可由服务器或终端单独实施,或由服务器及终端协同实施,以服务器实施为例,本发明实施例提供的图像分类模型的训练方法包括:
步骤501:服务器获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及图像样本集中各图像样本的特征。
其中,图像样本标注有原类别标签。这里,图像样本集包括至少两个图像样本,每个图像样本都标注有图像样本所属类别的原类别标签,其中,原类别标签是由标注人员标注的,由于标注人员的失误或概念不清等原因,有的原类别标签与图像样本的类别不对应。
在实际实施时,每个类别对应至少两个类中心特征,如此,能够避免单中心噪声类别信息因特征平均造成过度模糊,不利于后续噪声相对准确的预测。
在一些实施例中,在服务器获取包括噪声图像样本的样本训练集所对应至少两个类别的类中心特征、以及图像样本集中各图像样本的特征之前,服务器还可以执行以下操作:通过图像样本集,对图像分类模型进行第一阶段的训练,直至确定第一阶段的训练完成;相应的,服务器可以通过以下方式获取各图像样本的特征:通过完成第一阶段训练的图像分类模型中的特征提取层,提取图像样本集中各图像样本的特征。
在实际实施时,服务器构建图像分类模型,比如卷积神经网络模型等,其中,图像分类模型通常包括特征提取层和分类预测层,特征提取层用于提取图像样本的特征,分类预测层用于根据图像样本的特征,预测图像样本所属的类别;接着,对图像分类模型的模型参数进行初始化;然后将图像分类模型的模型参数设置为需要学习状态,并采用图像样本集对图像分类模型进行第一阶段的训练,只有当第一阶段的训练完成后,才执行步骤501。
这里的图像分类模型可以为多类别的图像分类模型,即该图像分类模型可以针对一张图像进行多种类别的分类预测,比如可以同时识别一张图像是否归属于“动物类”、以及是否归属于“风景类”等;或者可同时识别一张图像是否归属于“服装类”、以及是否归属于“衬衫类”等。
示例性地,以通过ResNet-101构建图像分类模型为例,参见图6,图6是本发明实施例提供的ResNet模块的结构示意图,这里使用1×1卷积先将输入的256维进行降维到64维,然后经过3×3卷积后,再用1×1卷积进行升维恢复到256维,可降低参数的计算量。
这里,图像分类模型包括特征提取层和分类预测层,基于ResNet-101构建。如表1所示,图像分类模型的特征提取层包含Conv1、Conv2_x-Conv5_x的5个部分,Conv1为7×7×64的卷积,跨度(stride)为2,Conv2_x包括3×3最大池化层(max pool)和3个ResNet模块(block),Conv3_x-Conv5_x分别包括3个ResNet模块、4个ResNet模块、23个ResNet模块以及3个ResNet模块;如表2所示,图像分类模型的分类预测层包含最大池化层和全连接层。
Figure BDA0002461230890000121
表1 ResNet-101特征提取层的结构表
Layer name Output size Layer
Pool_cr 1×2048 最大池化层
Fc_cr 1×N 全连接层
表2基于ResNet-101的分类预测层的结构表,N为学习的类别数量
在实际实施时,可以采用以下方式对图像分类模型进行第一阶段的训练:对于图像样本集中的每个图像样本,将图像样本输入图像分类模型,通过图像分类模型输入对应该图像样本的分类预测结果,将输入的分类预测结果与原类别标签进行对比,以基于分类预测结果与原类别标签的差异,确定图像分类模型的损失函数的值,将损失函数的值反向传中至图像分类模型的各个层,通过随机梯度下降法(SGD,Stochastic GradientDescent)更新各个层的模型参数,从而完成第一阶段中的一轮训练。其中,模型参数指的是图像分类模型中网络权重参数。
需要说明的是,由于图像分类模型包括特征提取层和分类预测层,在完成对图像分类模型的第一阶段训练后,服务器可以通过第一阶段训练得到的图像分类模型中的特征提取层,提取各图像样本的特征,也即,分别将各图像样本输入图像分类模型中的特征提取层,输出各图像样本的特征。
例如,当图像分类模型是基于上述ResNet-101构建的,将各图像样本输入ResNet-101特征提取层,输出各图像本的特征。
在一些实施例中,可以通过判断图像分类模型是否收敛,来判断第一阶段训练是否完成。其中,图像分类模型收敛的判断方法为:判断图像分类模型的评价指标是否在连续目标轮数的训练中,均满足指定阈值要求,若是,则表示图像分类模型收敛;否则,图像分类模型未收敛。其中,评价指标可以为图像分类模型的错误率、精度、查准率、查全率等。
这里,目标轮数是预先设置好的,比如4轮、5轮等。
在一些实施例中,当以图像分类模型的错误率作为判断图像分类模型是否收敛的识别指标时,可以通过以下方式确定第一阶段的训练完成:每完成一轮训练,获取图像分类模型的错误率;当连续目标轮数所获取的错误率均低于错误率阈值时,确定第一阶段的训练完成。
这里,图像分类模型的错误率可以通过测试图像样本集获取,测试图像样本集包括至少两个标注有类别表现的图像样本。即每完成一轮训练,将测试图像样本集输入经过这一轮训练得到的图像分类模型中,输出分类预测结果,比较分类预测结果和测试图像样本的类别标签,以确定预测正确的数量,根据预测正确的数量和测试图像样本集中测试图像样本的总数量,确定这一轮所对应的错误率。假设目标轮数为5,则判断这一轮所对应的错误率,和前4轮所对应的错误率是否都低于错误率阈值,若是,则表示图像分类模型收敛,确定第一阶段的训练完成。
当以精度、查准率或查全率作为判断图像分类模型是否收敛的识别指标时,指定阈值要求为:在连续目标轮数的训练中,评价指标均达到指定阈值。
在一些实施例中,当图像样本集中噪声图像样本的数量过多时,通过图像样本集对图像分类模型进行训练,图像分类模型很难收敛,此时,可以通过图像分类模型的某个评价指标在连续目标轮数的训练中的变化,来判断第一阶段的训练是否完成。
在一些实施例中,当评价指标为错误率时,可以通过以下方式确定第一阶段的训练完成:每完成一轮训练,获取图像分类模型的错误率;当连续目标轮数所获取的错误率均未下降时,确定第一阶段的训练完成。
例如,将目标轮数设置为5轮,那么若图像分类模型的错误率在连续5轮训练中没有下降,则确定第一阶段的训练完成。
需要说明的是,当评价指标为精度、查准率或查全率时,每完成一轮训练,获取相应的评价指标;当连续轮数所获取的评价指标均为上升时,确定第一阶段的训练完成。例如,将目标轮数设置为5轮,那么若图像分类模型的精度在连续5轮训练中没有上升,则确定第一阶段的训练完成。
在一些实施例中,还可以比较当前轮数的评价指标、与前连续目标轮数的评价指标的平均值,例如,这一轮的错误率相对于前5轮错误率的平均值没有降低,则确定第一阶段的训练能完成。
在一些实施例中,可以预设所要训练的轮数,当训练的轮数达到预设的轮数时,确定第一阶段的训练完成。例如,将所要训练的轮数设置为100轮,那么通过图像样本集对图像分类模型进行100轮的训练,当训练轮数达到100时,则表征该图像分类模型的第一阶段训练完成。
获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征,包括:从图像样本集中,分别选取对应各类别的目标样本数量的图像样本;获取对应各类别的图像样本的特征;分别对应各类别的图像样本的特征进行聚类处理,以分别从对应各类别的图像样本的特征中,确定目标数量的类中心特征。
首先从图像样本集中选取目标数量的图像样本作为参考样本。在一些实施例,可以从图像样本集中,选取目标比例的图像样本作为参考样本。这里,每个类别的参考样本量均需要大于预设的类中心数量K的若干倍,比如对于每个类别,选取多于K*50的图像样本作为参考样本,其中,倍数可根据具体情况增多或减少,类中心数量K可以根据经验值确定。
在另一些实施例中,可以根据每个类别的图像样本的数量比例,抽取图像样本,不同类别所抽取的数量不同。需要说明的是,也可以采用其他随机策略选取目标数量的图像样本作为参考样本。
然后对选取的图像样本进行特征提取,得到图像样本的特征。在实际实施时,当对图像分类模型进行了第一阶段的训练,可以通过第一阶段训练完成的图像分类模型中的特征提取层,对选取的图像样本进行特征提取。
接着分别对各类别的图像样本的特征进行聚类处理,比如可以采用K-Means算法、也可以采用密度计算,还可以采用其他算法。
示例性地,以K-Means算法为例,对于每个类别的图像样本的特征执行以下操作:(1)从该类别的图像样本中随机选取一个图像样本作为聚类中心;(2)对于该类别的每一个图像样本的特征,计算该图像样本的特征与作为类中心的图像样本的特征的距离D(x)(如余弦距离、欧式距离等);(3)随机选取一个新的图像样本作为新的聚类中心,选择的原则是:相应的D(x)较大的图像样本,被选取作为聚类中心的概率较大;(4)重复步骤(2)、(3)得到对应该类别的k个聚类中心;(5)获取k个聚类中心所对应的图像样本的特征,作为类中心特征。
示例性地,以采用密度计算为例,对于每个类别的图像样本的特征执行以下操作:对于该类别的每个图像样本,获取该图像样本的特征与其他图像样本的特征的距离,并对获取的距离从近到远进行排序,以确定最近的预设比例的距离,获取确定的距离倒数的平均值,将平均值作为该图像样本的密度。在得到每个图像样本的密度后,选取K个密度最大的图像样本的特征作为类中心特征。
步骤502:确定至少两个类别的类中心特征与各图像样本的特征的相似度。
这里,相似度的计算方式包括:余弦相似度、欧式距离、皮尔逊相关系数等。在实际实施时,假设有N个类别,每个类别对应K个类中心特征,共有K*N个类中心特征。对于每个图像样本,计算该图像样本的特征与K*N个类中心特征的相似度。
步骤503:针对各图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有原类别标签及新类别标签的目标图像样本。
在实际实施时,图像样本与类中心特征的相似度越大,该图像样本所属的类别与类中心特征所归属的类别相同的可能性越大,基于此,对于每个图像样本,将最大相似度所对应类中心特征所归属的类别,作为相应图像样本的新类别标签,以对图像样本的原类别标签进行修正。这里,确定的新类别标签可以与原类别标签相同。
步骤504:基于原类别标签、新类别标签以及确定的相似度,构建图像分类模型的损失函数。
在实际实施时,通过新类别标签、原类别标签以及确定的相似度,构建图像分类的损失函数,以对图像分类模型的学习任务进行修正,使得噪声图像样本所携带的其它类型信息得到利用。
在一些实施例时,可以通过以下方式构建图像分类模型的损失函数:构建对应原类别标签的第一损失函数;构建对应新类别标签的第二损失函数;根据确定的相似度,确定第一损失函数的权重和第二损失函数的权重;根据第一损失函数的权重和第二损失函数的权重,对第一损失函数和第二损失函数进行加权求和,得到图像分类模型的损失函数。
在实际实施时,为平衡原类别标签与新类别标签间的差异,分别以原类别标签和新类别标签为学习目标,构建不同的损失函数,并对构建的两个损失函数进行加权求和。当一个图像样本为噪声图像样本时,新类别标签极大可能是正确标签,可以通过权重控制新类别标签对图像分类模型的影响。
例如,损失函数可以为Lcorrect=w1Lclass+w2Lclass2,w1为第一损失函数的权重,w2为第二损失函数的权重,Lclass为第一损失函数,Lclass2为第二损失函数。
在一些实施例中,可以通过以下方式确定第一损失函数的权重以及第二损失函数的权重:获取对应原类别标签的至少两个类中心特征中,与图像样本的相似度最大的目标类中心特征;获取目标类中心特征与图像样本的相似度、以及目标类中心特征的权重;将相似度与权重的乘积确定为第一损失函数的权重;将最大相似度作为第二损失函数的权重。
在实际实施时,选取原类别标签所对应的k个类中心特征中,与图像样本的特征a的相似度最大的目标类中心特征b,根据公式
Figure BDA0002461230890000171
确定第一损失函数的权重,其中,wk为目标类中心特征的权重,
Figure BDA0002461230890000172
为a与b之间的相似度。
其中,wk可根据经验预定义,也可以根据聚类结果确定的,例如,当类中心特征是基于K-Means算法确定时,根据参考样本集中各图像样本的特征与目标类中心特征的距离,设置与距离成比例的值作为wk
需要说明的是,若原类别标签与新类别标签相同,那么w2=1-w1;相应的,Lcorrect=Lclass
在一些实施例中,可以根据人工验证图像样本是否为干净图像样本,并根据验证过对第一损失函数的权重和第二损失函数的权重进行调整。
步骤505:基于损失函数,采用目标图像样本训练图像分类模型。
这里,在得到损失函数后,通过至少两个目标图像样本对图像分类模型进行训练,直至图像分类模型收敛,或训练轮数达到预设的轮数。
在实际实施时,可以通过以下方式训练图像分类模型:通过图像分类模型,对目标图像样本进行分类预测,得到相应的预测结果;根据相应的预测结果,确定损失函数的值;根据损失函数的值,更新图像分类模型的模型参数。
在实际的图像分类模型的训练过程中,通过图像分类模型对目标图像样本进行分类预测,得到相应的预测结果;获取该预测结果与原类别标签之间的差异、以及该预测结果与新类别标签之间的差异;根据该预测结果与原类别标签之间的差异,确定第一损失函数的值;根据该预测结果与新类别标签之间的差异,确定第二损失函数的值;进而,根据第一损失函数的权重和第二损失函数的权重,对第一损失函数的值和第二损失函数的值进行加权求和,得到损失函数的值。
在计算得到图像分类模型的损失函数的值后,当确定该损失函数的值超过设定的损失阈值时,则基于该损失函数的值,确定图像分类模型的误差信号;将该误差信号在图像分类模型中进行反向传播,从而在误差信号反向传播的过程中,更新图像分类模型中各个层的模型参数。比如通过随机梯度下降法将误差信号在图像分类模型中反向传播,在反向传播的过程中,实现图像分类模型的模型参数的更新及优化。
在一些实施例中,当图像分类模型完成了第一阶段的训练,可以基于第一阶段训练完成的图像分类模型,对目标图像样本进行分类预测,得到相应的预测结果;根据相应的预测结果,确定损失函数的值;根据损失函数的值,更新图像分类模型的模型参数。
在一些实施例中,当采用目标图像样本完成对图像分类模型的训练后,可以基于训练得到的图像分类模型,获取各图像样本的特征,以基于各图像样本的特征,重新确定新类别标签、以及相应的损失函数,也即确定新的学习任务,并基于重新确定新类别标签、以及相应的损失函数,对图像分类模型进行训练。重复上述步骤,直至达到预设的迭代轮数。
如此,实现了图像分类模型的训练与学习任务动态调整的交叠进行,避免了离线学习噪声权重或更新类别标签造成的单次偏差造成模型陷入局部最优。
在一些实施例中,在采用目标图像样本训练图像分类模型之后,服务器还可以判断是否存在干净图像样本数据,当图像样本集中包括干净图像样本时,对图像分类模型中的部分层的参数进行微调。
在一些实施例中,服务器可以通过以下方式对图像分类模型中的部分层的参数进行微调:当图像样本集中包括干净图像样本时,获取干净图像样本,并确定干净图像样本的数量;根据干净图像样本的数量,确定图像分类模型中所要进行参数调整的层;根据干净图像样本,对层的模型参数进行调整。
在实际实施时,当图像样本集中包括干净图像样本时,对采用目标图像样本训练得到的图像分类模型进行微调,以得到最终的图像分类模型。也即,固定图像分类模型的前M层权重,即其模型参数固定,学习过程中不更新,只学习更新其他层参数。其中,M的值可以根据干净图像样本的数量确定,若干净图像样本的数量足够多,M=0;若干净图像样本的数量相对较少,可以增加M值。
在另一些实施例中,所要进行参数调整的层也可以是固定不变的,如图像分类模型为resnet-101网络时,固定conv1,conv2_x,conv3_x,conv4_x,只更新后续层的参数。
在一些实施例中,在训练得到图片分类模型后,可以基于训练得到的图像模型,对图像进行分类,如接收终端发送的图片,通过图片分类模型,确定图片所属的类别,并返回给终端。
参见图7,图7是本发明实施例提供的图像分类模型应用于服装图像分类的示意图。该图像分类模型为服装图像的分类模型,比如衬衫、T-shirt、内衣打底等,用户可将服装图像导入前端终端,前端终端上传至后台服务器,后台服务器通过完成训练的图像分类模型,对接收的服装图像进行分类识别,得到相应的分类结果,比如用户输入的服装图像归属于内衣打底类。
通过确定至少两个类别的类中心特征与各图像样本的特征的相似度;针对各图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有原类别标签及新类别标签的目标图像样本;基于原类别标签、新类别标签以及确定的相似度,构建图像分类模型的损失函数;基于损失函数,采用目标图像样本训练图像分类模型;如此,通过确定新类别标签,对噪声图像样本的类别标签进行修正,并基于确定的新类别标签和原类别标签建立训练目标,使得训练得到的图像分类模型的预测准确度得到了提高,同时,提高了对噪声图像样本的利用了,增强了图像分类模型的泛化能力。
下面继续说明本发明实施例提供的图像分类模型训练方法。参见图8,图8为本发明实施例提供的图像分类模型的训练方法的流程示意图,本发明实施例提供的图像分类模型的训练方法包括:
步骤801:服务器采用图像样本集对图像分类模型进行第一阶段训练。
这里,图像样本集包括至少两个图像样本,每个图像样本都标注有图像样本所属类别的原类别标签,其中,原类别标签是由标注人员标注的,由于标注人员的失误或概念不清等原因,有的原类别标签与图像样本的类别不对应。
步骤802:获取图像分类模型的错误率。
步骤803:判断连续5轮的错误率是否都低于错误率阈值,或连续5轮的错误率均未下降,若是,执行步骤804;否则,返回步骤801。
步骤804:从图像样本集中,分别选取对应各类别的目标样本数量的图像样本作为参考图像样本集。
步骤805:通过训练得到的图像分类模型,获取对应各类别的参考图像样本的特征。
这里,在第一次执行步骤805时,训练得到的图像分类模型为第一阶段训练得到的图像分类模型;在后续执行步骤805时,为步骤818中训练得到的图像分类模型。
步骤806:分别对应各类别的参考图像样本的特征进行聚类处理,以分别从对应各类别的图像样本的特征中,确定K个类中心特征。
步骤807:计算N个类别的共N*K个类中心特征与各图像样本的特征的相似度。
步骤808:针对各图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有原类别标签及新类别标签的目标图像样本。
步骤809:构建对应原类别标签的第一损失函数、以及对应新类别标签的第二损失函数。
步骤810:获取对应原类别标签的K个类中心特征与图像样本的相似度最大的目标类中心特征;
步骤811:获取目标类中心特征与图像样本的相似度、以及目标类中心特征的权重。
步骤812:将相似度与权重的乘积,确定为对应原类别标签的第一损失函数的权重。
步骤813:将最大相似度作为第二损失函数的权重。
步骤814:根据第一损失函数的权重和第二损失函数的权重,对第一损失函数和第二损失函数进行加权求和,得到图像分类模型的损失函数。
步骤815:通过图像分类模型,对目标图像样本进行分类预测,得到相应的预测结果。
步骤816:根据相应的预测结果,确定损失函数的值。
步骤817:根据损失函数的值,更新图像分类模型的模型参数,直至收敛。
步骤818:判断带噪学习的迭代轮数是否达到预设轮数,若是,执行步骤819;否则,返回步骤805。
这里,带噪学习指的是基于修正的学习任务所进行的学习,也即步骤817中的训练。
步骤819:判断是否存在干净样本数据,若是,执行步骤820;否则,结束流程。
步骤820:对图像分类模型的模型参数进行微调。
这里,固定图像分类模型的前M层权重,即其模型参数固定,学习过程中不更新,只学习更新其他层参数。其中,M的值可以根据干净图像样本的数量确定,若干净图像样本的数量足够多,M=0;若干净图像样本的数量相对较少,可以增加M值。
下面将说明本发明实施例在一个实际的应用场景中的示例性应用。参见图9,图9为本发明实施例提供的图像分类模型的训练方法的流程示意图,本发明实施例提供的图像分类模型的训练方法包括:
步骤901:通过图像样本集,对图像分类模型进行第一阶段的训练。
这里,图像样本集包括至少两个图像样本,每个图像样本都标注有图像样本所属类别的原类别标签,其中,原类别标签是由标注人员标注的,由于标注人员的失误或概念不清等原因,有的原类别标签与图像样本的类别不对应。
在实际应用中,首先构建图像分类模型。这里,通过ResNet-101构建图像分类模型,图像分类模型包括特征提取层和分类预测层。如表1所示,图像分类模型的特征提取层包含Conv1、Conv2_x-Conv5_x的5个部分,Conv1为7×7×64的卷积,跨度(stride)为2,Conv2_x包括3×3最大池化层(max pool)和3个ResNet模块(block),Conv3_x-Conv5_x分别包括3个ResNet模块、4个ResNet模块、23个ResNet模块以及3个ResNet模块;如表2所示,图像分类模型的分类预测层包含最大池化层和全连接层。
参见图6,ResNet模块使用1×1卷积先将输入的256维进行降维到64维,然后经过3×3卷积后,再用1×1卷积进行升维恢复到256维,可降低参数的计算量。
接着,对图像分类模型的模型参数进行初始化。Conv1、Conv2_x-Conv5_x采用在ImageNet数据集上预训练的ResNet101的参数,新添加的层如Conv6_x采用方差为0.01,均值为0的高斯分布进行初始化。
然后将图像分类模型的模型参数设置为需要学习状态,并采用图像样本集对图像分类模型进行第一阶段的训练,即对输入的图像样本进行前向计算得到预测结果,将预测结果与原类别标签进行对比,以计算图像分类模型的损失值,把损失值回传到网络中通过随机梯度下降法更新网络权重参数,从而实现一次权重优化。
步骤902:判断第一阶段的训练是否完成,若是,执行步骤903;否则,继续执行步骤901。
这里,可以通过判断图像分类模型是否收敛,来判断第一阶段训练是否完成。其中,图像分类模型收敛的判断方法为:判断图像分类模型的错误率是否在连续目标轮数的训练中,均低于错误率阈值,若是,则表示图像分类模型收敛;否则,图像分类模型未收敛。例如,目标轮数为5,判断是否连续5轮所对应的错误率均低于错误率阈值。
当图像样本集中噪声图像样本的数量过多时,通过图像样本集对图像分类模型进行训练,图像分类模型很难收敛,此时,可以通过图像分类模型的某个评价指标在连续目标轮数的训练中的变化,来判断第一阶段的训练是否完成。
例如,若图像分类模型的错误率在连续5轮训练中没有下降,则确定第一阶段的训练完成。
还可以预设所要训练的轮数,当训练的轮数达到预设的轮数时,确定第一阶段的训练完成。例如,将所要训练的轮数设置为100轮,那么通过图像样本集对图像分类模型进行100轮的训练,当训练轮数达到100时,则表征该图像分类模型的第一阶段训练完成。
步骤903:获取每个图像样本的原类别标签权重、新类别标签及新类别标签权重。
这里,参见图10,图10为本发明实施例提供的获取权重及新类别标签的流程示意图,步骤903可以通过步骤9031-步骤9034实现。
步骤9031:获取参考图像样本。
在实际实施时,可以从图像样本集中,选取目标比例p的图像样本作为参考样本。这里,每个类别的参考样本量均需要大于预设的类中心数量K的若干倍,比如对于每个类别,选取多于K*50的图像样本作为参考样本,其中,倍数可根据具体情况增多或减少,类中心数量K可以根据经验值确定。
还可以根据每个类别的图像样本的数量比例,抽取图像样本,不同类别所抽取的数量不同。需要说明的是,也可以采用其他随机策略选取目标数量的图像样本作为参考样本。
步骤9032:获取对应各类别的类中心特征。
这里,通过图像分类模型中的特征提取层,提取参考图像样本的特征(如resnet-101的Max pool层输出的结果),以基于参考图像像本的特征,分别对各类别的参考图像样本进行聚类处理,以获取对应各类别的类中心特征,比如可以采用K-Means算法、也可以采用密度计算,还可以采用其他算法。
以K-Means算法为例,对于每个类别的图像样本的特征执行以下操作:
(1)从该类别的参考图像样本中随机选取一个图像样本作为聚类中心;
(2)对于该类别的每一个参考图像样本的特征,计算该参考图像样本的特征与作为类中心的参考图像样本的特征的距离D(x)(如余弦距离、欧式距离等);
(3)随机选取一个新的参考图像样本作为新的聚类中心,选择的原则是:相应的D(x)较大的参考图像样本,被选取作为聚类中心的概率较大;
(4)重复步骤(2)、(3)得到对应该类别的k个聚类中心;
(5)获取k个聚类中心所对应的参考图像样本的特征,作为类中心特征。
以采用密度计算为例,对于每个类别的图像样本的特征执行以下操作:对于该类别的每个图像样本,获取该图像样本的特征与其他图像样本的特征的距离,并对获取的距离从近到远进行排序,以确定最近的预设比例的距离,获取确定的距离倒数的平均值,将平均值作为该图像样本的密度。在得到每个图像样本的密度后,选取K个密度最大的图像样本的特征作为类中心特征。
步骤9033:确定各图像样本的原类别标签权重、新类别标签及新类别标签权重。
根据图像样本的原类别标签对应的K个类中心特征(K*2048)和图像样本的特征b(1*2048),计算K个余弦相似度,并选取最大的余弦相似度(最小的余弦距离)对应类中心特征a,根据
Figure BDA0002461230890000241
得到原类别标签权重。其中,为目标类中心特征的权重。
此处若提供有人工校验数据,即某个图像样本是干净图像样本的信息时,则该图像样本的原类别标签权重修改为1。
这里,多中心的类别表达作用是提供类别多种形式表达,以避免单中心噪声类别信息因特征平均造成过度模糊,不利于后续噪声相对准确的预测。
根据N个类别共K*N个类中心特征(KN*2048)图像样本的特征b(1*2048),计算KN个余弦相似度,选取最大的余弦相似度作为新类别标签权重w2,并将最大的余弦相似度所对应的类中心特征所述类别,作为图像样本的新类别标签class2。若新类别标签为原类别标签,w2=1-w1
为了快速计算,新类别标签的确定,直接采用选择所有类别中心特征与图像样本的特征最佳匹配类别的方法。
图11是本发明实施例提供的获取权重及新类别标签的数据走向图,参见图11,首先在图像样本集中选取一定数量的参考图像样本1101,然后通过图像分类模型对参考图像样本1101进行特征提取,得到参考图像样本的特征1102;接着,基于参考图像样本的特征1102,对参考图像样本进行聚类处理,以选取得到类中心特征1103。同时,获取图像样本集1104,然后通过图像分类模型对图像样本集中的图像样本进行特征提取,得到图像样本的特征1105。最后,计算类中心特征1103和图像样本的特征1105之间的余弦相似度,以得到新类别标签权重、新类别标签和原类别标签权重1106。
步骤904:根据原类别标签权重、新类别标签权重、原类别标签及新类别标签,对学习任务进行修正。
相关技术中通常是直接对噪声图像样本进行移植,这样导致没法有效利用噪声图像样本携带的其他类别信息;为了平衡样本带有原类别标签和新类别标签之间的差异,采用原类别与新类别学习任务加权融合的修正方法,即损失函数为Lcorrect=w1Lclass+w2Lclass2,w1为原类别标签的权重,w2为新类别标签的权重,Lclass为对应原类别标签的第一损失函数,Lclass2为对应新类别标签的第二损失函数。
其中,当一个图像样本是噪声图像样本时,其预测的标签将极大可能是新类别标签,这里用新类别标签权重自动控制其对图像分类模型识别的影响;当一个图像样本是噪声图像样本时,其预测标签常常是原类别标签,则由于w2=1-w1,Lcorrect=Lclass
步骤905:基于修正的学习任务,对图像分类模型进行训练。
步骤906:判断是否结束带噪学习,若是,执行步骤907;否则,执行步骤903。
这里,带噪学习指的是基于修正的学习任务所进行的学习,当带噪学习达到预设的迭代轮数,则结束带噪学习。
步骤907:判断是否存在干净图像样本,若是,执行步骤908;否则执行步骤909。
步骤908:对图像分类模型进行微调。
这里,固定图像分类模型前M层权重(即其模型参数固定,学习过程中不更新),只学习更新其他层参数。如在resnet-101网络中,固定conv1、conv2_x、conv3_x、conv4_x,只训练后续层的参数。
需要说明的是,具体固定哪些层,需要根据干净图像样本的数量确定,若干净图像样本的数量足够多,M=0;若干净数据相对较少,可使M值增加。在微调过程中,除某些层权重不更新外,具体学习过程与基础模型学习一致。
步骤909:输出训练得到的图像分类模型。
这里,训练得到图像分类模型可搭载于云服务器,以提供物体识别服务。例如,参见图7,该图像分类模型为服装图像的分类模型,比如衬衫、T-shirt、内衣打底等,用户可将服装图像导入前端终端,前端终端上传至后台服务器,后台服务器通过完成训练的图像分类模型,对接收的服装图像进行分类识别,得到相应的分类结果,比如用户输入的服装图像归属于内衣打底类。
需要说明的是,本发明提供的图像分类模型的训练方法也适用于其他模型的训练过程中。
本发明实施例具有以下有益效果:
(1)不需要获取干净图像样本或校验图像样本,避免了额外的人工投入;
(2)通过获取新类别标签,并更新原始学习任务的方法,相对于直接抑制噪声图像样本,本发明提高了对噪声图像样本的利用率,从而增强模型泛化能力;
(3)实现了新任务学习与学习任务动态调整的交叠进行,避免了离线学习噪声权重或更新标签造成的单次偏差造成模型陷入局部最优。
(4)利用包括噪声图像样本的图像样本集的弱监督学习,提升了训练得到的图像分类模型的识别效果。
下面继续说明本发明实施例提供的图像分类模型的训练装置455,在一些实施例中,图像分类模型的训练装置可采用软件模块的方式实现。参见图12,图12是本发明实施例提供的图像分类模型的训练装置455的结构示意图,本发明实施例提供的图像分类模型的训练装置455包括:
获取模块4551,用于获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征,所述图像样本标注有原类别标签;
确定模块4552,用于确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;
标注模块4553,用于针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;
构建模块4554,用于基于所述原类别标签、所述新类别标签以及确定的所述相似度,构建所述图像分类模型的损失函数;
训练模块4555,用于基于所述损失函数,采用所述目标图像样本训练所述图像分类模型。
在一些实施例中,所述训练模块4555,还用于通过所述图像样本集,对所述图像分类模型进行第一阶段的训练,直至确定所述第一阶段的训练完成;
相应的,所述获取模块4551,还用于通过完成第一阶段训练的图像分类模型中的特征提取层,提取所述图像样本集中各图像样本的特征。
在一些实施例中,所述训练模块4555,还用于每完成一轮训练,获取所述图像分类模型的错误率;
当连续目标轮数所获取的错误率均低于错误率阈值时,确定所述第一阶段的训练完成。
在一些实施例中,所述训练模块4555,还用于每完成一轮训练,获取所述图像分类模型的错误率;
当连续目标轮数所获取的错误率均未下降时,确定所述第一阶段的训练完成。
在一些实施例中,所述获取模块4551,还用于从所述图像样本集中,分别选取对应各所述类别的目标样本数量的图像样本;
获取对应各所述类别的所述图像样本的特征;
分别对应各所述类别的所述图像样本的特征进行聚类处理,以分别从对应各所述类别的所述图像样本的特征中,确定目标数量的类中心特征。
在一些实施例中,所述构建模块4554,还用于构建对应所述原类别标签的第一损失函数;
构建对应所述新类别标签的第二损失函数;
根据确定的所述相似度,确定所述第一损失函数的权重和所述第二损失函数的权重;
根据所述第一损失函数的权重和所述第二损失函数的权重,对所述第一损失函数和所述第二损失函数进行加权求和,得到所述图像分类模型的损失函数。
在一些实施例中,所述构建模块4554,还用于获取对应所述原类别标签的至少两个类中心特征中,与所述图像样本的相似度最大的目标类中心特征;
获取所述目标类中心特征与所述图像样本的相似度、以及所述目标类中心特征的权重;
将所述相似度与所述权重的乘积确定为所述第一损失函数的权重;
将所述最大相似度作为所述第二损失函数的权重。
在一些实施例中,所述训练模块4555,还用于通过所述图像分类模型,对所述目标图像样本进行分类预测,得到相应的预测结果;
根据相应的预测结果,确定所述损失函数的值;
根据所述损失函数的值,更新所述图像分类模型的模型参数。
在一些实施例中,所述训练模块4555,还用于当所述图像样本集中包括干净图像样本时,获取所述干净图像样本,并确定所述干净图像样本的数量;
根据所述干净图像样本的数量,确定所述图像分类模型中所要进行参数调整的层;
根据所述干净图像样本,对所述层的模型参数进行调整。
本发明实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本发明实施例提供的图像分类模型的训练方法。
本发明实施例提供一种存储有可执行指令的存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本发明实施例提供的方法,例如,如图5示出的方法。
在一些实施例中,存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上,仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本发明的保护范围之内。

Claims (10)

1.一种图像分类模型的训练方法,其特征在于,所述方法包括:
获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征,所述图像样本标注有原类别标签;
确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;
针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;
构建对应所述原类别标签的第一损失函数;
构建对应所述新类别标签的第二损失函数;
获取对应所述原类别标签的至少两个类中心特征中,与所述图像样本的相似度最大的目标类中心特征;
获取所述目标类中心特征与所述图像样本的相似度、以及所述目标类中心特征的权重;
将所述相似度与所述权重的乘积确定为所述第一损失函数的权重;
将所述最大相似度作为所述第二损失函数的权重;
根据所述第一损失函数的权重和所述第二损失函数的权重,对所述第一损失函数和所述第二损失函数进行加权求和,得到所述图像分类模型的损失函数;
基于所述损失函数,采用所述目标图像样本训练所述图像分类模型。
2.如权利要求1所述的方法,其特征在于,所述获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征之前,所述方法还包括:
通过所述图像样本集,对所述图像分类模型进行第一阶段的训练,直至确定所述第一阶段的训练完成;
相应的,获取所述图像样本集中各图像样本的特征,包括:
通过完成第一阶段训练的图像分类模型中的特征提取层,提取所述图像样本集中各图像样本的特征。
3.如权利要求2所述的方法,其特征在于,所述确定所述第一阶段的训练完成包括:
每完成一轮训练,获取所述图像分类模型的错误率;
当连续目标轮数所获取的错误率均低于错误率阈值时,确定所述第一阶段的训练完成。
4.如权利要求2所述的方法,其特征在于,所述确定所述第一阶段的训练完成包括:
每完成一轮训练,获取所述图像分类模型的错误率;
当连续目标轮数所获取的错误率均未下降时,确定所述第一阶段的训练完成。
5.如权利要求1所述的方法,其特征在于,所述获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征,包括:
从所述图像样本集中,分别选取对应各所述类别的目标样本数量的图像样本;
获取对应各所述类别的所述图像样本的特征;
分别对应各所述类别的所述图像样本的特征进行聚类处理,以分别从对应各所述类别的所述图像样本的特征中,确定目标数量的类中心特征。
6.如权利要求1所述的方法,其特征在于,基于所述损失函数,采用所述目标图像样本训练所述图像分类模型,包括:
通过所述图像分类模型,对所述目标图像样本进行分类预测,得到相应的预测结果;
根据相应的预测结果,确定所述损失函数的值;
根据所述损失函数的值,更新所述图像分类模型的模型参数。
7.如权利要求1所述的方法,其特征在于,所述采用所述目标图像样本训练所述图像分类模型之后,所述方法还包括:
当所述图像样本集中包括干净图像样本时,获取所述干净图像样本,并确定所述干净图像样本的数量;
根据所述干净图像样本的数量,确定所述图像分类模型中所要进行参数调整的层;
根据所述干净图像样本,对所述层的模型参数进行调整。
8.一种图像分类模型的训练装置,其特征在于,所述装置包括:
获取模块,用于获取包括噪声图像样本的图像样本集所对应至少两个类别的类中心特征、以及所述图像样本集中各图像样本的特征,所述图像样本标注有原类别标签;
确定模块,用于确定所述至少两个类别的类中心特征与各所述图像样本的特征的相似度;
标注模块,用于针对各所述图像样本,将对应最大相似度的类中心特征所归属的类别,作为相应图像样本的新类别标签进行样本标注,得到标注有所述原类别标签及所述新类别标签的目标图像样本;
构建模块,用于构建对应所述原类别标签的第一损失函数;构建对应所述新类别标签的第二损失函数;获取对应所述原类别标签的至少两个类中心特征中,与所述图像样本的相似度最大的目标类中心特征;获取所述目标类中心特征与所述图像样本的相似度、以及所述目标类中心特征的权重;将所述相似度与所述权重的乘积确定为所述第一损失函数的权重;将所述最大相似度作为所述第二损失函数的权重;根据所述第一损失函数的权重和所述第二损失函数的权重,对所述第一损失函数和所述第二损失函数进行加权求和,得到所述图像分类模型的损失函数;
训练模块,用于基于所述损失函数,采用所述目标图像样本训练所述图像分类模型。
9.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至7任一项所述的图像分类模型的训练方法。
10.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至7任一项所述的图像分类模型的训练方法。
CN202010320553.0A 2020-04-22 2020-04-22 图像分类模型的训练方法及装置 Active CN111507419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010320553.0A CN111507419B (zh) 2020-04-22 2020-04-22 图像分类模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010320553.0A CN111507419B (zh) 2020-04-22 2020-04-22 图像分类模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN111507419A CN111507419A (zh) 2020-08-07
CN111507419B true CN111507419B (zh) 2022-09-30

Family

ID=71864860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010320553.0A Active CN111507419B (zh) 2020-04-22 2020-04-22 图像分类模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN111507419B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112434722B (zh) * 2020-10-23 2024-03-19 浙江智慧视频安防创新中心有限公司 基于类别相似度的标签平滑计算的方法、装置、电子设备及介质
CN112287993B (zh) * 2020-10-26 2022-09-02 推想医疗科技股份有限公司 模型生成方法、图像分类方法、装置、电子设备及介质
CN112559784B (zh) * 2020-11-02 2023-07-04 浙江智慧视频安防创新中心有限公司 基于增量学习的图像分类方法及系统
CN113139628B (zh) * 2021-06-22 2021-09-17 腾讯科技(深圳)有限公司 样本图像的识别方法、装置、设备及可读存储介质
CN113435516B (zh) * 2021-06-29 2024-02-06 京东科技控股股份有限公司 数据分类方法和装置
CN113688959B (zh) * 2021-10-26 2022-02-18 寿光得峰生态农业有限公司 一种基于人工智能的植物病虫害诊断方法及系统
CN114638322B (zh) * 2022-05-20 2022-09-13 南京大学 开放场景下基于给定描述的全自动目标检测系统和方法
CN115346084A (zh) * 2022-08-15 2022-11-15 腾讯科技(深圳)有限公司 样本处理方法、装置、电子设备、存储介质及程序产品
CN115080748B (zh) * 2022-08-16 2022-11-11 之江实验室 一种基于带噪标签学习的弱监督文本分类方法和装置
CN115439919B (zh) * 2022-11-01 2023-03-24 腾讯科技(深圳)有限公司 模型更新方法、装置、设备、存储介质及程序产品
CN115797709B (zh) * 2023-01-19 2023-04-25 苏州浪潮智能科技有限公司 一种图像分类方法、装置、设备和计算机可读存储介质
CN116486209B (zh) * 2023-04-28 2024-02-13 广州市玄武无线科技股份有限公司 一种新品识别方法、装置、终端设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463953B (zh) * 2017-07-21 2019-11-19 上海媒智科技有限公司 在标签含噪情况下基于质量嵌入的图像分类方法及系统
CN109800811B (zh) * 2019-01-24 2022-09-06 吉林大学 一种基于深度学习的小样本图像识别方法
CN110110780B (zh) * 2019-04-30 2023-04-07 南开大学 一种基于对抗神经网络和海量噪声数据的图片分类方法
CN110210535B (zh) * 2019-05-21 2021-09-10 北京市商汤科技开发有限公司 神经网络训练方法及装置以及图像处理方法及装置
CN110349103A (zh) * 2019-07-01 2019-10-18 昆明理工大学 一种基于深度神经网络和跳跃连接的无干净标签图像去噪方法
CN110390674B (zh) * 2019-07-24 2022-08-16 腾讯医疗健康(深圳)有限公司 图像处理方法、装置、存储介质、设备以及系统
CN110378438A (zh) * 2019-08-07 2019-10-25 清华大学 标签容错下的图像分割模型的训练方法、装置及相关设备
CN110705607B (zh) * 2019-09-12 2022-10-25 西安交通大学 一种基于循环重标注自助法的行业多标签降噪方法
CN110781934A (zh) * 2019-10-15 2020-02-11 深圳市商汤科技有限公司 监督学习、标签预测方法及装置、电子设备和存储介质
CN110929807B (zh) * 2019-12-06 2021-04-06 腾讯科技(深圳)有限公司 图像分类模型的训练方法、图像分类方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163234A (zh) * 2018-10-10 2019-08-23 腾讯科技(深圳)有限公司 一种模型训练方法、装置和存储介质

Also Published As

Publication number Publication date
CN111507419A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
CN111507419B (zh) 图像分类模型的训练方法及装置
CN108351986B (zh) 学习系统及装置和方法、训练数据生成装置及生成方法
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
US9990558B2 (en) Generating image features based on robust feature-learning
CN110366734B (zh) 优化神经网络架构
EP3711000B1 (en) Regularized neural network architecture search
CN112559784B (zh) 基于增量学习的图像分类方法及系统
CN108288051B (zh) 行人再识别模型训练方法及装置、电子设备和存储介质
CN110647920A (zh) 机器学习中的迁移学习方法及装置、设备与可读介质
CN111581414B (zh) 服饰识别、分类及检索的方法、装置、设备及存储介质
CN113705597A (zh) 一种图像处理方法、装置、计算机设备以及可读存储介质
WO2020125404A1 (zh) 构建神经网络的方法、装置和计算机可读介质
CN110188422B (zh) 一种基于网络数据提取节点的特征向量的方法及装置
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN113705596A (zh) 图像识别方法、装置、计算机设备和存储介质
CN113590863A (zh) 图像聚类方法、装置及计算机可读存储介质
CN112990387B (zh) 模型优化方法、相关设备及存储介质
CN111507407B (zh) 图像分类模型的训练方法及装置
CN114463596A (zh) 一种超图神经网络的小样本图像识别方法、装置及设备
CN114255381A (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
Taymouri et al. Encoder-decoder generative adversarial nets for suffix generation and remaining time prediction of business process models
CN112906724A (zh) 一种图像处理装置、方法、介质及系统
CN112149836B (zh) 一种机器学习程序更新方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant