CN116071583A - 一种图像分类模型的训练方法、装置、计算机设备及介质 - Google Patents
一种图像分类模型的训练方法、装置、计算机设备及介质 Download PDFInfo
- Publication number
- CN116071583A CN116071583A CN202211696838.XA CN202211696838A CN116071583A CN 116071583 A CN116071583 A CN 116071583A CN 202211696838 A CN202211696838 A CN 202211696838A CN 116071583 A CN116071583 A CN 116071583A
- Authority
- CN
- China
- Prior art keywords
- image
- classified
- model
- supervised
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/762—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
- G06V10/763—Non-hierarchical techniques, e.g. based on statistics of modelling distributions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像分类技术领域,尤其涉及一种图像分类模型的训练方法、装置、设备及介质。该方法通过无监督图像重构模型得到自编码特征向量和重构图像特征向量,得到自编码特征向量的K个特征向量聚类簇,以确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,根据有监督图像分类模型得到类别概率估计向量,结合噪声概率转移矩阵确定模型损失进行模型训练,得到训练好的有监督图像分类模型进行图像分类,通过特征向量聚类簇衡量噪声标签和非噪声标签的分布,得到噪声概率转移矩阵来表征图像类别之间的噪声混淆信息,并衡量有监督图像分类模型的损失,减少了噪声标签对有监督图像分类模型的影响,提高了有监督图像分类模型的准确率。
Description
技术领域
本发明涉及图像分类技术领域,尤其涉及一种图像分类模型的训练方法、装置、计算机设备及介质。
背景技术
近年来,采用海量标签数据训练深度学习模型是常见的技术思路,但是在实际图像分类场景中,由于图像标签数据集广泛存在标记噪声问题,使得图像分类模型在进行模型训练时学习到错误的标签信息,降低了图像分类模型在带噪标签数据集上的分类准确率。
基于带噪标签数据训练图像分类模型时,一般通过改进训练模型的损失函数来提高图像分类模型的分类准确率,但是该种方法往往会引进其他的数据假设,例如数据样本均衡等等,这些分布假设限制了改进损失函数的适用性和可靠性,导致图像分类模型在大规模带噪图像数据集上的准确率较低。
因此,如何在大规模带噪图像数据集的基础上提高图像分类模型的准确率成为亟待解决的问题。
发明内容
有鉴于此,本发明实施例提供了一种图像分类模型的训练方法、装置、计算机设备及介质,以解决现有图像分类模型在大规模带噪图像数据集上的准确率较低的问题。
第一方面,本发明实施例提供一种图像分类模型的训练方法,所述图像分类模型的训练方法包括:
获取训练集中的待分类图像及其类别标签,将每个所述待分类图像输入至无监督图像重构模型中,得到每个所述待分类图像的自编码特征向量和重构图像特征向量;
对所有所述待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个所述特征向量聚类簇中各个所述自编码特征向量对应的所述待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,其中,K为正整数;
将每个所述待分类图像输入至有监督图像分类模型中,得到每个所述待分类图像的类别概率估计向量;
根据每个所述待分类图像以及每个所述待分类图像的所述重构图像特征向量,确定所述无监督图像重构模型的无监督模型损失,根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
根据所述无监督模型损失对所述无监督图像重构模型进行训练,根据所述有监督模型损失对所述有监督图像分类模型进行训练,直至所述无监督模型损失和所述有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用所述训练好的有监督图像分类模型进行图像分类。
可选的是,所述根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失包括:
确定第t次迭代训练中的噪声概率转移矩阵;
在第t次迭代训练至第t+T次迭代训练中,根据第t次迭代训练中的所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失,其中,t为预设迭代次数,T为预设迭代次数间隔,t和T为正整数;
确定第t+T+1次迭代训练中的噪声概率转移矩阵;
在第t+T+1次迭代训练至第t+2T次迭代训练中,根据第t+T+1次迭代训练中的所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
以此类推,直至某次迭代训练中确定的所述有监督模型损失收敛。
第二方面,本发明实施例提供一种图像分类模型的训练装置,所述图像分类模型的训练装置包括:
无监督重构模块,用于获取训练集中的待分类图像及其类别标签,将每个所述待分类图像输入至无监督图像重构模型中,得到每个所述待分类图像的自编码特征向量和重构图像特征向量;
矩阵确定模块,用于对所有所述待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个所述特征向量聚类簇中各个所述自编码特征向量对应的所述待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,其中K为正整数;
有监督分类模块,用于将每个所述待分类图像输入至有监督图像分类模型中,得到每个所述待分类图像的类别概率估计向量;
损失确定模块,用于根据每个所述待分类图像以及每个所述待分类图像的所述重构图像特征向量,确定所述无监督图像重构模型的无监督模型损失,根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
模型训练模块,用于根据所述无监督模型损失对所述无监督图像重构模型进行训练,根据所述有监督模型损失对所述有监督图像分类模型进行训练,直至所述无监督模型损失和所述有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用所述训练好的有监督图像分类模型进行图像分类。
可选的是,上述损失确定模块包括:
第一矩阵确定子模块,用于确定第t次迭代训练中的噪声概率转移矩阵;
第二模型损失计算子模块,用于在第t次迭代训练至第t+T次迭代训练中,根据第t次迭代训练中的所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失,其中,t为预设迭代次数,T为预设迭代次数间隔,t和T为正整数;
第二矩阵确定子模块,用于确定第t+T+1次迭代训练中的噪声概率转移矩阵;
第三模型损失计算子模块,用于在第t+T+1次迭代训练至第t+2T次迭代训练中,根据第t+T+1次迭代训练中的所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
迭代子模块,用于以此类推,直至某次迭代训练中确定的所述有监督模型损失收敛。
第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的图像分类模型的训练方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的图像分类模型的训练方法。
本发明实施例与现有技术相比存在的有益效果是:通过将每个待分类图像输入至无监督图像重构模型中得到自编码特征向量和重构图像特征向量,对所有待分类图像的自编码特征向量进行聚类得到K个特征向量聚类簇,根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,将每个待分类图像输入至有监督图像分类模型中得到每个待分类图像的类别概率估计向量,根据每个待分类图像以及每个待分类图像的重构图像特征向量,确定无监督图像重构模型的无监督模型损失,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失,根据无监督模型损失对无监督图像重构模型进行训练,根据有监督模型损失对有监督图像分类模型进行训练,直至无监督模型损失和有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用训练好的有监督图像分类模型进行图像分类,通过特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,来衡量待分类图像中噪声标签的分布以及非噪声标签的分布,通过噪声概率转移矩阵有效地表征了各个图像类别之间的噪声混淆信息,并根据重构图像特征向量和待分类图像之间的相似性来训练无监督图像重构模型,提高了噪声概率转移矩阵的准确率,并将噪声概率转移矩阵与类别概率估计向量和类别标签之间的相似性相结合,衡量有监督图像分类模型的有监督模型损失来对有监督图像分类模型进行训练,减少了带噪训练集中噪声标签对有监督图像分类模型的影响,提高了有监督图像分类模型的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种图像分类模型的训练方法的一应用环境示意图;
图2是本发明实施例一提供的一种图像分类模型的训练方法的流程示意图;
图3是本发明实施例三提供的一种图像分类模型的训练装置的结构示意图;
图4是本发明实施例四提供的一种计算机设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本发明说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本发明说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本发明说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
应理解,以下实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
本发明实施例一提供的一种图像分类模型的训练方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、云端计算机设备、个人数字助理(personal digital assistant,PDA)等计算机设备。服务端可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
参见图2,是本发明实施例一提供的一种图像分类模型的训练方法的流程示意图,上述图像分类模型的训练方法可以应用于图1中的客户端,该图像分类模型的训练方法可以包括以下步骤:
步骤S201,获取训练集中的待分类图像及其类别标签,将每个待分类图像输入至无监督图像重构模型中,得到每个待分类图像的自编码特征向量和重构图像特征向量。
其中,本实施例中的训练集选用实际图像分类场景中存在标签噪声问题的大规模图像数据集,包括大量的待分类图像以及每个待分类图像的类别标签,该类别标签用来表示对应待分类图像的图像类别。其中,具体的图像类别可根据实际情况进行设定。
图像分类任务的目标是对待分类图像进行特征提取和分析,确定待分类图像的图像类别。
在本实施例中,根据无监督图像重构模型对待分类图像进行特征提取以及类别特征的表征学习,得到每个待分类图像的自编码特征向量。
然后,无监督图像重构模型对自编码特征向量进行解码,确定每个待分类图像的重构图像特征向量,该重构图像特征向量作为无监督图像重构模型的训练基础,可以根据重构图像特征向量与对应待分类图像之间的相似度,来衡量无监督图像重构模型对待分类图像的特征表征准确率。
在本实施例中,图像分类任务可以是在步态分析、视频监控、体育科学等场景中,对待分类图像的人体姿态进行分类,对应地,类别标签为静止、行走、跑步、蹲下、跳跃等各种人体姿态类别;也可以是在商品受众分析、人口老龄化分析等场景中,对待分类图像的人脸属性进行分类,对应地,类别标签为男性、女性、幼年、青年、中年、老年等各种人脸属性类别;也可以是在教学评估、商品销售、人员面试等场景中,对待分类图像的人员情绪进行分类,对应地,类别标签为高兴、紧张、伤心、厌恶、无聊等各种人员情绪类别;还可以是在租房、装修、买房等场景中,对待分类图像的房间风格进行分类,对应地,类别标签为田园、简约、古典、新中式、地中海、东南亚等各种房间风格。
本实施例以对待分类图像的人体姿态进行分类为例,训练集中的待分类图像为包括各种姿态的人体姿态图像,类别标签为静止、行走、跑步、蹲下、跳跃等各种人体姿态类别。由于在进行类别标签的标注时难以避免标注错误的产生,导致部分人体姿态图像会被标注为错误的人体姿态类别,使得本实施例中的训练集为带噪的人体姿态图像数据集。
在训练无监督图像重构模型时,将训练集中的每个人体姿态图像输入至无监督图像重构模型中,进行特征提取以及类别特征的表征学习,得到每个人体姿态图像的自编码特征向量和重构图像特征向量,作为无监督图像重构模型的训练基础。
可选的是,无监督图像重构模型包括编码器和解码器;
将每个待分类图像输入至无监督图像重构模型中,得到每个待分类图像的自编码特征向量和重构图像特征向量包括:
将每个待分类图像输入至编码器中,得到每个待分类图像的自编码特征向量;
将每个待分类图像的自编码特征向量输入至解码器中,得到每个待分类图像的重构图像特征向量。
其中,无监督图像重构模型包括编码器和解码器,编码器用于对无监督图像重构模型的输入进行特征提取,输出特征向量,解码器用于对编码器输出的特征向量进行特征解码,得到重构输入。
则在本实施例中,将每个待分类图像输入至编码器中进行特征提取,得到每个待分类图像的自编码特征向量,然后将每个待分类图像的自编码特征向量输入至解码器中进行特征解码,得到每个待分类图像的重构图像特征向量,作为无监督图像重构模型的训练基础,可以根据重构图像特征向量与对应待分类图像之间的相似度,来衡量无监督图像重构模型对待分类图像的特征表征准确率。
本实施例通过无监督图像重构模型中的编码器对每个待分类图像进行特征提取,得到每个待分类图像的自编码特征向量,并通过无监督图像重构模型中的解码器对每个自编码特征向量进行特征解码,得到每个待分类图像的重构图像特征向量,作为无监督图像重构模型的训练基础,可以提高无监督图像重构模型对待分类图像的特征表征能力。
上述获取训练集中的待分类图像,将每个待分类图像输入至无监督图像重构模型中,得到每个待分类图像的自编码特征向量和重构图像特征向量的步骤,对待分类图像进行了类别特征的表征学习,为图像分类任务提供了特征基础。
步骤S202,对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵。
其中,无监督图像重构模型对待分类图像进行了类别特征的表征学习后,得到了每个待分类图像的自编码特征向量,对应地,属于同一图像类别的待分类图像的自编码特征向量较为相似。
则本实施例对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,其中,K为正整数,当训练集中不存在噪声标签时,每个特征向量聚类簇中的自编码特征向量对应的待分类图像的类别标签一致;当训练集中存在噪声标签时,会导致特征向量聚类簇中的自编码特征向量对应的待分类图像的类别标签中可能存在噪声标签,使得每个特征向量聚类簇中的自编码特征向量对应的待分类图像的类别标签可能不完全一致。
因此,本实施例根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,判断每个特征向量聚类簇中属于各个类别标签的待分类图像的数量,来衡量待分类图像中所有类别标签的分布,其中包括噪声标签的分布以及非噪声标签的分布,进而来表征各个图像类别之间的噪声混淆信息,并得到用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵。
具体地,在本实施例中,该噪声概率转移矩阵为一个K*K维的矩阵,其中,对应于K个图像类别,每个行维度分别对应一个图像类别,每个列维度分别对应一个图像类别,每个特征向量聚类簇对应一个行维度,每个特征向量聚类簇中各个类别标签对应的待分类图像的数量分别对应行维度的列数值。
举例说明,第k(k=1,2,…,K)个特征向量聚类簇对应第j(j=1,2,…,K)个行维度,第k个特征向量聚类簇中第1,2,…,K个类别标签对应的待分类图像的数量,分别对应第j个行维度的第1,2,…,K个列数值。
则该噪声概率转移矩阵在自编码特征向量的特征向量聚类簇的基础上,根据每个特征向量聚类簇中属于各个类别标签的待分类图像的数量,表征了待分类图像中所有类别标签的分布,其中,第k个特征向量聚类簇对应第j个行维度,并对应一个图像类别,则第k个特征向量聚类簇中不属于该图像类别的类别标签可以看作是噪声标签,该噪声标签对应的待分类图像的数量可以用来表征第k个特征向量聚类簇中噪声标签的分布;第k个特征向量聚类簇中属于该图像类别的类别标签可以看作是非噪声标签,该非噪声标签对应的待分类图像的数量可以用来表征第k个特征向量聚类簇中非噪声标签的分布。因此,则该噪声概率转移矩阵同时表征了噪声标签的分布以及非噪声标签的分布,进而表征了各个图像类别之间的噪声混淆信息。
在一实施方式中,使用K均值聚类算法对所有待分类图像的类别特征信息进行聚类,其中,K为图像类别的总数量。具体地,在所有类别特征信息中随机选择K个初始的特征聚类中心,通过计算每个类别特征信息与各个初始的特征聚类中心的距离,把每个类别特征信息分类给距离最近的初始的特征聚类中心,每分配一个类别特征信息,特征聚类中心会根据特征向量聚类簇中现有的类别特征信息被重新计算更新,重复上述聚类过程,直至满足预设的聚类终止条件,则每个特征聚类中心以及分类给该特征聚类中心的类别特征信息组成一个特征向量聚类簇,得到K个特征向量聚类簇。其中,预设的聚类终止条件可以根据实际情况进行设定,例如,可以是没有或者有最小数目对象被重新分配给不同的特征聚类中心,也可以是没有或者有最小数目的特征聚类中心再发生变化。
在本实施例中,以对待分类图像的人体姿态进行分类为例,对应地,属于相同人体姿态的人体姿态图像的自编码特征向量较为相似,则对所有人体姿态图像的自编码特征向量进行聚类,得到K个特征向量聚类簇。然后根据每个特征向量聚类簇中各个自编码特征向量对应的人体姿态图像及其类别标签,判断每个特征向量聚类簇中属于各个类别标签的人体姿态图像的数量,来衡量人体姿态图像中所有类别标签的分布,包括噪声标签的分布以及非噪声标签的分布,进而来表征各个人体姿态类别之间的噪声混淆信息,并得到用于表征各个人体姿态类别之间噪声混淆信息的噪声概率转移矩阵。
可选的是,根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵包括:
针对任一特征向量聚类簇,根据各个自编码特征向量对应的待分类图像及其类别标签,确定各个类别标签的图像数量;
根据各个类别标签的图像数量,确定特征向量聚类簇的类别;
根据特征向量聚类簇的类别,确定特征向量聚类簇在噪声概率转移矩阵中对应的行维度;
根据特征向量聚类簇在噪声概率转移矩阵中对应的行维度,以及各个类别标签的图像数量,确定特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值;
根据所有特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵。
其中,噪声概率转移矩阵为一个K*K维的矩阵,每个特征向量聚类簇对应一个行维度,每个行维度分别对应一个图像类别。
由于训练集中存在标签噪声问题,每个特征向量聚类簇中可能存在少量的噪声标签,以及大量的对应图像类别的类别标签,则可根据每个特征向量聚类簇中每个自编码特征向量对应的待分类图像及其类别标签,统计每个特征向量聚类簇中每个类别标签的图像数量,并确定图像数量最多的类别标签为对应特征向量聚类簇的类别,其中,该类别属于图像类别中的一种。
则可确定每个特征向量聚类簇在噪声概率转移矩阵中对应的行维度,然后根据每个类别标签对应的列维度,将每个特征向量聚类簇中每个类别标签的图像数量,对应每个类别标签在对应行维度的对应列的列数值,则可得到噪声概率转移矩阵中的每个行维度,进而根据噪声概率转移矩阵的K个行维度得到噪声概率转移矩阵。
举例说明,统计第k个特征向量聚类簇中每个类别标签的图像数量,将第s(s=1,2,…,K)个类别标签的图像数量记为Xks,则可确定图像数量Xk1,Xk2,…,XkK中最大值对应的类别标签,该类别标签对应的第u(u=1,2,…,K)个图像类别即为第k个特征向量聚类簇的类别,且第u个图像类别对应噪声概率转移矩阵的第u行。则图像数量Xk1,Xk2,…,XkK分别对应噪声概率转移矩阵的第u行的第1,2,…,K列的列数值。
统计对应噪声概率转移矩阵的第u行的所有特征向量聚类簇,将所有特征向量聚类簇中分别对应第u行的第1,2,…,K列的图像数量相加,得到K个图像数量和,对K个图像数量和进行归一化处理,将K个归一化后的图像数量和分别确定为噪声概率转移矩阵的第u行的第1,2,…,K列的列数值,据此得到噪声概率转移矩阵的第u行。
进一步确定噪声转移矩阵的K行,得到噪声概率转移矩阵。
本实施例根据各个类别标签的图像数量确定特征向量聚类簇的类别,进而确定特征向量聚类簇在噪声概率转移矩阵中对应的行维度,以基于各个行维度确定噪声标签和非噪声标签,并根据各个类别标签的图像数量确定特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值,进而确定噪声概率转移矩阵,根据各个类别标签的图像数量来衡量噪声标签和非噪声标签的分布,有效地表征了各个图像类别之间的噪声混淆信息。
可选的是,在无监督图像重构模型的训练过程中,还包括:
判断无监督图像重构模型的训练是否满足预设训练条件;
若无监督图像重构模型的训练不满足预设训练条件,继续对无监督图像重构模型进行训练,直至无监督图像重构模型满足预设训练条件,然后再对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇;
若无监督图像重构模型的训练满足预设训练条件,直接对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇。
其中,由于迭代训练可以对待分类图像及其类别标签进行分析和学习,对无监督图像重构模型的参数进行优化,提高无监督图像重构模型对待分类图像的特征表征准确率,对应地,无监督图像重构模型在迭代训练前期的可靠性较低。同时,图像分类模型的训练参数较多,计算强度较大,对模型训练的硬件条件和软件条件要求较高。
因此,本实施例中的预设训练条件是无监督图像重构模型的迭代次数达到目标迭代次数,当无监督图像重构模型的训练满足预设训练条件,开始对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,以确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,在提高噪声概率转移矩阵准确率的同时可以降低模型训练中的计算强度,提高模型训练的效率。
本实施例考虑到无监督图像重构模型的准确率随着迭代训练次数的增加逐渐提高,以及模型计算强度大时对硬件条件和软件条件的限制,设定了预设训练条件对无监督图像重构模型的训练进行监督,在无监督图像重构模型的训练满足预设训练条件,开始对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,提高了噪声概率转移矩阵准确率,降低了模型训练中的计算强度,提高了模型训练的效率。
上述对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵的步骤,在对自编码特征向量进行聚类得到特征向量聚类簇后,根据特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,来衡量待分类图像中噪声标签的分布以及非噪声标签的分布,通过噪声概率转移矩阵有效地表征了各个图像类别之间的噪声混淆信息。
步骤S203,将每个待分类图像输入至有监督图像分类模型中,得到每个待分类图像的类别概率估计向量。
其中,有监督图像分类模型用于对待分类图像进行特征提取和特征分析,确定每个待分类图像的类别概率估计向量,该类别概率估计向量由对应待分类图像分别属于各个图像类别的概率构成,可以用来表征每个待分类图像的图像类别,并基于类别概率估计向量和类别标签计算损失,以在类别标签的监督下对有监督图像分类进行迭代训练,提高类别概率估计向量的准确性。
在一种实施方式中,有监督图像分类模型为残差卷积神经网络结构,即在传统卷积神经网络的卷积层、池化层、全连接层和判别层的基础上,加入残差块来解决深层网络中梯度弥散和精度下降的问题,使得有监督图像分类模型能够越来越深,既保证了有监督图像分类模型的精度,又提高了有监督图像分类模型的训练效率。
在本实施例中,以对待分类图像的人体姿态进行分类为例,将训练集中的每个人体姿态图像输入至有监督图像分类模型中进行特征提取和特征分析,确定每个人体姿态图像的类别概率估计向量,该类别概率估计向量由对应人体姿态图像分别属于各个人体姿态类别的概率构成,可以用来表征每个人体姿态图像的人体姿态类别。
上述将每个待分类图像输入至有监督图像分类模型中,得到每个待分类图像的类别概率估计向量的步骤,对待分类图像进行了特征提取和特征分析,得到每个待分类图像的类别概率估计向量,用于表征待分类图像的图像类别,为图像分类任务提供了预测基础。
步骤S204,根据每个待分类图像以及每个待分类图像的重构图像特征向量,确定无监督图像重构模型的无监督模型损失,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失。
其中,本实施例首先确定每个待分类图像的特征向量,根据每个待分类图像的特征向量与对应重构图像特征向量之间的相似性来衡量无监督图像重构模型的无监督模型损失,对应地,待分类图像的特征向量与对应重构图像特征向量之间的相似性越高,无监督图像重构模型的无监督模型损失越小,无监督图像重构模型对待分类图像的特征表征准确率越高。
因此,基于无监督图像重构模型的无监督模型损失对无监督图像重构模型进行训练,以提高无监督图像重构模型对待分类图像的特征表征准确率,从而提高自编码特征向量的准确率。由于噪声转移矩阵是基于无监督图像重构模型的自编码特征向量得到的,则可提高噪声转移矩阵的准确率。
类别概率估计向量可以用来预测对应待分类图像的图像类别,类别标签用来表示待分类图像的图像类别,因此本实施例根据每个待分类图像的类别概率估计向量和类别标签之间的相似性来衡量有监督图像分类模型的有监督模型损失,对应地,待分类图像的类别概率估计向量和类别标签之间的相似性越高,有监督图像分类模型的有监督模型损失越小,有监督图像分类模型的准确率越高。
同时,本实施例将噪声概率转移矩阵与类别概率估计向量和类别标签相结合,用于衡量有监督图像分类模型的损失,以基于无监督图像重构模型的自编码信息以及训练集的噪声混淆信息来来训练有监督图像分类模型,减少带噪训练集中噪声标签对有监督图像分类模型的影响,提高有监督图像分类模型的准确率。
在一实施方式中,为了便于进行相似性计算,首先根据待分类图像的类别标签确定对应的类别概率向量,该类别概率向量中的元素数量与图像类别的总数量一致,该类别标签对应位置的元素值为1,其他位置的元素值为0。
举例说明,将待分类图像的总数量记为N,将第i(i=1,2,…N)个待分类图像的特征向量记为Xi,将第i个待分类图像的重构图像特征向量记为f(Xi),则根据第i个待分类图像的特征向量Xi和第i个待分类图像的重构图像特征向量f(Xi)计算得到i个待分类图像的无监督子损失:
li1=|Xi-f(Xi)|
式中,li1为第i个待分类图像的无监督子损失,Xi为第i个待分类图像的特征向量,f(Xi)为第i个待分类图像的重构图像特征向量。
则计算所有待分类图像的无监督子损失,将所有待分类图像的无监督子损失的和,确定为无监督图像重构模型的无监督模型损失,用于对无监督图像重构模型进行训练,则无监督模型损失为:
式中,L1为无监督模型损失,li1为第i个待分类图像的无监督子损失,N为待分类图像的总数量。
第i个待分类图像对应第s个类别标签,将第i个待分类图像的类别概率向量记为Pi0,则类别概率向量Pi0=[0,…,1,…,0],其中,第s个元素值为1,其他元素值为0。
将噪声转移矩阵记为A,将第i个待分类图像的类别概率估计向量记为Pi1,则对于第i个待分类图像,将噪声转移矩阵A与类别概率估计向量Pi1和类别概率向量Pi0之间的交叉熵相结合,得到第i个待分类图像的有监督子损失:
式中,li2为第i个待分类图像的有监督子损失,A为噪声转移矩阵,pi c 1为第i个待分类图像的类别概率估计向量Pi1中的第c个元素值,pi c 0为第i个待分类图像的类别概率向量Pi0中的第c个元素值,K为图像类别的总数量。
则计算所有待分类图像的有监督子损失,将所有待分类图像的有监督子损失的和,确定为有监督图像分类模型的有监督模型损失,用于对有监督图像分类模型进行训练,则有监督模型损失为:
式中,L2为有监督模型损失,li2为第i个待分类图像的有监督子损失,N为待分类图像的总数量。
在本实施例中,以对人体姿态图像的人体姿态进行分类为例,首先确定每个人体姿态图像的特征向量,根据每个人体姿态图像的特征向量与对应重构图像特征向量之间的相似性来衡量无监督图像重构模型的无监督模型损失,并基于无监督模型损失对无监督图像重构模型进行训练,以提高无监督图像重构模型对人体姿态图像的特征表征准确率,从而提高自编码特征向量的准确率,进而提高噪声转移矩阵的准确率。
然后,由于类别概率估计向量可以用来预测对应人体姿态图像的人体姿态类别,类别标签用来表示人体姿态图像的人体姿态类别,因此本实施例将噪声概率转移矩阵与每个人体姿态图像的类别概率估计向量和类别标签之间的相似性相结合,来衡量有监督图像分类模型的有监督模型损失,以基于无监督图像重构模型的自编码信息以及训练集的噪声混淆信息来来训练有监督图像分类模型,减少带噪的人体姿态图像数据集中噪声标签对有监督图像分类模型的影响,提高有监督图像分类模型的准确率。
可选的是,在无监督图像重构模型满足预设训练条件之前,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失包括:
获取预设的噪声概率转移单位矩阵;
根据预设的噪声概率转移单位矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失。
其中,无监督图像重构模型和有监督图像分类模型是同时进行训练的,在无监督图像重构模型满足预设训练条件之前,未对所有待分类图像的自编码特征向量进行聚类,没有根据自编码特征向量确定噪声概率转移矩阵。
为了不影响有监督图像分类模型的训练进度,本实施例预设一个噪声概率转移单位矩阵,用于与每个待分类图像以及每个待分类图像的重构图像特征向量、类别概率估计向量和类别标签相结合,确定模型损失对无监督图像重构模型和有监督图像分类模型进行训练。
同时,为了不影响训练结果,该预设的噪声概率转移单位矩阵是一个单位矩阵,即该预设的噪声概率转移单位矩阵从左上角到右下角的对角线上的元素均为1,其他位置上的元素均为0。
本实施例在无监督图像重构模型满足预设训练条件之前,没有根据自编码特征向量确定噪声概率转移矩阵,则通过设置预设的噪声概率转移单位矩阵用于模型损失的确定,使得有监督图像分类模型的训练进度可以不受影响,提高了有监督图像分类模型的训练效率。
可选的是,在无监督图像重构模型满足预设训练条件之后,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失包括:
确定第t次迭代训练中的噪声概率转移矩阵;
在第t次迭代训练至第t+T次迭代训练中,根据第t次迭代训练中的噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失,其中,t为预设迭代次数,T为预设迭代次数间隔,t和T为正整数;
确定第t+T+1次迭代训练中的噪声概率转移矩阵;
在第t+T+1次迭代训练至第t+2T次迭代训练中,根据第t+T+1次迭代训练中的噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失;
以此类推,直至某次迭代训练中确定的有监督模型损失收敛。
其中,考虑到无监督图像重构模型和有监督图像分类模型的训练参数较多,计算强度较大,对模型训练的硬件条件和软件条件要求较高,本实施例为了降低训练过程中的计算强度,分阶段递进更新噪声概率转移矩阵。
具体地,当确定第t次迭代训练中的噪声概率转移矩阵后,在第t次迭代训练至第t+T次迭代训练中,均使用第t次迭代训练中的噪声概率转移矩阵进行有监督模型损失的计算,对应地,在第t+1次迭代训练至第t+T次迭代训练中,不需要再对自编码特征向量进行聚类以确定对应的噪声概率转移矩阵。
然后,确定第t+T+1次迭代训练中的噪声概率转移矩阵,在第t+T+1次迭代训练至第t+2T次迭代训练中,均使用第t+T+1次迭代训练中的噪声概率转移矩阵进行有监督模型损失的计算。
其中,初始计算噪声概率转移矩阵的迭代训练次数t,以及更新噪声概率转移矩阵的迭代次数间隔T的具体数值可根据实际情况进行设定,在本实施例中,根据实际情况设定t=30,T=30。
以此类推,通过分阶段递进更新噪声概率转移矩阵,用于有监督模型损失的计算。
本实施例通过设置初始计算噪声概率转移矩阵的迭代训练次数t,以及更新噪声概率转移矩阵的迭代次数间隔T,在保证噪声概率转移矩阵准确率的情况下,降低了有监督图像分类模型训练过程中的计算强度,提高了有监督图像分类模型的训练效率。
上述根据每个待分类图像以及每个待分类图像的重构图像特征向量,确定无监督图像重构模型的无监督模型损失,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失的步骤,通过重构图像特征向量和待分类图像之间的相似性来衡量无监督图像重构模型的无监督模型损失,通过将噪声概率转移矩阵与类别概率估计向量和类别标签之间的相似性相结合,来衡量有监督图像分类模型的有监督模型损失,减少了带噪训练集中噪声标签对有监督图像分类模型的影响,提高了有监督图像分类模型的准确率。
步骤S205,根据无监督模型损失对无监督图像重构模型进行训练,根据有监督模型损失对有监督图像分类模型进行训练,直至无监督模型损失和有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用训练好的有监督图像分类模型进行图像分类。
其中,模型损失可以衡量对应模型在对应迭代训练中的准确度,且模型损失越小,表示对应模型在对应迭代训练中的准确度越高。
因此,在无监督图像重构模型的迭代训练中,以无监督模型损失为基础对无监督图像重构模型进行训练,直至无监督模型损失收敛,得到训练好的无监督图像重构模型,用于为有监督图像分类模型提供准确度更高的自编码特征向量和噪声概率转移矩阵。
在有监督图像分类模型的迭代训练中,以有监督模型损失为基础对有监督图像分类模型进行训练,直至有监督模型损失收敛,得到训练好的有监督图像分类模型,用于根据待分类图像的类别概率估计向量对待分类图像进行图像分类,提高图像分类的准确率。
本实施例以对待分类图像的人体姿态进行分类为例,根据无监督模型损失对无监督图像重构模型进行训练,根据有监督模型损失对有监督图像分类模型进行训练,直至无监督模型损失和有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用训练好的有监督图像分类模型进行人体姿态的分类任务。
上述根据无监督模型损失对无监督图像重构模型进行训练,根据有监督模型损失对有监督图像分类模型进行训练,直至无监督模型损失和有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用训练好的有监督图像分类模型进行图像分类的步骤,基于无监督模型损失得到训练好的无监督图像重构模型,为有监督图像分类模型提供了准确度更高的自编码特征向量和噪声概率转移矩阵;基于有监督模型损失得到训练好的有监督图像分类模型,提高了图像分类的准确率。
本实施例通过将每个待分类图像输入至无监督图像重构模型中得到自编码特征向量和重构图像特征向量,对所有待分类图像的自编码特征向量进行聚类得到K个特征向量聚类簇,根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,将每个待分类图像输入至有监督图像分类模型中得到每个待分类图像的类别概率估计向量,根据每个待分类图像以及每个待分类图像的重构图像特征向量,确定无监督图像重构模型的无监督模型损失,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失,根据无监督模型损失对无监督图像重构模型进行训练,根据有监督模型损失对有监督图像分类模型进行训练,直至无监督模型损失和有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用训练好的有监督图像分类模型进行图像分类,通过特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,来衡量待分类图像中噪声标签的分布以及非噪声标签的分布,通过噪声概率转移矩阵有效地表征了各个图像类别之间的噪声混淆信息,并根据重构图像特征向量和待分类图像之间的相似性来训练无监督图像重构模型,提高了噪声概率转移矩阵的准确率,并将噪声概率转移矩阵与类别概率估计向量和类别标签之间的相似性相结合,衡量有监督图像分类模型的有监督模型损失来对有监督图像分类模型进行训练,减少了带噪训练集中噪声标签对有监督图像分类模型的影响,提高了有监督图像分类模型的准确率。
本发明实施例二提供一种图像分类方法,该图像分类方法使用本发明实施例一中训练好的有监督图像分类模型进行图像分类,可以包括以下步骤:
获取图像分类任务中的待分类图像,将待分类图像输入至训练好的有监督图像分类模型中,输出待分类图像的类别概率估计向量,根据待分类图像的类别概率估计向量确定待分类图像的图像类别。
其中,图像类别可根据实际的图像分类任务进行设定,例如,在商品受众分析、人口老龄化分析等场景中,图像分类任务为对待分类图像的人脸属性进行分类,可以设定图像类别为男性、女性、幼年、青年、中年、老年等各种人脸属性类别;在步态分析、视频监控、体育科学等场景中,图像分类任务为对待分类图像的人体姿态进行分类,可以设定图像类别为静止、行走、跑步、蹲下、跳跃等各种人体姿态类别;在教学评估、商品销售、人员面试等场景中,图像分类任务为对待分类图像的人员情绪进行分类,可以设定图像类别为高兴、紧张、伤心、厌恶、无聊等各种人员情绪类别;在租房、装修、买房等场景中,图像分类任务为对待分类图像的房间风格进行分类,可以设定图像类别为田园、简约、古典、新中式、地中海、东南亚等各种房间风格。
本实施例以对待分类图像的人体姿态进行分类为例,获取待分类的人体姿态图像后,将人体姿态图像输入至训练好的有监督图像分类模型中进行特征提取和特征分析,输出人体姿态图像的类别概率估计向量,该类别概率估计向量可以表征对应人体姿态图像属于各个图像类别的概率。则可以将类别概率估计向量中最大概率值对应的图像类别,确定为人体姿态图像的图像类别,完成人体姿态分类任务。
可以理解的是,在本申请的具体实施方式中,涉及到人脸图像、人体图像、房间图像等相关的数据,当本申请中实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本实施例通过获取本发明实施例一中训练好的有监督图像分类模型,对待分类图像进行特征提取和特征分析,输出待分类图像的类别概率估计向量,确定待分类图像的图像类别,提高了待分类图像的分类准确率。
对应于上文实施例一的图像分类模型的训练方法,图3给出了本发明实施例三提供的图像分类模型的训练装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参见图3,该图像分类模型的训练装置包括:
无监督重构模块31,用于获取训练集中的待分类图像及其类别标签,将每个待分类图像输入至无监督图像重构模型中,得到每个待分类图像的自编码特征向量和重构图像特征向量;
矩阵确定模块32,用于对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个特征向量聚类簇中各个自编码特征向量对应的待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,其中K为正整数;
有监督分类模块33,用于将每个待分类图像输入至有监督图像分类模型中,得到每个待分类图像的类别概率估计向量;
损失确定模块34,用于根据每个待分类图像以及每个待分类图像的重构图像特征向量,确定无监督图像重构模型的无监督模型损失,根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失;
模型训练模块35,用于根据无监督模型损失对无监督图像重构模型进行训练,根据有监督模型损失对有监督图像分类模型进行训练,直至无监督模型损失和有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用训练好的有监督图像分类模型进行图像分类。
可选的是,上述矩阵确定模块32包括:
条件判断子模块,用于判断无监督图像重构模型的训练是否满足预设训练条件;
第一聚类子模块,用于若无监督图像重构模型的训练不满足预设训练条件,继续对无监督图像重构模型进行训练,直至无监督图像重构模型满足预设训练条件,然后再对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇;
第二聚类子模块,用于若无监督图像重构模型的训练满足预设训练条件,直接对所有待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇。
可选的是,上述矩阵确定模块32包括:
图像数量确定子模块,用于针对任一特征向量聚类簇,根据各个自编码特征向量对应的待分类图像及其类别标签,确定各个类别标签的图像数量;
聚类簇类别确定子模块,用于根据各个类别标签的图像数量,确定特征向量聚类簇的类别;
行维度确定子模块,用于根据特征向量聚类簇的类别,确定特征向量聚类簇在噪声概率转移矩阵中对应的行维度;
列数值确定子模块,用于根据特征向量聚类簇在噪声概率转移矩阵中对应的行维度,以及各个类别标签的图像数量,确定特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值;
矩阵确定子模块,用于根据所有特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵。
可选的是,在无监督图像重构模型满足预设训练条件之前,上述损失确定模块34包括:
矩阵预设子模块,用于获取预设的噪声概率转移单位矩阵;
第一模型损失计算子模块,用于根据预设的噪声概率转移单位矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失。
可选的是,在无监督图像重构模型满足预设训练条件之后,上述损失确定模块34包括:
第一矩阵确定子模块,用于确定第t次迭代训练中的噪声概率转移矩阵;
第二模型损失计算子模块,用于在第t次迭代训练至第t+T次迭代训练中,根据第t次迭代训练中的噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失,其中,t为预设迭代次数,T为预设迭代次数间隔,t和T为正整数;
第二矩阵确定子模块,用于确定第t+T+1次迭代训练中的噪声概率转移矩阵;
第三模型损失计算子模块,用于在第t+T+1次迭代训练至第t+2T次迭代训练中,根据第t+T+1次迭代训练中的噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,确定有监督图像分类模型的有监督模型损失;
迭代子模块,用于以此类推,直至某次迭代训练中确定的有监督模型损失收敛。
可选的是,上述损失确定模块34包括:
无监督子损失计算子模块,用于确定每个待分类图像的特征向量,根据每个待分类图像的特征向量和重构图像特征向量,确定每个待分类图像的无监督子损失;
无监督模型损失计算子模块,用于根据所有待分类图像的无监督子损失,确定无监督图像重构模型的无监督模型损失。
可选的是,上述损失确定模块34包括包括:
有监督子损失计算子模块,用于根据噪声概率转移矩阵、每个待分类图像的类别概率估计向量和类别标签,计算每个待分类图像的有监督子损失;
有监督模型损失计算子模块,用于根据所有待分类图像的有监督子损失,确定有监督图像分类模型的有监督模型损失。
图4为本发明实施例四提供的一种计算机设备的结构示意图。如图4所示,该实施例的计算机设备包括:至少一个处理器(图4中仅示出一个)、存储器以及存储在存储器中并可在至少一个处理器上运行的计算机程序,处理器执行计算机程序时实现上述任意各个模型训练方法实施例中的步骤。
该计算机设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图4仅仅是计算机设备的举例,并不构成对计算机设备的限定,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括网络接口、显示屏和输入装置等。
所称处理器可以是CPU,该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器包括可读存储介质、内存储器等,其中,内存储器可以是计算机设备的内存,内存储器为可读存储介质中的操作系统和计算机可读指令的运行提供环境。可读存储介质可以是计算机设备的硬盘,在另一些实施例中也可以是计算机设备的外部存储设备,例如,计算机设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,存储器还可以既包括计算机设备的内部存储单元也包括外部存储设备。存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,该其他程序如计算机程序的程序代码等。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质至少可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
本发明实现上述实施例方法中的全部或部分流程,也可以通过一种计算机程序产品来完成,当计算机程序产品在计算机设备上运行时,使得计算机设备执行时实现可实现上述方法实施例中的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像分类模型的训练方法,其特征在于,所述图像分类模型的训练方法包括:
获取训练集中的待分类图像及其类别标签,将每个所述待分类图像输入至无监督图像重构模型中,得到每个所述待分类图像的自编码特征向量和重构图像特征向量;
对所有所述待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个所述特征向量聚类簇中各个所述自编码特征向量对应的所述待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,其中,K为正整数;
将每个所述待分类图像输入至有监督图像分类模型中,得到每个所述待分类图像的类别概率估计向量;
根据每个所述待分类图像以及每个所述待分类图像的所述重构图像特征向量,确定所述无监督图像重构模型的无监督模型损失,根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
根据所述无监督模型损失对所述无监督图像重构模型进行训练,根据所述有监督模型损失对所述有监督图像分类模型进行训练,直至所述无监督模型损失和所述有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用所述训练好的有监督图像分类模型进行图像分类。
2.根据权利要求1所述的图像分类模型的训练方法,其特征在于,在所述无监督图像重构模型的训练过程中,还包括:
判断所述无监督图像重构模型的训练是否满足预设训练条件;
若所述无监督图像重构模型的训练不满足预设训练条件,继续对所述无监督图像重构模型进行训练,直至所述无监督图像重构模型满足预设训练条件,然后再对所有所述待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇;
若所述无监督图像重构模型的训练满足预设训练条件,直接对所有所述待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇。
3.根据权利要求2所述的图像分类模型的训练方法,其特征在于,在所述无监督图像重构模型满足预设训练条件之前,所述根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失包括:
获取预设的噪声概率转移单位矩阵;
根据所述预设的噪声概率转移单位矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失。
4.根据权利要求2或3所述的图像分类模型的训练方法,其特征在于,在所述无监督图像重构模型满足预设训练条件之后,所述根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失包括:
确定第t次迭代训练中的噪声概率转移矩阵;
在第t次迭代训练至第t+T次迭代训练中,根据第t次迭代训练中的所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失,其中,t为预设迭代次数,T为预设迭代次数间隔,t和T为正整数;
确定第t+T+1次迭代训练中的噪声概率转移矩阵;
在第t+T+1次迭代训练至第t+2T次迭代训练中,根据第t+T+1次迭代训练中的所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
以此类推,直至某次迭代训练中确定的所述有监督模型损失收敛。
5.根据权利要求1所述的图像分类模型的训练方法,其特征在于,所述根据每个所述特征向量聚类簇中各个所述自编码特征向量对应的所述待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵包括:
针对任一所述特征向量聚类簇,根据各个所述自编码特征向量对应的所述待分类图像及其类别标签,确定各个所述类别标签的图像数量;
根据各个所述类别标签的图像数量,确定所述特征向量聚类簇的类别;
根据所述特征向量聚类簇的类别,确定所述特征向量聚类簇在噪声概率转移矩阵中对应的行维度;
根据所述特征向量聚类簇在噪声概率转移矩阵中对应的行维度,以及各个所述类别标签的图像数量,确定所述特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值;
根据所有特征向量聚类簇在噪声概率转移矩阵中对应的行维度的列数值,确定用于表征各个图像类别之间噪声混淆信息的所述噪声概率转移矩阵。
6.根据权利要求1所述的图像分类模型的训练方法,其特征在于,所述根据每个所述待分类图像以及每个所述待分类图像的所述重构图像特征向量,确定所述无监督图像重构模型的无监督模型损失包括:
确定每个所述待分类图像的特征向量,根据每个所述待分类图像的特征向量和所述重构图像特征向量,确定每个所述待分类图像的无监督子损失;
根据所有所述待分类图像的无监督子损失,确定所述无监督图像重构模型的无监督模型损失。
7.根据权利要求1所述的图像分类模型的训练方法,其特征在于,所述根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失包括:
根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,计算每个所述待分类图像的有监督子损失;
根据所有所述待分类图像的有监督子损失,确定所述有监督图像分类模型的有监督模型损失。
8.一种图像分类模型的训练装置,其特征在于,所述图像分类模型的训练装置包括:
无监督重构模块,用于获取训练集中的待分类图像,将每个所述待分类图像输入至无监督图像重构模型中,得到每个所述待分类图像的自编码特征向量和重构图像特征向量;
矩阵确定模块,用于对所有所述待分类图像的自编码特征向量进行聚类,得到K个特征向量聚类簇,根据每个所述特征向量聚类簇中各个所述自编码特征向量对应的所述待分类图像及其类别标签,确定用于表征各个图像类别之间噪声混淆信息的噪声概率转移矩阵,其中K为正整数;
有监督分类模块,用于将每个所述待分类图像输入至有监督图像分类模型中,得到每个所述待分类图像的类别概率估计向量;
损失确定模块,用于根据每个所述待分类图像以及每个所述待分类图像的所述重构图像特征向量,确定所述无监督图像重构模型的无监督模型损失,根据所述噪声概率转移矩阵、每个所述待分类图像的所述类别概率估计向量和所述类别标签,确定所述有监督图像分类模型的有监督模型损失;
模型训练模块,用于根据所述无监督模型损失对所述无监督图像重构模型进行训练,根据所述有监督模型损失对所述有监督图像分类模型进行训练,直至所述无监督模型损失和所述有监督模型损失收敛,得到训练好的无监督图像重构模型和训练好的有监督图像分类模型,利用所述训练好的有监督图像分类模型进行图像分类。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的图像分类模型的训练方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图像分类模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211696838.XA CN116071583A (zh) | 2022-12-28 | 2022-12-28 | 一种图像分类模型的训练方法、装置、计算机设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211696838.XA CN116071583A (zh) | 2022-12-28 | 2022-12-28 | 一种图像分类模型的训练方法、装置、计算机设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116071583A true CN116071583A (zh) | 2023-05-05 |
Family
ID=86177909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211696838.XA Pending CN116071583A (zh) | 2022-12-28 | 2022-12-28 | 一种图像分类模型的训练方法、装置、计算机设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116071583A (zh) |
-
2022
- 2022-12-28 CN CN202211696838.XA patent/CN116071583A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110084173B (zh) | 人头检测方法及装置 | |
Hendricks et al. | Women also snowboard: Overcoming bias in captioning models | |
WO2019119505A1 (zh) | 人脸识别的方法和装置、计算机装置及存储介质 | |
WO2019200782A1 (zh) | 样本数据分类方法、模型训练方法、电子设备及存储介质 | |
US11429809B2 (en) | Image processing method, image processing device, and storage medium | |
JP2022141931A (ja) | 生体検出モデルのトレーニング方法及び装置、生体検出の方法及び装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
CN115034315B (zh) | 基于人工智能的业务处理方法、装置、计算机设备及介质 | |
CN113158777B (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
CN114896067B (zh) | 任务请求信息的自动生成方法、装置、计算机设备及介质 | |
US20180247105A1 (en) | High speed reference point independent database filtering for fingerprint identification | |
CN113435499B (zh) | 标签分类方法、装置、电子设备和存储介质 | |
CN113255557A (zh) | 一种基于深度学习的视频人群情绪分析方法及系统 | |
CN111694954B (zh) | 图像分类方法、装置和电子设备 | |
CN111898704A (zh) | 对内容样本进行聚类的方法和装置 | |
CN110175500B (zh) | 指静脉比对方法、装置、计算机设备及存储介质 | |
CN113688785A (zh) | 基于多监督的人脸识别方法、装置、计算机设备及存储介质 | |
Dong et al. | A supervised dictionary learning and discriminative weighting model for action recognition | |
CN116580442A (zh) | 基于可分离卷积的微表情识别方法、装置、设备及介质 | |
CN116152551A (zh) | 分类模型训练方法、分类方法、装置、设备及介质 | |
CN116246303A (zh) | 用于模型跨域训练的样本构建方法、装置、设备及介质 | |
CN117011539A (zh) | 目标检测方法、目标检测模型的训练方法、装置及设备 | |
CN117011577A (zh) | 图像分类方法、装置、计算机设备和存储介质 | |
CN116071583A (zh) | 一种图像分类模型的训练方法、装置、计算机设备及介质 | |
CN104778479B (zh) | 一种基于稀疏编码提取子的图像分类方法及系统 | |
CN114510691A (zh) | 基于孪生网络模型的击键身份认证识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |