CN114330588A - 一种图片分类方法、图片分类模型训练方法及相关装置 - Google Patents

一种图片分类方法、图片分类模型训练方法及相关装置 Download PDF

Info

Publication number
CN114330588A
CN114330588A CN202210002051.2A CN202210002051A CN114330588A CN 114330588 A CN114330588 A CN 114330588A CN 202210002051 A CN202210002051 A CN 202210002051A CN 114330588 A CN114330588 A CN 114330588A
Authority
CN
China
Prior art keywords
samples
image classification
model
picture
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210002051.2A
Other languages
English (en)
Inventor
李唐薇
周森
朱浩齐
杨卫强
李雨珂
胡宜峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Zhiqi Technology Co Ltd
Original Assignee
Hangzhou Netease Zhiqi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Zhiqi Technology Co Ltd filed Critical Hangzhou Netease Zhiqi Technology Co Ltd
Priority to CN202210002051.2A priority Critical patent/CN114330588A/zh
Publication of CN114330588A publication Critical patent/CN114330588A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本公开的实施方式提供了一种图片分类方法,包括:获取待识别的图片;将所述图片输入至预先训练完成的图片分类模型;基于所述训练完成的图片分类模型,输出图片分类的结果。在以上过程中,一方面,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,可以提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。

Description

一种图片分类方法、图片分类模型训练方法及相关装置
技术领域
本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及一种图片分类方法、图片分类模型训练方法及相关装置。
背景技术
本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
随着人工智能技术的不断发展,基于计算机视觉技术对图片进行分类识别已经成为研究中的热点。目前,通常可以针对不同的图片分类任务,设计不同的识别模型,再基于已经标注好的图片训练集对图片分类模型进行有监督训练。
然而,由于数据的数量和质量直接决定了预测模型的好坏,因此为了得到高质量的图片分类模型,不仅需要大量的样本数据,还对标注的准确性提出的要求,这就导致标注成本过高的问题。
另外,由于不同图片训练集中的图片数据分布是存在差异的,而互联网中存在海量的图片数据,在实际进行分类时,很可能存在因为测试集中图片数据分布不同而导致的模型准确度不足的问题。
发明内容
在本上下文中,本公开的实施方式期望提供一种图片分类方法、图片分类模型训练方法及相关装置。
在本公开实施方式的第一方面中,提供了一种图片分类方法,包括:
获取待识别的图片;
将所述图片输入至预先训练完成的图片分类模型;
基于所述训练完成的图片分类模型,输出图片分类的结果。
在本公开实施方式的第二方面中,提供了一种图片分类模型训练方法,包括:
获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
在本公开实施方式的第三方面中,提供了一种图片分类装置,包括:
图片获取模块,获取待识别的图片;
输入模块,将所述图片输入至预先训练完成的图片分类模型;
输出模块,基于所述训练完成的图片分类模型,输出图片分类的结果。
在本公开实施方式的第四方面中,提供了一种图片分类模型训练装置,包括:
第二获取模块,获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
第二确定模块,将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
第二融合模块,将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
第二筛选模块,基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果;
第二标记模块,为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
第二训练模块,根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
在本公开实施方式的第五方面中,提供了一种存储介质;其上存储有计算机指令,该指令被处理器执行时实现如下所述方法的步骤:
获取待识别的图片;
将所述图片输入至预先训练完成的图片分类模型;
基于所述训练完成的图片分类模型,输出图片分类的结果。
或者,其上存储有计算机指令,该指令被处理器执行时实现如下所述方法的步骤:
获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
在本公开实施方式的第六方面中,提供了一种计算设备,包括:
处理器;以及,用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如下所述方法的步骤:
获取待识别的图片;
将所述图片输入至预先训练完成的图片分类模型;
基于所述训练完成的图片分类模型,输出图片分类的结果。
或者,所述处理器通过运行所述可执行指令以实现如下所述方法的步骤:
获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
本公开以上的实施方式,至少具有如下的有益效果:
通过以上技术方案,一方面,由于无标签样本相对于有标签样本,不仅容易获取,而且数据更多,可以获取更多的有用信息,所以基于半监督学习方法,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,通过对每个图片分类模型输出的无标签样本的结果进行知识迁移,实现对训练中的噪声数据进行过滤,筛选出质量更高的伪标签样本,从而提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。另外,通过端到端的训练可以提升模型的准确性,最终训练完成的图片分类模型可以用于完成图片分类任务。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本公开实施方式的一种图片分类方法的流程图;
图2示意性地示出了根据本公开实施方式的一种图片分类模型训练方法的示意图;
图3示意性地示出了根据本公开实施方式的一种图片分类模型训练方法的流程图;
图4示意性地示出了根据本公开实施方式的另一种图片分类模型训练方法的示意图;
图5示意性地示出了根据本公开实施方式的一种图片分类装置的框图;
图6示意性地示出了根据本公开实施方式的一种图片分类模型训练装置的框图;
图7示意性地示出了根据本公开实施方式的一种计算机可读存储介质的示意图;
图8示意性地示出了根据本公开实施方式的一种能够实现上述方法的电子设备的示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机可读存储介质。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提出了一种图片分类方法、图片分类模型训练方法及相关装置。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐释本公开的原理和精神。
发明概述
本发明人发现,在解决图片分类任务时,虽然可以基于有监督学习完成图片分类模型的训练,但由于有监督学习训练出的模型好坏依赖于图片样本的数量和质量。因此,若要提高图片分类模型的精度,增强图片分类结果的准确性,则需要对大量的图片样本进行准确的标注,但随之而来的是标注成本大大增加的问题。
有鉴于此,本说明书提供一种通过构建N个不同的图片分类模型,对每一个图片分类模型基于半监督学习进行训练,并在训练时使用根据知识迁移模型融合得到的无标签数据对应的伪标签,从而将训练完成的图片分类模型用于图片分类任务,实现降低标注成本,以及提升模型准确性和泛化能力的技术方案。
本说明书的核心技术构思在于:
在图片的输入端到分类结果的输出端之间,构建N个不同的图片分类模型以及知识迁移模型,将无标签样本输入至每个图片分类模型,再将图片分类模型对无标签样本的预测结果,输入至知识迁移模型进行融合,得到无标签样本对应的伪标签,然后根据有标签样本和标注了伪标签的伪标签样本,基于半监督学习对每个图片分类模型进行训练,通过不断迭代直至最终得到可以用于完成图片分类任务的图片分类模型。
通过以上技术方案,一方面,由于无标签样本相对于有标签样本,不仅容易获取,而且数据更多,可以获取更多的有用信息,所以基于半监督学习方法,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,通过对每个图片分类模型输出的无标签样本的结果进行知识迁移,实现对训练中的噪声数据进行过滤,筛选出质量更高的伪标签样本,从而提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。另外,通过端到端的训练可以提升模型的准确性,最终训练完成的图片分类模型可以用于完成图片分类任务。
在介绍了本公开的基本原理之后,下面具体介绍本公开的各种非限制性实施方式。
应用场景总览
在执行图片分类任务时,通常可以基于已经标注好的图片训练集对图片分类模型进行有监督训练。
举例来说,当图片分类任务是对图片中的猫进行分类识别时,需要准备训练样本,可以从互联网上获取大量的包含有猫的图片,并进行人工标注,对包含猫的图片打上“猫”标签,将打好标签的图片作为训练样本训练图片分类模型。
当基于上述训练完成的图片分类模型对输入的图片进行分类时,根据输出的预测分与阈值进行比较,如果预测分大于阈值,则判断图片包含猫,如果预测分小于阈值,那么图片不包含猫。
然后,上述有监督训练过程中,如果想要拥有较好的模型分类效果,需要的训练样本数据规模很大,进而导致标注成本过高。
而且,模型的精度还依赖于有标签样本的质量,如果噪声数据过大,会加大模型区分相关特征与不相关特征的难度,导致模型的精度下降,而高质量的有标签样本也会加大标注成本。
值得说明的是,在一些图片分类任务中,还会存在样本数据不足的问题。例如,为了净化上网环境,可以对互联网中存在的违禁图片进行识别,从中识别出包含不文明信息、暴恐信息等垃圾信息的图片。
但相当于互联网中海量图片数据来说,违禁图片数量占比极低,很难获取到大量的适用于违禁图片识别任务的图片。因此,当训练样本不足时,训练出的模型不仅准确性很低,而且泛化能力往往也不佳。
其中,泛化能力通俗来讲就是指学习到的模型对未知数据的预测能力,也就是说,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。
需要注意的是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
示例性方法
下面将通过具体的实施例对本说明书的技术构思进行详细描述。
本公开旨在提供一种通过构建N个不同的图片分类模型,对每一个图片分类模型基于半监督学习进行训练,并在训练时使用根据知识迁移模型融合得到的无标签数据对应的伪标签,从而将训练完成的图片分类模型用于图片分类任务,实现降低标注成本,以及提升模型准确性和泛化能力的技术方案。
在实现时,可以获取待识别的图片。
然后,将待识别的图片输入至预先训练完成的图片分类模型。
其中,上述图片分类模型的训练可以从半监督学习角度出发利用多个模型之间知识迁移完成。
接着,基于所述训练完成的图片分类模型,输出图片分类的结果。
通过以上技术方案,一方面,由于无标签样本相对于有标签样本,不仅容易获取,而且数据更多,可以获取更多的有用信息,所以基于半监督学习方法,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,通过对每个图片分类模型输出的无标签样本的结果进行知识迁移,实现对训练中的噪声数据进行过滤,筛选出质量更高的伪标签样本,从而提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。另外,通过端到端的训练可以提升模型的准确性,最终训练完成的图片分类模型可以用于完成图片分类任务。
请参见图1,图1是一示例性实施例提供的一种图片分类方法的流程图,所述方法包括以下步骤:
步骤101,获取待识别的图片。
其中,上述图片可以是在执行图片分类任务时,根据预设的方法获取到的待识别的图片。
例如,在执行违规图片识别任务时,可以从论坛的各个帖子中获取用户发布的图片,以进行违规图片识别。
步骤102,将所述图片输入至预先训练完成的图片分类模型。
其中,上述预先训练完成的图片分类模型可以是单独的一种图片分类模型,也可以是多种图片分类模型的组合。
例如,可以将图片分别输入至各个图片分类模型,根据这些图片分类模型分别对应的结果确定图片的最终分类结果。
步骤103,基于所述训练完成的图片分类模型,输出图片分类的结果。
例如,对于违规图片识别任务来说,将图片输入至预先训练完成的图片分类模型之后,可以得到图片的预测分,通过对预测分进行判断,当预测分大于设置的阈值时可以认为图片属于违禁图片,否则为非违禁图片,并输出最终分类的结果。
其中,在将图片输入模型之前,可以先进行数据预处理。
例如,为保证速度和准确率之间的平衡,可以采取图片缩放操作,对图片的分辨率大小进行缩放,具体缩放的尺寸可以由本领域技术人员根据实际任务需求进行,本公开对此不做限定。
又如,为了保证图片输入的数据与模型训练过程中的数据分布一致,还可以对图片进行归一化操作。
上述训练完成的图片分类模型,由于在训练时可以在图片的输入端到分类结果的输出端之间,构建N个不同的图片分类模型以及知识迁移模型,通过将无标签样本输入至每个图片分类模型,再将图片分类模型对无标签样本的预测结果,输入至知识迁移模型进行融合,得到无标签样本对应的伪标签,然后根据有标签样本和标注了伪标签的伪标签样本,基于半监督学习对每个图片分类模型进行训练,通过不断迭代直至最终得到可以用于完成图片分类任务的图片分类模型。
在对上述图片分类模型进行训练时,一方面,由于无标签样本相对于有标签样本,不仅容易获取,而且数据更多,可以获取更多的有用信息,所以基于半监督学习方法,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,通过对每个图片分类模型输出的无标签样本的结果进行知识迁移,实现对训练中的噪声数据进行过滤,筛选出质量更高的伪标签样本,从而提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。
基于此,由于上述图片分类模型的训练方法可以提升模型的泛化能力和准确性,因此在基于训练完成的图片分类模型进行图片分类时,不仅可以更容易的对图片进行分类,还可以提高图片分类的准确性。
接下来对模型的训练过程进行详细描述,在描述之前,需要说明的是,上述用于图片分类的图片分类模型,可以是以下训练完成的N个图片分类模型中选出的任一模型或多个模型的组合。
请参见图2,图2是一示例性实施例提供的一种图片分类模型训练方法的示意图,所述方法包括以下步骤:
步骤201,获取训练样本集,所述训练样本集包括无标签样本和有标签样本。
在本实施例中,上述训练样本集可以由无标签样本和有标签样本构成。
其中,无标签样本相对有标签样本,不仅容易获取,而且无需进行标注,可以大大降低标注成本。并且,通过加入无标签样本,还可以提高分类边界的准确性,提高模型的稳健性。
需要说明的,在将上述训练样本输入至模型之前,还可以对样本进行预处理,例如,对样本进行缩放处理或进行归一化处理。
其中,前述对待识别图片在预测之前所采取的预处理操作,与对样本进行预处理的操作一致。
例如,如果对样本进行预处理时,将样本缩放至指定的224像素×224像素,那么在使用训练完成的模型对待识别图片进行预测之前,对图片进行预处理时,也需要同样将图片缩放至指定的224像素×224像素。
又如,对待识别图片进行归一化处理时采用的方法,需要与对样本进行归一化处理时采用的方法保持一致。
由前述可知,由于某些图片分类任务中构建出的样本数量有限,因此可以通过数据增强操作,增加训练样本的数量。
数据增强,是指通过对已有数据进行数据处理,让有限的数据可以产生出更多的价值,从而提高模型的效果。常用的数据增强方法主要有:剪裁、翻转、旋转、比例缩放、位移和高斯噪声等。
举例来说,通过裁剪,可以从原始图像中随机裁剪出一部分,然后将裁剪出的图像作为新的训练样本;通过翻转,可以对原始图像进行水平或垂直翻转,将翻转后的图像作为新的训练样本;通过位移,可以将原始图像按照指定方向进行平移,将平移后的图像作为新的训练样本。对于具体采用何种数据增强操作,本领域技术人员可以根据需要自行选择。
其中,需要说明的是,根据对数据变化程度的不同,可以将数据增强后的样本划分为弱数据增强样本和强数据增强样本。
在示出的一种实施方式中,可以对获取到的无标签样本进行数据增强,得到第一数据增强样本和第二数据增强样本。
在一个例子中,可以对训练样本集中的无标签样本进行数据增强操作,根据数据变化的程度不同,对无标签样本进行弱数据增强操作后可以得到弱数据增强样本,对强数据增强样本进行强数据增强操作后可以得到强数据增强样本。
在另一个例子中,由于违禁图片相对于互联网中海量的图片数据来说占比极低,能够获取到的样本数量有限,可以对已经获取到的违禁图片采用多种数据增强方法进行数据处理,按照数据变化的程度不同得到弱数据增强样本和强数据增强样本。
在上述过程中,通过对样本进行数据增强,可以解决训练样本不足的问题,从而提升模型的泛化能力。
步骤202,将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果。
其中,在构建上述N个图片分类模型时,本领域技术人员可以选择已知的任意图片分类模型,例如ResNet系列、ResNeXt系列、Transformer系列等,本公开对此不做限定。
在一个例子中,可以将无标签样本分别输入至构建出的多个图片分类模型,由各个图片分类模型分别输出无标签样本对应的预测分。
同样的,对于前述经过数据增强处理的无标签样本,也可以输入至上述N个图片分类模型。
在示出的一种实施方式中,可以将所述第一数据增强样本分别输入至N个图片分类模型,确定对应的第三输出结果;还可以将所述第二数据增强样本分别输入至N个图片分类模型,确定对应的第四输出结果。
在一个例子中,可以将弱数据增强样本分别输入至N个图片分类模型,确定对应的弱数据增强样本的预测结果;还可以将强数据增强样本分别输入至N个图片分类模型,确定对应的强数据增强样本的预测结果。
需要说明的是,对于不同的图片分类模型来说,根据预测分判断分类的结果所使用的阈值可能不同。
例如,假设A模型对应的分类阈值为0.85,B模型给出的分类阈值为0.75,对于同一个图片,即使给出的预测分都为0.8,但分类结果并不相同,这也意味着不同模型的预测结果准确性各不相同。
但即使如此,通过本公开提供的技术方案,可以使得上述多个图片分类模型都可以得到充分的训练,最终可以达到准确性和泛化能力的要求。
由前述可知,在根据知识迁移模型确定无标签样本对应的伪标签之前,需要将各个图片分类模型的输出结果输入至知识迁移模型。
步骤203,将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果。
在本实施例中,在得到每个模型的第一输出结果之后,可以将N个第一输出结果输入至预设的知识迁移模型进行融合,得到针对每个图片分类模型确定出的第二输出结果。
其中,知识迁移是指将知识在多个领域或任务之间迁移,简单来说就是将B领域的知识迁移到A领域中,来提高A领域的分类效果。
举例来说,假设N为4,在知识迁移模型进行融合时,可以使用模型B、模型C和模型D的第一输出结果提升或优化模型A的学习效果,并输出融合后的第二输出结果。而模型B的第二输出结果,则可以由模型A、模型C和模型D进行知识迁移得到。
通过利用知识迁移可以复用现有知识数据,不需要再花费代价去重新采集并标记新的数据集,可以增强模型的泛化能力。
另外,由于强数据增强样本的数据变化程度大,在模型训练初始阶段,模型给出的分类结果准确性较低,所以可以先对弱数据增强样本进行分类。
因此,对于经过数据增强处理的样本来说,上述输入至知识迁移模型的输出结果,可以是弱数据增强样本对应的预测结果。
在示出的一种实施方式中,可以将N个第三输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定所述第一数据增强样本分别对应的第五输出结果。
举例来说,可以将每个图片分类模型输出的弱数据增强样本对应的预测结果,输入至预设的知识迁移模型进行融合,以由知识迁移模型针对每个图片分类模型,确定弱数据增强样本分别对应的经过知识迁移后的预测结果。
步骤204,基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定。
在本实施例中,可以基于预设的算法,从上述N个第二输出结果中,筛选出满足预设条件的输出结果,并根据满足预设条件的输出结果确定出的伪标签,为满足预设条件的输出结果对应的无标签样本标记伪标签,从而确定出伪标签样本。
其中,伪标签是指为无标签样本标注的标签。
举例来说,假设模型M1-M6对无标签样本UD1预测的第二输出结果B1-B6中,满足预设条件的输出结果为B1、B3和B5,而基于上述满足预设条件的输出结果B1、B3和B5确定出的伪标签为P1、P3和P5,那么输入至M1、M3和M5的伪标签样本可以如下表1所示:
表1
Figure BDA0003455067210000081
其中,上述P1、P3和P5仅是作为区分的一种示例,实际上也可以是同一个标签。
可以理解的是,对于无标签样本中的多个样本数据,可以参照上述无标签样本UD1的标记过程,最终可以为不同的模型确定相应的伪标签样本。
在上述步骤204中,在基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果时,可以采用基于固定阈值的方法。
在示出的一种实施方式中,可以判断所述N个图片分类模型分别对应的第二输出结果,是否达到为所述N个图片分类模型分别设定的第一阈值;确定所述第二输出结果达到第一阈值的次数;响应于所述次数达到第二阈值,将所述达到第一阈值的第二输出结果确定为所述满足预设条件的输出结果。
其中,上述为N个图片分类模型分别设定的第一阈值,可以图片分类模型在根据预测分进行判断时使用的阈值分数,也可以是重新设置的阈值分数,本领域技术人员可以自行设置,本公开对此不做限定。
举例来说,针对每个弱数据增强样本,可以判断每个图片分类模型对弱数据增强样本输出的预测分,判断这些预测分是否达到该图片分类模型设定的分类阈值分数,并统计达到分类阈值分数的次数。
进一步的,判断预测分达到分类阈值分数的次数,是否达到设定的阈值次数,如果达到,将达到分类阈值分数的预测分确定为满足上述预设条件的输出结果。
简单来说,就是统计多个图片分类模型对同一样本进行分类的结果,如果分类一致的次数达到阈值,则将这些达到阈值的结果筛选出来。
在上述过程中,对于单标签任务,可以设置该标签对应的阈值次数,而对于多标签分类任务,可以对每种标签设定阈值次数。
除了上述基于固定阈值的方法,还可以采用基于动态阈值的方法。
在示出的一种实施方式中,可以确定每个图片分类模型分别对应的第一损失值;其中,所述第一损失值包括基于所述有标签样本对所述图片分类模型进行迭代训练,直至所述图片分类模型对应的第一损失函数收敛时确定的损失值;将所述第四输出结果和所述第五输出结果,输入至第二损失函数,分别计算每个图片分类模型分别对应的第二损失值;响应于所述第二损失值小于所述第一损失值,将所述第四输出结果和所述第五输出结果确定为所述满足预设条件的输出结果。
上述基于动态阈值的方法,可以将模型有监督训练收敛时的损失值来作为对无标签数据进行无标签打标的判断依据。
举例来说,可以基于有标签样本,对每个图片分类模型进行迭代训练,直至图片分类模型对应的第一损失函数收敛,将收敛时的损失值确定为该图片分类模型对应的第一损失值。
继续举例,对于每个无标签样本,在经过数据增强处理后,可以分为弱数据增强样本和强数据增强样本,在分别输入至图片分类模型进行预测后,可以得到弱数据增强样本对应的第三输出结果,以及强数据增强样本对应的第四输出结果。根据前述可知,通过将第三输出结果输入至预设的知识迁移模型进行融合,可以确定出弱数据增强样本对应的第五输出结果。
然后,将第四输出结果和第五输出结果,输入至第二损失函数进行计算,确定出该图片分类模型分别对应的第二损失值。
进一步的,对第二损失值和第一损失值的大小进行判断,如果第二损失值小于第一损失值,那么将第四输出结果和第五输出结果确定为上述满足预设条件的输出结果,也就是说为弱数据增强样本和强数据增强样本标记相同的伪标签。
需要说明的是,当构建的图片分类模型较多时,可以采用固定阈值和动态阈值混合的方法,可以对其中一些模型采用固定阈值的方法来确定伪标签,另外一些模型采用动态阈值的方法来确定伪标签。
在示出的一种实施方式中,可以基于所述第四输出结果为所述第二数据增强样本,以及基于所述第五输出结果为所述第一数据增强样本标记相同的伪标签,以确定出标记了伪标签的第二数据增强样本,以及标记了伪标签的第一数据增强样本。
由前述可知,响应于第二损失值小于第一损失值,可以将第四输出结果和第五输出结果确定为满足预设条件的输出结果以便于进一步确定伪标签。
举例来说,可以基于第四输出结果为强数据增强样本标记伪标签,基于第五输出结果为弱数据增强样本标记伪标签,虽然弱数据增强样本和强数据增强样本在数据变化程度上有所差别,但最终分类结果趋于一致,故标记的伪标签也相同。
步骤205,根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
在本实施例中,在上述确定出无标签样本对应的伪标签之后,可以和有标签样本一起,分别对N个图片分类模型进行半监督学习,获得训练后的N个图片分类模型。
在上述过程中,通过图片分类模型对无标签样本进行预测,再利用知识迁移模型对预测结果进行融合,根据融合后的结果对样本进行筛选,将筛选出的结果标记伪标签后再次输入图片分类模型中进行训练,从而选取出置信度高的样本进行训练,提升模型的泛化能力。
在示出的一种实施方式中,可以根据所述有标签样本、所述标记了伪标签的第二数据增强样本,以及所述标记了伪标签的第一数据增强样本,基于半监督学习方法分别对所述N个图片分类模型进行迭代训练,直至第三损失函数收敛,获得训练后的N个图片分类模型;其中,所述第三损失函数的值基于所述第一损失函数的值和第二损失函数的值确定。
举例来说,可以根据有标签样本,标记了伪标签的弱数据增强样本,以及标记了伪标签的强数据增强样本,基于半监督学习方法分别对N个图片分类模型进行迭代训练,直至第三损失函数收敛,获得训练后的N个图片分类模型。
继续举例,上述第三损失函数可以参照以下公式确定:
Loss=αlosslabel+βlossunlabel
其中,α和β表示不同的权重值,而losslabel表示第一损失函数的值,lossunlabel表示第二损失函数的值。
通过以上技术方案,一方面,由于无标签样本相对于有标签样本,不仅容易获取,而且数据更多,可以获取更多的有用信息,所以基于半监督学习方法,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,通过对每个图片分类模型输出的无标签样本的结果进行知识迁移,实现对训练中的噪声数据进行过滤,筛选出质量更高的伪标签样本,从而提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。另外,通过端到端的训练可以提升模型的准确性,最终训练完成的图片分类模型可以用于完成图片分类任务。
与上述图片分类方法相对应,本公开还提供了一种图片分类模型训练的技术方案。
请参见图3,图3是一示例性实施例提供的一种图片分类模型训练方法的流程图,所述方法包括以下步骤:
步骤301,获取训练样本集,所述训练样本集包括无标签样本和有标签样本。
在示出的一种实施方式中,可以对获取到的无标签样本进行数据增强,得到第一数据增强样本和第二数据增强样本。
步骤302,将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果。
在示出的一种实施方式中,上述步骤302进一步:
可以将所述第一数据增强样本分别输入至N个图片分类模型,确定对应的第三输出结果;可以将所述第二数据增强样本分别输入至N个图片分类模型,确定对应的第四输出结果。
步骤303,将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果。
在示出的一种实施方式中,上述步骤303进一步:
将N个第三输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定所述第一数据增强样本分别对应的第五输出结果。
步骤304,基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定。
在示出的一种实施方式中,所述基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,包括:
判断所述N个图片分类模型分别对应的第二输出结果,是否达到为所述N个图片分类模型分别设定的第一阈值;
确定所述第二输出结果达到第一阈值的次数;
响应于所述次数达到第二阈值,将所述达到第一阈值的第二输出结果确定为所述满足预设条件的输出结果。
在示出的另一种实施方式中,所述基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,包括:
确定每个图片分类模型分别对应的第一损失值;其中,所述第一损失值包括基于所述有标签样本对所述图片分类模型进行迭代训练,直至所述图片分类模型对应的第一损失函数收敛时确定的损失值;
将所述第四输出结果和所述第五输出结果,输入至第二损失函数,分别计算每个图片分类模型分别对应的第二损失值;
响应于所述第二损失值小于所述第一损失值,将所述第四输出结果和所述第五输出结果确定为所述满足预设条件的输出结果。
进一步的,在示出的一种实施方式中,为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本,包括:
基于所述第四输出结果为所述第二数据增强样本,以及基于所述第五输出结果为所述第一数据增强样本标记相同的伪标签,以确定出标记了伪标签的第二数据增强样本,以及标记了伪标签的第一数据增强样本。
步骤305,根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
在示出的一种实施方式中,上述步骤305进一步:
根据所述有标签样本、所述标记了伪标签的第二数据增强样本,以及所述标记了伪标签的第一数据增强样本,基于半监督学习方法分别对所述N个图片分类模型进行迭代训练,直至第三损失函数收敛,获得训练后的N个图片分类模型;其中,所述第三损失函数的值基于所述第一损失函数的值和第二损失函数的值确定。
上述对图片分类模型进行训练的具体细节,在之前描述的图片分类方法流程中进行了详细的描述,本领域技术人员可以参考前述的相关描述,此处不再赘述。
请参见图4,图4是一示例性实施例提供的另一种图片分类模型训练方法的示意图,所述方法包括以下步骤:
步骤401,获取训练样本集。
其中,训练样本集包括无标签样本和有标签样本。
其中,无标签样本相对有标签样本,不仅容易获取,而且无需进行标注,可以大大降低标注成本。并且,通过加入无标签样本,还可以提高分类边界的准确性,提高模型的稳健性。
另外,对于训练样本集中的样本,还可以参照前述实施例对样本进行数据预处理,例如,对样本进行缩放处理或进行归一化处理。
由前述可知,由于某些图片分类任务中构建出的样本数量有限,因此可以通过数据增强操作,增加训练样本的数量。
步骤402,对获取到的无标签样本进行数据增强,得到弱数据增强样本和强数据增强样本。
其中,数据增强,是指通过对已有数据进行数据处理,让有限的数据可以产生出更多的价值,从而提高模型的效果。而根据对数据变化程度的不同,可以将数据增强后的样本划分为弱数据增强样本和强数据增强样本。
例如,常用的数据增强方法主要有:剪裁、翻转、旋转、比例缩放、位移和高斯噪声等,本公开对此不做限定。
在上述过程中,通过对样本进行数据增强,可以解决训练样本不足的问题,从而提升模型的泛化能力。
步骤403,将弱数据增强样本分别输入至N个图片分类模型,确定对应的第三输出结果;以及,将强数据增强样本分别输入至N个图片分类模型,确定对应的第四输出结果。
其中,在构建上述N个图片分类模型时,本领域技术人员可以选择已知的任意图片分类模型,例如ResNet系列、ResNeXt系列、Transformer系列等,本公开对此不做限定。
需要说明的是,对于不同的图片分类模型来说,根据预测分判断分类的结果所使用的阈值可能不同。
例如,假设A模型对应的分类阈值为0.85,B模型给出的分类阈值为0.75,对于同一个图片,即使给出的预测分都为0.8,但分类结果并不相同,这也意味着不同模型的预测结果准确性各不相同。
由前述可知,在根据知识迁移模型确定无标签样本对应的伪标签之前,需要将各个图片分类模型的输出结果输入至知识迁移模型。
步骤404,将N个第三输出结果输入至预设的知识迁移模型进行融合。
需要说明的是,由于强数据增强样本的数据变化程度大,在模型训练初始阶段,模型给出的分类结果准确性较低,所以可以先对弱数据增强样本进行分类。因此,对于经过数据增强处理的样本来说,上述输入至知识迁移模型的输出结果,可以是弱数据增强样本对应的第三输出结果。
步骤405,知识迁移模型针对每个图片分类模型,确定弱数据增强样本分别对应的第五输出结果。
其中,知识迁移是指将知识在多个领域或任务之间迁移,简单来说就是将B领域的知识迁移到A领域中,来提高A领域的分类效果。
举例来说,假设N为4,在知识迁移模型进行融合时,可以使用模型B、模型C和模型D分别针对弱数据增强样本确定的第三输出结果提升或优化模型A的学习效果,并输出融合后的第五输出结果。而模型B的第五输出结果,则可以由模型A、模型C和模型D进行知识迁移得到。
在上述过程中,通过利用知识迁移可以复用现有知识数据,不需要再花费代价去重新采集并标记新的数据集,可以增强模型的泛化能力。
接下来请参见步骤406-步骤410,采用前述基于动态阈值的方法,为无标签样本确定对应的伪标签,其中,伪标签是指用于为无标签样本标注的标签。
需要说明的是,本领域技术人员也可以根据实际情况采用前述基于固态阈值的方法为无标签样本确定对应的伪标签,在此不做赘述。
步骤406,将第四输出结果和第五输出结果,输入至第二损失函数,分别计算每个图片分类模型分别对应的第二损失值。
对于每个图片分类模型,都可以根据上述步骤403得到强数据增强样本对应的第四输出结果,以及根据上述步骤405得到弱数据增强样本对应的第五输出结果,通过将第四输出结果和第五输出结果,输入至为该图片分类模型预设的第二损失函数,可以计算出每个图片分类模型分别对应的第二损失值。
根据前述可知,基于动态阈值的方法需要将第二损失值和第一损失值进行比较,故可以执行步骤407确定第一损失值。
步骤407,基于有标签样本对N个图片分类模型进行迭代训练,直至图片分类模型对应的第一损失函数收敛,确定每个图片分类模型收敛时分别对应的第一损失值。
至此,得到每个图片分类模型分别对应的第二损失值和第一损失值,可以执行步骤408。
步骤408,判断第一损失值和第二损失值的大小。
如果第二损失值小于第一损失值,那么将第四输出结果和第五输出结果确定为上述满足预设条件的输出结果,也就是说为弱数据增强样本和强数据增强样本标记相同的伪标签。
步骤409,响应于第二损失值小于第一损失值,筛选出再次输入模型进行训练的无标签样本,确定对应的伪标签。
响应于第二损失值小于第一损失值,可以将第四输出结果和第五输出结果确定为满足预设条件的输出结果以便于进一步确定伪标签。
步骤410,为弱数据增强样本标记伪标签,为强数据增强样本标记伪标签。
可以基于第四输出结果为强数据增强样本标记伪标签,基于第五输出结果为弱数据增强样本标记伪标签。需要说明的是,虽然弱数据增强样本和强数据增强样本在数据变化程度上有所差别,但最终分类结果趋于一致,故标记的伪标签也相同。
在上述确定出无标签样本对应的伪标签之后,可以和有标签样本一起,分别对N个图片分类模型进行半监督学习。
步骤411,根据有标签样本和伪标签样本,基于半监督学习方法分别对N个图片分类模型进行训练。
根据有标签样本、标记了伪标签的强数据增强样本,以及标记了伪标签的弱数据增强样本,基于半监督学习方法分别对N个图片分类模型进行迭代训练。
在上述过程中,通过图片分类模型对无标签样本进行预测,再利用知识迁移模型对预测结果进行融合,根据融合后的结果对样本进行筛选,将筛选出的结果标记伪标签后再次输入图片分类模型中进行训练,从而选取出置信度高的样本进行训练,提升模型的泛化能力。步骤412,获得训练后的N个图片分类模型。
通过进行上述迭代训练,直至第三损失函数收敛,可以获得训练后的N个图片分类模型;其中,所述第三损失函数的值基于所述第一损失函数的值和第二损失函数的值确定。
上述第三损失函数可以参照以下公式确定:
Loss=αlosslabel+βlossunlabel
其中,α和β表示不同的权重值,而losslabel表示第一损失函数的值,lossunlabel表示第二损失函数的值。上述图片分类模型训练方法的具体细节,在之前描述的图片分类方法流程中进行了详细的描述,本领域技术人员可以参考前述的相关描述,此处不再赘述。
通过以上技术方案,一方面,由于无标签样本相对于有标签样本,不仅容易获取,而且数据更多,可以获取更多的有用信息,所以基于半监督学习方法,既可以弥补有标签样本不足的缺陷,又可以降低标注成本,还可以提升模型的准确性和泛化能力。另一方面,通过对每个图片分类模型输出的无标签样本的结果进行知识迁移,实现对训练中的噪声数据进行过滤,筛选出质量更高的伪标签样本,从而提高图片分类模型的精度,解决图片分类模型泛化能力差的问题。另外,通过端到端的训练可以提升模型的准确性,最终训练完成的图片分类模型可以用于完成图片分类任务。
示例性装置
在介绍了本公开示例性实施方式的方法之后,接下来,请参见图5,图5是一示例性实施例提供的一种图片分类装置的框图。
下述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
如图5所示,图片分类装置500可以包括:图片获取模块501,输入模块502和输出模块503。其中:
图片获取模块501被配置为获取待识别的图片;
输入模块502被配置为将所述图片输入至预先训练完成的图片分类模型;
输出模块503被配置为基于所述训练完成的图片分类模型,输出图片分类的结果。
在一实施例中,所述图片分类装置500还包括所述图片分类模型的模型训练模块504,所述模型训练模块504包括:
第一获取模块5041,获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
第一确定模块5042,将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
第一融合模块5043,将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
第一筛选模块5044,基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果;
第一标记模块5045,为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
第一训练模块5046,根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
在一实施例中,所述第一筛选模块5044进一步:
判断所述N个图片分类模型分别对应的第二输出结果,是否达到为所述N个图片分类模型分别设定的第一阈值;
确定所述第二输出结果达到第一阈值的次数;
响应于所述次数达到第二阈值,将所述达到第一阈值的第二输出结果确定为所述满足预设条件的输出结果。
在一实施例中,所述模型训练模块504还包括:
第一增强模块5047,对获取到的无标签样本进行数据增强,得到第一数据增强样本和第二数据增强样本。
在一实施例中,所述第一确定模块5042进一步:
将所述第一数据增强样本分别输入至N个图片分类模型,确定对应的第三输出结果;
将所述第二数据增强样本分别输入至N个图片分类模型,确定对应的第四输出结果。
在一实施例中,所述第一融合模块5043进一步:
将N个第三输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定所述第一数据增强样本分别对应的第五输出结果。
在一实施例中,所述第一筛选模块5044进一步:
确定每个图片分类模型分别对应的第一损失值;其中,所述第一损失值包括基于所述有标签样本对所述图片分类模型进行迭代训练,直至所述图片分类模型对应的第一损失函数收敛时确定的损失值;
将所述第四输出结果和所述第五输出结果,输入至第二损失函数,分别计算每个图片分类模型分别对应的第二损失值;
响应于所述第二损失值小于所述第一损失值,将所述第四输出结果和所述第五输出结果确定为所述满足预设条件的输出结果。
在一实施例中,所述第一标记模块5045进一步:
基于所述第四输出结果为所述第二数据增强样本,以及基于所述第五输出结果为所述第一数据增强样本标记相同的伪标签,以确定出标记了伪标签的第二数据增强样本,以及标记了伪标签的第一数据增强样本。
在一实施例中,所述第一训练模块5046进一步:
根据所述有标签样本、所述标记了伪标签的第二数据增强样本,以及所述标记了伪标签的第一数据增强样本,基于半监督学习方法分别对所述N个图片分类模型进行迭代训练,直至第三损失函数收敛,获得训练后的N个图片分类模型;其中,所述第三损失函数的值基于所述第一损失函数的值和第二损失函数的值确定。
上述图片分类装置500的各个模块的具体细节已经在之前描述相关性预测模型训练方法流程中进行了详细的描述,因此,此处不再赘述。
与前述相关性预测方法相对应,请参见图6,图6是一示例性实施例提供的一种图片分类模型训练装置的框图。
下述装置中各个模块的功能和作用的实现过程具体详见上述图片分类模型训练方法中对应步骤的实现过程,在此不再赘述。对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
如图6所示,图片分类模型训练装置600可以包括:第二获取模块601,第二确定模块602,第二融合模块603,第二筛选模块604,第二标记模块605和第二训练模块606,其中:
第二获取模块601,被配置为获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
第二确定模块602,被配置为将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
第二融合模块603,被配置为将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
第二筛选模块604,被配置为基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果;
第二标记模块605,被配置为为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
第二训练模块606,被配置为根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
上述图片分类模型训练装置600的各个模块的具体细节已经在之前描述图片分类模型训练方法流程中进行了详细的描述,因此,此处不再赘述。
应当注意,尽管在上文详细描述中提及图片分类装置500,以及图片分类模型训练装置600的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
示例性介质
在介绍了本公开示例性实施方式的装置之后,接下来,请参见图7,图7是一示例性实施例提供的一种计算机可读存储介质的示意图。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施例的步骤。
参考图7所示,描述了根据本公开的实施例的用于实现上述方法的可读存储介质70,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的可读存储介质不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性计算设备
在介绍了本公开示例性实施方式的方法、介质和装置之后,接下来,请参见图8,图8是一示例性实施例提供的一种能够实现上述方法的电子设备的示意图。
下面参照图8来描述根据本公开的这种实施例的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元801、上述至少一个存储单元802、连接不同系统组件(包括存储单元802和处理单元801)的总线803。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元801执行,使得所述处理单元801执行本说明书上述各种实施例的步骤。
存储单元802可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)8021和/或高速缓存存储单元8022,还可以进一步包括只读存储单元(ROM)8023。
存储单元802还可以包括具有一组(至少一个)程序模块8025的程序/使用工具8024,这样的程序模块8025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包含网络环境的现实。
总线803可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备804(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口805进行。并且,电子设备800还可以通过网络适配器806与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器806通过总线803与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
应当注意,尽管在上文详细描述中提及了装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种图片分类方法,包括:
获取待识别的图片;
将所述图片输入至预先训练完成的图片分类模型;
基于所述训练完成的图片分类模型,输出图片分类的结果。
2.根据权利要求1所述的方法,所述图片分类模型的训练过程包括:
获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
3.根据权利要求2所述的方法,所述基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,包括:
判断所述N个图片分类模型分别对应的第二输出结果,是否达到为所述N个图片分类模型分别设定的第一阈值;
确定所述第二输出结果达到第一阈值的次数;
响应于所述次数达到第二阈值,将所述达到第一阈值的第二输出结果确定为所述满足预设条件的输出结果。
4.根据权利要求2所述的方法,所述方法还包括:
对获取到的无标签样本进行数据增强,得到第一数据增强样本和第二数据增强样本。
5.根据权利要求4所述的方法,将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果,包括:
将所述第一数据增强样本分别输入至N个图片分类模型,确定对应的第三输出结果;
将所述第二数据增强样本分别输入至N个图片分类模型,确定对应的第四输出结果。
6.根据权利要求5所述的方法,将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果,包括:
将N个第三输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定所述第一数据增强样本分别对应的第五输出结果。
7.根据权利要求6所述的方法,基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,包括:
确定每个图片分类模型分别对应的第一损失值;其中,所述第一损失值包括基于所述有标签样本对所述图片分类模型进行迭代训练,直至所述图片分类模型对应的第一损失函数收敛时确定的损失值;
将所述第四输出结果和所述第五输出结果,输入至第二损失函数,分别计算每个图片分类模型分别对应的第二损失值;
响应于所述第二损失值小于所述第一损失值,将所述第四输出结果和所述第五输出结果确定为所述满足预设条件的输出结果。
8.根据权利要求7所述的方法,为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本,包括:
基于所述第四输出结果为所述第二数据增强样本,以及基于所述第五输出结果为所述第一数据增强样本标记相同的伪标签,以确定出标记了伪标签的第二数据增强样本,以及标记了伪标签的第一数据增强样本。
9.根据权利要求8所述的方法,根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型,包括:
根据所述有标签样本、所述标记了伪标签的第二数据增强样本,以及所述标记了伪标签的第一数据增强样本,基于半监督学习方法分别对所述N个图片分类模型进行迭代训练,直至第三损失函数收敛,获得训练后的N个图片分类模型;其中,所述第三损失函数的值基于所述第一损失函数的值和第二损失函数的值确定。
10.一种图片分类模型训练方法,包括:
获取训练样本集,所述训练样本集包括无标签样本和有标签样本;
将所述无标签样本分别输入至N个图片分类模型,确定对应的第一输出结果;
将所述N个第一输出结果输入至预设的知识迁移模型进行融合,以由所述知识迁移模型针对所述每个图片分类模型,确定对应的第二输出结果;
基于预设的算法,确定所述N个第二输出结果中满足预设条件的输出结果,并为所述满足预设条件的输出结果对应的所述无标签样本标记伪标签,以确定出伪标签样本;其中,所述伪标签基于所述第二输出结果确定;
根据所述有标签样本和所述伪标签样本,基于半监督学习方法分别对所述N个图片分类模型进行训练,获得训练后的N个图片分类模型。
CN202210002051.2A 2022-01-04 2022-01-04 一种图片分类方法、图片分类模型训练方法及相关装置 Pending CN114330588A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210002051.2A CN114330588A (zh) 2022-01-04 2022-01-04 一种图片分类方法、图片分类模型训练方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210002051.2A CN114330588A (zh) 2022-01-04 2022-01-04 一种图片分类方法、图片分类模型训练方法及相关装置

Publications (1)

Publication Number Publication Date
CN114330588A true CN114330588A (zh) 2022-04-12

Family

ID=81023403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210002051.2A Pending CN114330588A (zh) 2022-01-04 2022-01-04 一种图片分类方法、图片分类模型训练方法及相关装置

Country Status (1)

Country Link
CN (1) CN114330588A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114519850A (zh) * 2022-04-20 2022-05-20 宁波博登智能科技有限公司 一种二维图像自动目标检测的标注系统及方法
CN114970673A (zh) * 2022-04-19 2022-08-30 华为技术有限公司 一种半监督模型训练方法、系统及相关设备
CN115471717A (zh) * 2022-09-20 2022-12-13 北京百度网讯科技有限公司 模型的半监督训练、分类方法装置、设备、介质及产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114970673A (zh) * 2022-04-19 2022-08-30 华为技术有限公司 一种半监督模型训练方法、系统及相关设备
CN114519850A (zh) * 2022-04-20 2022-05-20 宁波博登智能科技有限公司 一种二维图像自动目标检测的标注系统及方法
CN115471717A (zh) * 2022-09-20 2022-12-13 北京百度网讯科技有限公司 模型的半监督训练、分类方法装置、设备、介质及产品

Similar Documents

Publication Publication Date Title
US10599924B2 (en) Semantic page segmentation of vector graphics documents
CN111738016B (zh) 多意图识别方法及相关设备
CN111160569A (zh) 基于机器学习模型的应用开发方法、装置及电子设备
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
US20220092407A1 (en) Transfer learning with machine learning systems
CN110929802A (zh) 基于信息熵的细分类识别模型训练、图像识别方法及装置
US11915500B2 (en) Neural network based scene text recognition
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
JP2022554068A (ja) ビデオコンテンツ認識方法、装置、プログラム及びコンピュータデバイス
CN111401309B (zh) 基于小波变换的cnn训练和遥感图像目标识别方法
CN115810135A (zh) 样本分析的方法、电子设备、存储介质和程序产品
CN113537070A (zh) 一种检测方法、装置、电子设备及存储介质
CN112149754A (zh) 一种信息的分类方法、装置、设备及存储介质
CN117132763A (zh) 电力图像异常检测方法、装置、计算机设备和存储介质
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN114528913A (zh) 基于信任和一致性的模型迁移方法、装置、设备及介质
CN112070093A (zh) 生成图像分类模型的方法、图像分类方法、装置和设备
KR20160128869A (ko) 사전 정보를 이용한 영상 물체 탐색 방법 및 이를 수행하는 장치
CN110059743B (zh) 确定预测的可靠性度量的方法、设备和存储介质
WO2023280229A1 (zh) 图像处理方法、电子设备及存储介质
CN110765872A (zh) 一种基于视觉特征的在线数学教育资源分类方法
KR102413588B1 (ko) 학습 데이터에 따른 객체 인식 모델 추천 방법, 시스템 및 컴퓨터 프로그램
CN114255381B (zh) 图像识别模型的训练方法、图像识别方法、装置及介质
WO2022117014A1 (en) System, method and apparatus for training a machine learning model
CN115359468A (zh) 一种目标网站识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination