CN116958729A - 对象分类模型的训练、对象分类方法、装置及存储介质 - Google Patents

对象分类模型的训练、对象分类方法、装置及存储介质 Download PDF

Info

Publication number
CN116958729A
CN116958729A CN202310351373.2A CN202310351373A CN116958729A CN 116958729 A CN116958729 A CN 116958729A CN 202310351373 A CN202310351373 A CN 202310351373A CN 116958729 A CN116958729 A CN 116958729A
Authority
CN
China
Prior art keywords
sample
label
image
sub
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310351373.2A
Other languages
English (en)
Inventor
张博深
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310351373.2A priority Critical patent/CN116958729A/zh
Publication of CN116958729A publication Critical patent/CN116958729A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种对象分类模型的训练、对象分类方法、装置及存储介质,可以应用于云技术、人工智能、智慧交通、车联网等各种场景,所述方法包括:获取样本对象的样本图像;将样本图像输入教师模型,基于教师模型的标签图提取网络确定样本图像的样本标签图;对样本图像进行裁剪处理,得到样本裁剪图像;基于样本裁剪图像在样本图像中的第一坐标信息,对样本标签图进行裁剪处理,得到样本子标签图;将样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;基于样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,对学生模型进行训练,得到对象分类模型。本申请提高了对象分类模型的准确率。

Description

对象分类模型的训练、对象分类方法、装置及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种对象分类模型的训练、对象分类方法、装置及存储介质。
背景技术
工业缺陷质检是指对生产制造过程中的工业产品进行质量检测,传统的工业质检一般是由质检工人进行人工目检,近年来随着AI技术的兴起,基于机器视觉的AI质检可以大幅提升质检准确率、节省人力成本。该技术的输入是对工业产品的表面拍摄图片,输出是缺陷的置信度。
传统的基于机器视觉的工业缺陷质检算法是对输入图像进行手工特征的提取,包含梯度特征、纹理特征等,随后根据提取到的手工特征,训练一个SVM分类器(或者是基于树的分类器),对当前图片是否是缺陷图像进行二分类。这种方式存在两个问题,一是提取到的手工特征泛化性比较差,对于多样化的视频数据往往会提取到一些对后续分类器产生混淆的有害特征;二是特征提取和分类器的训练二者是独立进行的,模型的训练代价比较高。在另一些技术中,通过标注类别标签的方式训练模型,先进行特征提取,再进行类别预测;而工业缺陷质检并不是简单的二分类,很多缺陷图像的程度较为轻微(甚至可以归类为OK图像),简单的二值标签可能带有很多主观性,进而导致这样的缺陷人工标注信息带有噪声,在这样的带噪标签中进行模型的训练,会影响模型的准确率。
发明内容
本申请提供了一种对象分类模型的训练、对象分类方法、装置及存储介质,可以准确计算出目标对象反馈的第一反馈文本与预设文本向量库中第二反馈文本之间的相似度,从而提高对象分类模型的训练准确率。
一方面,本申请提供了一种对象分类模型的训练方法,所述方法包括:
获取样本对象的样本图像;所述样本图像标注了样本类别标签;
将所述样本图像输入教师模型,基于所述教师模型的标签图提取网络确定所述样本图像的样本标签图;
对所述样本图像进行裁剪处理,得到样本裁剪图像;
基于所述样本裁剪图像在所述样本图像中的第一坐标信息,对所述样本标签图进行裁剪处理,得到样本子标签图;
将所述样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;
基于所述样本标签预测结果与所述样本类别标签的第一差异以及所述样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练,得到对象分类模型;所述裁剪子标签为对所述样本子标签图进行类别标签预测处理得到。
另一方面提供了一种对象分类方法,所述方法包括:
获取待识别对象的待识别图像;
将所述待识别图像输入对象分类模型,进行类别预测处理,得到所述待识别图像的目标类别;所述目标类别表征所述待识别对象的类别;
其中,所述对象分类模型为基于上述的训练方法训练得到。
另一方面提供了一种对象分类模型的训练装置,所述装置包括:
样本图像获取模块,用于获取样本对象的样本图像;所述样本图像标注了样本类别标签;
样本标签图确定模块,用于将所述样本图像输入教师模型,基于所述教师模型的标签图提取网络确定所述样本图像的样本标签图;
样本裁剪图像确定模块,用于对所述样本图像进行裁剪处理,得到样本裁剪图像;
样本子标签图确定模块,用于基于所述样本裁剪图像在所述样本图像中的第一坐标信息,对所述样本标签图进行裁剪处理,得到样本子标签图;
样本结果确定模块,用于将所述样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;
模型训练模块,用于基于所述样本标签预测结果与所述样本类别标签的第一差异以及所述样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练,得到对象分类模型;所述裁剪子标签为对所述样本子标签图进行类别标签预测处理得到。
在一示例性实施方式中,所述样本图像为多个,每个样本图像对应一个样本裁剪图像,所述装置还包括:
标签确定模块,用于确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签;
异常图像确定模块,用于若任一样本裁剪图像对应的样本类别标签与裁剪子标签的相似度小于预设阈值,将所述任一样本裁剪图像确定为异常图像;
筛选样本图像确定模块,用于从多个所述样本图像中,剔除所述异常图像,得到筛选样本图像;
筛选样本裁剪图像确定模块,用于将所述筛选样本图像对应的样本裁剪图像,确定为筛选样本裁剪图像。
在一示例性实施方式中,所述模型训练模块包括:
模型训练子模块,用于基于所述筛选样本裁剪图像对应的样本标签预测结果与样本类别标签的第一差异,以及所述筛选样本裁剪图像对应的样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练。
在一示例性实施方式中,所述标签确定模块包括:
第一确定子模块,用于确定每个样本裁剪图像所对应的样本图像的样本类别标签;
第二确定子模块,用于将每个样本裁剪图像所对应的样本图像的样本类别标签,确定为所述每个样本裁剪图像的样本类别标签;
裁剪子标签获取子模块,用于确定每个样本裁剪图像所对应的样本子标签图的裁剪子标签;
裁剪子标签确定子模块,用于将每个样本裁剪图像所对应的样本子标签图的裁剪子标签,确定为所述每个样本裁剪图像的裁剪子标签。
在一示例性实施方式中,所述样本子标签图确定模块包括:
第一坐标确定子模块,用于确定所述样本裁剪图像在所述样本图像中的第一坐标信息;
图像尺寸确定子模块,用于确定所述样本图像与所述样本标签图各自对应的图像尺寸;
样本子标签图确定子模块,用于基于所述样本裁剪图像在所述样本图像中的第一坐标信息,以及所述样本图像与所述样本标签图各自对应的图像尺寸,对所述样本标签图进行裁剪处理,得到所述样本子标签图。
在一示例性实施方式中,所述样本子标签图确定子模块包括:
第二坐标确定单元,用于若所述样本图像与所述样本标签图各自对应的图像尺寸相同,将所述样本裁剪图像在所述样本图像中的第一坐标信息,确定为所述样本子标签图在所述样本标签图中的第二坐标信息;
子标签图确定单元,用于基于所述第二坐标信息,对所述样本标签图进行裁剪处理,得到所述样本子标签图。
在一示例性实施方式中,所述装置还包括:
更新模块,用于若所述样本图像与所述样本标签图各自对应的图像尺寸不同,将所述样本标签图的尺寸调整为所述样本图像的尺寸,得到更新样本标签图;
第二坐标确定模块,用于根据所述样本裁剪图像在所述样本图像中的第一坐标信息,确定更新样本子标签图在所述更新样本标签图中的第二坐标信息;
图确定模块,用于基于所述更新样本子标签图与所述样本标签图各自对应尺寸的比值,对所述更新样本标签图进行尺寸调整,得到所述样本标签图。
在一示例性实施方式中,所述模型训练模块包括:
第一信息确定子模块,用于基于所述样本标签预测结果与所述样本类别标签的第一差异,确定第一损失信息;
第二信息确定子模块,用于基于所述样本标签预测结果与所述裁剪子标签的第二差异,确定第二损失信息;
目标信息确定子模块,用于基于所述第一损失信息以及所述第二损失信息,确定目标损失信息;
参数调整子模块,用于基于所述目标损失信息,调整所述学生模型的模型参数直至满足训练结束条件,将训练结束时的学生模型确定为所述对象分类模型。
在一示例性实施方式中,所述装置还包括:
训练特征图确定模块,用于将所述样本图像输入待训练教师模型,基于所述待训练教师模型的初始特征提取网络对所述样本图像进行特征提取处理,得到所述样本图像的训练特征图;
训练标签图确定模块,用于基于所述待训练教师模型的初始标签图提取网络,对所述训练特征图进行标签图提取处理,得到训练标签图;
训练标签预测模块,用于基于所述待训练教师模型的初始类别标签预测网络,对所述训练标签图进行类别标签预测处理,得到训练标签预测结果;
教师模型确定模块,用于基于所述训练标签预测结果与所述样本类别标签的差异,对所述待训练教师模型进行训练,得到所述教师模型。
在一示例性实施方式中,所述装置还包括:
样本类别特征确定模块,用于对所述样本子标签图进行全局池化处理,得到样本类别特征;
归一化处理模块,用于对所述样本类别特征进行归一化处理,得到样本归一化特征;
裁剪子标签确定模块,用于对所述样本归一化特征进行类别标签预测处理,得到所述样本子标签图对应的裁剪子标签。
另一方面提供了一种对象分类装置,所述装置包括:
待识别图像获取模块,用于获取待识别对象的待识别图像;
目标类别确定模块,用于将所述待识别图像输入对象分类模型,进行类别预测处理,得到所述待识别图像的目标类别;所述目标类别表征所述待识别对象的类别;
其中,所述对象分类模型为基于上述的训练方法训练得到。
另一方面提供了一种电子设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上所述的对象分类模型的训练方法或对象分类方法。
另一方面提供了一种计算机存储介质,所述计算机存储介质存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如上所述的对象分类模型的训练方法或对象分类方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现如上所述的对象分类模型的训练方法或对象分类方法。
本申请提供的对象分类模型的训练、对象分类方法、装置及存储介质,具有如下技术效果:
本申请获取样本对象的样本图像;样本图像标注了样本类别标签;将样本图像输入教师模型,基于教师模型的标签图提取网络确定样本图像的样本标签图;对样本图像进行裁剪处理,得到样本裁剪图像;基于样本裁剪图像在样本图像中的第一坐标信息,对样本标签图进行裁剪处理,得到样本子标签图;从而可以将样本子标签图作为学习模型训练过程中的额外监督信号;再将样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;基于样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,对学生模型进行训练,得到对象分类模型;裁剪子标签为对样本子标签图进行类别标签预测处理得到。本申请通过样本子标签图确定了裁剪子标签,从而可以根据样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,训练学生模型;本申请在对象分类模型的训练过程中,引入了样本子标签图作为额外的监督信号,提高了对象分类模型的准确率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本说明书实施例提供的一种对象分类模型的训练系统的示意图;
图2是本说明书实施例提供的一种对象分类模型的训练方法的流程示意图;
图3是本说明书实施例提供的一种教师模型的训练方法的流程示意图;
图4是本说明书实施例提供的一种教师模型训练过程中的特征示意图;
图5是本说明书实施例提供的一种对样本标签图进行裁剪处理,得到样本子标签图的方法的流程示意图;
图6是本说明书实施例提供的一种基于上述样本裁剪图像在上述样本图像中的第一坐标信息,以及上述样本图像与上述样本标签图各自对应的图像尺寸,对上述样本标签图进行裁剪处理,得到上述样本子标签图的方法的流程示意图;
图7是本说明书实施例提供的一种样本标签图的确定方法的流程示意图;
图8是本说明书实施例提供的一种基于上述样本标签预测结果与上述样本类别标签的第一差异以及上述样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练,得到对象分类模型的方法的流程示意图;
图9是本说明书实施例提供的一种确定筛选样本裁剪图像的方法的流程示意图;
图10是本说明书实施例提供的一种确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签的方法的流程示意图;
图11是本说明书实施例提供的一种教师模型-学生模型训练过程中的特征示意图;
图12是本说明书实施例提供的一种对象分类方法的流程示意图;
图13是本说明书实施例提供的一种对象分类方法的示意图;
图14是本说明书实施例提供的一种待识别图像及其对应的类别预测结果;
图15是本说明书实施例提供的另一种待识别图像及其对应的类别预测结果;
图16是本说明书实施例提供的一种对象分类模型的训练装置的结构示意图;
图17是本说明书实施例提供的一种对象分类装置的结构示意图;
图18是本说明书实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,在对本说明书实施例进行描述的过程中出现的部分名词或者术语作如下解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
计算机视觉技术(Computer Vision,CV),计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
机器学习(Machine Learning,ML):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习(Deep Learning,DL):是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。深度学习是学习训练样本数据的内在规律和表示层次,这些学习过程中获得的信息对文字、图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术(Cloudtechnology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。本申请实施例中的待识别图像可以为大数据中的一种数据。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,图1是本说明书实施例提供的一种对象分类模型的训练系统的示意图,如图1所示,该对象分类模型的训练系统可以至少包括服务器01和客户端02。
具体的,本说明书实施例中,所述服务器01可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器01可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器01可以用于训练得到教师模型,并根据教师模型以及学生模型,训练得到对象分类模型;以及接收客户端02发送的待识别对象的待识别图像,并将待识别图像输入对象分类模型,得到待识别对象的目标类别。
具体的,本说明书实施例中,所述客户端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、智能音箱、车载终端、智能电视等类型的实体设备,也可以包括运行于实体设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端02可以用于展示待识别对象的目标类别;在工业产品检测领域,对象为工业产品,目标类别可以表征工业产品为合格产品或缺陷产品。
以下介绍本申请的一种对象分类模型的训练方法,图2是本说明书实施例提供的一种对象分类模型的训练方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,上述方法可以包括:
S201:获取样本对象的样本图像;上述样本图像标注了样本类别标签。
在本说明书实施例中,样本图像可以为对样本对象进行拍摄得到的图像,或者从样本对象对应的样本视频中提取的图像,一个样本对象可以对应一个或多个样本图像;样本对象可以包括正样本对象和负样本对象,正样本对象对应的正样本图像标注了正样本类别标签,负样本对象对应的负样本图像标注了负样本类别标签。
本实施例的方法可以应用于对工业产品进行合格性检测,并通过识别其中的缺陷图像,识别出缺陷产品。在工业产品检测领域,样本对象可以为工业产品,样本图像可以为工业产品的图像;正样本对象可以为合格产品,负样本对象可以为存在缺陷的产品。
本实施例的方法还可以应用于其他场景,在不同的应用场景中,样本对象也不同。例如,样本对象可以为自然界的动物或植物,本实施例可以对自然界的动物或植物进行分类;样本对象还可以为电子产品,可以对电子产品进行分类等。
S203:将上述样本图像输入教师模型,基于上述教师模型的标签图提取网络确定上述样本图像的样本标签图。
在本说明书实施例中,可以预先训练教师网络,得到教师模型,教师网络为第一深度模型,该模型的参数数量大于第一参数阈值,第一参数阈值可以根据实际情况进行设置。
在一些实施例中,如图3所示,上述教师模型的训练方法包括:
S301:将上述样本图像输入待训练教师模型,基于上述待训练教师模型的初始特征提取网络对上述样本图像进行特征提取处理,得到上述样本图像的训练特征图;
在本说明书实施例中,待训练教师模型可以包括初始特征提取网络,可以通过初始特征提取网络对上述样本图像进行特征提取处理,得到上述样本图像的训练特征图;在一示例性实施例中,如图4所示,图4为一种教师模型训练过程中的特征示意图;可以将样本数据(x,y)输入初始特征提取网络,其中x表示样本图像,y表示样本图像的样本类别标签;通过初始特征提取网络提取的训练特征图为:
feat=f1(x;θ1)
其中,θ1表示初始特征提取网络的权重参数,feat表示[H,W,d]形状的特征图,三个维度H,W,d分别表示高度、宽度以及通道数。
S303:基于上述待训练教师模型的初始标签图提取网络,对上述训练特征图进行标签图提取处理,得到训练标签图;
在本说明书实施例中,待训练教师模型可以包括初始标签图提取网络,初始标签图提取网络可以为卷积层;可以通过初始标签图提取网络提取训练特征图的标签图,得到训练标签图;在一示例性实施例中,如图4所示,图4为一种教师模型训练过程中的特征示意图;通过卷积层提取的训练标签图(预测标签图)为:
pred_label_map=Conv(feat;θ2)
其中,Conv()表示一个卷积层的卷积运算,θ2表示卷积层的权重参数,pred_label_map表示一个[H,W,C]形状的特征图,C表示类别标签的总数。
S305:基于上述待训练教师模型的初始类别标签预测网络,对上述训练标签图进行类别标签预测处理,得到训练标签预测结果;
在本说明书实施例中,待训练教师模型可以包括初始类别标签预测网络,初始类别标签预测网络可以包括全局池化层以及归一化层;归一化层可以采用归一化指数函数(softmax)进行概率归一化处理;可以通过全局池化层对训练标签图进行全局池化操作,得到训练概率特征;再将训练概率特征输入归一化层,得到预测概率图;预测概率图可以表征训练标签预测结果;在一示例性实施例中,如图4所示,图4为一种教师模型训练过程中的特征示意图,得到的预测概率图为:
pred_label=softmax(GlobalPooling(pred_label_map)))
其中,GlobalPooling()表示全局池化操作,针对空间维度进行全局池化,并使用softmax函数进行概率归一化,最终获得大小为[1,1,C]的预测概率图pred_label。
S307:基于上述训练标签预测结果与上述样本类别标签的差异,对上述待训练教师模型进行训练,得到上述教师模型。
在本说明书实施例中,可以根据训练标签预测结果与上述样本类别标签的差异,确定损失信息;并根据损失信息调整上述待训练教师模型的参数,直至满足训练结束条件;并将训练结束时的待训练教师模型确定为教师模型。其中,训练结束条件可以根据实际情况进行设置;例如,可以根据损失信息或训练迭代次数,确定训练结束条件。
在一示例性实施例中,模型训练过程中的损伤函数可以为交叉熵损失函数,可以根据预测概率图pred_label以及输入数据对应的标签,进行损失信息的计算,计算公式如下:
l=CE(pred_label,y)
其中,CE(·)表示交叉熵损失函数,随后利用损失l进行梯度下降迭代更新模型参数,得到训练完成的模型的权重值θ1和θ2
在本说明书实施例中,采用模型参数量较大的结构作为教师模型,主要考虑是大的模型能够拥有更强的学习拟合能力,并且这些模型在后续的二次训练阶段扮演的角色主要是提供额外的监督信号,最终的部署阶段并不直接部署教师模型;因此,不涉及大模型导致耗时增加的问题。
S205:对上述样本图像进行裁剪处理,得到样本裁剪图像。
在本说明书实施例中,可以使用随机裁剪的方式,对样本图像进行数据增强,得到样本裁剪图像;不同的样本图像,样本裁剪图像的尺寸可以相同或不同。
S207:基于上述样本裁剪图像在上述样本图像中的第一坐标信息,对上述样本标签图进行裁剪处理,得到样本子标签图。
在本说明书实施例中,可以根据样本裁剪图像在上述样本图像中的第一坐标信息,对上述样本标签图进行裁剪处理,得到样本子标签图;样本子标签图在样本标签图中的占比与样本裁剪图像在样本图像中的占比相同。
在本说明书实施例中,如图5所示,基于上述样本裁剪图像在上述样本图像中的第一坐标信息,对上述样本标签图进行裁剪处理,得到样本子标签图,包括:
S2071:确定上述样本裁剪图像在上述样本图像中的第一坐标信息;
在本说明书实施例中,在进行图像裁剪之后,可以确定样本裁剪图像在上述样本图像中的第一坐标信息,第一坐标信息可以包括样本裁剪图像的裁剪起始坐标以及裁剪结束坐标;在一些实施例中,样本裁剪图像为矩形;裁剪起始坐标可以为左上角坐标,裁剪结束坐标可以为右下角坐标;裁剪起始坐标可以为左下角坐标,裁剪结束坐标可以为右上角坐标。
S2073:确定上述样本图像与上述样本标签图各自对应的图像尺寸;
在本说明书实施例中,样本图像与基于样本图像确定的样本标签图各自对应的图像尺寸可以相同,也可以不同。
S2075:基于上述样本裁剪图像在上述样本图像中的第一坐标信息,以及上述样本图像与上述样本标签图各自对应的图像尺寸,对上述样本标签图进行裁剪处理,得到上述样本子标签图。
在本说明书实施例中,可以根据样本裁剪图像在上述样本图像中的第一坐标信息以及样本图像、样本标签图的图像尺寸,快速确定样本子标签图。
在本说明书实施例中,如图6所示,基于上述样本裁剪图像在上述样本图像中的第一坐标信息,以及上述样本图像与上述样本标签图各自对应的图像尺寸,对上述样本标签图进行裁剪处理,得到上述样本子标签图,包括:
S20751:若上述样本图像与上述样本标签图各自对应的图像尺寸相同,将上述样本裁剪图像在上述样本图像中的第一坐标信息,确定为上述样本子标签图在上述样本标签图中的第二坐标信息;
在本说明书实施例中,若样本图像与样本标签图各自对应的图像尺寸相同,将样本图像与样本裁剪图像重合时,可以确定样本子标签图在样本标签图中的位置坐标与样本裁剪图像在样本图像中的位置坐标相同。
在一些实施例中,样本裁剪图像为矩形;裁剪起始坐标可以为左上角坐标,裁剪结束坐标可以为右下角坐标;即第一坐标信息(起止坐标)可以为{[x1,y1],[x2,y2]},若样本图像与样本标签图各自对应的图像尺寸相同,可以确定样本子标签图在样本标签图中的坐标为{[x1,y1],[x2,y2]}。
S20753:基于上述第二坐标信息,对上述样本标签图进行裁剪处理,得到上述样本子标签图。
在一示例性实施例中,第二坐标信息包括样本子标签图的裁剪起始坐标以及裁剪结束坐标,样本子标签图为:
label_map_crop=Cropx1:x2,y1:y2(label_map)
其中,label_map为样本标签图,cropx1:x2,y1:y2为裁剪处理函数,[x1,y1]为裁剪起始坐标,[x2,y2]为裁剪结束坐标,label_map_crop为样本子标签图。
在本说明书实施例中,如图7所示,上述方法还包括:
S207501:若上述样本图像与上述样本标签图各自对应的图像尺寸不同,将上述样本标签图的尺寸调整为上述样本图像的尺寸,得到更新样本标签图;
在本说明书实施例中,当样本图像与上述样本标签图各自对应的图像尺寸不同时,可以将两个图像调整为同一尺寸;可以将样本标签图的尺寸调整为上述样本图像的尺寸,得到更新样本标签图;还可以将样本图像的尺寸调整为样本标签图的尺寸。
S207503:根据上述样本裁剪图像在上述样本图像中的第一坐标信息,确定更新样本子标签图在上述更新样本标签图中的第二坐标信息;
在本说明书实施例中,可以根据样本裁剪图像在上述样本图像中的第一坐标信息,确定更新样本子标签图在上述更新样本标签图中的第二坐标信息;将同尺寸的样本图像与更新样本子标签图进行重合处理,并构建坐标系,将样本裁剪图像在上述样本图像中的第一坐标信息,确定为更新样本子标签图在上述更新样本标签图中的第二坐标信息。
S207505:基于上述更新样本子标签图与上述样本标签图各自对应尺寸的比值,对上述更新样本标签图进行尺寸调整,得到上述样本标签图。
在本说明书实施例中,可以根据更新样本子标签图与上述样本标签图各自对应尺寸的比值,对上述更新样本标签图进行尺寸调整,得到样本标签图;即将更新样本子标签图重新调整为原始尺寸的图像,并同步调整更新样本标签图的尺寸,得到样本标签图。
S209:将上述样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果。
在本说明书实施例中,学生模型的参数数量小于教师模型的参数数量,学生模型的参数数量小于第二参数阈值,第二参数阈值小于第一参数阈值。
S2011:基于上述样本标签预测结果与上述样本类别标签的第一差异以及上述样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练,得到对象分类模型;上述裁剪子标签为对上述样本子标签图进行类别标签预测处理得到。
在本说明书实施例中,可以确定样本标签预测结果与上述样本类别标签的第一差异,并确定样本标签预测结果与裁剪子标签的第二差异;再根据第一差异与第二差异,反向传播调整学生模型的参数,直至满足训练结束条件;并将训练结束时的学生模型确定为对象分类模型。
在一些实施例中,上述方法还包括:
对上述样本子标签图进行类别标签预测处理,得到上述样本子标签图对应的裁剪子标签。
在本说明书实施例中,可以通过对样本子标签图进行类别标签预测处理,得到上述样本子标签图对应的裁剪子标签,并将裁剪子标签作为学习模型训练过程中的监督信号,从而提高模型准确率。
在本说明书实施例中,对上述样本子标签图进行类别标签预测处理,得到上述样本子标签图对应的裁剪子标签,包括:
对上述样本子标签图进行全局池化处理,得到样本类别特征;
在本说明书实施例中,全局池化是降低维度,从3维降低到1维,为每个特征图输出1个响应操作。可以通过对样本子标签图进行全局池化处理(GlobalPooling),得到样本类别特征。
对上述样本类别特征进行归一化处理,得到样本归一化特征;
在本说明书实施例中,可以通过归一化指数函数(softmax),对样本类别特征进行归一化处理,得到样本归一化特征。归一化指数函数,或称Softmax函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中,使得每一个元素的范围都在(0,1)之间,并且所有元素的和为1。该函数多用于多分类问题中。
对上述样本归一化特征进行类别标签预测处理,得到上述样本子标签图对应的裁剪子标签。
在本说明书实施例中,可以对样本归一化特征进行类别标签预测处理,得到上述样本子标签图对应的裁剪子标签;在一示例性实施例中,裁剪子标签的计算公式如下:
Iabel_crop=spftmax(GlobalPooling(label_map_crop))
其中,label_map_crop为样本子标签图,GlobalPooling为全局池化处理函数,softmax为归一化指数函数。
在本说明书实施例中,如图8所示,基于上述样本标签预测结果与上述样本类别标签的第一差异以及上述样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练,得到对象分类模型,包括:
S20111:基于上述样本标签预测结果与上述样本类别标签的第一差异,确定第一损失信息;
在本说明书实施例中,第一损失信息Lsup的计算公式如下:
Lsup=CE(pS,y)
其中,第一损失信息对应的损失函数是像素级别的交叉熵损失(cross entropyloss,CE),逐个检查每个像素,将对每个像素类别的预测结果(概率分布向量)与热编码标签向量进行比较;pS表示学生模型的样本标签预测结果,y为样本类别标签。
S20113:基于上述样本标签预测结果与上述裁剪子标签的第二差异,确定第二损失信息;
在本说明书实施例中,第二损失信息Lkd的计算公式如下:
Lkd=CE(pS,label_crop)
其中,第二损失信息对应的损失函数为交叉熵损失(cross entropy loss,CE);pS表示学生模型的样本标签预测结果,label_crop表示裁剪子标签。
S20115:基于上述第一损失信息以及上述第二损失信息,确定目标损失信息;
在一示例性实施例中,可以计算第一损失信息以及上述第二损失信息之和,得到目标损失信息。
在本说明书实施例中,还可以计算第一损失信息与第二损失信息的加权和,得到目标损失信息;目标损失信息的计算公式如下:
L=Lsup+βLkd
其中,Lsup为第一损失信息,Lkd为第二损失信息,β为第二损失信息Lkd的权重,可以用来调节两项损失的比重。
S20117:基于上述目标损失信息,调整上述学生模型的模型参数直至满足训练结束条件,将训练结束时的学生模型确定为上述对象分类模型。
在本说明书实施例中,损失函数L会通过梯度计算、反向传播更新学生模型的参数θS。训练结束条件可以为目标损失信息小于预设损失阈值,还可以为迭代次数达到目标次数。可以将训练结束时的学生模型确定为对象分类模型。
在本说明书实施例中,上述样本图像为多个,每个样本图像对应一个样本裁剪图像,如图9所示,上述方法还包括:
S901:确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签;
在一些实施例中,如图10所示,上述确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签,包括:
S9011:确定每个样本裁剪图像所对应的样本图像的样本类别标签;
在本说明书实施例中,样本裁剪图像与样本图像的对应关系,将每个样本图像对应的样本类别标签,确定为与该样本图像对应的样本裁剪图像的样本类别标签。
S9013:将每个样本裁剪图像所对应的样本图像的样本类别标签,确定为上述每个样本裁剪图像的样本类别标签;
在本说明书实施例中,可以先根据样本裁剪图像与样本图像之间的对应关系,确定每个样本裁剪图像所对应的样本图像,再获取样本图像的样本类别标签,并将样本图像的样本类别标签,确定为样本裁剪图像的样本类别标签。
S9015:确定每个样本裁剪图像所对应的样本子标签图的裁剪子标签;
在本说明书实施例中,对于任意一个样本裁剪图像,可以先确定该样本裁剪图像所对应的样本子标签图,再获取样本子标签图的裁剪子标签。
S9017:将每个样本裁剪图像所对应的样本子标签图的裁剪子标签,确定为上述每个样本裁剪图像的裁剪子标签。
在本说明书实施例中,对于任意一个样本裁剪图像,可以先确定该样本裁剪图像所对应的样本子标签图,再将样本子标签图的裁剪子标签,确定为该样本裁剪图像的裁剪子标签;从而得到样本裁剪图像的裁剪子标签。
S903:若任一样本裁剪图像对应的样本类别标签与裁剪子标签的相似度小于预设阈值,将上述任一样本裁剪图像确定为异常图像;
在本说明书实施例中,若任一样本裁剪图像对应的样本类别标签与裁剪子标签的相似度小于预设阈值,说明教师模型的预测结果(裁剪子标签)与标注的样本类别标签之间的差异较大,两者不一致;说明该样本图像的标签为噪声标签,该样本数据为噪声数据,需要将其从样本数据集中删除,不参与模型的训练,进而减少噪声标签样本对于模型的影响,避免影响模型的准确率。
在本说明书实施例中,任一样本裁剪图像对应的样本类别标签与裁剪子标签的相似度小于预设阈值,即满足:
D(label_caop||y)>τ
其中,D(·||·)表示分布距离度量函数,可以使用KL散度等进行计算,τ是一个超参数,用来控制两个分布之间的距离的预设阈值。
S905:从多个上述样本图像中,剔除上述异常图像,得到筛选样本图像;
在本说明书实施例中,异常图像可以被确定为噪声样本数据,需要将其筛选出来,并且不参与模型参数的更新。
S907:将上述筛选样本图像对应的样本裁剪图像,确定为筛选样本裁剪图像。
在本说明书实施例中,也可以从多个上述样本图像中筛选出样本类别标签与裁剪子标签的相似度大于预设阈值的样本图像,作为筛选样本裁剪图像;
在一些实施例中,基于上述样本标签预测结果与上述样本类别标签的第一差异以及上述样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练,包括:
基于上述筛选样本裁剪图像对应的样本标签预测结果与样本类别标签的第一差异,以及上述筛选样本裁剪图像对应的样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练。
在本说明书实施例中,对于没有被判定为噪声样本的数据,会用来计算损失并更新学生模型的参数,对于被判定为噪声样本的数据,则不会用来计算损失并更新学生模型的参数,进而减少噪声标签样本对于模型的影响,避免影响模型的准确率。
在一示例性实施例中,如图11所示,图11为一种教师模型-学生模型训练过程中的特征示意图,其中,深度模型1为教师模型,深度模型2为学生模型,学生模型和教师模型可以是相同类型和结构的深度网络模型,例如可以是卷积神经网络(Convolutional NeuralNetwork,CNN)、残差网络(ResNet,RN)等等。其中,教师模型包括特征提取网络、标签图提取网络;将训练数据(x,y)输入特征提取网络,其中x表示样本图像,y表示样本图像的样本类别标签;通过特征提取网络提取得到样本特征图;通过标签图提取网络提取样本特征图的标签图,得到样本标签图;再对样本标签图进行空间局部池化以及归一化处理,得到样本子标签图对应的裁剪子标签,并将该裁剪子标签作为蒸馏概率监督信号进行学生模型的训练;对训练数据(样本图像)进行裁剪处理后,输入学生模型,进行类别标签预测处理,得到样本标签预测结果;通过同一样本图像对应的样本类别标签与裁剪子标签之间的差异,对样本图像进行筛选,删除其中样本类别标签与裁剪子标签之间的差异较大的样本图像,使其不参与学生模型的训练;通过筛选出噪声数据并从训练数据中剔除,使得模型可以避免噪声数据的干扰,增强学生模型的鲁棒性以及准确率。
针对工业缺陷检测任务,采用本实施例的方法可以精准的对输入图像的缺陷程度进行检测,通过教师模型对样本标签图进行预先存储,结合学生模型训练阶段的随机裁剪数据增强方式,将教师模型的子标签图作为额外监督信号,和原始标注的标签进行比对,进而筛选出噪声数据并从训练数据中剔除,使得模型可以避免噪声数据的干扰,增强学生模型的鲁棒性以及准确率。
由以上本说明书实施例提供的技术方案可见,本说明书实施例获取样本对象的样本图像;样本图像标注了样本类别标签;将样本图像输入教师模型,基于教师模型的标签图提取网络确定样本图像的样本标签图;对样本图像进行裁剪处理,得到样本裁剪图像;基于样本裁剪图像在样本图像中的第一坐标信息,对样本标签图进行裁剪处理,得到样本子标签图;从而可以将样本子标签图作为学习模型训练过程中的额外监督信号;再将样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;基于样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,对学生模型进行训练,得到对象分类模型;裁剪子标签为对样本子标签图进行类别标签预测处理得到。本申请通过样本子标签图确定了裁剪子标签,从而可以根据样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,训练学生模型;本申请在对象分类模型的训练过程中,引入了样本子标签图作为额外的监督信号,提高了对象分类模型的准确率。
本说明书实施例还提供了一种对象分类方法,如图12所示,上述方法包括:
S1201:获取待识别对象的待识别图像;
在本说明书实施例中,待识别对象与样本对象为同一领域的对象,待识别图像可以为对待识别对象进行拍摄得到的图像,或者从待识别对象对应的待识别视频中提取的图像,一个待识别对象可以对应一个或多个待识别图像。
S1203:将上述待识别图像输入对象分类模型,进行类别预测处理,得到上述待识别图像的目标类别;上述目标类别表征上述待识别对象的类别;
其中,上述对象分类模型为基于上述的对象分类模型的训练方法训练得到。
在本说明书实施例中,当待识别对象对应多个待识别图像时,可以根据多个待识别图像的类别预测结果,确定待识别对象的类别结果;例如,若任一待识别图像为缺陷图像,则可以确定待识别对象为异常对象;若多个待识别图像均为正常图像,则可以确定待识别对象为正常对象。
在一示例性实施例中,在工业产品的产品检测场景中,如图13所示,图13为一种对象分类方法的示意图,其中测试数据为待识别对象的待识别图像,将该图像输入对象分类模型(深度模型2),输出待识别图像为缺陷图像的概率值p,从而得到对应的目标类别结果;目标类别包括第一类别以及第二类别,第一类别表征待识别图像为缺陷图像(p>0.5),第二类别表征待识别图像为正常图像(p≤0.5)。
在一示例性实施例中,如图14-15所示,图14为一种待识别图像及其对应的类别预测结果,该待识别图像为正常图像,在输出预测结果的同时,还可以输出缺陷置信度数据0.05;图15为另一种待识别图像及其对应的类别预测结果,该待识别图像为缺陷图像,在输出预测结果的同时,还可以输出缺陷置信度数据0.95。
本说明书实施例还提供了一种对象分类模型的训练装置,如图16所示,上述装置包括:
样本图像获取模块1610,用于获取样本对象的样本图像;上述样本图像标注了样本类别标签;
样本标签图确定模块1620,用于将上述样本图像输入教师模型,基于上述教师模型的标签图提取网络确定上述样本图像的样本标签图;
样本裁剪图像确定模块1630,用于对上述样本图像进行裁剪处理,得到样本裁剪图像;
样本子标签图确定模块1640,用于基于上述样本裁剪图像在上述样本图像中的第一坐标信息,对上述样本标签图进行裁剪处理,得到样本子标签图;
样本结果确定模块1650,用于将上述样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;
模型训练模块1660,用于基于上述样本标签预测结果与上述样本类别标签的第一差异以及上述样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练,得到对象分类模型;上述裁剪子标签为对上述样本子标签图进行类别标签预测处理得到。
在一示例性实施方式中,上述样本图像为多个,每个样本图像对应一个样本裁剪图像,上述装置还包括:
标签确定模块,用于确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签;
异常图像确定模块,用于若任一样本裁剪图像对应的样本类别标签与裁剪子标签的相似度小于预设阈值,将上述任一样本裁剪图像确定为异常图像;
筛选样本图像确定模块,用于从多个上述样本图像中,剔除上述异常图像,得到筛选样本图像;
筛选样本裁剪图像确定模块,用于将上述筛选样本图像对应的样本裁剪图像,确定为筛选样本裁剪图像。
在一示例性实施方式中,上述模型训练模块包括:
模型训练子模块,用于基于上述筛选样本裁剪图像对应的样本标签预测结果与样本类别标签的第一差异,以及上述筛选样本裁剪图像对应的样本标签预测结果与裁剪子标签的第二差异,对上述学生模型进行训练。
在一示例性实施方式中,上述标签确定模块包括:
第一确定子模块,用于确定每个样本裁剪图像所对应的样本图像的样本类别标签;
第二确定子模块,用于将每个样本裁剪图像所对应的样本图像的样本类别标签,确定为上述每个样本裁剪图像的样本类别标签;
裁剪子标签获取子模块,用于确定每个样本裁剪图像所对应的样本子标签图的裁剪子标签;
裁剪子标签确定子模块,用于将每个样本裁剪图像所对应的样本子标签图的裁剪子标签,确定为上述每个样本裁剪图像的裁剪子标签。
在一示例性实施方式中,上述样本子标签图确定模块包括:
第一坐标确定子模块,用于确定上述样本裁剪图像在上述样本图像中的第一坐标信息;
图像尺寸确定子模块,用于确定上述样本图像与上述样本标签图各自对应的图像尺寸;
样本子标签图确定子模块,用于基于上述样本裁剪图像在上述样本图像中的第一坐标信息,以及上述样本图像与上述样本标签图各自对应的图像尺寸,对上述样本标签图进行裁剪处理,得到上述样本子标签图。
在一示例性实施方式中,上述样本子标签图确定子模块包括:
第二坐标确定单元,用于若上述样本图像与上述样本标签图各自对应的图像尺寸相同,将上述样本裁剪图像在上述样本图像中的第一坐标信息,确定为上述样本子标签图在上述样本标签图中的第二坐标信息;
子标签图确定单元,用于基于上述第二坐标信息,对上述样本标签图进行裁剪处理,得到上述样本子标签图。
在一示例性实施方式中,上述装置还包括:
更新模块,用于若上述样本图像与上述样本标签图各自对应的图像尺寸不同,将上述样本标签图的尺寸调整为上述样本图像的尺寸,得到更新样本标签图;
第二坐标确定模块,用于根据上述样本裁剪图像在上述样本图像中的第一坐标信息,确定更新样本子标签图在上述更新样本标签图中的第二坐标信息;
图确定模块,用于基于上述更新样本子标签图与上述样本标签图各自对应尺寸的比值,对上述更新样本标签图进行尺寸调整,得到上述样本标签图。
在一示例性实施方式中,上述模型训练模块包括:
第一信息确定子模块,用于基于上述样本标签预测结果与上述样本类别标签的第一差异,确定第一损失信息;
第二信息确定子模块,用于基于上述样本标签预测结果与上述裁剪子标签的第二差异,确定第二损失信息;
目标信息确定子模块,用于基于上述第一损失信息以及上述第二损失信息,确定目标损失信息;
参数调整子模块,用于基于上述目标损失信息,调整上述学生模型的模型参数直至满足训练结束条件,将训练结束时的学生模型确定为上述对象分类模型。
在一示例性实施方式中,上述装置还包括:
训练特征图确定模块,用于将上述样本图像输入待训练教师模型,基于上述待训练教师模型的初始特征提取网络对上述样本图像进行特征提取处理,得到上述样本图像的训练特征图;
训练标签图确定模块,用于基于上述待训练教师模型的初始标签图提取网络,对上述训练特征图进行标签图提取处理,得到训练标签图;
训练标签预测模块,用于基于上述待训练教师模型的初始类别标签预测网络,对上述训练标签图进行类别标签预测处理,得到训练标签预测结果;
教师模型确定模块,用于基于上述训练标签预测结果与上述样本类别标签的差异,对上述待训练教师模型进行训练,得到上述教师模型。
在一示例性实施方式中,上述装置还包括:
样本类别特征确定模块,用于对上述样本子标签图进行全局池化处理,得到样本类别特征;
归一化处理模块,用于对上述样本类别特征进行归一化处理,得到样本归一化特征;
裁剪子标签确定模块,用于对上述样本归一化特征进行类别标签预测处理,得到上述样本子标签图对应的裁剪子标签。
上述的装置实施例中的装置与方法实施例基于同样地发明构思。
本说明书实施例还提供了一种对象分类装置,如图17所示,上述装置包括:
待识别图像获取模块1710,用于获取待识别对象的待识别图像;
目标类别确定模块1720,用于将上述待识别图像输入对象分类模型,进行类别预测处理,得到上述待识别图像的目标类别;上述目标类别表征上述待识别对象的类别;
其中,上述对象分类模型为基于上述的训练方法训练得到。
上述的装置实施例中的装置与方法实施例基于同样地发明构思。
本说明书实施例提供了一种电子设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的对象分类模型的训练方法或对象分类方法。
本申请的实施例还提供了一种计算机存储介质,上述存储介质可设置于终端之中以保存用于实现方法实施例中一种对象分类模型的训练方法相关的至少一条指令或至少一段程序,该至少一条指令或至少一段程序由该处理器加载并执行以实现上述方法实施例提供的对象分类模型的训练方法或对象分类方法。
本申请的实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行以实现上述方法实施例提供的对象分类模型的训练方法或对象分类方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例上述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据上述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本说明书实施例所提供的对象分类模型的训练方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图18是本说明书实施例提供的一种对象分类模型的训练方法的服务器的硬件结构框图。如图18所示,该服务器1800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1810(中央处理器1810可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1830,一个或一个以上存储应用程序1823或数据1822的存储介质1820(例如一个或一个以上海量存储设备)。其中,存储器1830和存储介质1820可以是短暂存储或持久存储。存储在存储介质1820的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1810可以设置为与存储介质1820通信,在服务器1800上执行存储介质1820中的一系列指令操作。服务器1800还可以包括一个或一个以上电源1860,一个或一个以上有线或无线网络接口1850,一个或一个以上输入输出接口1840,和/或,一个或一个以上操作系统1821,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口1840可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1800的通信供应商提供的无线网络。在一个实例中,输入输出接口1840包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1840可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图18所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1800还可包括比图18中所示更多或者更少的组件,或者具有与图18所示不同的配置。
由上述本申请提供的对象分类模型的训练方法、装置、设备或存储介质的实施例可见,本申请获取样本对象的样本图像;样本图像标注了样本类别标签;将样本图像输入教师模型,基于教师模型的标签图提取网络确定样本图像的样本标签图;对样本图像进行裁剪处理,得到样本裁剪图像;基于样本裁剪图像在样本图像中的第一坐标信息,对样本标签图进行裁剪处理,得到样本子标签图;从而可以将样本子标签图作为学习模型训练过程中的额外监督信号;再将样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;基于样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,对学生模型进行训练,得到对象分类模型;裁剪子标签为对样本子标签图进行类别标签预测处理得到。本申请通过样本子标签图确定了裁剪子标签,从而可以根据样本标签预测结果与样本类别标签的第一差异以及样本标签预测结果与裁剪子标签的第二差异,训练学生模型;本申请在对象分类模型的训练过程中,引入了样本子标签图作为额外的监督信号,提高了对象分类模型的准确率。
需要说明的是:上述本说明书实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备、存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (15)

1.一种对象分类模型的训练方法,其特征在于,所述方法包括:
获取样本对象的样本图像;所述样本图像标注了样本类别标签;
将所述样本图像输入教师模型,基于所述教师模型的标签图提取网络确定所述样本图像的样本标签图;
对所述样本图像进行裁剪处理,得到样本裁剪图像;
基于所述样本裁剪图像在所述样本图像中的第一坐标信息,对所述样本标签图进行裁剪处理,得到样本子标签图;
将所述样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;
基于所述样本标签预测结果与所述样本类别标签的第一差异以及所述样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练,得到对象分类模型;所述裁剪子标签为对所述样本子标签图进行类别标签预测处理得到。
2.根据权利要求1所述的方法,其特征在于,所述样本图像为多个,每个样本图像对应一个样本裁剪图像,所述方法还包括:
确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签;
若任一样本裁剪图像对应的样本类别标签与裁剪子标签的相似度小于预设阈值,将所述任一样本裁剪图像确定为异常图像;
从多个所述样本图像中,剔除所述异常图像,得到筛选样本图像;
将所述筛选样本图像对应的样本裁剪图像,确定为筛选样本裁剪图像;
所述基于所述样本标签预测结果与所述样本类别标签的第一差异以及所述样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练,包括:
基于所述筛选样本裁剪图像对应的样本标签预测结果与样本类别标签的第一差异,以及所述筛选样本裁剪图像对应的样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述确定每个样本裁剪图像对应的样本类别标签以及裁剪子标签,包括:
确定每个样本裁剪图像所对应的样本图像的样本类别标签;
将每个样本裁剪图像所对应的样本图像的样本类别标签,确定为所述每个样本裁剪图像的样本类别标签;
确定每个样本裁剪图像所对应的样本子标签图的裁剪子标签;
将每个样本裁剪图像所对应的样本子标签图的裁剪子标签,确定为所述每个样本裁剪图像的裁剪子标签。
4.根据权利要求1所述的方法,其特征在于,所述基于所述样本裁剪图像在所述样本图像中的第一坐标信息,对所述样本标签图进行裁剪处理,得到样本子标签图,包括:
确定所述样本裁剪图像在所述样本图像中的第一坐标信息;
确定所述样本图像与所述样本标签图各自对应的图像尺寸;
基于所述样本裁剪图像在所述样本图像中的第一坐标信息,以及所述样本图像与所述样本标签图各自对应的图像尺寸,对所述样本标签图进行裁剪处理,得到所述样本子标签图。
5.根据权利要求4所述的方法,其特征在于,所述基于所述样本裁剪图像在所述样本图像中的第一坐标信息,以及所述样本图像与所述样本标签图各自对应的图像尺寸,对所述样本标签图进行裁剪处理,得到所述样本子标签图,包括:
若所述样本图像与所述样本标签图各自对应的图像尺寸相同,将所述样本裁剪图像在所述样本图像中的第一坐标信息,确定为所述样本子标签图在所述样本标签图中的第二坐标信息;
基于所述第二坐标信息,对所述样本标签图进行裁剪处理,得到所述样本子标签图。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若所述样本图像与所述样本标签图各自对应的图像尺寸不同,将所述样本标签图的尺寸调整为所述样本图像的尺寸,得到更新样本标签图;
根据所述样本裁剪图像在所述样本图像中的第一坐标信息,确定更新样本子标签图在所述更新样本标签图中的第二坐标信息;
基于所述更新样本子标签图与所述样本标签图各自对应尺寸的比值,对所述更新样本标签图进行尺寸调整,得到所述样本标签图。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述样本标签预测结果与所述样本类别标签的第一差异以及所述样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练,得到对象分类模型,包括:
基于所述样本标签预测结果与所述样本类别标签的第一差异,确定第一损失信息;
基于所述样本标签预测结果与所述裁剪子标签的第二差异,确定第二损失信息;
基于所述第一损失信息以及所述第二损失信息,确定目标损失信息;
基于所述目标损失信息,调整所述学生模型的模型参数直至满足训练结束条件,将训练结束时的学生模型确定为所述对象分类模型。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述教师模型的训练方法包括:
将所述样本图像输入待训练教师模型,基于所述待训练教师模型的初始特征提取网络对所述样本图像进行特征提取处理,得到所述样本图像的训练特征图;
基于所述待训练教师模型的初始标签图提取网络,对所述训练特征图进行标签图提取处理,得到训练标签图;
基于所述待训练教师模型的初始类别标签预测网络,对所述训练标签图进行类别标签预测处理,得到训练标签预测结果;
基于所述训练标签预测结果与所述样本类别标签的差异,对所述待训练教师模型进行训练,得到所述教师模型。
9.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
对所述样本子标签图进行全局池化处理,得到样本类别特征;
对所述样本类别特征进行归一化处理,得到样本归一化特征;
对所述样本归一化特征进行类别标签预测处理,得到所述样本子标签图对应的裁剪子标签。
10.一种对象分类方法,其特征在于,所述方法包括:
获取待识别对象的待识别图像;
将所述待识别图像输入对象分类模型,进行类别预测处理,得到所述待识别图像的目标类别;所述目标类别表征所述待识别对象的类别;
其中,所述对象分类模型为基于权利要求1-9任一项所述的训练方法训练得到。
11.一种对象分类模型的训练装置,其特征在于,所述装置包括:
样本图像获取模块,用于获取样本对象的样本图像;所述样本图像标注了样本类别标签;
样本标签图确定模块,用于将所述样本图像输入教师模型,基于所述教师模型的标签图提取网络确定所述样本图像的样本标签图;
样本裁剪图像确定模块,用于对所述样本图像进行裁剪处理,得到样本裁剪图像;
样本子标签图确定模块,用于基于所述样本裁剪图像在所述样本图像中的第一坐标信息,对所述样本标签图进行裁剪处理,得到样本子标签图;
样本结果确定模块,用于将所述样本裁剪图像输入学生模型进行类别标签预测处理,得到样本标签预测结果;
模型训练模块,用于基于所述样本标签预测结果与所述样本类别标签的第一差异以及所述样本标签预测结果与裁剪子标签的第二差异,对所述学生模型进行训练,得到对象分类模型;所述裁剪子标签为对所述样本子标签图进行类别标签预测处理得到。
12.一种对象分类装置,其特征在于,所述装置包括:
待识别图像获取模块,用于获取待识别对象的待识别图像;
目标类别确定模块,用于将所述待识别图像输入对象分类模型,进行类别预测处理,得到所述待识别图像的目标类别;所述目标类别表征所述待识别对象的类别;
其中,所述对象分类模型为基于权利要求1-9任一项所述的训练方法训练得到。
13.一种电子设备,其特征在于,所述设备包括:处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-9任一项所述的对象分类模型的训练方法或权利要求10所述的对象分类方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1-9任一项所述的对象分类模型的训练方法或权利要求10所述的对象分类方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-9任一项所述的对象分类模型的训练方法或权利要求10所述的对象分类方法。
CN202310351373.2A 2023-03-28 2023-03-28 对象分类模型的训练、对象分类方法、装置及存储介质 Pending CN116958729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310351373.2A CN116958729A (zh) 2023-03-28 2023-03-28 对象分类模型的训练、对象分类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310351373.2A CN116958729A (zh) 2023-03-28 2023-03-28 对象分类模型的训练、对象分类方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN116958729A true CN116958729A (zh) 2023-10-27

Family

ID=88450094

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310351373.2A Pending CN116958729A (zh) 2023-03-28 2023-03-28 对象分类模型的训练、对象分类方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116958729A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726884A (zh) * 2024-02-09 2024-03-19 腾讯科技(深圳)有限公司 对象类别识别模型的训练方法、对象类别识别方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117726884A (zh) * 2024-02-09 2024-03-19 腾讯科技(深圳)有限公司 对象类别识别模型的训练方法、对象类别识别方法及装置
CN117726884B (zh) * 2024-02-09 2024-05-03 腾讯科技(深圳)有限公司 对象类别识别模型的训练方法、对象类别识别方法及装置

Similar Documents

Publication Publication Date Title
CN112052787B (zh) 基于人工智能的目标检测方法、装置及电子设备
CN112232293B (zh) 图像处理模型训练、图像处理方法及相关设备
CN111582409B (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN112434721A (zh) 一种基于小样本学习的图像分类方法、系统、存储介质及终端
US11816149B2 (en) Electronic device and control method thereof
CN112396106B (zh) 内容识别方法、内容识别模型训练方法及存储介质
CN114389966B (zh) 基于图神经网络和流时空关联的网络流量识别方法和系统
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN114298122A (zh) 数据分类方法、装置、设备、存储介质及计算机程序产品
CN117726884B (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN115131604A (zh) 一种多标签图像分类方法、装置、电子设备及存储介质
CN116958729A (zh) 对象分类模型的训练、对象分类方法、装置及存储介质
CN116701706B (zh) 一种基于人工智能的数据处理方法、装置、设备及介质
CN114170484B (zh) 图片属性预测方法、装置、电子设备和存储介质
CN113434722B (zh) 图像分类方法、装置、设备及计算机可读存储介质
CN116580054A (zh) 视频数据处理方法、装置、设备以及介质
CN109325521B (zh) 用于虚拟人物的检测方法及装置
CN112580750A (zh) 图像识别方法、装置、电子设备及存储介质
CN112306243A (zh) 数据处理方法、装置、设备及存储介质
CN117011616B (zh) 一种图像内容审核方法、装置、存储介质和电子设备
CN116958777A (zh) 图像识别方法、装置和存储介质及电子设备
CN117011628A (zh) 图像分类模型训练方法、图像分类方法及装置
CN115130539A (zh) 分类模型训练、数据分类方法、装置和计算机设备
CN113591893A (zh) 基于人工智能的图像处理方法、装置和计算机设备
CN116935257A (zh) 一种视频分类方法、装置、设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination