CN116958724A - 一种产品分类模型的训练方法和相关装置 - Google Patents
一种产品分类模型的训练方法和相关装置 Download PDFInfo
- Publication number
- CN116958724A CN116958724A CN202211726536.2A CN202211726536A CN116958724A CN 116958724 A CN116958724 A CN 116958724A CN 202211726536 A CN202211726536 A CN 202211726536A CN 116958724 A CN116958724 A CN 116958724A
- Authority
- CN
- China
- Prior art keywords
- image data
- product image
- sample product
- sample
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013145 classification model Methods 0.000 title claims abstract description 229
- 238000012549 training Methods 0.000 title claims abstract description 221
- 238000000034 method Methods 0.000 title claims abstract description 124
- 230000006870 function Effects 0.000 claims description 179
- 230000008569 process Effects 0.000 claims description 62
- 238000002372 labelling Methods 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 19
- 230000002950 deficient Effects 0.000 claims description 17
- 238000010276 construction Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 7
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000007689 inspection Methods 0.000 description 24
- 239000004973 liquid crystal related substance Substances 0.000 description 16
- 230000007547 defect Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000013527 convolutional neural network Methods 0.000 description 9
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 239000010985 leather Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000004821 distillation Methods 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 229910000831 Steel Inorganic materials 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0004—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/776—Validation; Performance evaluation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30108—Industrial image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/06—Recognition of objects for industrial automation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Image Analysis (AREA)
Abstract
本申请公开一种产品分类模型的训练方法和相关装置,对多个无标注样本产品图像数据进行两次预测得到每个无标注样本产品图像数据分别对应的预测标签和第一预测结果,基于预测标签和第一预测结果的一致性将多个无标注样本产品图像数据划分至第一样本产品图像数据集和第二样本产品图像数据集。基于第一样本产品图像数据集构建用于消除预测标签中噪声的标签校准损失函数,并基于标签校准损失函数训练产品分类模型。基于第二样本产品图像数据集构建用于校正特征偏差的特征一致性损失函数,并基于特征一致性损失函数训练产品分类模型。对不同分类难度的样本产品图像数据集采用不同训练策略,提高产品分类模型的区分能力,进而提高其分类结果的精度。
Description
技术领域
本申请涉及检测技术领域,特别是涉及一种产品分类模型的训练方法和相关装置。
背景技术
工业质检是指对生产制造过程中的产品进行质量检测,从而区分产品是正常还是有缺陷。传统的质检一般是由质检工人进行人工目检,近年来随着人工智能(ArtificialIntelligence,AI)技术的兴起,基于机器视觉的AI质检可以大幅提升质检准确率、节省人力成本,具有广阔的市场应用前景。
在工业AI质检场景中,通常采用正样本未标记(Positive and unlabeled,PU)学习的方式训练产品分类模型,从而利用训练得到的产品分类模型来对产品进行检测。
然而,这种方法训练得到的产品分类模型对一些特征相似的产品难以区分,进而使得分类结果不够准确。
发明内容
为了解决上述技术问题,本申请提供了一种产品分类模型的训练方法和相关装置,针对不同分类难度的样本产品图像数据集采用不同的训练策略,实现对不同分类难度的样本产品图像数据集进行针对性训练,从而提高产品分类模型的区分能力,提高产品分类模型的分类结果的精度。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种产品分类模型的训练方法,所述方法包括:
获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数,并基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数,并基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
一方面,本申请实施例提供一种产品分类模型的训练装置,所述装置包括获取单元、预测单元、划分单元、训练单元和构建单元:
所述获取单元,用于获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
所述预测单元,用于对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
所述预测单元,还用于对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
所述划分单元,用于基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
所述训练单元,用于利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
所述构建单元,用于在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数;
所述训练单元,具体用于基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
所述构建单元,还用于在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数;
所述训练单元,具体用于基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
一方面,本申请实施例提供一种计算机设备,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行前述任一方面所述的方法。
一方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码当被处理器执行时使所述处理器执行前述任一方面所述的方法。
一方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现前述任一方面所述的方法。
由上述技术方案可以看出,在工业质检场景下,通常情况下获取到的训练样本产品图像数据中包括大量无标注样本产品图像数据,在这种情况下,为了训练得到能够准确对待检测产品进行分类的产品分类模型,从而精确地识别待检测产品是有缺陷产品还是正常产品,可以先对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签,并对多个无标注样本产品图像数据进行二次预测得到多个无标注样本产品图像数据分别对应的第一预测结果,预测标签和第一预测结果的一致性可以在一定程度上反映无标注样本产品图像数据的分类难度,通常情况下,预测标签与第一预测结果越一致,则分类难度越低,故可以基于预测标签和第一预测结果的一致性对多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,第一样本产品图像数据集中第一样本产品图像数据的分类难度低于第二样本产品图像数据集中第二样本产品图像数据的分类难度。然后利用第一样本产品图像数据集和第二样本产品图像数据集训练产品分类模型,在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,具体的,在利用第一样本产品图像数据集训练产品分类模型的过程中,由于其分类难度非常低,偶尔可能会存在噪声带来影响,故可以基于第一样本产品图像数据集构建标签校准损失函数,并基于标签校准损失函数训练产品分类模型,标签校准损失函数用于消除预测标签中的噪声;在利用第二样本产品图像数据集训练产品分类模型的过程中,由于其分类难度较大,预测标签可能存在较大不确定性,故可以基于第二样本产品图像数据集构建特征一致性损失函数,并基于特征一致性损失函数训练产品分类模型,特征一致性损失函数用于校正对第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差,从而实现针对其特征的一致性进行训练,挖掘第二样本产品图像数据集中第二样本产品图像数据固有的特征区别,提升产品分类模型对于正负样本的区分能力。可见,本申请在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,实现对不同分类难度的样本产品图像数据集进行针对性训练,从而提高产品分类模型的区分能力,提高产品分类模型的分类结果的精度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术成员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种产品分类模型的训练方法的应用场景架构图;
图2为本申请实施例提供的一种产品分类模型的训练方法的流程图;
图3为本申请实施例提供的一种基础分类模型的训练方法示例图;
图4为本申请实施例提供的一种辨别模型的训练过程示例图;
图5为本申请实施例提供的一种产品分类模型的训练过程示例图;
图6为本申请实施例提供的一种产品分类的展示界面示例图;
图7为本申请实施例提供的一种AI质检场景下的整体架构图;
图8为本申请实施例提供的一种产品分类模型的训练装置的结构图;
图9为本申请实施例提供的一种终端的结构图;
图10为本申请实施例提供的一种服务器的结构图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
为了保证生产制造过程中的产品质量,需要对产品进行缺陷质检。例如对于皮革缺陷识别、钢板表面缺陷识别、木材表面缺陷识别等等。在进行缺陷识别时,目前主要是基于机器视觉的AI质检,通过AI质检得出其是否有缺陷,从而区分出正常产品和有缺陷产品。在工业AI质检场景中,存在这样一个场景:客户只提供少量带有标注标签的正样本产品图像数据,以及大量产线数据(即无标注样本产品图像数据)和大致的产线良率。同时,对于带有缺陷的产品很难批量收集,而且不能具体指定缺陷的类型。例如对于皮革缺陷的识别,将皮革图像输入产品分类模型,从而通过产品分类模型实现AI质检得出是否有缺陷。
在这种场景下,所使用的产品分类模型通常是采用PU学习的方式训练得到的,即在已知少量的正样本产品图像数据以及大量无标注样本产品图像数据的基础上,从而训练产品分类模型,以便产品分类模型能够正确将正负样本(正样本即正常产品,负样本即有缺陷产品)识别出来。然而这种训练方法对于无标注数据中比较难区分的(特征相似)正负样本没有针对性的训练策略,从而导致产品分类模型对于一些特征相似的产品难以区分,进而使得分类结果精度不够高。
为了解决上述技术问题,本申请实施例提供一种产品分类模型的训练方法,该方法将多个无标注样本产品图像数据划分成分类难度不同的第一样本产品图像数据集和第二样本产品图像数据集,在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,实现对不同分类难度的样本产品图像数据集进行针对性训练,从而提高产品分类模型的区分能力,提高产品分类模型的分类结果的精度。
需要说明的是,本申请实施例提供的产品分类模型的训练方法可以由计算机设备执行,该计算机设备例如可以是服务器,也可以是终端。服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端、智能电视等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
如图1所示,图1示出了一种产品分类模型的训练方法的应用场景架构图,该应用场景以服务器执行本申请实施例提供的产品分类模型的训练方法为例进行介绍。
在该应用场景中可以包括服务器100,在工业质检场景下,通常情况下获取到的训练样本产品图像数据中包括大量无标注样本产品图像数据,在这种情况下,为了训练得到能够准确对待检测产品进行分类的产品分类模型,从而精确地识别待检测产品是有缺陷产品还是正常产品。为此服务器100在训练得到产品分类模型时,可以先对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签,该预测标签可以作为无标注样本产品图像数据的伪标签,从而辅助后续训练过程。
服务器100还可以对多个无标注样本产品图像数据进行二次预测得到多个无标注样本产品图像数据分别对应的第一预测结果,预测标签和第一预测结果的一致性可以在一定程度上反映无标注样本产品图像数据的分类难度,通常情况下,预测标签与第一预测结果越一致,则分类难度越低,故可以服务器100可以基于预测标签和第一预测结果的一致性对多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集。其中,第一样本产品图像数据集中第一样本产品图像数据的分类难度低于第二样本产品图像数据集中第二样本产品图像数据的分类难度。
然后服务器100利用第一样本产品图像数据集和第二样本产品图像数据集训练产品分类模型。由于不同样本产品图像数据集样本产品图像数据的分类难度不同,而为了区分不同分类难度的样本产品图像数据所依据的特征可能有所不同,故训练过程中针对不同分类难度的样本产品图像数据集所需学习的侧重点也会有所不同,因此,在本申请实施例中,服务器100针对不同分类难度的样本产品图像数据集采用不同的训练策略。
具体的,在利用第一样本产品图像数据集训练产品分类模型的过程中,由于第一样本产品图像数据集中第一样本产品图像数据的分类难度非常低,其预测标签通常是可靠的,偶尔可能会由于噪声的存在导致预测标签不可靠,故服务器100在利用第一样本产品图像数据集进行训练时,侧重点在于尽量避免噪声导致的预测标签不可靠的情况,因此服务器100可以基于第一样本产品图像数据集构建标签校准损失函数,并基于标签校准损失函数训练产品分类模型,标签校准损失函数用于消除预测标签中的噪声。在利用第二样本产品图像数据集训练产品分类模型的过程中,由于第二样本产品图像数据集中第二样本产品图像数据的分类难度较大,预测标签可能存在较大不确定性,故服务器100在利用第二样本产品图像数据集进行训练时,侧重点在于对于第二样本产品图像数据的特征一致性进行训练,因此服务器100可以基于第二样本产品图像数据集构建特征一致性损失函数,并基于特征一致性损失函数训练产品分类模型,特征一致性损失函数用于校正对第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差,从而实现针对其特征的一致性进行训练,挖掘第二样本产品图像数据集中第二样本产品图像数据固有的特征区别,提升产品分类模型对于正负样本的区分能力。
本申请在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,实现对不同分类难度的样本产品图像数据集进行针对性训练,从而提高产品分类模型的区分能力,提高产品分类模型的分类结果的精度。
需要说明的是,本申请实施例提供的方法主要涉及人工智能,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例提供的方法主要涉及计算机视觉技术和机器学习/深度学习。
计算机视觉技术(Computer Vision,CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟随和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。例如,本申请实施例可能会对训练样本产品图像数据(例如无标注样本产品图像数据、正样本产品图像数据),以及待检测产品图像进行图像处理,通过图像语义理解进行特征提取以便进行分类预测,等等;还可以通过图像处理对第二样本产品图像数据分别进行不同程度的数据增强等。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中,可以通过机器学习训练产品分类模型。
接下来,将以服务器执行产品分类模型的训练方法为例,结合附图对本申请实施例提供的产品分类模型的训练方法进行详细介绍。参见图2,图2示出了一种产品分类模型的训练方法的流程图,所述方法包括:
S201、获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据。
在工业AI质检场景中,存在这样一个场景:客户只提供少量带有标注标签的正样本产品图像数据,以及大量产线数据(即无标注样本产品图像数据)和大致的产线良率。基于此,为了利用大量样本产品图像数据训练得到产品分类模型,服务器可以获取包括多个无标注样本产品图像数据的训练样本产品图像数据,以便利用多个无标注样本产品图像数据训练得到产品分类模型。其中,无标注样本产品图像数据可以表示为Xu,由于无标注样本产品图像数据的标签未知,故无标注样本产品图像数据的标签Yu并未赋值,Xu和Yu构成了无标注样本产品图像数据集,可以表示为{Du={Xu,Yu}}。
S202、对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签。
在得到无标注样本产品图像数据之后,服务器可以先对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签,该预测标签可以作为无标注样本产品图像数据的伪标签,从而辅助后续训练过程。其中,无标注样本产品图像数据的预测标签可以用表示。
在一种可能的实现方式中,S202的实现方式可以是基于训练得到的基础分类模型对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签。其中,基础分类模型可以表示为gbase。通过gbase对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签可以表示为
可以理解的是,基础分类模型可以是预先训练得到的。由于在工业AI质检场景下,客户除了提供无标注样本产品图像数据,还会提供少量带有标注标签的正样本产品图像数据以及大致的产线良率,产线良率可以在一定程度上反映出正样本产品图像数据在无标注样本产品图像数据中的比例πp,则负样本产品图像数据在无标注样本产品图像数据中的比例为πn=1-πp。在这种情况下,训练样本产品图像数据中还可以包括具有标注标签的正样本产品图像数据以及产线良率,此时,基础分类模型的训练方式可以是利用正样本产品图像数据、多个无标注样本产品图像数据和产线良率训练基础分类模型。其中,正样本产品图像数据表示为Xp,正样本产品图像数据的标注标签表示为Yp,由于正样本产品图像数据的标注标签是已知的,即标识其对应的样本产品图像数据为正样本产品图像数据,故Yp通常可以为1。Xp和Yp构成了正样本产品图像数据集,可以表示为{Dp={Xp,Yp}}。
具体的,可以采用非负无偏估计对初始模型g进行训练得到一个基础分类模型gbase,以便利用gbase来识别无标注样本产品图像数据中的正负样本产品图像数据。优化目标公式如下:
其中,表示期望,l为替代损失函数,通常是凸函数,l保证输出的结果在+1和-1之间;/>用于表示利用初始模型g对正样本产品图像数据进行预测的结果g(Xp)与1之间的偏差;/>表示利用初始模型g对无标注样本产品图像数据中负样本产品图像数据进行预测的结果g(Xu)与-1之间的偏差;/>表示使目标函数/>取最小值时的变量值。
当得到使取最小值的g*后,可以将得到的g*作为最终训练得到的基础分类模型gbase。
参见图3所示,图3示出了一种基础分类模型的训练方法示例图,通过具有标注标签的正样本产品图像数据以及无标注样本产品图像数据训练得到基础分类模型,在训练过程中,利用基础分类模型的基础分类损失函数Lbase进行迭代优化。其中,Lbase可以是基于上述优化目标公式计算得到的,例如Lbase可以表示为
需要说明的是,本申请实施例对基础分类模型的网络结构不做限定,可以是各种神经网络模型,例如卷积神经网络(Convolutional Neural Networks,CNN)、深度神经网络(Deep Neural Network,DNN)等等。
本申请实施例通过非负无偏估计的PU分类算法训练得到一个基础分类模型gbase,在一定程度上提高基础分类模型预测得到的预测标签的准确性。
S203、对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果。
由于多个无标注样本产品图像数中可能存在一些比较难区分的(特征相似)无标注样本产品图像数据,因此,为了使得训练得到的产品分类模型能够准确的区分出这些无标注样本产品图像数据,可以对分类难度不同的无标注样本产品图像数据进行针对性的训练策略。而为了能够对分类难度不同的无标注样本产品图像数据进行针对性的训练策略,则需要对不同分类难度的无标注样本产品图像数据进行划分,而划分依据可以是多次预测结果的一致性。基于此,服务器还可以对多个无标注样本产品图像数据进行二次预测得到多个无标注样本产品图像数据分别对应的第一预测结果,以便后续可以根据第一预测结果与预测标签(即初步预测的预测结果)的一致性对多个无标注样本产品图像数据进行划分。
在一种可能的实现方式中,S203的实现方式可以是基于训练得到的辨别模型对多个无标注样本产品图像数据进行二次预测得到多个无标注样本产品图像数据分别对应的第一预测结果。其中,辨别模型可以表示为gdis。
可以理解的是,辨别模型可以是预先训练得到的。由于在工业AI质检场景下,客户除了提供无标注样本产品图像数据,还会提供少量带有标注标签的正样本产品图像数据。在这种情况下,本申请实施例中训练样本产品图像数据中还可以包括具有标注标签的正样本产品图像数据,辨别模型的训练方式可以是利用具有标注标签的正样本产品图像数据、多个无标注样本产品图像数据和多个无标注样本产品图像数据分别对应的预测标签训练辨别模型。在利用具有标注标签的正样本产品图像数据训练辨别模型的过程中,由于正样本产品图像数据的标注标签是预先标注的、准确的,故可以以标注标签为标准进行监督训练,具体的,服务器可以基于标注标签和正样本产品图像数据构建第三损失函数,并基于第三损失函数训练辨别模型。其中,基于标注标签和正样本产品图像数据构建第三损失函数的方式可以是通过辨别模型对正样本产品图像数据进行预测得到第六预测结果,进而基于第六预测结果和标注标签的差距构建第三损失函数。在利用多个无标注样本产品图像数据和多个无标注样本产品图像数据分别对应的预测标签训练辨别模型的过程中,针对多个无标注样本产品图像数据中每个无标注样本产品图像数据,通过辨别模型输出无标注样本产品图像数据的第五预测结果,并根据第五预测结果和对应的预测标签构建交叉熵损失函数,以利用交叉熵损失函数训练辨别模型。交叉熵损失函数具体公式如下:
其中,表示交叉熵损失函数,/>表示多个无标注样本产品图像数据对应的预测标签/>中任一个无标注样本产品图像数据对应的预测标签,xu为多个无标注样本产品图像数据Xu中的任一个无标注样本产品图像数据,gdis(xu)表示训练过程中的辨别模型输出的第五预测结果,当辨别模型训练结束时,其输出的第五预测结果可以作为前述提到的第一预测结果。
在训练过程中保持较小的学习率,从而便于训练得到最优的辨别模型。在一种可能的情况下,可以设置辨别模型的训练结束条件,当满足训练结束条件时确定训练结果,得到训练好的辨别模型。例如在训练过程中可以对训练得到的辨别模型进行验证,当验证准确率达到阈值τ时,确定达到训练结束条件,停止训练gdis。
需要说明的是,本申请实施例对辨别模型的网络结构不做限定,可以是各种神经网络模型,例如卷积神经网络(Convolutional Neural Networks,CNN)、深度神经网络(Deep Neural Network,DNN)等等。
本申请实施例,结合带有标注标签的正样本产品图像数据、无标注样本产品图像数据和基础分类模型的预测结果(例如预测标签)对辨别模型进行半监督训练,从而充分利用无标注样本产品图像数据的信息,提升辨别模型的训练性能。另外,由于本申请实施例使用基础分类模型的预测结果对辨别模型进行训练,而该预测结果能够区分出无标注样本产品图像数据中的正样本产品图像数据和负样本产品图像数据,从而在对辨别模型的训练过程中引入负样本产品图像数据进行训练,使得辨别模型可以更好的学习到负样本产品图像数据的特点,提高辨别模型区分正负样本产品图像数据的能力,进而降低误检测率,提高辨别模型的泛化能力。
S204、基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度。
在完成上述两次预测后,两次预测结果(例如预测标签和第一预测结果)的一致性可以在一定程度上反映无标注样本产品图像数据的分类难度,通常情况下,预测标签与第一预测结果越一致,则分类难度越低,预测标签与第一预测结果越不一致,则分类难度越高。因此,服务器可以根据预测标签和第一预测结果的一致性对多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集。其中,第一样本产品图像数据集中第一样本产品图像数据的分类难度低于第二样本产品图像数据集中第二样本产品图像数据的分类难度,在这种情况下,第一样本产品图像数据集可以称为简单样本产品图像数据集,表示为第二样本产品图像数据集可以称为难样本产品图像数据集,表示为/>
第一样本产品图像数据集中的第一样本产品图像数据的分类难度较低,即很容易对其进行正确分类,而一个第一样本产品图像数据的类别只有一个,即正确的预测结果只有一个,因为,对于第一个第一样本产品图像数据来说,其多次预测结果应该一致。而第二样本产品图像数据集中的第二样本产品图像数据的分类难度较高,即很难对其进行正确分类,因此,对于一个第二样本产品图像数据来说,其多次预测结果可能不一致,进而难以确定其正确分类。基于此,基于预测标签和第一预测结果的一致性对多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集的方式可以是针对每个无标注样本产品图像数据,若无标注样本产品图像数据的第一预测结果与对应的预测标签一致,将无标注样本产品图像数据划分至第一样本产品图像数据集;若无标注样本产品图像数据的第一预测结果与对应的预测标签不一致,将无标注样本产品图像数据划分至第二样本产品图像数据集。
参见图4所示,图4示出了一种辨别模型的训练过程示例图,利用具有标注标签的正样本产品图像数据、多个无标注样本产品图像数据和多个无标注样本产品图像数据分别对应的预测标签训练辨别模型。其中,多个无标注样本产品图像数据分别对应的预测标签可以是利用S202直接输出的,也可以是在训练辨别模型的过程中引入训练好的基础分类模型,保持基础分类模型不变,从而利用基础分类模型输出多个无标注样本产品图像数据分别对应的预测标签。然后基于预测标签和辨别模型输出的第五预测结果构建交叉熵损失函数,利用交叉熵损失函数训练辨别模型。训练得到辨别模型后,利用训练好的辨别模型可以输入多个无标注样本产品图像数据分别对应的第一预测结果,针对每个无标注样本产品图像数据,若其第一预测结果和预测标签一致,则将其划分到第一样本产品图像数据集反之,则划分到第二样本产品图像数据集/>从而实现难易样本产品图像数据的分离。故最终得到了正样本产品图像数据集Dp、第一样本产品图像数据集/>和第二样本产品图像数据集/>
S205、利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型。
针对第一样本产品图像数据集和第二样本产品图像数据集,本申请实施例可以利用第一样本产品图像数据集和第二样本产品图像数据集训练一个精细化的产品分类模型gfine,具体细节如下所述。
需要说明的是,本申请实施例对产品分类模型的网络结构不做限定,可以是各种神经网络模型,例如卷积神经网络(Convolutional Neural Networks,CNN)、深度神经网络(Deep Neural Network,DNN)等等。
S206、在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数,并基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声。
由于本申请实施例将多个标注样本产品图像数据划分成分类难度不同的第一样本产品图像数据集和第二样本产品图像数据集,由于不同样本产品图像数据集样本产品图像数据的分类难度不同,而为了区分不同分类难度的样本产品图像数据所依据的特征可能有所不同,故训练过程中针对不同分类难度的样本产品图像数据集所需学习的侧重点也会有所不同,因此,在本申请实施例中,服务器针对不同分类难度的样本产品图像数据集采用不同的训练策略。
具体的,在利用第一样本产品图像数据集训练产品分类模型的过程中,由于第一样本产品图像数据集中第一样本产品图像数据的分类难度非常低,噪声影响较小,预测标签通常是可靠的,偶尔可能会由于噪声的存在导致预测标签不可靠,故为了避免由于噪声影响导致预测标签不可靠,服务器在利用第一样本产品图像数据集进行训练时,侧重点在于尽量避免噪声导致的预测标签不可靠的情况,因此服务器可以基于第一样本产品图像数据集构建标签校准损失函数,并基于标签校准损失函数训练产品分类模型,标签校准损失函数用于消除预测标签中的噪声。
在一种可能的实现方式中,基于第一样本产品图像数据集构建标签校准损失函数的方式可以是基于第一样本产品图像数据集中每个第一样本产品图像数据,通过产品分类模型得到每个第一样本产品图像数据的第二预测结果,进而根据每个第一样本产品图像数据的第二预测结果和对应的预测标签构建标签校准损失函数。参见图5所示,在图5中直接将第一样本产品图像数据集中的第一样本产品图像数据输入至产品分类模型中,其标签校准损失函数在图5中并未示出。
而在根据第二预测结果和对应的预测标签构建标签校准损失函数的过程中,为了校准预测标签,尽量消除预测标签可能存在的噪声影响,可以将预测标签与产品分类模型输出的第二预测结果混合,从而在训练过程中以预测标签距离混合结果的距离尽量小、且第二预测结果距离混合结果的距离尽量小为目标,以消除预测标签可能存在的噪声影响。其中,距离可以是各种距离,例如余弦距离、KL(Kullback-Leibler)距离等,本申请实施例主要以KL距离为例进行介绍。
为此,标签校准损失函数的公式可以如下所示:
其中,表示第一样本产品图像数据集中第i个第一样本产品图像数据,gfine()表示产品分类模型,/>表示第一样本产品图像数据集中第i个第一样本产品图像数据对应的预测标签,DKL(A||B)表示计算A和B之间的KL(Kullback-Leibler)距离,也可以称为相对熵,用来衡量A和B之间的差异,此处A为或/>B为m,γ是超参,可以根据实际需求设置。
在一种可能的实现方式中,可以在训练过程中对于含有超参的损失函数加入一层自适应超参调整策略,使得产品分类模型可以自主学习参数。
本申请实施例针对第一样本产品图像数据集设计适合的训练策略,可以对分类难度较低的样本产品图像数据进行带噪学习,消除预测标签可能存在的噪声影响,提高产品分类模型的分类性能。
S207、在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数,并基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
在利用第二样本产品图像数据集训练产品分类模型的过程中,由于第二样本产品图像数据集中第二样本产品图像数据的分类难度较大,预测标签可能存在较大不确定性,故服务器在利用第二样本产品图像数据集进行训练时,侧重点在于对于第二样本产品图像数据的特征一致性进行训练,因此服务器可以基于第二样本产品图像数据集构建特征一致性损失函数,并基于特征一致性损失函数训练产品分类模型,特征一致性损失函数用于校正对第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差,从而实现针对其特征的一致性进行训练,挖掘第二样本产品图像数据集中第二样本产品图像数据固有的特征区别,提升产品分类模型对于正负样本的区分能力。
需要说明的是,S206和S207是S205的具体训练过程,S206和S207并非在S205执行后才执行,而是在S205执行的过程中执行,通过S206和S207的执行实现S205,并且本申请实施例对S206和S207的先后顺序不做限定。
在针对第二样本产品图像数据集中第二样本产品图像数据进行特征的一致性训练时,由于产品分类模型包括多层卷积层,该多层卷积层可以作为产品分类模型的主干部分,用于提取特征,不同层卷积层提取到的特征可能有所区别,因此,本申请的一致性训练实际上是对第二样本产品图像数据的不同层的特征的一致性进行训练。核心思想是针对浅层和深层特征设计不同的损失函数,浅层特征利用交叉一致性损失函数(即第一损失函数)进行监督,深层特征利用自监督一致性损失函数(即第二损失函数)进行监督。
在这种情况下,基于第二样本产品图像数据集构建特征一致性损失函数的方式可以是针对第二样本产品图像数据集中每个第二样本产品图像数据,通过多层卷积层中的第一卷积层输出第一卷积特征,并基于第一卷积特征构建第一损失函数。其中,第一损失函数即浅层特征对应的损失函数,可以表示为而深层特征采用的是自监督一致性损失函数,而为了实现自监督,在训练过程中,可以先对第二样本产品图像数据集中每个第二样本产品图像数据分别进行不同程度的数据增强,得到每个第二样本产品图像数据分别对应的第一样本增强数据和第二样本增强数据,进而针对每个第二样本产品图像数据,基于第二样本产品图像数据的第一样本增强数据和第二样本增强数据,通过多层卷积层中的第二卷积层输出第一样本增强数据和第二样本增强数据分别对应的第二卷积特征,在多层卷积层中的前向传播方向上,第二卷积层位于第一卷积层之后,从而实现第一卷积层提取到的第一卷积特征可以称为浅层特征,第二卷积层提取到的第二卷积特征可以称为深层特征。之后便可以基于第一样本增强数据和第二样本增强数据分别对应的第二卷积特征构建第二损失函数。其中,第二损失函数即深层特征对应的损失函数,可以表示为/>接着,根据第一损失函数和第二损失函数构建特征一致性损失函数,构建公式可以如下所示:
其中,表示特征一致性损失函数,/>表示第一损失函数,/>表示第二损失函数。
需要说明的是,基础分类模型可以基于产品的颜色和纹理等表面的特征对产品进行基本分类,产品分类模型既需要能够基于产品的颜色和纹理等表面的特征对产品进行基本分类,又需要能够基于更加复杂的特征对难以区分的产品进行精确分类。为此,产品分类模型与基础分类模型具有一定的相似性,通常情况下,产品分类模型和基础分类模型的主干部分是相同的,不过产品分类模型和基础分类模型的分类层有所不同。由于产品分类模型和基础分类模型的主干部分是相同的,并且二者在功能上都可以学习到产品的颜色和纹理等表面的特征,而浅层特征通常反映了第二样本产品图像数据的颜色和纹理,这样在针对浅层特征设计损失函数时,基础分类模型具有一定的参考意义。因此,对于浅层特征,gbase和gfine可以进行相互监督,即基于第一卷积特征构建第一损失函数的方式可以是基于第二样本产品图像数据集,通过基础分类模型包括的多层卷积层中的第三卷积层输出第三卷积特征,第三卷积层在基础分类模型包括的多层卷积层中的相对位置与第一卷积层在产品分类模型包括的多层卷积层中的相对位置相同。然后根据第一卷积特征和第三卷积特征之间的差距构建第一损失函数(参见图5所示)。
在一种可能的实现方式中,第一卷积层为产品分类模型包括的多层卷积层中的第一层卷积层(参见图5中501所示),第三卷积层为基础分类模型包括的多层卷积层中的第一层卷积层,即第三卷积层在基础分类模型包括的多层卷积层中的相对位置为基础分类模型包括的多层卷积层中的第一层,第一卷积层在产品分类模型包括的多层卷积层中的相对位置为产品分类模型包括的多层卷积层中的第一层,从而使得二者提取到的是具有可比性的浅层特征。
在这种情况下,第一损失函数的公式可以表示为:
其中,表示第一损失函数,/>表示产品分类模型的第一层卷积层,/>表示基础分类模型的第一层卷积层,/>表示第二样本产品图像数据集中任一个第二样本产品图像数据,||C||2表示范数,此处C为/>
在本申请实施例中,通过表现较好的通过基础分类模型进行监督,优化浅层特征例如颜色、纹理等特征的提取能力,从而可以提升产品分类模型对于分类难度较大的第二样本产品图像数据的浅层特征的提取能力。
可以理解的是,对于深层特征进行自监督的过程中,深层特征通常是指经过更多次卷积提取到的特征,在多层卷积层中的前向传播方向上,越靠后的卷积层输出的卷积特征经过的卷积次数越多,因此,在一种可能的实现方式中,为了能够获取到深层特征,第二卷积层可以为产品分类模型包括的多层卷积层中最后一层卷积层(参见图5中502所示)。
不同程度的数据增强可以是指对第二样本产品图像数据的数据增强程度可以不同,数据增强的程度可以包括0,即不对第二样本产品图像数据进行数据增强。例如对一个第二样本产品图像数据E,对该第二样本产品图像数据E进行强数据增强得到第一样本增强数据,对该第二样本产品图像数据E进行弱数据增强得到第二样本增强数据。又如,对一个第二样本产品图像数据E,对该第二样本产品图像数据E进行一次数据增强得到第一样本增强数据,将该第二样本产品图像数据E本身作为第二样本增强数据。
以不同程度的数据增强包括强数据增强和弱数据增强为例,在本申请实施例中,对第二样本产品图像数据集中每个第二样本产品图像数据分别进行不同程度的数据增强可以是对每个第二样本产品图像数据分别进行弱数据增强和强数据增强(参见图5所示)。其中,强数据增强可以包括颜色变化、剪切、模糊等,弱数据增强可以包括旋转和镜像。强数据增强可以用As(*)表示,弱数据增强可以用Aw(*)。
在一种可能的实现方式中,针对分类难度较大的第二样本产品图像数据,产品分类模型的训练侧重点在于对第二样本产品图像数据的特征一致性进行训练,而对于分类难度较大的第二样本产品图像数据来说,深层特征更能反映不同第二样本产品图像数据之间的区别,从而有利于挖掘第二样本产品图像数据固有的特征区别。与此同时,产品分类模型的作用是实现分类,因此,其预测能力也应该是训练时所关注的重点。基于此,在一种可能的实现方式中,基于第一样本增强数据和第二样本增强数据分别对应的第二卷积特征构建第二损失函数的方式可以是基于第一样本增强数据和第二样本增强数据分别对应的第二卷积特征之间的差距构建特征信息损失函数,基于第二样本产品图像数据的第一样本增强数据通过产品分类模型输出第三预测结果,以及基于第二样本产品图像数据的第二样本增强数据,通过产品分类模型输出第四预测结果,进而基于第三预测结果和第四预测结果之间的差距构建预测损失函数,以便根据特征信息损失函数和预测损失函数构建第二损失函数(参见图5所示)。第二损失函数的公式如下:
其中,表示第二损失函数,/>表示预测损失函数,/>表示特征信息损失函数,α和β为调和参数,可以根据实际需求设置。
在本申请实施例中,通过预测损失函数和特征信息损失函数的结合训练产品分类模型,既能提高产品分类模型对分类难度较大的第二样本产品图像数据的固有特征提取能力,又能从产品分类模型整体提升其分类能力。
需要说明的是,在构建特征信息损失函数的过程中,由于第一样本增强数据和第二样本增强数据分别对应的第二卷积特征可能存在表达方式上的不同,为了便于比对二者之间的差距,可以对二者进行特征转换,从而得到便于比对的表达方式。而第一样本增强数据和第二样本增强数据分别对应的第二卷积特征之间的差距可以通过二者之间的距离表示,例如余弦距离、KL距离等等,本申请实施例主要以余弦距离为例进行介绍。基于此,以第二卷积层为产品分类模型包括的多层卷积层中最后一层卷积层为例,特征信息损失函数的公式可以如下所示:
其中,表示特征信息损失函数,D(*)表示余弦距离,Aw(*)和As(*)分别表示弱数据增强和强数据增强,f表示特征转换,/>表示产品分类模型的最后一层卷积层,表示第二样本产品图像数据集中任一个第二样本产品图像数据。
在构建预测损失函数的过程中,第三预测结果和第四预测结果之间的差距可以通过距离来表示,该距离可以是余弦距离、KL距离等等,本申请实施例主要以KL距离为例进行介绍。基于此,预测损失函数的公式可以如下所示:
其中,表示预测损失函数,DKL(A||B)表示计算A和B之间的KL距离,此处A为B为/>gfine()表示产品分类模型,Aw(*)和As(*)分别表示弱数据增强和强数据增强,/>表示第二样本产品图像数据集中任一个第二样本产品图像数据。
可以理解的是,通过上述步骤对不同分类难度的样本产品图像数据采用不同的训练策略,使得产品分类模型可以更好的处理简单的噪声以及复杂的分类难度较大的样本产品图像数据的预测偏差,从而提升PU分类的精确度。
另外,与相关技术相比,本申请实施例虽然在训练基础分类模型时采用了产线良率,但是由于本申请实施例仅是将基础分类模型作为辅助,通过对无标注样本产品图像数据进行划分,得到分类难度不同的样本产品图像数据集,进而针对分类难度不同的样本产品图像数据集采用不同的训练策略进行训练,从而可以消除基础分类模型输出的预测标签中可能存在的偏差,能有效地对工业AI质检场景下的待测产品进行分类。
由上述技术方案可以看出,在工业质检场景下,通常情况下获取到的训练样本产品图像数据中包括大量无标注样本产品图像数据,在这种情况下,为了训练得到能够准确对待检测产品进行分类的产品分类模型,从而精确地识别待检测产品是有缺陷产品还是正常产品,可以先对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签,并对多个无标注样本产品图像数据进行二次预测得到多个无标注样本产品图像数据分别对应的第一预测结果,预测标签和第一预测结果的一致性可以在一定程度上反映无标注样本产品图像数据的分类难度,通常情况下,预测标签与第一预测结果越一致,则分类难度越低,故可以基于预测标签和第一预测结果的一致性对多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,第一样本产品图像数据集中第一样本产品图像数据的分类难度低于第二样本产品图像数据集中第二样本产品图像数据的分类难度。然后利用第一样本产品图像数据集和第二样本产品图像数据集训练产品分类模型,在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,具体的,在利用第一样本产品图像数据集训练产品分类模型的过程中,由于其分类难度非常低,偶尔可能会存在噪声带来影响,故可以基于第一样本产品图像数据集构建标签校准损失函数,并基于标签校准损失函数训练产品分类模型,标签校准损失函数用于消除预测标签中的噪声;在利用第二样本产品图像数据集训练产品分类模型的过程中,由于其分类难度较大,预测标签可能存在较大不确定性,故可以基于第二样本产品图像数据集构建特征一致性损失函数,并基于特征一致性损失函数训练产品分类模型,特征一致性损失函数用于校正对第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差,从而实现针对其特征的一致性进行训练,挖掘第二样本产品图像数据集中第二样本产品图像数据固有的特征区别,提升产品分类模型对于正负样本的区分能力。可见,本申请在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,实现对不同分类难度的样本产品图像数据集进行针对性训练,从而提高产品分类模型的区分能力,提高产品分类模型的分类结果的精度。
在一种可能的实现方式中,可以通过模型蒸馏的方式压缩训练框架中的产品分类模型的大小,从而提升效率。模型蒸馏提供了一种训练手段,可以将一个或多个大模型的知识迁移到一个小模型上,便于模型部署,加快推理速度。也就是说,本申请实施例采用的产品分类模型可以是一个小模型,通过模型蒸馏使得该小模型很快的学习到大模型的泛化能力,通过大模型在一定程度上指导小模型的学习。大模型与小模型的输入是相同的,只是小模型的模型结构比大模型的模型结构简单轻量,便于提升效率。
在得到产品分类模型后,可以将其用于工业AI质检场景中。在工业AI质检场景中,当需要对某个产品进行分类,以判断其是正常产品还是有缺陷产品时,可以将该产品作为待检测产品,从而获取到待检测产品对应的待检测产品图像,将待检测产品图像输入至通过本申请实施例提供的方法训练得到的产品分类模型中,通过产品分类模型得到待检测产品图像的分类结果,分类结果用于指示待检测产品图像对应的待检测产品是否为有缺陷产品。
参见图6所示,图6以待检测产品是皮革为例,图6示出了5个皮革分别对应的待检测产品图像。通过产品分类模型可以得到每张待检测产品图像的分类结果,依次是有缺陷产品、有缺陷产品、有缺陷产品、有缺陷产品和正常产品。
参见图6,在针对大量皮革进行检测后,基于每个皮革的最终分类结果,统计有缺陷产品和正常产品的比例,得到统计结果,其中有缺陷产品占1%,正常产品占99%。
当利用产品分类模型进行产品分类时,产品分类模型的训练方法以及基于产品分类模型的产品分类方法在实际业务使用中往往作为缺陷识别模块的子模块被集成在技术服务商的后台服务中,它的上游模块包括了产品成像模块、缺陷配准模块等,它的下游模块包括了数据库模块、数据分析统计模块等,其整体架构图如图7所示。其中,产品成像模块可以用于对待检测产品进行拍照得到待检测产品图像;缺陷配准模块主要用于对拍摄得到的待检测产品图像进行配准,将不同待检测产品图像的缺陷配准到相近的位置,从而便于得到便于识别的待检测产品图像;数据分析统计模块用于统计有缺陷产品和正常产品的数量或比例;数据库模块可以用于记录统计结果。在图7中,7011所示的产品成像模块和7012所示的缺陷配准模块位于前端模块701上,该前端模块701可以是客户端;7021所示的缺陷识别模块、7022所示的数据分析统计模块和7023所示的数据库模块位于后端模块702上。
需要说明的是,本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
基于图2对应实施例提供的产品分类模型的训练方法,本申请实施例还提供一种产品分类模型的训练装置800。参见图8,所述产品分类模型的训练装置800包括获取单元801、预测单元802、划分单元803、训练单元804和构建单元805:
所述获取单元801,用于获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
所述预测单元802,用于对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
所述预测单元802,还用于对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
所述划分单元803,用于基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
所述训练单元804,用于利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
所述构建单元805,用于在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数;
所述训练单元804,具体用于基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
所述构建单元805,还用于在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数;
所述训练单元804,具体用于基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
在一种可能的实现方式中,所述构建单元805,具体用于:
基于所述第一样本产品图像数据集中每个第一样本产品图像数据,通过所述产品分类模型得到每个第一样本产品图像数据的第二预测结果;
根据所述每个第一样本产品图像数据的第二预测结果和对应的预测标签构建标签校准损失函数。
在一种可能的实现方式中,所述产品分类模型包括多层卷积层,所述构建单元805,具体用于:
针对所述第二样本产品图像数据集中每个第二样本产品图像数据,通过所述多层卷积层中的第一卷积层输出第一卷积特征,并基于所述第一卷积特征构建第一损失函数;
对所述第二样本产品图像数据集中每个第二样本产品图像数据分别进行不同程度的数据增强,得到每个第二样本产品图像数据分别对应的第一样本增强数据和第二样本增强数据;
针对每个第二样本产品图像数据,基于所述第二样本产品图像数据的第一样本增强数据和第二样本增强数据,通过所述多层卷积层中的第二卷积层输出所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征,在所述多层卷积层中的前向传播方向上,所述第二卷积层位于所述第一卷积层之后;
基于所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征构建第二损失函数;
根据所述第一损失函数和所述第二损失函数构建所述特征一致性损失函数。
在一种可能的实现方式中,所述构建单元805,具体用于:
基于所述第二样本产品图像数据集,通过基础分类模型包括的多层卷积层中的第三卷积层输出第三卷积特征,所述第三卷积层在所述基础分类模型包括的多层卷积层中的相对位置与所述第一卷积层在所述产品分类模型包括的多层卷积层中的相对位置相同;
根据所述第一卷积特征和所述第三卷积特征之间的差距构建所述第一损失函数。
在一种可能的实现方式中,所述第一卷积层为所述产品分类模型包括的多层卷积层中的第一层卷积层,所述第三卷积层为所述基础分类模型包括的多层卷积层中的第一层卷积层。
在一种可能的实现方式中,所述构建单元805,具体用于:
基于所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征之间的差距构建特征信息损失函数;
基于所述第二样本产品图像数据的第一样本增强数据通过所述产品分类模型输出第三预测结果,以及基于所述第二样本产品图像数据的第二样本增强数据,通过所述产品分类模型输出第四预测结果;
基于所述第三预测结果和所述第四预测结果之间的差距构建预测损失函数;
根据所述特征信息损失函数和所述预测损失函数构建所述第二损失函数。
在一种可能的实现方式中,所述第二卷积层为所述产品分类模型包括的多层卷积层中最后一层卷积层。
在一种可能的实现方式中,所述训练样本产品图像数据中还包括具有标注标签的正样本产品图像数据以及产线良率,所述训练单元804还用于:
利用所述正样本产品图像数据、所述多个无标注样本产品图像数据和所述产线良率训练基础分类模型;
所述预测单元802,具体用于:
基于训练得到的基础分类模型对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签。
在一种可能的实现方式中,所述划分单元803,具体用于:
针对每个无标注样本产品图像数据,若所述无标注样本产品图像数据的第一预测结果与对应的预测标签一致,将所述无标注样本产品图像数据划分至所述第一样本产品图像数据集;
若所述无标注样本产品图像数据的第一预测结果与对应的预测标签不一致,将所述无标注样本产品图像数据划分至所述第二样本产品图像数据集。
在一种可能的实现方式中,所述训练样本产品图像数据中还包括具有标注标签的正样本产品图像数据,所述训练单元804还用于:
对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果之前,利用具有标注标签的正样本产品图像数据、所述多个无标注样本产品图像数据和所述多个无标注样本产品图像数据分别对应的预测标签训练所述辨别模型;
在利用具有标注标签的正样本产品图像数据训练所述辨别模型的过程中,基于所述标注标签和所述正样本产品图像数据构建第三损失函数,并基于所述第三损失函数训练所述辨别模型;
在利用所述多个无标注样本产品图像数据和所述多个无标注样本产品图像数据分别对应的预测标签训练所述辨别模型的过程中,针对所述多个无标注样本产品图像数据中每个无标注样本产品图像数据,通过所述辨别模型输出所述无标注样本产品图像数据的第五预测结果,并根据所述第五预测结果和对应的预测标签构建交叉熵损失函数,以利用所述交叉熵损失函数训练所述辨别模型;
所述预测单元802,具体用于:
利用训练得到的所述辨别模型对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果。
在一种可能的实现方式中,所述装置还包括分类单元:
所述获取单元801还用于获取待检测产品图像;
所述分类单元,用于通过所述产品分类模型得到所述待检测产品图像的分类结果,所述分类结果用于指示所述待检测产品图像对应的待检测产品是否为有缺陷产品。
由上述技术方案可以看出,在工业质检场景下,通常情况下获取到的训练样本产品图像数据中包括大量无标注样本产品图像数据,在这种情况下,为了训练得到能够准确对待检测产品进行分类的产品分类模型,从而精确地识别待检测产品是有缺陷产品还是正常产品,可以先对多个无标注样本产品图像数据进行初步预测得到多个无标注样本产品图像数据分别对应的预测标签,并对多个无标注样本产品图像数据进行二次预测得到多个无标注样本产品图像数据分别对应的第一预测结果,预测标签和第一预测结果的一致性可以在一定程度上反映无标注样本产品图像数据的分类难度,通常情况下,预测标签与第一预测结果越一致,则分类难度越低,故可以基于预测标签和第一预测结果的一致性对多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,第一样本产品图像数据集中第一样本产品图像数据的分类难度低于第二样本产品图像数据集中第二样本产品图像数据的分类难度。然后利用第一样本产品图像数据集和第二样本产品图像数据集训练产品分类模型,在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,具体的,在利用第一样本产品图像数据集训练产品分类模型的过程中,由于其分类难度非常低,偶尔可能会存在噪声带来影响,故可以基于第一样本产品图像数据集构建标签校准损失函数,并基于标签校准损失函数训练产品分类模型,标签校准损失函数用于消除预测标签中的噪声;在利用第二样本产品图像数据集训练产品分类模型的过程中,由于其分类难度较大,预测标签可能存在较大不确定性,故可以基于第二样本产品图像数据集构建特征一致性损失函数,并基于特征一致性损失函数训练产品分类模型,特征一致性损失函数用于校正对第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差,从而实现针对其特征的一致性进行训练,挖掘第二样本产品图像数据集中第二样本产品图像数据固有的特征区别,提升产品分类模型对于正负样本的区分能力。可见,本申请在训练过程中针对不同分类难度的样本产品图像数据集采用不同的训练策略,实现对不同分类难度的样本产品图像数据集进行针对性训练,从而提高产品分类模型的区分能力,提高产品分类模型的分类结果的精度。
本申请实施例还提供了一种计算机设备,该计算机设备可以执行产品分类模型的训练方法。该计算机设备例如可以是终端,以终端为智能手机为例:
图9示出的是与本申请实施例提供的智能手机的部分结构的框图。参考图9,智能手机包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路910、存储器920、输入单元930、显示单元940、传感器950、音频电路960、无线保真(英文缩写:WiFi)模块970、处理器980、以及电源990等部件。输入单元930可包括触控面板931以及其他输入设备932,显示单元940可包括显示面板941,音频电路960可以包括扬声器961和传声器962。可以理解的是,图9中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储器920可用于存储软件程序以及模块,处理器980通过运行存储在存储器920的软件程序以及模块,从而执行智能手机的各种功能应用以及数据处理。存储器920可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器920可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器980是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器920内的软件程序和/或模块,以及调用存储在存储器920内的数据,执行智能手机的各种功能和处理数据。可选的,处理器980可包括一个或多个处理单元;优选的,处理器980可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器980中。
在本实施例中,智能手机中的处理器980可以执行以下步骤:
获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数,并基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数,并基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
本申请实施例提供的计算机设备还可以是服务器,请参见图10所示,图10为本申请实施例提供的服务器1000的结构图,服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器,例如中央处理器(Central Processing Units,简称CPU)1022,以及存储器1032,一个或一个以上存储应用程序1042或数据1044的存储介质1030(例如一个或一个以上海量存储设备)。其中,存储器1032和存储介质1030可以是短暂存储或持久存储。存储在存储介质1030的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1022可以设置为与存储介质1030通信,在服务器1000上执行存储介质1030中的一系列指令操作。
服务器1000还可以包括一个或一个以上电源1026,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1058,和/或,一个或一个以上操作系统1041,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在本实施例中,服务器1000中的中央处理器1022可以执行以下步骤:
获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数,并基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数,并基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
根据本申请的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行前述各个实施例所述的产品分类模型的训练方法。
根据本申请的一个方面,提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述实施例各种可选实现方式中提供的方法。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储计算机程序的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术成员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (15)
1.一种产品分类模型的训练方法,其特征在于,所述方法包括:
获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数,并基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数,并基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
2.根据权利要求1所述的方法,其特征在于,所述基于所述第一样本产品图像数据集构建标签校准损失函数,包括:
基于所述第一样本产品图像数据集中每个第一样本产品图像数据,通过所述产品分类模型得到每个第一样本产品图像数据的第二预测结果;
根据所述每个第一样本产品图像数据的第二预测结果和对应的预测标签构建标签校准损失函数。
3.根据权利要求1所述的方法,其特征在于,所述产品分类模型包括多层卷积层,所述基于所述第二样本产品图像数据集构建特征一致性损失函数,包括:
针对所述第二样本产品图像数据集中每个第二样本产品图像数据,通过所述多层卷积层中的第一卷积层输出第一卷积特征,并基于所述第一卷积特征构建第一损失函数;
对所述第二样本产品图像数据集中每个第二样本产品图像数据分别进行不同程度的数据增强,得到每个第二样本产品图像数据分别对应的第一样本增强数据和第二样本增强数据;
针对每个第二样本产品图像数据,基于所述第二样本产品图像数据的第一样本增强数据和第二样本增强数据,通过所述多层卷积层中的第二卷积层输出所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征,在所述多层卷积层中的前向传播方向上,所述第二卷积层位于所述第一卷积层之后;
基于所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征构建第二损失函数;
根据所述第一损失函数和所述第二损失函数构建所述特征一致性损失函数。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第一卷积特征构建第一损失函数,包括:
基于所述第二样本产品图像数据集,通过基础分类模型包括的多层卷积层中的第三卷积层输出第三卷积特征,所述第三卷积层在所述基础分类模型包括的多层卷积层中的相对位置与所述第一卷积层在所述产品分类模型包括的多层卷积层中的相对位置相同;
根据所述第一卷积特征和所述第三卷积特征之间的差距构建所述第一损失函数。
5.根据权利要求4所述的方法,其特征在于,所述第一卷积层为所述产品分类模型包括的多层卷积层中的第一层卷积层,所述第三卷积层为所述基础分类模型包括的多层卷积层中的第一层卷积层。
6.根据权利要求3所述的方法,其特征在于,所述基于所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征构建第二损失函数,包括:
基于所述第一样本增强数据和所述第二样本增强数据分别对应的第二卷积特征之间的差距构建特征信息损失函数;
基于所述第二样本产品图像数据的第一样本增强数据通过所述产品分类模型输出第三预测结果,以及基于所述第二样本产品图像数据的第二样本增强数据,通过所述产品分类模型输出第四预测结果;
基于所述第三预测结果和所述第四预测结果之间的差距构建预测损失函数;
根据所述特征信息损失函数和所述预测损失函数构建所述第二损失函数。
7.根据权利要求3-6任一项所述的方法,其特征在于,所述第二卷积层为所述产品分类模型包括的多层卷积层中最后一层卷积层。
8.根据权利要求1-6任一项所述的方法,其特征在于,所述训练样本产品图像数据中还包括具有标注标签的正样本产品图像数据以及产线良率,所述方法还包括:
利用所述正样本产品图像数据、所述多个无标注样本产品图像数据和所述产线良率训练基础分类模型;
所述对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签,包括:
基于训练得到的基础分类模型对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签。
9.根据权利要求1-6任一项所述的方法,其特征在于,所述基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,包括:
针对每个无标注样本产品图像数据,若所述无标注样本产品图像数据的第一预测结果与对应的预测标签一致,将所述无标注样本产品图像数据划分至所述第一样本产品图像数据集;
若所述无标注样本产品图像数据的第一预测结果与对应的预测标签不一致,将所述无标注样本产品图像数据划分至所述第二样本产品图像数据集。
10.根据权利要求1-6任一项所述的方法,其特征在于,所述训练样本产品图像数据中还包括具有标注标签的正样本产品图像数据,所述对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果之前,所述方法还包括:
利用具有标注标签的正样本产品图像数据、所述多个无标注样本产品图像数据和所述多个无标注样本产品图像数据分别对应的预测标签训练所述辨别模型;
在利用具有标注标签的正样本产品图像数据训练所述辨别模型的过程中,基于所述标注标签和所述正样本产品图像数据构建第三损失函数,并基于所述第三损失函数训练所述辨别模型;
在利用所述多个无标注样本产品图像数据和所述多个无标注样本产品图像数据分别对应的预测标签训练所述辨别模型的过程中,针对所述多个无标注样本产品图像数据中每个无标注样本产品图像数据,通过所述辨别模型输出所述无标注样本产品图像数据的第五预测结果,并根据所述第五预测结果和对应的预测标签构建交叉熵损失函数,以利用所述交叉熵损失函数训练所述辨别模型;
所述对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果,包括:
利用训练得到的所述辨别模型对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果。
11.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取待检测产品图像;
通过所述产品分类模型得到所述待检测产品图像的分类结果,所述分类结果用于指示所述待检测产品图像对应的待检测产品是否为有缺陷产品。
12.一种产品分类模型的训练装置,其特征在于,所述装置包括获取单元、预测单元、划分单元、训练单元和构建单元:
所述获取单元,用于获取训练样本产品图像数据,所述训练样本产品图像数据包括多个无标注样本产品图像数据;
所述预测单元,用于对所述多个无标注样本产品图像数据进行初步预测得到所述多个无标注样本产品图像数据分别对应的预测标签;
所述预测单元,还用于对所述多个无标注样本产品图像数据进行二次预测得到所述多个无标注样本产品图像数据分别对应的第一预测结果;
所述划分单元,用于基于所述预测标签和所述第一预测结果的一致性对所述多个无标注样本产品图像数据进行划分得到第一样本产品图像数据集和第二样本产品图像数据集,所述第一样本产品图像数据集中第一样本产品图像数据的分类难度低于所述第二样本产品图像数据集中第二样本产品图像数据的分类难度;
所述训练单元,用于利用所述第一样本产品图像数据集和所述第二样本产品图像数据集训练产品分类模型;
所述构建单元,用于在利用所述第一样本产品图像数据集训练所述产品分类模型的过程中,基于所述第一样本产品图像数据集构建标签校准损失函数;
所述训练单元,具体用于基于所述标签校准损失函数训练所述产品分类模型,所述标签校准损失函数用于消除预测标签中的噪声;
所述构建单元,还用于在利用所述第二样本产品图像数据集训练所述产品分类模型的过程中,基于所述第二样本产品图像数据集构建特征一致性损失函数;
所述训练单元,具体用于基于所述特征一致性损失函数训练所述产品分类模型,所述特征一致性损失函数用于校正对所述第二样本产品图像数据集中第二样本产品图像数据进行特征提取的特征偏差。
13.一种计算机设备,其特征在于,所述计算机设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码当被处理器执行时使所述处理器执行权利要求1-11任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211726536.2A CN116958724A (zh) | 2022-12-29 | 2022-12-29 | 一种产品分类模型的训练方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211726536.2A CN116958724A (zh) | 2022-12-29 | 2022-12-29 | 一种产品分类模型的训练方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116958724A true CN116958724A (zh) | 2023-10-27 |
Family
ID=88446718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211726536.2A Pending CN116958724A (zh) | 2022-12-29 | 2022-12-29 | 一种产品分类模型的训练方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116958724A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648576A (zh) * | 2024-01-24 | 2024-03-05 | 腾讯科技(深圳)有限公司 | 数据增强模型训练及数据处理方法、装置、设备、介质 |
-
2022
- 2022-12-29 CN CN202211726536.2A patent/CN116958724A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648576A (zh) * | 2024-01-24 | 2024-03-05 | 腾讯科技(深圳)有限公司 | 数据增强模型训练及数据处理方法、装置、设备、介质 |
CN117648576B (zh) * | 2024-01-24 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 数据增强模型训练及数据处理方法、装置、设备、介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
JP6397144B2 (ja) | 画像からの事業発見 | |
CN107133569B (zh) | 基于泛化多标记学习的监控视频多粒度标注方法 | |
CN110503076B (zh) | 基于人工智能的视频分类方法、装置、设备和介质 | |
CN110941978B (zh) | 一种未识别身份人员的人脸聚类方法、装置及存储介质 | |
CN110660102B (zh) | 基于人工智能的说话人识别方法及装置、系统 | |
US10423817B2 (en) | Latent fingerprint ridge flow map improvement | |
KR20220004009A (ko) | 키 포인트 검출 방법, 장치, 전자 기기 및 저장 매체 | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
TWI803243B (zh) | 圖像擴增方法、電腦設備及儲存介質 | |
CN114298997B (zh) | 一种伪造图片检测方法、装置及存储介质 | |
Yang et al. | Fast and robust key frame extraction method for gesture video based on high-level feature representation | |
CN117036843A (zh) | 目标检测模型训练方法、目标检测方法和装置 | |
CN117152459A (zh) | 图像检测方法、装置、计算机可读介质及电子设备 | |
CN111709382A (zh) | 人体轨迹处理方法、装置、计算机存储介质以及电子设备 | |
CN116958724A (zh) | 一种产品分类模型的训练方法和相关装置 | |
CN112686122B (zh) | 人体及影子的检测方法、装置、电子设备、存储介质 | |
CN112861881A (zh) | 一种基于改进MobileNet模型的蜂窝肺识别方法 | |
CN113395584B (zh) | 一种视频数据处理方法、装置、设备以及介质 | |
CN114299572A (zh) | 人脸年龄估计方法、装置及电子设备 | |
CN114596435A (zh) | 语义分割标签的生成方法、装置、设备及存储介质 | |
CN114299295A (zh) | 一种数据处理方法及相关装置 | |
CN114519729A (zh) | 图像配准质量评估模型训练方法、装置和计算机设备 | |
Cai et al. | Semantic edge detection based on deep metric learning | |
CN117173731B (zh) | 一种模型训练的方法、图像处理的方法以及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |