CN114445682A - 训练模型的方法、装置、电子设备、存储介质及产品 - Google Patents
训练模型的方法、装置、电子设备、存储介质及产品 Download PDFInfo
- Publication number
- CN114445682A CN114445682A CN202210109350.6A CN202210109350A CN114445682A CN 114445682 A CN114445682 A CN 114445682A CN 202210109350 A CN202210109350 A CN 202210109350A CN 114445682 A CN114445682 A CN 114445682A
- Authority
- CN
- China
- Prior art keywords
- image
- model
- target
- images
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012549 training Methods 0.000 title claims abstract description 39
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 281
- 238000004590 computer program Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000005520 cutting process Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000002372 labelling Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本公开提供了一种训练模型的方法、装置、电子设备、存储介质及产品,涉及人工智能技术领域,尤其涉及计算机视觉,图像处理,深度学习等领域。具体实现方案为:获取第一图像集,并调用第一模型以及第二模型,通过第一模型和第二模型分别对第一图像集进行目标检测,基于第一目标检测结果和第二目标检测结果,确定误检图像;生成包括误检图像的第二图像集,并基于第二图像集训练第一模型。本公开通过对比第一模型和第二模型得到的目标检测结果,确定第一模型检测错误的误检图像。利用包括有误检图像的图像集对第一模型进行训练,使第一模型有针对性学习误检图像的特征,避免再次出现误检情况,进而提高了目标检测的准确率。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉,图像处理,深度学习等领域。
背景技术
在对无标注的海量数据进行标注的场景中,大型且精度高的模型(简称大模型)标注的准确率高,但大模型通常具备庞大复杂的网络结构。然而,由于普通设备(移动设备)一般只具备计算能力有限的图形处理器和有限的存储。因此,难以在低资源设备上直接部署和运行复杂的大模型。受限于运行条件以及成本,通常会选择小型且精度低的模型(简称轻量级模型)进行数据标注,但轻量级模型往往达不到检测精度要求,从而为实际应用带来了困难。
发明内容
本公开提供了一种用于训练模型的方法、装置、电子设备、存储介质及产品。
根据本公开的一方面,提供了一种训练模型的方法,包括:
获取第一图像集,并调用第一模型以及第二模型,通过所述第一模型和所述第二模型分别对所述第一图像集进行目标检测,所述第一模型的目标检测准确度小于所述第二模型的目标检测准确度;确定所述第一模型对所述第一图像集进行目标检测的第一目标检测结果,并确定所述第二模型对所述第一图像集进行目标检测的第二目标检测结果;基于所述第一目标检测结果和所述第二目标检测结果,确定误检图像;生成包括所述误检图像的第二图像集,并基于所述第二图像集训练所述第一模型。
根据本公开的另一方面,提供了一种训练模型的装置,包括:目标检测单元,用于获取第一图像集,并调用第一模型以及第二模型,通过所述第一模型和所述第二模型分别对所述第一图像集进行目标检测,所述第一模型的目标检测准确度小于所述第二模型的目标检测准确度;确定单元,用于确定所述第一模型对所述第一图像集进行目标检测的第一目标检测结果,并确定所述第二模型对所述第一图像集进行目标检测的第二目标检测结果,还用于基于所述第一目标检测结果和所述第二目标检测结果,确定误检图像;生成单元,用于生成包括所述误检图像的第二图像集;训练单元,用于基于所述第二图像集训练所述第一模型。
根据本公开的又一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现所述的方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开实施例训练模型的方法流程示意图;
图2是根据本公开实施例的生成第二图像集的流程示意图;
图3是根据本公开实施例的组合误检图像和目标图像的流程示意图;
图4是根据本公开实施例的组合后图像的示意图;
图5是根据本公开实施例的确定误检图像的流程示意图;
图6是根据本公开实施例的生成训练第一模型的第二图像集的场景示意图;
图7是根据一示例性实施例示出的一种训练模型的装置框图。
图8是用来实现本公开实施例的训练模型的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开训练好的模型可以应用于对没有标注的图像进行标注。在相关技术中,对没有标注的图像进行标注往往需要耗费巨大的人力。故,如何利用海量的未标注的视频图像数据已成为计算机视觉领域亟需解决的问题。在利用模型对没有标注的视频图像数据进行标注前,需要对模型进行训练。训练模型时不仅需要正样本数据,还需要负样本数据。以对图像中的人脸进行标注为例,正样本数据是指标注为人脸的数据,负样本数据是指标注为非人脸的数据。在模型实际对图像进行标注的过程中,存在将负样本数据标记为正样本的情况。这种模型将原本为负样本的数据标记为正样本的数据,称为误检数据。因此,在训练模型时,需要获取更多的误检数据以提高模型标注的准确性。
相关技术中对误检数据的标注方式包括以下两种:
1、通过人工标注误检数据。该方式存在的缺陷是需要投入大量的人力成本以及时间成本。
2、通过标注误检数据的模型标注误检数据。利用相关技术中标注误检数据的模型标注误检数据的缺陷在于,首先,对具体场景中的图像进行标注,得到的误检数据形式单一,不够丰富。可以理解为,仅能得到具备某一类特征的误检数据,涉及可能被误检的特征不够全面。其次,获得图像中误检数据的负样本和图像中正样本的比例不够。
鉴于此,本公开实施例提供了一种训练模型的方法。利用目标检测准确率高的大模型,和有待进一步优化的轻量级模型,对同一组图像进行目标检测。将大模型的目标检测结果和轻量级模型的目标检测结果进行对比,确定属于轻量级模型的目标检测结果,却不属于大模型的目标检测结果的异常目标检测结果。将异常目标检测结果作为误检数据。在训练轻量级模型的训练样本中增加误检数据,使轻量级模型有针对性的对误检数据的特征进行学习。以此,提高轻量级模型的目标检测准确率。
需说明,本公开实施例中的大模型,可以理解为一个预训练模型,该预训练模型是在大量的数据机上训练的。大模型的具体结构不定,可以是已有的经典模型(例如Retinaface,faceboxes,hambox),也可以是经过经改造后的模型。本公开实施例中有待进一步优化的轻量级模型,是指在实际项目中使用的模型。即,在实际项目中受限于运行条件和成本,实际采用的模型。轻量级模型的主干结构(backbone)可以根据需要进行选择。示例的,可以选择轻量化网络(SqueezeNet,mobilenet,shufflenet或者通过蒸馏得到的网络结构)。
本公开以下为便于描述,将有待进一步优化的轻量级模型采用第一模型表征。将大模型采用第二模型表征。将第一模型和第二模型识别的同一图像集采用第一图像集表征。将第一模型对第一图像集进行目标检测的检测结果采用第一目标检测结果表征。将第二模型对第一图像集进行目标检测的检测结果采用第二目标检测结果表征。将包括有误检数据的用于训练第一模型的训练集采用第二图像集表征。应理解,下文中出现误检图像和误检数据时,含义的一致性。
本公开下述实施例,将结合附图对本公开提供的一种训练模型的方法进行说明。
图1是根据本公开实施例训练模型的方法流程示意图;如图1所示,本公开实施例提供的一种训练模型的方法,包括以下步骤。
在步骤S101中,获取第一图像集,并调用第一模型以及第二模型,通过第一模型和第二模型分别对第一图像集进行目标检测。
通过本公开实施例的上述内容可知,第一模型的目标检测准确度小于第二模型的目标检测准确度。本公开实施例利用第二模型的目标检测结果监督第一模型的目标检测结果,以确定第一模型对第一图像集进行目标检测时,检测结果有误的数据。
本公开实施例中目标检测的对象可以为人脸、车辆、动物等。第一图像集中的图像既包括有进行目标检测的对象,还包括有非目标检测的对象。示例的,第一模型和第二模型目标检测的对象是人脸,在第一图像集中既包括含有人脸的图像,还包括有不含人脸的图像。
在步骤S102中,确定第一模型对第一图像集进行目标检测的第一目标检测结果,并确定第二模型对第一图像集进行目标检测的第二目标检测结果。
在第一图像集中包括有多张图像,为了便于描述,将第一图像集中的图像采用第一图像表征。应理解,第一图像并不是指第一图像集中的第一张图像或某张具体的图像,是对第一图像集中所有图像的泛指。以第一图像集中的任一第一图像为例,将第一图像分别输入第一模型和第二模型,确定第一模型对第一图像的第一目标检测结果,并确定第二模型对第一图像的第二目标检测结果。利用第一模型和第二模型对第一图像集中所有第一图像进行目标检测,得到对应的目标检测结果。
在步骤S103中,基于第一目标检测结果和第二目标检测结果,确定误检图像。
将第一目标检测结果与第二目标检测结果进行比较,根据比较结果确定误检图像。若第一目标检测结果与第二目标检测结果相同,则该图像标注为非误检图像。若第一目标检测结果与第二目标检测结果不相同,则该图像标注为误检图像。
除上述方式之外,本公开实施例还可以在第一图像集中的第一图像和第一图像对应的目标检测结果间建立对应关系。在第一模型和第二模型对第一图像集中的所有第一图像目标检测完成的情况下,获取第一模型中所有标注检测到目标的第一图像,并获取第二模型中所有标注检测到目标的第一图像。将第一模型中所有标注检测到目标的第一图像,与第二模型中所有标注检测到目标的第一图像进行对比,确定第一模型标注但第二模型未标注的第一图像。将第一模型标注但第二模型未标注的第一图像,确定为误检图像。
示例的,第一图像集中包括100张图像,利用第一模型以及第二模型分别对第一图像集中的图像进行人脸检测。利用第一模型对第一图像集的第一检测结果为第一图像集中包括有12个人脸检测结果。利用第二模型对第一图像集的第二检测结果为第一图像集中包括有10个人脸检测结果。将包括有不在第二模型中的两个人脸检测结果的图像,确定为误检图像。
在步骤S104中,生成包括误检图像的第二图像集,并基于第二图像集训练第一模型。
为误检图像标记负标签,将标记有负标签的误检图像作为负样本增加到训练第一模型的第二图像集中。第二图像集中包括有正样本和负样本。按照常用的训练方式,将第二图像集中的第二图像输入第一模型,第一模型输出对第二图像的标注结果。基于第一模型输出的标注结果与第二图像实际对应的标签,计算损失函数的值。并根据损失函数的值调整第一模型的模型参数。
在本公开实施例中,调用第一模型和第二模型对第一图像集进行目标检测。通过对比第一模型和第二模型得到的目标检测结果,确定第一模型检测错误的误检图像。利用包括有误检图像的图像集对第一模型进行训练,使第一模型有针对性学习误检图像的特征,避免再次出现误检情况,进而提高了目标检测的准确率。
在上述任一实施例的基础上,图2是根据本公开实施例的生成第二图像集的流程示意图;如图2所示,生成包括误检图像的第二图像集,包括以下步骤。
在步骤S201中,在目标数据库中,获取多张目标图像。
在本公开实施例中,目标数据库中存储的目标图像中包括有第一模型和第二模型进行目标检测的检测目标。一示例中,若第一模型和第二模型进行目标检测的检测目标为人脸,则目标图像中包括有人脸。又一示例中,若第一模型和第二模型进行目标检测的检测目标为车辆,则目标图像中包括有车辆。
在步骤S202中,将多张目标图像与误检图像进行组合,生成包括组合后图像的第二图像集。
在本公开实施例中,组合后图像中可以是多张相同的目标图像与误检图像进行组合。组合后图像中也可以是多张不同的目标图像与误检图像进行组合。
在本公开实施例中,为了保留误检图像的特征,将误检图像和目标图像按照预设的组合规则进行组合。将目标图像与误检图像进行组合后的图像,能够规避图像中的其他特征对误检图像特征的干扰。利用包括有组合后图像的第二图像集,训练第一模型时,保证第一模型能够学习到有组合后图像中导致误检的特征,进而保证训练后的模型在后续目标检测的过程中,降低误检概率。
在上述任一实施例的基础上,图3是根据本公开实施例的组合误检图像和目标图像的流程示意图;如图3所示,将多张目标图像与误检图像进行组合,包括以下步骤。
在步骤S301中,对误检图像进行预处理,得到误检区域图像。
在本公开实施例中,对误检图像进行预处理(crop)的目的是为了保留误检区域,即避免在下采样过程中,对图像进行缩小后,不能准确学习到误检区域图像的图像特征。对误检图像进行crop的过程包括扩展误检图像的尺寸,并在误检图像中确定误检区域。在扩展尺寸后的误检图像中裁剪得到包括误检区域的误检区域图像。通过对误检图像进行扩展和裁剪处理,保证得到的误检区域图像保留误检区域的特征。
在一种实施方式中,将误检图像进行扩展,得到扩展后的误检图像。在扩展后的误检图像中,将扩展前的检测框的中心作为误检区域图像的中心,并按照预设尺寸进行裁剪。
在步骤S302中,对多张目标图像进行预处理,得到多张目标区域图像。
对目标图像进行crop的过程与对误检图像进行crop的过程类似,此处不再进行赘述。
在一种实施方式中,crop后的目标图像和crop后的误检图像的尺寸在检测框的1.5~2.0倍之间。
在步骤S303中,组合误检区域图像以及多张目标区域图像,得到组合后图像。
在本公开实施例中,组合后图像的中心为误检区域图像,多张目标区域图像位于误检区域图像周边。
在本公开实施例中,组合误检区域图像以及多张目标区域图像,能够保留误检区域图像的特征。相比于之际在误检区域图像周围增加目标图像而言,尽可能的保证得到组合后图像仍然是误检图像。
在一种实施方式中,误检区域图像与多张目标区域图像以特定方式呈现。如图4所示,误检区域图像与多张目标区域图像以九宫格形式。以九宫格的形式进行组合得到的组合后图像,能够提高第一模型在特征提取过程中,提取到误检区域图像的特征的概率。特定方式除了九宫格形式之外,还可以包括十字形式和X形式等,本公开并不做具体限定。
在上述任意一项实施例的基础上,基于第一目标检测结果和第二目标检测结果,确定误检图像,如图5所示,包括以下步骤。
在步骤S501中,确定第一模型对第一图像集中第一图像的第一目标检测结果,并确定第二模型对第一图像的第二目标检测结果。
在步骤S502中,确定第一目标检测结果和第二目标检测结果的交并比。
在本公开实施例中,确定第一目标检测结果和第二目标检测结果的交并比(Intersection over Union,IoU)是指,计算第一模型对第一图像的第一目标检测结果,与第二模型对第一图像的第二目标检测结果的交集和并集的比值。
在步骤S503中,若交并比小于阈值,则将第一图像确定为误检图像。
在本公开实施例中,通过第一目标检测结果与第二目标检测结果的交并比,能够准确的确定误检图像。
在本公开实施例中,图6是根据本公开实施例的生成训练第一模型的第二图像集的示意图。如图6所示,本示例检测的目标为人脸。将海量场景图像image分别输入第一模型和第二模型,比较第一模型的第一目标检测结果和第二模型的第二目标检测结果,得到误检图像。对误检图像进行crop后,得到误检区域图像(在图6中简称误检图)。从crop人脸数据库中获取多张人脸crop图。其中,crop人脸数据库可以是预先生成的。将误检区域图像和多张人脸crop图按九宫格形式进行组合,得到组成第二图像集的图像。
基于相同的构思,本公开实施例还提供一种训练模型的装置。
可以理解的是,本公开实施例提供的训练模型的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤,本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本公开实施例的技术方案的范围。
图7是根据一示例性实施例示出的一种训练模型的装置框图。参照图7,该装置700包括目标检测单元701,确定单元702、生成单元703和训练单元704。
目标检测单元701,用于获取第一图像集,并调用第一模型以及第二模型,通过第一模型和第二模型分别对第一图像集进行目标检测,第一模型的目标检测准确度小于第二模型的目标检测准确度;确定单元702,用于确定第一模型对第一图像集进行目标检测的第一目标检测结果,并确定第二模型对第一图像集进行目标检测的第二目标检测结果,还用于基于第一目标检测结果和第二目标检测结果,确定误检图像;生成单元703,用于生成包括误检图像的第二图像集;训练单元704,用于基于第二图像集训练第一模型。
通过本公开实施提供的装置,调用第一模型和第二模型对第一图像集进行目标检测。通过对比第一模型和第二模型得到的目标检测结果,确定第一模型检测错误的误检图像。利用包括有误检图像的图像集对第一模型进行训练,使第一模型有针对性学习误检图像的特征,避免再次出现误检情况,进而提高了目标检测的准确率。
在一种实施方式中,生成单元703,还用于:在目标数据库中,获取多张目标图像,目标图像中包括有第一模型和第二模型进行目标检测的检测目标;将多张目标图像与误检图像进行组合,生成包括组合后图像的第二图像集。
在一种实施方式中,生成单元703,还用于:对误检图像进行预处理,得到误检区域图像;对多张目标图像进行预处理,得到多张目标区域图像;组合误检区域图像以及多张目标区域图像,得到组合后图像,其中,组合后图像的中心为误检区域图像,多张目标区域图像位于误检区域图像周边。
在一种实施方式中,误检区域图像与多张目标区域图像以特定方式呈现,其中特定方式包括九宫格形式、十字形式和X形式。
在一种实施方式中,生成单元703,还用于:扩展误检图像的尺寸,并在误检图像中确定误检区域;在扩展尺寸后的误检图像中裁剪得到包括误检区域的误检区域图像。
在一种实施方式中,确定单元702,用于:确定第一模型对第一图像集中第一图像的第一目标检测结果,并确定第二模型对第一图像的第二目标检测结果;确定第一目标检测结果和第二目标检测结果的交并比;若交并比小于阈值,则将第一图像确定为误检图像。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如训练模型的方法。例如,在一些实施例中,训练模型的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的训练模型的方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行训练模型的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (15)
1.一种训练模型的方法,包括:
获取第一图像集,并调用第一模型以及第二模型,通过所述第一模型和所述第二模型分别对所述第一图像集进行目标检测,所述第一模型的目标检测准确度小于所述第二模型的目标检测准确度;
确定所述第一模型对所述第一图像集进行目标检测的第一目标检测结果,并确定所述第二模型对所述第一图像集进行目标检测的第二目标检测结果;
基于所述第一目标检测结果和所述第二目标检测结果,确定误检图像;
生成包括所述误检图像的第二图像集,并基于所述第二图像集训练所述第一模型。
2.根据权利要求1所述的方法,其中,所述生成包括所述误检图像的第二图像集,包括:
在目标数据库中,获取多张目标图像,所述目标图像中包括有所述第一模型和所述第二模型进行目标检测的检测目标;
将所述多张目标图像与所述误检图像进行组合,生成包括组合后图像的第二图像集。
3.根据权利要求2所述的方法,其中,所述将所述多张目标图像与所述误检图像进行组合,包括:
对所述误检图像进行预处理,得到误检区域图像;
对所述多张目标图像进行预处理,得到多张目标区域图像;
组合所述误检区域图像以及所述多张目标区域图像,得到组合后图像,其中,所述组合后图像的中心为所述误检区域图像,所述多张目标区域图像位于所述误检区域图像周边。
4.根据权利要求3所述的方法,其中,所述误检区域图像与所述多张目标区域图像以特定方式呈现,所述特定方式包括九宫格形式、十字形式和X形式。
5.根据权利要求3所述的方法,其中,所述对所述误检图像进行预处理,得到误检区域图像,包括:
扩展所述误检图像的尺寸,并在所述误检图像中确定误检区域;
在扩展尺寸后的误检图像中裁剪得到包括误检区域的误检区域图像。
6.根据权利要求1-5中任意一项所述的方法,其中,所述基于所述第一目标检测结果和所述第二目标检测结果,确定误检图像,包括:
确定第一模型对第一图像集中第一图像的第一目标检测结果,并确定所述第二模型对所述第一图像的第二目标检测结果;
确定所述第一目标检测结果和第二目标检测结果的交并比;
若所述交并比小于阈值,则将所述第一图像确定为误检图像。
7.一种训练模型的装置,包括:
目标检测单元,用于获取第一图像集,并调用第一模型以及第二模型,通过所述第一模型和所述第二模型分别对所述第一图像集进行目标检测,所述第一模型的目标检测准确度小于所述第二模型的目标检测准确度;
确定单元,用于确定所述第一模型对所述第一图像集进行目标检测的第一目标检测结果,并确定所述第二模型对所述第一图像集进行目标检测的第二目标检测结果,还用于基于所述第一目标检测结果和所述第二目标检测结果,确定误检图像;
生成单元,用于生成包括所述误检图像的第二图像集;
训练单元,用于基于所述第二图像集训练所述第一模型。
8.根据权利要求7所述的装置,其中,所述生成单元,还用于:
在目标数据库中,获取多张目标图像,所述目标图像中包括有所述第一模型和所述第二模型进行目标检测的检测目标;
将所述多张目标图像与所述误检图像进行组合,生成包括组合后图像的第二图像集。
9.根据权利要求8所述的装置,其中,所述生成单元,还用于:
对所述误检图像进行预处理,得到误检区域图像;
对所述多张目标图像进行预处理,得到多张目标区域图像;
组合所述误检区域图像以及所述多张目标区域图像,得到组合后图像,其中,所述组合后图像的中心为所述误检区域图像,所述多张目标区域图像位于所述误检区域图像周边。
10.根据权利要求9所述的装置,其中,所述误检区域图像与所述多张目标区域图像以特定方式呈现,所述特定方式包括九宫格形式、十字形式和X形式。
11.根据权利要求9所述的装置,其中,所述生成单元,还用于:
扩展所述误检图像的尺寸,并在所述误检图像中确定误检区域;
在扩展尺寸后的误检图像中裁剪得到包括误检区域的误检区域图像。
12.根据权利要求7-11中任意一项所述的装置,其中,所述确定单元,用于:
确定第一模型对第一图像集中第一图像的第一目标检测结果,并确定所述第二模型对所述第一图像的第二目标检测结果;
确定所述第一目标检测结果和第二目标检测结果的交并比;
若所述交并比小于阈值,则将所述第一图像确定为误检图像。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109350.6A CN114445682A (zh) | 2022-01-28 | 2022-01-28 | 训练模型的方法、装置、电子设备、存储介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109350.6A CN114445682A (zh) | 2022-01-28 | 2022-01-28 | 训练模型的方法、装置、电子设备、存储介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114445682A true CN114445682A (zh) | 2022-05-06 |
Family
ID=81372366
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210109350.6A Pending CN114445682A (zh) | 2022-01-28 | 2022-01-28 | 训练模型的方法、装置、电子设备、存储介质及产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114445682A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937185A (zh) * | 2022-06-07 | 2022-08-23 | 阿波罗智联(北京)科技有限公司 | 图像样本采集方法、装置、电子设备和存储介质 |
CN117710944A (zh) * | 2024-02-05 | 2024-03-15 | 虹软科技股份有限公司 | 模型缺陷检测方法、模型训练方法、目标检测方法和系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467526B1 (en) * | 2018-01-17 | 2019-11-05 | Amaon Technologies, Inc. | Artificial intelligence system for image similarity analysis using optimized image pair selection and multi-scale convolutional neural networks |
CN110852285A (zh) * | 2019-11-14 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机设备和存储介质 |
CN111260608A (zh) * | 2020-01-08 | 2020-06-09 | 来康科技有限责任公司 | 一种基于深度学习的舌部区域检测方法及系统 |
WO2020159241A1 (ko) * | 2019-01-30 | 2020-08-06 | 삼성전자 주식회사 | 이미지를 처리하기 위한 방법 및 그에 따른 장치 |
CN111814832A (zh) * | 2020-06-11 | 2020-10-23 | 上海联影智能医疗科技有限公司 | 一种目标检测方法、装置及存储介质 |
CN111881908A (zh) * | 2020-07-20 | 2020-11-03 | 北京百度网讯科技有限公司 | 目标检测模型的修正方法、检测方法、装置、设备及介质 |
CN111914863A (zh) * | 2019-05-09 | 2020-11-10 | 顺丰科技有限公司 | 目标检测方法、装置、终端设备及计算机可读存储介质 |
CN112200218A (zh) * | 2020-09-10 | 2021-01-08 | 浙江大华技术股份有限公司 | 一种模型训练方法、装置及电子设备 |
WO2021017261A1 (zh) * | 2019-08-01 | 2021-02-04 | 平安科技(深圳)有限公司 | 识别模型训练方法、图像识别方法、装置、设备及介质 |
CN112418264A (zh) * | 2020-10-14 | 2021-02-26 | 上海眼控科技股份有限公司 | 检测模型的训练方法、装置、目标检测方法、设备和介质 |
CN113239746A (zh) * | 2021-04-26 | 2021-08-10 | 深圳市安思疆科技有限公司 | 电动车检测方法、装置、终端设备及计算机可读存储介质 |
CN113688887A (zh) * | 2021-08-13 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 图像识别模型的训练与图像识别方法、装置 |
-
2022
- 2022-01-28 CN CN202210109350.6A patent/CN114445682A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10467526B1 (en) * | 2018-01-17 | 2019-11-05 | Amaon Technologies, Inc. | Artificial intelligence system for image similarity analysis using optimized image pair selection and multi-scale convolutional neural networks |
WO2020159241A1 (ko) * | 2019-01-30 | 2020-08-06 | 삼성전자 주식회사 | 이미지를 처리하기 위한 방법 및 그에 따른 장치 |
CN111914863A (zh) * | 2019-05-09 | 2020-11-10 | 顺丰科技有限公司 | 目标检测方法、装置、终端设备及计算机可读存储介质 |
WO2021017261A1 (zh) * | 2019-08-01 | 2021-02-04 | 平安科技(深圳)有限公司 | 识别模型训练方法、图像识别方法、装置、设备及介质 |
CN110852285A (zh) * | 2019-11-14 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 对象检测方法、装置、计算机设备和存储介质 |
CN111260608A (zh) * | 2020-01-08 | 2020-06-09 | 来康科技有限责任公司 | 一种基于深度学习的舌部区域检测方法及系统 |
CN111814832A (zh) * | 2020-06-11 | 2020-10-23 | 上海联影智能医疗科技有限公司 | 一种目标检测方法、装置及存储介质 |
CN111881908A (zh) * | 2020-07-20 | 2020-11-03 | 北京百度网讯科技有限公司 | 目标检测模型的修正方法、检测方法、装置、设备及介质 |
CN112200218A (zh) * | 2020-09-10 | 2021-01-08 | 浙江大华技术股份有限公司 | 一种模型训练方法、装置及电子设备 |
CN112418264A (zh) * | 2020-10-14 | 2021-02-26 | 上海眼控科技股份有限公司 | 检测模型的训练方法、装置、目标检测方法、设备和介质 |
CN113239746A (zh) * | 2021-04-26 | 2021-08-10 | 深圳市安思疆科技有限公司 | 电动车检测方法、装置、终端设备及计算机可读存储介质 |
CN113688887A (zh) * | 2021-08-13 | 2021-11-23 | 百度在线网络技术(北京)有限公司 | 图像识别模型的训练与图像识别方法、装置 |
Non-Patent Citations (1)
Title |
---|
张晨: "基于AlexNet卷积神经网络模型的人脸识别方法与应用", 鄂州大学学报, vol. 29, no. 1, 15 January 2022 (2022-01-15), pages 102 - 104 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114937185A (zh) * | 2022-06-07 | 2022-08-23 | 阿波罗智联(北京)科技有限公司 | 图像样本采集方法、装置、电子设备和存储介质 |
CN117710944A (zh) * | 2024-02-05 | 2024-03-15 | 虹软科技股份有限公司 | 模型缺陷检测方法、模型训练方法、目标检测方法和系统 |
CN117710944B (zh) * | 2024-02-05 | 2024-06-25 | 虹软科技股份有限公司 | 模型缺陷检测方法、模型训练方法、目标检测方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966742A (zh) | 模型训练方法、目标检测方法、装置和电子设备 | |
CN113378835B (zh) | 标注模型训练、样本标注方法及相关装置 | |
CN113436100B (zh) | 用于修复视频的方法、装置、设备、介质和产品 | |
CN113657483A (zh) | 模型训练方法、目标检测方法、装置、设备以及存储介质 | |
CN114445682A (zh) | 训练模型的方法、装置、电子设备、存储介质及产品 | |
CN112861885A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN114881129A (zh) | 一种模型训练方法、装置、电子设备及存储介质 | |
EP4123595A2 (en) | Method and apparatus of rectifying text image, training method and apparatus, electronic device, and medium | |
US20240070454A1 (en) | Lightweight model training method, image processing method, electronic device, and storage medium | |
CN113963186A (zh) | 目标检测模型的训练方法、目标检测方法及相关装置 | |
CN113378958A (zh) | 自动标注方法、装置、设备、存储介质及计算机程序产品 | |
CN112580666A (zh) | 图像特征的提取方法、训练方法、装置、电子设备及介质 | |
CN114449343A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN113205041A (zh) | 结构化信息提取方法、装置、设备和存储介质 | |
CN114186681A (zh) | 用于生成模型簇的方法、装置及计算机程序产品 | |
CN113705362A (zh) | 图像检测模型的训练方法、装置、电子设备及存储介质 | |
CN115861462A (zh) | 图像生成模型的训练方法、装置、电子设备及存储介质 | |
CN114332590B (zh) | 联合感知模型训练、联合感知方法、装置、设备和介质 | |
CN115690443A (zh) | 特征提取模型训练方法、图像分类方法及相关装置 | |
CN115359308A (zh) | 模型训练、难例识别方法、装置、设备、存储介质及程序 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN114119990A (zh) | 用于图像特征点匹配的方法、装置及计算机程序产品 | |
CN114078274A (zh) | 人脸图像检测方法、装置、电子设备以及存储介质 | |
CN113627526A (zh) | 车辆标识的识别方法、装置、电子设备和介质 | |
CN115457365A (zh) | 一种模型的解释方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |