CN114373088A - 一种图像检测模型的训练方法和相关产品 - Google Patents

一种图像检测模型的训练方法和相关产品 Download PDF

Info

Publication number
CN114373088A
CN114373088A CN202111665191.XA CN202111665191A CN114373088A CN 114373088 A CN114373088 A CN 114373088A CN 202111665191 A CN202111665191 A CN 202111665191A CN 114373088 A CN114373088 A CN 114373088A
Authority
CN
China
Prior art keywords
model
category information
image
training
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111665191.XA
Other languages
English (en)
Inventor
冯展鹏
胡文泽
王孝宇
陈宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Intellifusion Technologies Co Ltd
Original Assignee
Shenzhen Intellifusion Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Intellifusion Technologies Co Ltd filed Critical Shenzhen Intellifusion Technologies Co Ltd
Priority to CN202111665191.XA priority Critical patent/CN114373088A/zh
Publication of CN114373088A publication Critical patent/CN114373088A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种图像检测模型的训练方法、电子设备和计算机可读存储介质。该训练方法将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,检测结果包括第一类别信息;利用预训练的聚类模型对检测结果执行聚类操作,得到第二类别信息;根据第二类别信息对第一类别信息进行修正,以得到修正后的第三类别信息;利用第三类别信息对未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据,将标注图像数据加入到标注图像训练集中,以用于图像检测模型的下一轮训练;响应于图像检测模型满足预设的条件时,输出图像检测模型。通过本发明的方案,解决了对图像检测模型进行训练时人工标注成本高的问题。

Description

一种图像检测模型的训练方法和相关产品
技术领域
本发明一般地涉及深度学习领域。更具体地,本发明涉及一种图像检测模型的训练方法、电子设备和计算机可读存储介质。
背景技术
随着深度学习技术的发展,基于深度学习的图像处理技术得到广泛应用。为了快速、有效地获取图像中的前景区域或显著目标,可以根据深度学习算法迭代过程训练得到图像检测模型。图像检测模型在进行训练时,可能会存在标注图像训练集较少的情况。目前针对这种情况所采用的解决办法是利用较少的图像训练集训练得到粗精度的图像检测模型,并利用该粗精度的图像检测模型在海量未标注的图像数据中进行数据挖掘,寻找对模型精度提升最有益的部分进行标注后,对图像检测模型继续进行训练,以达到提升模型精度的目的。
在图像检测模型达到设定精度之前,通常需要进行多次的数据挖掘、样本标注和训练的过程。然而,每次挖掘的样本在用于训练之前,都采用人工进行标注,这就导致在模型训练过程中会消耗大量的人工标注成本。
发明内容
为解决上文所提到的技术问题,本发明提出通过聚类算法对预训练的图像检测模型输出的检测结果进行聚类,实现了对未标注图像数据的自动标注。特别地,通过将标注后的图像加入标注图像训练集中进行下一轮训练,从而本发明的方案有效降低了模型训练的成本。为此,本发明在如下的多个方面中提供方案。
在第一方面中,本发明提供了一种用于对图像检测模型进行训练的训练方法,包括:将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,其中所述检测结果包括第一类别信息;利用预训练的聚类模型对所述检测结果执行聚类操作,得到第二类别信息;根据所述第二类别信息对所述第一类别信息进行修正,以得到修正后的第三类别信息;利用所述第三类别信息对所述未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据;将所述标注图像数据加入到标注图像训练集中,以用于所述图像检测模型的下一轮训练;响应于所述图像检测模型满足预设的条件时,输出所述图像检测模型。
在一个实施例中,在利用预训练的聚类模型对所述检测结果执行聚类操作之前还包括:获取一个预设的分类模型,其中所述分类模型包括特征提取层和分类层;对所述分类模型进行训练;将已训练的分类模型中的分类层移除,并将分类层替换为聚类层,以得到预训练的聚类模型,其中所述聚类层包含预设的聚类算法。
在一个实施例中,其中对所述分类模型进行训练包括:利用训练数据集对所述分类模型进行训练,所述训练数据集为预先获取的、已标注的图像数据。
在一个实施例中,其中利用预训练的聚类模型对所述检测结果执行聚类操作,得到第二类别信息包括:利用所述聚类模型将所述检测结果划分为不同的分类簇,并确定所述分类簇对应的类别信息;获取所述标注图像训练集中的目标簇对应的类别信息;根据所述分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息的关系确定所述第二类别信息。
在一个实施例中,所述利用所述聚类模型将所述检测结果划分为不同的分类簇,并确定所述分类簇对应的类别信息包括:提取所述检测结果的特征信息;对所述特征信息进行聚类计算,以将所述检测结果划分至不同的分类簇;以及将属于同一分类簇的检测结果判定为相同的类别,以确定所述分类簇对应的类别信息。
在一个实施例中,所述根据所述分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息的关系确定所述第二类别信息包括:判断分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息是否一致;以及响应于所述分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息一致,将检测结果与标注图像训练集中的目标簇划分为同一簇,以确定所述第二类别信息。
在一个实施例中,所述根据所述第二类别信息对所述第一类别信息进行修正,以得到修正后的第三类别信息包括:判断所述第二类别信息与所述第一类别信息是否一致;响应于所述第二类别信息与所述第一类别信息不一致,将所述第二类别信息作为修正后的第三类别信息。
在一个实施例中,所述预设的条件包括所述图像检测模型达到预设精度或者训练次数达到预设次数。
在一个实施例中,所述图像检测模型达到预设精度包括:将当前图像检测模型的模型精度与前一次验证的图像检测模型的模型精度进行比较,当前图像检测模型的模型精度无预期提升或模型精度下降。
在第二方面中,本发明还提供了一种用于对图像检测模型进行训练的训练方法,包括:检测模块,其配置成将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,其中所述检测结果包括第一类别信息;聚类分析模块,其配置成利用预训练的聚类模型对所述检测结果执行聚类操作,得到第二类别信息;根据所述第二类别信息对所述第一类别信息进行修正,以得到修正后的第三类别信息;标注模块,其配置成利用所述第三类别信息对所述未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据;数据融合模块,其配置成将所述标注图像数据加入到标注图像训练集中,以用于所述图像检测模型的下一轮训练;验证模块,其配置成响应于所述图像检测模型满足预设的条件时,输出所述图像检测模型。
在第三方面中,本发明还提供了一种电子设备,包括:处理器;以及存储器,其存储有用于对图像检测模型进行训练的计算机指令,当所述计算机指令由所述处理器运行时,使得所述电子设备执行实现第一方面中多个实施例所述的方法。
在第四方面中,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有用于对图像检测模型进行训练的计算机可读指令,该计算机可读指令被一个或多个处理器执行时实现如第一方面中多个实施例所述的方法。
通过本发明的方案,在对图像检测模型进行训练的过程中,利用聚类算法对挖掘出的数据进行聚类分析,从而确定未标注图像数据的类别信息,以将未标注图像数据转换为标注图像数据,实现了标注图像数据的自动生成,成功解放了人力操作,有效降低了模型训练过程中投入的人力成本。将生成的标注图像数据加入训练集,能够有效扩大标注图像训练集中样本的数量,有利于图像检测模型精度的快速提升。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,并且相同或对应的标号表示相同或对应的部分其中:
图1是示出其中可以应用本发明实施例的对图像检测模型进行训练的示例性场景的示意图;
图2是示出根据本发明实施例的图像检测模型的训练方法的流程图;
图3是示出根据本发明实施例的聚类模型的训练方法的流程图;
图4是示出根据本发明实施例的利用聚类模型对检测结果执行聚类操作的方法的流程图;
图5是示出根据本发明实施例的利用聚类模型确定检测结果的类别信息的方法的流程图;
图6是示出根据本发明实施例的对图像检测模型进行多轮训练的方法的流程图;以及
图7是示出根据本发明实施例的电子设备的示意框图。
具体实施方式
下面将结合本发明实施方式中的附图,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
应当理解,本发明的权利要求、说明书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。本发明的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施方式的目的,而并不意在限定本发明。如在本发明说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本发明说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
下面结合附图来详细描述本发明的具体实施方式。
图1是示出其中可以应用本发明实施例的用于对图像检测模型进行训练的示例性场景100的示意图。如图1所示,矩形框可以表示未标注图像数据,圆形、三角形和正方形可以表示需要进行检测的目标。可以理解的是本发明中仅为了示例性说明,将对图像检测模型进行训练的场景示出为图1中的对未标注图像数据中的圆形、三角形和正方形的检测目标进行标注的过程。以对图像中的动物进行检测为例,圆形可以表示图像中的猫,三角形可以表示兔子,正方形可以表示狗。又例如,对于在移动终端上的人脸检测场景来说,圆形、三角形或正方形可以分别对应于人脸的不同部位。
如图1所示,步骤S101,将未标注图像数据输入预训练的图像检测模型进行图像检测,可以输出对应的检测结果,其中检测结果中可以包括第一类别信息,即识别出的目标对象的类别。作为举例,将图1中示出的矩形框(未标注图像数据)输入图像检测模型,可以输出对应的检测结果,也即是将矩形框中未标示出的圆形、三角形和正方形等目标对象检测出来。
步骤S102,利用预训练的聚类模型对检测结果执行聚类操作,得到第二类别信息。在一个应用场景中,前述检测结果中包括圆形、三角形和正方形,将该检测结果进行聚类操作,可以将检测结果中的不同形状的图形信息进行聚类,从而形成不同的分类簇,每个分类簇中的图像对应相同的类别,即第二类别信息。作为举例,圆形位于第一个簇内,三角形位于第二个簇内,正方形位于第三个簇内。基于此,可以将处于同一个簇中的目标认定是同一类。在一个应用场景中,如果聚在某一簇的绝大部分类别信息是相同的,认定该聚的都是这个类别。根据这种规则可以修正该簇内的检测结果的类别。图1中示出的第三个簇中,大部分训练结果为正方形,但是该簇内也出现了圆形。由于该簇内大部分为正方形,判定该簇内的类别是正方形,则可以将该簇内的圆形类别修正为正方形类别。
步骤S103,将前述修正后的类别信息对应到未标注图像数据中,从而将未标注图像数据转换为标注图像数据。步骤S104,将前述得到的标注图像数据加入到标注图像训练集中,以便用于下一轮图像检测模型的训练过程。
通过本发明的方案,利用对检测结果的聚类分析过程可以确定未标注图像数据对应的类别信息,从而将未标记图像数据转换为标记图像数据,实现了对未标记图像数据的自动标记,有效降低了对未标记图像数据的标记成本。另外,通过本发明这样的自动标记方式,可以进一步扩大作为训练数据的标记图像的数据量,从而也相应地提升了训练的速度和效率。
图2是示出根据本发明实施例的图像检测模型的训练方法200的流程图。可以理解的是图2中所示出的方法流程可以在图1中所示出的示例性场景中实施,因此关于图1所描述内容也同样适用于图2。
如图2所示,步骤S201,将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,其中检测结果包括第一类别信息。在一个应用场景中,将未标注图像数据输入预训练的图像检测模型进行检测时,所输出的检测结果通常包括目标对象在图像中的位置(候选框)和目标对象的所属的类别信息(第一类别信息)。其中预训练的图像检测模型具备一定的检测能力,但输出的训练结果中可能会发生对于目标对象的定位不准确的问题或类别信息不准确的问题,又或者二者兼有。基于此,需要对训练结果进行进一步处理,以确定具体的类别信息。
步骤S202,利用预训练聚类模型对前述检测结果执行聚类操作,以得到第二类别信息。在一些实施例中,根据预训练的聚类模型对检测结果进行聚类后,可以将属于同一类的图像划分至一个分类簇中,从而可以确定该分类簇对应的类别信息,即第二类别信息。
步骤S203,根据第二类别信息对第一类别信息进行修正,以得到修正后的第三类别信息。在一个应用场景中,根据聚类模型对检测结果进行聚类操作之后,被划分至同一分类簇中的检测结果中的第一类别信息可能与该分类簇对应的第二类别信息不同,此时可以根据第二类别信息对第一类别信息进行修正,以得到修正后的第三类别信息。
步骤S204,利用第三类别信息对未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据。在一个应用场景中,假设在对检测结果进行聚类时,提取该检测结果中设定长度的特征信息,根据该设定长度的特征信息进行聚类计算,就可以将多个检测结果分类并得到不同的聚类簇(或分类簇)。例如,可以将同一个分类簇内的目标判定为同一类别,而距离较远的分类簇则判定为不同类别。基于此,通过前述聚类操作可以确定第二类别信息,根据第二类别信息对第一类别信息进行修正后,可以利用修正后的第三类别信息实现对未标注图像数据的标注。
再接着,步骤S205,将前述标注图像数据加入到标注图像训练集中,以用于所述图像检测模型的下一轮训练。在一个应用场景中,通过将每轮训练过程中挖掘的标注图像数据加入到标注图像训练集中,可以在每轮训练过程中增加训练集的数据量,有利于提升模型精度。最后,步骤S206,响应于图像检测模型满足预设的条件时,输出图像检测模型。
根据本发明的方案,在对图像检测模型进行训练时,通过将检测结果执行聚类操作,实现了将检测结果进行自动而有效的分类。利用修正后的类别信息可以自动将未标注的图像数据转换为标记图像数据,有效降低了对训练集的人工标注成本。通过将获得的标记图像数据加入标记图像训练集中,实现了每轮训练过程中标记图像训练集的数据量的扩大效果,从而显著提升图像检测模型的模型精度。
图3是示出根据本发明实施例的聚类模型的训练方法300的流程图。可以理解的是,图3流程所示出的方案可以是图2方法步骤S202中所采用预训练的聚类模型的一种可能实现方式,因此关于图2中方法的描述也同样适用于下文关于图3的描述。
如图3所示,步骤S301,获取一个预设的分类模型,其中分类模型包括特征提取层和分类层。接着,步骤S302,对分类模型进行训练。
在一个应用场景中,可以将训练数据集中中的目标对象取出(例如对图像执行裁剪操作,仅保留目标对象的部分),以用于对分类模型进行训练。在训练过程中,还可以采用损失函数cross-entropy loss对分类网络进行训练(包括正向训练和反向训练)。
步骤S303,将已训练的分类模型中的分类层移除,并将分类层替换为聚类层,以得到预训练的聚类模型,其中聚类层包含预设的聚类算法。例如k-means聚类算法。在一个应用场景中,对分类网络训练完成后,特征提取层可以用于提取图像特征。将分类层去除,并将分类层替换为聚类层,可以根据聚类层包含的预设的聚类算法对图像特征进行计算,从而确定类别信息。作为举例,假设倒数第二层的输出维度是512维。由此,在利用训练得到的聚类模型对检测结果进行聚类的过程中,将可以提取长度为512的特征信息,并利用该提取的512维的特征信息进行聚类计算,从而得到不同的簇和对应的第二类别信息。
以上结合图3中的流程图对本发明中聚类模型的获取方式进行了详细介绍,接下来将结合附图4至图6对本发明的方案中训练图像检测模型的具体操作过程进行详细阐述。
图4是示出根据本发明实施例的利用聚类模型对检测结果执行聚类操作的方法400的流程图。可以理解的是,图4流程所示出的方案可以是图2方法步骤S202的一种可能实现方式,因此关于图2中方法的描述也同样适用于下文关于图4的描述。
如图4所示,步骤S401,利用前述聚类模型将检测结果划分为不同的分类簇,并确定分类簇对应的类别信息。
步骤S402,获取标注图像训练集中的目标簇对应的类别信息。
步骤S403,根据分类簇对应的类别信息与标注图像训练集中目标簇对应的类别信息的关系确定第二类别信息。
在一些实施例中,在将未标注图像数据输入预训练的图像检测模型进行训练时,输出的检测结果可能只有一部分是正确的。在利用聚类模型将检测结果划分为不同的分类簇时,可能会出现同一个分类簇中包含了不同的类别信息。此时以一个分类簇中数量占多数的类别信息为准,将出现的个别不同的类别信息修改为该簇中对应的类别信息,从而可以实现对检测结果中第一类别信息的修正。
作为举例,通过聚类过程将检测结果中包含的猫、狗和兔子分别划分至三个不同的分类簇中,但是在某一个分类簇中大部分检测结果对应的类别信息是狗,但是该分类簇中还出现了个别检测结果对应的类别信息是兔子,此时可以将该分类簇中对应类别信息是兔子的检测结果修改为狗,从而实现对检测结果的修正。
进一步,利用预训练的聚类模型对检测结果进行聚类后,能够得到的每个分类簇对应的类别信息,但是由于图像检测模型的可能存在不准确的问题,该分类簇的类别信息可能整体是错误的。此时基于标注图像训练集中目标簇信息可以对分类簇对应的类别信息进行判定,从而将错误的类别信息修正或将该分类簇中的检测结果去除。
作为举例,某个分类簇对应的类别信息是狗,但是将该分类簇与标注图像训练集中目标簇信息进行比对后,确定该分类簇对应的类别信息不是狗,则可以修正该分类簇对应的类别信息或将该分类簇内的检测结果去除。
图5是示出根据本发明实施例的利用聚类模型确定检测结果的类别信息的方法500的流程图。可以理解的是,图5流程所示出的方案可以是图4方法步骤S401至步骤S403的一种可能实现方式,因此关于图4中方法的描述也同样适用于下文关于图5的描述。
如图5所示,步骤S501,提取检测结果的特征信息。在一些实施例中,可以提取检测结果对应的512维的特征信息,从而组成长度为512维的特征信息数据。
接着,步骤S502,对前述提取的特征信息进行聚类,以将检测结果划分至不同的分类簇。作为举例,可以根据检测结果对应的512维特征信息进行聚类计算以得到不同的簇。
此后,步骤S503,将属于同一分类簇的检测结果判定为相同的类别,以确定所述分类簇中的检测结果的对应的类别信息。在一些实施例中,通过对属于同一簇中的训练结果判定为相同的类别,可以减少每个簇中出现的个别类别信息对训练结果的干扰,从而提升模型训练的精度。
进一步,步骤S504,获取标注图像训练集中的目标簇对应的类别信息。
然后,步骤S505,判断分类簇对应的类别信息与标注图像训练集中目标簇对应的类别信息是否一致。
在一些实施例中,可以通过计算分类簇和标注图像训练集中目标簇之间的向量的距离,从而判断分类簇对应的类别信息与前述标注图像训练集中目标簇对应的类别信息是否一致。作为举例,可以选取分类簇的512维的特征信息,512维的特征信息可以组成一个向量,将其与目标簇中512维的特征信息计算特征距离,例如计算余弦相似度,从而可以确定分类簇的类别信息与前述标注图像训练集中目标簇的类别信息是否一致。
步骤S506,响应于分类簇对应的类别信息与标注图像训练集中目标簇对应的类别信息一致,将检测结果与标注图像训练集中的目标簇划分为同一簇,以确定第二类别信息。在操作过程中,若检测结果对应的类别信息是正确的,将检测结果与标注图像训练集中的目标分到同一个簇内,若检测结果对应的类别信息不正确的,将检测结果分到与标注图像训练集中的目标不同的簇。
可以理解的是前述提取特征信息时所得到的特征信息的长度(或聚类模型的输出维度)是示意性的而非限制性的,本领域技术人员可以根据实际需要选择合适的维度,例如128维或1080维。
在本发明的第二方面,本发明还提供了一种图像检测模型的训练方法。图6是示出根据本发明实施例的对图像检测模型进行多轮训练的方法600的流程图。
如图6所示,步骤S601,将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,其中所述检测结果包括第一类别信息。然后执行步骤S602,利用预训练的聚类模型对检测结果执行聚类操作,得到第二类别信息。步骤S603,根据第二类别信息对第一类别信息进行修正,以得到修正后的第三类别信息。然后执行步骤S604,利用第三类别信息对未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据。接着,步骤S605,将标注图像数据加入到标注图像训练集中,以用于图像检测模型的下一轮训练。步骤S606,对图像检测模型进行训练。在一个应用场景中,可以利用获取的标注图像训练集对图像检测模型进行训练。
接着将在步骤S607处,判断图像检测模型是否达到预设精度或者训练次数达到预设次数。如果没有达到设定数量的训练次数且图像检测模型没有达到预设精度,继续执行步骤S601,以实现下一轮图像检测模型的训练过程。如果图像检测模型达到预设精度或者训练次数达到预设次数,执行步骤S608,输出图像检测模型。通过对训练次数和/或模型精度的判定,执行一轮或多轮前述多个实施例所述的训练方法,以对图像检测模型进行训练。由于该步骤S601至步骤S605的方法流程已在上述内容中详细说明,此处将不再重复阐述。
在一些实施例中,如果前述对图像检测模型的训练次数达到设定数量,可以直接输出图像检测模型,也可以继续执行上述的步骤601~步骤606。接下来可以对图像检测模型进行验证,以确定图像检测模型的模型精度是否满足预定条件,例如利用验证数据集验证模型精度是否达到峰值。
进一步,前述步骤S607中,可以利用验证数据集对训练后的图像检测模型进行验证,以确定图像检测模型的模型精度是否满足预设精度。
在一些实施例中,利用验证数据集对训练后的图像检测模型进行验证,以得到当前图像检测模型的模型精度时,可以将当前图像检测模型的模型精度与前一次验证的图像检测模型的模型精度进行比较,以确定当前图像检测模型的模型精度是否无预期提升(例如人为预先设定的提升指标)或模型精度下降。若当前图像检测模型的模型精度无预期提升,或当前图像检测模型的模型精度下降时,则选取模型精度最高的图像检测模型作为最终的图像检测模型。
在一个应用场景中,如果当前图像检测模型的模型精度相对于前一次验证的图像检测模型的模型精度的提升程度低于设定值或设定范围。作为举例该设定值可以是0.01%,该设定范围可以是0.01%~0.015%。可以判定当前图像检测模型的精度无预期提升。此时可以选取当前的图像检测模型作为最终模型输出。在另一个应用场景中,如果当前图像检测模型的模型精度低于前一次验证的图像检测模型的模型精度,则判定当前模型精度下降,此时可以将前一次训练得到图像检测模型作为最终模型输出。
图7是示出根据本发明实施例的电子设备700的示意框图。该设备700可以包括根据本发明实施例的设备701以及其外围设备和外部网络。如前所述,该设备701实现将未标注图像数据输入预训练的图像检测模型进行图像检测、利用聚类模型对所述检测结果执行聚类操作、对未标注图像数据进行标注和将标注图像数据加入到标注图像训练集中等操作,以实现前述结合图2至图6所述的本发明的方案。
如图7中所示,设备701可以包括CPU7011,其可以是通用CPU、专用CPU或者其他信息处理以及程序运行的执行单元。进一步,设备701还可以包括大容量存储器7012和只读存储器ROM 7013,其中大容量存储器7012可以配置用于存储各类数据以及所需的各种程序,ROM 7013可以配置成存储对于设备701的加电自检、系统中各功能模块的初始化、系统的基本输入/输出的驱动程序及引导操作系统所需的数据。
进一步,设备701还包括其他的硬件平台或组件,例如示出的TPU(TensorProcessing Unit,张量处理单元)7014、GPU(Graphic Processing Unit,图形处理器)7015、FPGA(Field Programmable Gate Array,现场可编程逻辑门阵列)7017和MLU(MemoryLogic Unit),存储器逻辑单元)7017。可以理解的是,尽管在设备701中示出了多种硬件平台或组件,但这里仅仅是示例性的而非限制性的,本领域技术人员可以根据实际需要增加或移除相应的硬件。例如,设备701可以仅包括CPU作为公知硬件平台和另一硬件平台作为本发明的测试硬件平台。
本发明的设备701还包括通信接口7018,从而可以通过该通信接口7018连接到局域网/无线局域网(LAN/WLAN)705,进而可以通过LAN/WLAN连接到本地服务器707或连接到因特网(“Internet”)707。替代地或附加地,本发明的设备701还可以通过通信接口7018基于无线通信技术直接连接到因特网或蜂窝网络,例如基于第三代(“3G”)、第四代(“4G”)或第5代(“5G”)的无线通信技术。在一些应用场景中,本发明的设备701还可以根据需要访问外部网络的服务器708以及可能的数据库709。
设备701的外围设备可以包括显示装置702、输入装置703以及数据传输接口704。在一个实施例中,显示装置702可以例如包括一个或多个扬声器和/或一个或多个视觉显示器。输入装置703可以包括例如键盘、鼠标、麦克风、姿势捕捉相机,或其他输入按钮或控件,其配置用于接收数据的输入或用户指令。数据传输接口704可以包括例如串行接口、并行接口或通用串行总线接口(“USB”)、小型计算机系统接口(“SCSI”)、串行ATA、火线(“FireWire”)、PCI Express和高清多媒体接口(“HDMI”)等,其配置用于与其他设备或系统的数据传输和交互。
本发明的设备701的上述CPU 7011、大容量存储器7012、只读存储器ROM 7013、TPU7014、GPU 7015、FPGA 7017、MLU 7017和通信接口7018可以通过总线7019相互连接,并且通过该总线与外围设备实现数据交互。在一个实施例中,通过该总线7019,CPU 7011可以控制设备701中的其他硬件组件及其外围设备。
在工作中,本发明的设备701的处理器CPU 7011可以通过输入装置703或数据传输接口704获取媒体数据包,并调取存储于存储器7012中的计算机程序指令或代码对获取到的信息进行处理,以完成媒体数据包中检测信息的填充或确定网络状况。
基于上文,本发明也公开了一种计算机可读存储介质,其上存储有用于对图像检测模型进行训练的计算机可读指令,该计算机可读指令被一个或多个处理器执行时,实现在前结合附图所描述的方法和操作。进一步,此处的计算机可读存储介质可以是任何适当的磁存储介质或者磁光存储介质,比如,阻变式存储器RRAM(Resistive Random AccessMemory)、动态随机存取存储器DRAM(Dynamic Random Access Memory)、静态随机存取存储器SRAM(Static Random-Access Memory)、增强动态随机存取存储器EDRAM(EnhancedDynamic Random Access Memory)、高带宽内存HBM(High-Bandwidth Memory)、混合存储立方HMC(Hybrid Memory Cube)等等,或者可以用于存储所需信息并且可以由应用程序、模块或两者访问的任何其他介质。任何这样的计算机存储介质可以是设备的一部分或可访问或可连接到设备。本发明描述的任何应用或模块可以使用可以由这样的计算机可读介质存储或以其他方式保持的计算机可读/可执行指令来实现。
虽然本说明书已经示出和描述了本发明的多个实施方式,但对于本领域技术人员显而易见的是,这样的实施方式是仅以示例的方式提供的。本领域技术人员在不偏离本发明思想和精神的情况下想到许多更改、改变和替代的方式。应当理解在实践本发明的过程中,可以采用本文所描述的本发明实施方式的各种替代方案。所附权利要求书旨在限定本发明的保护范围,并因此覆盖这些权利要求范围内的模块组成、等同或替代方案。

Claims (12)

1.一种图像检测模型的训练方法,其特征在于,包括:
将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,其中所述检测结果包括第一类别信息;
利用预训练的聚类模型对所述检测结果执行聚类操作,得到第二类别信息;
根据所述第二类别信息对所述第一类别信息进行修正,以得到修正后的第三类别信息;
利用所述第三类别信息对所述未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据;
将所述标注图像数据加入到标注图像训练集中,以用于所述图像检测模型的下一轮训练;
响应于所述图像检测模型满足预设的条件时,输出所述图像检测模型。
2.根据权利要求1所述的训练方法,其特征在于,在利用预训练的聚类模型对所述检测结果执行聚类操作之前还包括:
获取一个预设的分类模型,其中所述分类模型包括特征提取层和分类层;
对所述分类模型进行训练;
将已训练的分类模型中的分类层移除,并将分类层替换为聚类层,以得到预训练的聚类模型,其中所述聚类层包含预设的聚类算法。
3.根据权利要求2所述的训练方法,其特征在于,其中对所述分类模型进行训练包括:
利用训练数据集对所述分类模型进行训练,所述训练数据集为预先获取的、已标注的图像数据。
4.根据权利要求1所述的训练方法,其特征在于,其中利用预训练的聚类模型对所述检测结果执行聚类操作,得到第二类别信息包括:
利用所述聚类模型将所述检测结果划分为不同的分类簇,并确定所述分类簇对应的类别信息;
获取所述标注图像训练集中的目标簇对应的类别信息;
根据所述分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息的关系确定所述第二类别信息。
5.根据权利要求4所述的训练方法,其特征在于,所述利用所述聚类模型将所述检测结果划分为不同的分类簇,并确定所述分类簇对应的类别信息包括:
提取所述检测结果的特征信息;
对所述特征信息进行聚类计算,以将所述检测结果划分至不同的分类簇;以及
将属于同一分类簇的检测结果判定为相同的类别,以确定所述分类簇对应的类别信息。
6.根据权利要求4或5所述的训练方法,其特征在于,所述根据所述分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息的关系确定所述第二类别信息包括:
判断分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息是否一致;以及
响应于所述分类簇对应的类别信息与所述标注图像训练集中目标簇对应的类别信息一致,将检测结果与标注图像训练集中的目标簇划分为同一簇,以确定所述第二类别信息。
7.根据权利要求1所述的训练方法,其特征在于,所述根据所述第二类别信息对所述第一类别信息进行修正,以得到修正后的第三类别信息包括:
判断所述第二类别信息与所述第一类别信息是否一致;
响应于所述第二类别信息与所述第一类别信息不一致,将所述第二类别信息作为修正后的第三类别信息。
8.根据权利要求1所述的训练方法,其特征在于,所述预设的条件包括所述图像检测模型达到预设精度或者训练次数达到预设次数。
9.根据权利要求8所述的训练方法,其特征在于,所述图像检测模型达到预设精度包括:
将当前图像检测模型的模型精度与前一次验证的图像检测模型的模型精度进行比较,当前图像检测模型的模型精度无预期提升或模型精度下降。
10.一种图像检测模型的训练装置,其特征在于,包括:
检测模块,其配置成将未标注图像数据输入预训练的图像检测模型进行图像检测,以得到检测结果,其中所述检测结果包括第一类别信息;
聚类分析模块,其配置成利用预训练的聚类模型对所述检测结果执行聚类操作,得到第二类别信息;根据所述第二类别信息对所述第一类别信息进行修正,以得到修正后的第三类别信息;
标注模块,其配置成利用所述第三类别信息对所述未标注图像数据进行标注,以便将未标注图像数据转换成标注图像数据;
数据融合模块,其配置成将所述标注图像数据加入到标注图像训练集中,以用于所述图像检测模型的下一轮训练;
验证模块,其配置成响应于所述图像检测模型满足预设的条件时,输出所述图像检测模型。
11.一种电子设备,其特征在于,包括:
处理器;以及
存储器,其存储有用于对图像检测模型进行训练的计算机指令,当所述计算机指令由所述处理器运行时,使得所述电子设备执行实现权利要求1-9中任意一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有用于对图像检测模型进行训练的计算机可读指令,该计算机可读指令被一个或多个处理器执行时实现如权利要求1-9任意一项所述的方法。
CN202111665191.XA 2021-12-31 2021-12-31 一种图像检测模型的训练方法和相关产品 Pending CN114373088A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111665191.XA CN114373088A (zh) 2021-12-31 2021-12-31 一种图像检测模型的训练方法和相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111665191.XA CN114373088A (zh) 2021-12-31 2021-12-31 一种图像检测模型的训练方法和相关产品

Publications (1)

Publication Number Publication Date
CN114373088A true CN114373088A (zh) 2022-04-19

Family

ID=81142210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111665191.XA Pending CN114373088A (zh) 2021-12-31 2021-12-31 一种图像检测模型的训练方法和相关产品

Country Status (1)

Country Link
CN (1) CN114373088A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375934A (zh) * 2022-10-25 2022-11-22 北京鹰瞳科技发展股份有限公司 一种用于对进行聚类的模型进行训练的方法和相关产品

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115375934A (zh) * 2022-10-25 2022-11-22 北京鹰瞳科技发展股份有限公司 一种用于对进行聚类的模型进行训练的方法和相关产品
CN115375934B (zh) * 2022-10-25 2023-04-11 北京鹰瞳科技发展股份有限公司 用于对进行聚类的模型进行训练分析的方法和相关产品

Similar Documents

Publication Publication Date Title
CN111476284B (zh) 图像识别模型训练及图像识别方法、装置、电子设备
US10599709B2 (en) Object recognition device, object recognition method, and program for recognizing an object in an image based on tag information
US20150206315A1 (en) Labeling Objects in Image Scenes
US9886762B2 (en) Method for retrieving image and electronic device thereof
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN109858476B (zh) 标签的扩充方法和电子设备
CN109165309B (zh) 负例训练样本采集方法、装置及模型训练方法、装置
CN110851641A (zh) 跨模态检索方法、装置和可读存储介质
CN110598790A (zh) 一种图像的识别方法、装置、电子设备及存储介质
CN113657087B (zh) 信息的匹配方法及装置
CN111125658A (zh) 识别欺诈用户的方法、装置、服务器和存储介质
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN114373088A (zh) 一种图像检测模型的训练方法和相关产品
CN113762303B (zh) 图像分类方法、装置、电子设备及存储介质
CN111597336B (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN111553442B (zh) 一种分类器链标签序列的优化方法及系统
CN110929647B (zh) 一种文本检测方法、装置、设备及存储介质
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
CN116246161A (zh) 领域知识引导下的遥感图像目标精细类型识别方法及装置
WO2022127333A1 (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN114139658A (zh) 分类模型的训练方法及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination