CN114359669A - 图片分析模型调整方法、装置以及计算机可读存储介质 - Google Patents

图片分析模型调整方法、装置以及计算机可读存储介质 Download PDF

Info

Publication number
CN114359669A
CN114359669A CN202111683471.3A CN202111683471A CN114359669A CN 114359669 A CN114359669 A CN 114359669A CN 202111683471 A CN202111683471 A CN 202111683471A CN 114359669 A CN114359669 A CN 114359669A
Authority
CN
China
Prior art keywords
model
detection frame
branch
detection
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111683471.3A
Other languages
English (en)
Inventor
潘雪
杨浚琦
吴凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuncong Technology Group Co Ltd
Original Assignee
Yuncong Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuncong Technology Group Co Ltd filed Critical Yuncong Technology Group Co Ltd
Priority to CN202111683471.3A priority Critical patent/CN114359669A/zh
Publication of CN114359669A publication Critical patent/CN114359669A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及计算机处理技术领域,具体提供一种图片分析模型调整方法、装置以及计算机可读存储介质,旨在解决快速调整模型以降低误检情况的技术问题。为此目的,本发明的方法包括:将训练图片输入模型,其携带指示第一检测框的类别的标注数据,模型检测头包括第一分支和第二分支,计算第二检测框的置信度和类别;在置信度高于预设水平时,判断第二检测框与第一检测框类别是否相同,不相同时为第二检测框设置伪标签,记录其类别为未知类别;对第二分支进行调整;调整完毕后,禁止模型输出检测框类别为未知类别的结果。本发明只对输出检测框类别的分支进行调整,有利于提升模型调整的效率,禁止模型输出未知类型的检测结果,改善了模型的识别能力。

Description

图片分析模型调整方法、装置以及计算机可读存储介质
技术领域
本发明涉及计算机技术领域,具体提供一种图片分析模型调整方法、装置以及计算机可读存储介质。
背景技术
随着人工智能领域的发展,计算机视觉技术在生活中得到广泛应用,人们所熟知的刷脸支付、智能监控、自动驾驶等等,背后都有一套基于计算机视觉的系统提供支持。这些系统的第一步工作大部分都是目标检测任务,找出图像中感兴趣的目标(物体),确定他们的类别和位置,然后再交由系统的后续识别、跟踪等模块进一步处理。这种检测模型通常只针对特定的检测类别,如人脸、车辆、行人、商品等,模型可以部署在开放场景下的任意环境中。
但是基于特定任务的检测模型学习都会面临一个通用的问题,准备阶段训练数据场景单一,即使在训练集表现较好的模型,当部署在开放场景时也会存在很多意想不到的误检。因此模型在实际部署过程中,场景多样性和复杂性急剧增大,误检风险明显升高。而误检的存在又会极大地影响系统的后续识别结果。因此,如何在有限的训练集上,迅速迭代模型,减少模型在开放场景的误检是一个非常有意义且十分必要的技术问题。
针对检测模型的误检问题,当前主要使用的方法包括以下两种:
(1)基于阈值过滤的方法:提高模型的输出置信度阈值,只输出分数较高模型笃定的检测目标,但是这样必然会降低模型的召回率,减少有效输出。
(2)误检作为背景的模型训练:如果总是对某种类型的目标误检,可以增加一些相应的样本到训练集中去,提高模型的分辨能力,可以在不降低召回的情况下降低误检。这种方法也存在一个直接的问题,为了让模型充分学习误检对象作为背景的泛化性,需要进行端到端的学习,每新增一类误检对象,都需要对模型重新进行端到端的训练,当训练集数据量庞大时,这样的迭代速度显然是不能被接受的。
发明内容
为了克服上述缺陷,提出了本发明,以提供解决或至少部分地快速调整模型以降低误检情况的图片分析模型调整方法、装置以及计算机可读存储介质。
在第一方面,本发明提供一种图片分析模型调整方法,所述方法包括:
将训练图片输入所述模型,所述训练图片携带指示了所述训练图片中目标对象的第一检测框的类别的标注数据,所述模型的检测头包括第一分支和第二分支,分别计算用于指示所述目标对象的第二检测框的置信度和类别;
在所述第二检测框的置信度高于预设水平时,判断所述第二检测框的类别与所述第一检测框的类别是否相同,在不相同时为所述第二检测框设置伪标签,并在所述伪标签中记录所述第二检测框的类别为未知类别;
将所述第二检测框及所述伪标签作为所述第二分支的训练数据,输入所述第二分支,根据输出结果对所述第二分支进行调整;
在所述模型调整完毕后,禁止所述模型输出检测框类别为所述未知类别的结果。
在上述图片分析模型调整方法的一个技术方案中,“根据输出结果对所述第二分支进行调整”的步骤,包括:
根据预设的损失函数,计算所述输出结果的损失值,根据所述损失值对所述第二分支的参数进行调整;
和/或,
在“在所述模型调整完毕后,禁止所述模型输出检测框类别为所述未知类别的结果”的步骤之前,还包括:
在检测到所述损失值小于预设阈值后,确定所述模型调整完毕;
和/或,
在“将训练图片输入所述模型”的步骤之前,还包括:
根据所述模型输出的历史错误结果中的检测框类别,获取所述训练图片;
和/或,
在“将所述第二检测框及所述伪标签作为所述第二分支的训练数据”的步骤之前,还包括:
如果所述第二检测框与其他检测框位于同一连通域,则根据所述其他检测框的类别更新所述第二检测框的类别;
和/或,
所述标注数据中还指示了所述第一检测框的位置,所述检测头还包括第三分支,用于计算所述第二检测框的位置;
和/或,
所述模型还包括特征提取层,所述特征提取层包括主干网络和多尺度特征融合网络,所述主管网络用于从所述训练图片中提取多尺度特征,所述多尺度特征融合网络用于将所述训练图片的多尺度特征融合为用于输入所述检测头的所述训练图片的特征。
在第二方面,提供一种图片分析模型调整装置,所述装置包括:
图片输入模块,将训练图片输入所述模型,所述训练图片携带指示了所述训练图片中目标对象的第一检测框的类别的标注数据,所述模型的检测头包括第一分支和第二分支,分别计算用于指示所述目标对象的第二检测框的置信度和类别;
类别设置模块,在所述第二检测框的置信度高于预设水平时,判断所述第二检测框的类别与所述第一检测框的类别是否相同,在不相同时为所述第二检测框设置伪标签,并在所述伪标签中记录所述第二检测框的类别为未知类别;
分支调整模块,将所述第二检测框及所述伪标签作为所述第二分支的训练数据,输入所述第二分支,根据输出结果对所述第二分支进行调整;
输出控制模块,在所述模型调整完毕后,禁止所述模型输出检测框类别为所述未知类别的结果。
在第三方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述图片分析模型调整方法的技术方案中任一项技术方案所述图片分析模型调整方法。
在第四方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述图片分析模型调整方法的技术方案中任一项技术方案所述的上述图片分析模型调整方法。
本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
在实施本发明的一个技术方案中,图片分析模型调整方法可以包括下列步骤:将训练图片输入模型,训练图片携带指示了训练图片中目标对象的第一检测框的类别的标注数据,模型的检测头包括第一分支和第二分支,分别计算用于指示目标对象的第二检测框的置信度和类别;在第二检测框的置信度高于预设水平时,判断第二检测框的类别与第一检测框的类别是否相同,在不相同时为第二检测框设置伪标签,并在伪标签中记录第二检测框的类别为未知类别;将第二检测框及伪标签作为第二分支的训练数据,输入第二分支,根据输出结果对第二分支进行调整;在模型调整完毕后,禁止模型输出检测框类别为未知类别的结果。本发明的技术方案中,对模型的检测头进行解耦处理,在对模型调整时只对输出检测框类别的分支进行调整,有利于提升模型调整的效率,通过引入未知类型标注模型的误检情况,通过禁止模型输出未知类型的检测结果,实际上是降低模型输出误检结果,有效改善了模型的识别能力。
附图说明
参照附图,本发明的公开内容将变得更易理解。本领域技术人员容易理解的是:这些附图仅仅用于说明的目的,而并非意在对本发明的保护范围组成限制。其中:
图1是根据本发明的一个实施例的图片分析模型调整方法的主要步骤流程示意图;
图2是根据本发明的一个实施例的图片分析模型调整方法的主要步骤流程示意图;
图3是根据本发明的一个实施例的图片分析模型调整方法使用的模型结构图;
图4是根据本发明的一个实施例的图片分析模型调整方法使用的工作原理图;
图5是根据本发明的一个实施例的图片分析模型调整方法使用的工作流程图;
图6是根据本发明的另一个实施例的图片分析模型调整装置的主要结构框图示意图;
图7是根据本发明的另一个实施例的图片分析模型调整装置的主要结构框图示意图。
具体实施方式
下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
在本发明的描述中,“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路,各种合适的感应器,通信端口,存储器,也可以包括软件部分,比如程序代码,也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质,比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合,比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似,可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。
参阅附图1,图1是根据本发明的一个实施例的图片分析模型调整方法的主要步骤流程示意图。
如图1所示,本发明实施例中的图片分析模型调整方法主要包括下列步骤:
步骤S110,将训练图片输入模型,训练图片携带指示了训练图片中目标对象的第一检测框的类别的标注数据,模型的检测头包括第一分支和第二分支,分别计算用于指示目标对象的第二检测框的置信度和类别。
一般地,对于目前主流的模型而言,标注数据中还指示了第一检测框的位置,检测头还包括第三分支,用于计算第二检测框的位置。模型还包括特征提取层,特征提取层包括主干网络和多尺度特征融合网络,主管网络用于从训练图片中提取多尺度特征,多尺度特征融合网络用于将训练图片的多尺度特征融合为用于输入检测头的训练图片的特征。
本实施例中对目标对象的类型不进行限制,例如其可以是行人、车辆、商品等等。本实施例中对模型的类型不进行限制,例如可以采用YOLOV5模型,其检测头的Obj分支、Cls分支和Box分支即为第一分支、第二分支和第三分支,本实施例中对Box分支、Obj分支和Cls分支进行了解耦处理。此时模型已经过训练,但是容易出现误检情况,需要通过本实施例的技术方案对模型进行微调。
步骤S120,在第二检测框的置信度高于预设水平时,判断第二检测框的类别与第一检测框的类别是否相同,在不相同时为第二检测框设置伪标签,并在伪标签中记录第二检测框的类别为未知类别。
此处获取Obj分支输出的置信度,如果第二检测框的置信度高于一定阈值或属于最高的几个值,则检测Cjs分支计算出来的类别与训练图片中第一检测框标注的真实类别是否相符,不符则说明模型出现了误检情况,所以本实施例中将那些置信度分数较高但不属于任何一类真实类别(即出现误检)的检测框归为“unknown”类别,即未知类别。
步骤S130,将第二检测框及伪标签作为第二分支的训练数据,输入第二分支,根据输出结果对第二分支进行调整。
此时对模型的特征提取层和Box、Obj分支进行固定,只训练Cls分支。由于只训练Cls分支网络,finetune(微调)效率得到提高。使用“unknown”类别的检测框对Cls分支进行训练,可以使得模型针对误检情况进行学习,即对于容易误检的对象,模型会识别其为“unknown”类别。
步骤S140,在模型调整完毕后,禁止模型输出检测框类别为未知类别的结果。
在微调达到预设水平时,模型训练完成,此时禁止模型输出“unknown”类别的检测框,由于“unknown”类别属于模型微调前识别错误的结果,所以本实施例的技术方案即禁止将误检结果输出给用户。
通过本实施例的技术方案,对模型的检测头进行解耦处理,在对模型调整时只对输出检测框类别的分支进行调整,有利于提升模型调整的效率,通过引入未知类型标注模型的误检情况,通过禁止模型输出未知类型的检测结果,实际上是降低模型输出误检结果,有效改善了模型的识别能力。
参阅附图2,图2是根据本发明的一个实施例的图片分析模型调整方法的主要步骤流程示意图。
本实施例的技术方案主要用于模型微调阶段,在微调阶段前需要对模型进行全正样本数据的端到端训练,具体包括以下过程:
(一)数据预处理。构造base(基础)训练集,仅保留含有目标检测对象的数据,对图片中的目标对象进行数据标注,包括类别和检测框坐标,得到图像数据,构建yolo类型数据集作为全正样本训练集。
(二)数据增强。采用丰富的在线数据增强,来尽可能的提升训练集数据多样性,增强方法包括mosaic、mixup、缩放、翻转、旋转、仿射变换、亮度、对比度、饱和度、运动模糊、图片压缩模糊等增强方法。
(三)图片特征提取与融合。采用开源模型YOLOV5作为基础检测网络框架,backbone(核心)部分采用CSP(跨阶段局部网络)结构主干网络提取图片的多尺度特征;对于backbone得到的多尺度特征,FPN(目标检测算法)结构自顶向下通过上采样的方式传递高层强语义特征进行特征融合;然后通过PAN(像素聚合网络)结构对FPN输出的多尺度特征自底向上传达强定位特征进一步融合,由此得到输入图片的1/8,1/16,1/32尺度特征,完成特征提取,检测网络整体结构如图3所示。
(四)解耦检测头。检测头由三个分支组成,分别是负责预测检测框位置信息的Box分支(4维输出),负责预测检测框置信度的0bj分支(1维输出)和负责预测检测框类别的Cls分支(类别数+1)。将上一步得到的图片多尺度特征分别输入对应的检测头,得到网络输出,通过后处理nms(非极大值抑制)等操作得到检测框,检测头网络结构如图4所示。
(五)全正样本端到端训练。在简单场景全正样本训练集上,对模型进行端到端训练,损失函数部分与原始yolov5保持一致,Box分支采用CIOU_Loss(一种损失函数),0bj分支采用BCE_Loss(一种损失函数),Cls分支按照标注的真实类别(假设共C类)也采用BCE_Loss,此时Cls分支只有1-C类得到训练,0类忽略不计。这样训练得到的检测网络能最大程度的保证目标对象的检出。同时显而易见的是,由于训练样本的单一,此时模型在开放场景下的误检率也极高。
如图2所示,本发明实施例中的图片分析模型调整方法主要包括下列步骤:
步骤S210,根据模型输出的历史错误结果中的检测框类别,获取训练图片。
此处更新训练集。通过对模型测试或试点部署,发现模型容易误检的类别,在训练集中有针对性地加入一些容易产生误检的负样本,数据可以来自有针对性的采集;或者直接将实际部署过程中的误检图片加入训练集,扩充训练集样本。
步骤S220,将训练图片输入模型,训练图片携带指示了训练图片中目标对象的第一检测框的类别的标注数据,模型的检测头包括第一分支和第二分支,分别计算用于指示目标对象的第二检测框的置信度和类别。
步骤S230,在第二检测框的置信度高于预设水平时,判断第二检测框的类别与第一检测框的类别是否相同,在不相同时为第二检测框设置伪标签,并在伪标签中记录第二检测框的类别为未知类别。
如图5所示,此时开始finetune检测头Cls分支。已知负责预测检测框类别的Cls分支输出C+1个类别分数,本实施例定义多的这一类为“unknown”类,标签为0,表示那些置信度分数较高但不属于任何一类训练类别的检测框。“unknown”类伪标签生成方式:前向传播过程中,根据Obj分支输出的score对检测框排序,取分数最高的topk个检测框进行Cls分支的训练,其中与真实类别标签重合的检测框保持真实的类标签,其余检测框定义为“unknown”类。
步骤S240,如果第二检测框与其他检测框位于同一连通域,则将其他检测框的类别更新第二检测框的类别。
考虑到正样本的定义规则,为了避免目标对象边缘的检测框被标注为“unknown”类,对Cls分支的输出做最小连通域计算,同一连通域内获得相同的Cls标签。
步骤S250,将第二检测框及伪标签作为第二分支的训练数据,输入第二分支,根据预设的损失函数,计算输出结果的损失值,根据损失值对第二分支的参数进行调整,在检测到损失值小于预设阈值后,确定模型调整完毕。
本实施例中对损失函数的类型不进行限制。在finetune阶段固定网络的特征提取层和Box以及Obj分支,只训练Cls分支。由于只训练Cls分支网络,finetune过程远远快于端到端训练。“unknown”类别的存在,不仅保证模型快速学习到训练集中的误检对象,对于未知场景可能存在的误检对象,也有极大概率被识别为“unknown”类。
步骤S260,在模型调整完毕后,禁止模型输出检测框类别为未知类别的结果。
在实际部署过程中只要删除“unknown”类别检测框的输出,就能有效过滤一部分误检,提升检测性能
根据本实施例的技术方案,帮助检测模型进一步过滤误检对象。本实施例提出基于一阶检测模型YOLOV5的模型微调方案,对模型检测头网络做解耦处理,分为Box分支、Obj分支和Cls分支,训练时首先在采集的全正样本数据上对网络进行端到端的训练;后续得到场景复杂容易产生误检的数据后,通过引入“unknown”类别的分类对Cls分支进行微调,在保证检出的情况下快速实现模型对误检的过滤。本实施例针对开放场景目标检测任务,提出了一种能有效过滤开放场景误检的模型训练方案,通过二阶微调的方法迅速迭代检测模型,有效改善检测模型在开放场景的误检情况,为针对特定任务的计算机视觉识别系统提供稳定、准确的目标检测对象。
参阅附图6,图6是根据本发明的一个实施例的图片分析模型调整装置的主要结构框图示意图。
如图6所示,本发明实施例中的图片分析模型调整装置主要包括下列模块:
图片输入模块610,将训练图片输入模型,训练图片携带指示了训练图片中目标对象的第一检测框的类别的标注数据,模型的检测头包括第一分支和第二分支,分别计算用于指示目标对象的第二检测框的置信度和类别。
一般地,对于目前主流的模型而言,标注数据中还指示了第一检测框的位置,检测头还包括第三分支,用于计算第二检测框的位置。模型还包括特征提取层,特征提取层包括主干网络和多尺度特征融合网络,主管网络用于从训练图片中提取多尺度特征,多尺度特征融合网络用于将训练图片的多尺度特征融合为用于输入检测头的训练图片的特征。
本实施例中对目标对象的类型不进行限制,例如其可以是行人、车辆、商品等等。本实施例中对模型的类型不进行限制,例如可以采用YOLO(一种模型)V5模型,其检测头的Obj分支、Cls分支和Box分支即为第一分支、第二分支和第三分支,本实施例中对Box分支、Obj分支和Cls分支进行了解耦处理。此时模型已经过训练,但是容易出现误检情况,需要通过本实施例的技术方案对模型进行微调。
类别设置模块620,在第二检测框的置信度高于预设水平时,判断第二检测框的类别与第一检测框的类别是否相同,在不相同时为第二检测框设置伪标签,并在伪标签中记录第二检测框的类别为未知类别。
此处获取Obj分支输出的置信度,如果第二检测框的置信度高于一定阈值或属于最高的几个值,则检测Cls分支计算出来的类别与训练图片中第一检测框标注的真实类别是否相符,不符则说明模型出现了误检情况,所以本实施例中将那些置信度分数较高但不属于任何一类真实类别(即出现误检)的检测框归为“unknown”类别,即未知类别。
分支调整模块630,将第二检测框及伪标签作为第二分支的训练数据,输入第二分支,根据输出结果对第二分支进行调整。
此时对模型的特征提取层和Box、Obj分支进行固定,只训练Cls分支。由于只训练Cls分支网络,finetune(微调)效率得到提高。使用“unknown”类别的检测框对Cls分支进行训练,可以使得模型针对误检情况进行学习,即对于容易误检的对象,模型会识别其为“Unknown”类别。
输出控制模块640,在模型调整完毕后,禁止模型输出检测框类别为未知类别的结果。
在微调达到预设水平时,模型训练完成,此时禁止模型输出“unknown”类别的检测框,由于“unknown”类别属于模型微调前识别错误的结果,所以本实施例的技术方案即禁止将误检结果输出给用户。
通过本实施例的技术方案,对模型的检测头进行解耦处理,在对模型调整时只对输出检测框类别的分支进行调整,有利于提升模型调整的效率,通过引入未知类型标注模型的误检情况,通过禁止模型输出未知类型的检测结果,实际上是降低模型输出误检结果,有效改善了模型的识别能力。
参阅附图7,图7是根据本发明的一个实施例的图片分析模型调整装置的主要结构框图示意图。
本实施例的技术方案主要用于模型微调阶段,在微调阶段前需要对模型进行全正样本数据的端到端训练,具体包括以下过程:
(一)数据预处理。构造base(基础)训练集,仅保留含有目标检测对象的数据,对图片中的目标对象进行数据标注,包括类别和检测框坐标,得到图像数据,构建yolo类型数据集作为全正样本训练集。
(二)数据增强。采用丰富的在线数据增强,来尽可能的提升训练集数据多样性,增强方法包括mosaic、mixup、缩放、翻转、旋转、仿射变换、亮度、对比度、饱和度、运动模糊、图片压缩模糊等增强方法。
(三)图片特征提取与融合。采用开源模型YOLOV5作为基础检测网络框架,backbone(核心)部分采用CSP(跨阶段局部网络)结构主干网络提取图片的多尺度特征;对于backbone得到的多尺度特征,FPN(目标检测算法)结构自顶向下通过上采样的方式传递高层强语义特征进行特征融合;然后通过PAN(像素聚合网络)结构对FPN输出的多尺度特征自底向上传达强定位特征进一步融合,由此得到输入图片的1/8,1/16,1/32尺度特征,完成特征提取,检测网络整体结构如图3所示。
(四)解耦检测头。检测头由三个分支组成,分别是负责预测检测框位置信息的Box分支(4维输出),负责预测检测框置信度的Obj分支(1维输出)和负责预测检测框类别的Cls分支(类别数+1)。将上一步得到的图片多尺度特征分别输入对应的检测头,得到网络输出,通过后处理nms(非极大值抑制)等操作得到检测框,检测头网络结构如图4所示。
(五)全正样本端到端训练。在简单场景全正样本训练集上,对模型进行端到端训练,损失函数部分与原始yolov5保持一致,Box分支采用CIOU_Loss(一种损失函数),Obj分支采用BCE_Loss(一种损失函数),Cls分支按照标注的真实类别(假设共C类)也采用BCE_Loss,此时Cls分支只有1-C类得到训练,0类忽略不计。这样训练得到的检测网络能最大程度的保证目标对象的检出。同时显而易见的是,由于训练样本的单一,此时模型在开放场景下的误检率也极高。
如图7所示,本发明实施例中的图片分析模型调整装置主要包括下列模块:
图片获取模块710,根据模型输出的历史错误结果中的检测框类别,获取训练图片。
此处更新训练集。通过对模型测试或试点部署,发现模型容易误检的类别,在训练集中有针对性地加入一些容易产生误检的负样本,数据可以来自有针对性的采集;或者直接将实际部署过程中的误检图片加入训练集,扩充训练集样本。
图片输入模块720,将训练图片输入模型,训练图片携带指示了训练图片中目标对象的第一检测框的类别的标注数据,模型的检测头包括第一分支和第二分支,分别计算用于指示目标对象的第二检测框的置信度和类别。
类别设置模块730,在第二检测框的置信度高于预设水平时,判断第二检测框的类别与第一检测框的类别是否相同,在不相同时为第二检测框设置伪标签,并在伪标签中记录第二检测框的类别为未知类别。
如图5所示,此时开始finetune检测头Cls分支。已知负责预测检测框类别的Cls分支输出C+1个类别分数,本实施例定义多的这一类为“unknown”类,标签为0,表示那些置信度分数较高但不属于任何一类训练类别的检测框。“unknown”类伪标签生成方式:前向传播过程中,根据Obj分支输出的score对检测框排序,取分数最高的topk个检测框进行Cls分支的训练,其中与真实类别标签重合的检测框保持真实的类标签,其余检测框定义为“unknown”类。
类别设置模块730,如果第二检测框与其他检测框位于同一连通域,则将其他检测框的类别更新第二检测框的类别。
考虑到正样本的定义规则,为了避免目标对象边缘的检测框被标注为“unknown”类,对Cls分支的输出做最小连通域计算,同一连通域内获得相同的Cls标签。
分支调整模块740,将第二检测框及伪标签作为第二分支的训练数据,输入第二分支,根据预设的损失函数,计算输出结果的损失值,根据损失值对第二分支的参数进行调整,在检测到损失值小于预设阈值后,确定模型调整完毕。
本实施例中对损失函数的类型不进行限制。在finetune阶段固定网络的特征提取层和Box以及Obj分支,只训练Cls分支。由于只训练Cls分支网络,finetune过程远远快于端到端训练。“unknown”类别的存在,不仅保证模型快速学习到训练集中的误检对象,对于未知场景可能存在的误检对象,也有极大概率被识别为“unknown”类。
输出控制模块750,在模型调整完毕后,禁止模型输出检测框类别为未知类别的结果。
在实际部署过程中只要删除“unknown”类别检测框的输出,就能有效过滤一部分误检,提升检测性能
根据本实施例的技术方案,帮助检测模型进一步过滤误检对象。本实施例提出基于一阶检测模型YOLOV5的模型微调方案,对模型检测头网络做解耦处理,分为Box分支、Obj分支和Cls分支,训练时首先在采集的全正样本数据上对网络进行端到端的训练;后续得到场景复杂容易产生误检的数据后,通过引入“unknown”类别的分类对Cls分支进行微调,在保证检出的情况下快速实现模型对误检的过滤。本实施例针对开放场景目标检测任务,提出了一种能有效过滤开放场景误检的模型训练方案,通过二阶微调的方法迅速迭代检测模型,有效改善检测模型在开放场景的误检情况,为针对特定任务的计算机视觉识别系统提供稳定、准确的目标检测对象。
上述图6至7所示的图片分析模型调整装置以用于执行图1至2所示的图片分析模型调整方法实施例,两者的技术原理、所解决的技术问题及产生的技术效果相似,本技术领域技术人员可以清楚地了解到,为了描述的方便和简洁,图片分析模型调整装置的具体工作过程及有关说明,可以参考图片分析模型调整方法的实施例所描述的内容,此处不再赘述。
本领域技术人员能够理解的是,本发明实现上述一实施例的方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括:能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
进一步,本发明还提供了一种控制装置。在根据本发明的一个控制装置实施例中,控制装置包括处理器和存储装置,存储装置可以被配置成存储执行上述方法实施例的图片分析模型调整方法的程序,处理器可以被配置成用于执行存储装置中的程序,该程序包括但不限于执行上述方法实施例的图片分析模型调整方法的程序。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。
进一步,本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中,计算机可读存储介质可以被配置成存储执行上述方法实施例的图片分析模型调整方法的程序,该程序可以由处理器加载并运行以实现上述图片分析模型调整方法。为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备,可选的,本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。
进一步,应该理解的是,由于各个模块的设定仅仅是为了说明本发明的装置的功能单元,这些模块对应的物理器件可以是处理器本身,或者处理器中软件的一部分,硬件的一部分,或者软件和硬件结合的一部分。因此,图中的各个模块的数量仅仅是示意性的。
本领域技术人员能够理解的是,可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理,因此,拆分或合并之后的技术方案都将落入本发明的保护范围内。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种图片分析模型调整方法,其特征在于,所述方法包括:
将训练图片输入所述模型,所述训练图片携带指示了所述训练图片中目标对象的第一检测框的类别的标注数据,所述模型的检测头包括第一分支和第二分支,分别计算用于指示所述目标对象的第二检测框的置信度和类别;
在所述第二检测框的置信度高于预设水平时,判断所述第二检测框的类别与所述第一检测框的类别是否相同,在不相同时为所述第二检测框设置伪标签,并在所述伪标签中记录所述第二检测框的类别为未知类别;
将所述第二检测框及所述伪标签作为所述第二分支的训练数据,输入所述第二分支,根据输出结果对所述第二分支进行调整;
在所述模型调整完毕后,禁止所述模型输出检测框类别为所述未知类别的结果。
2.根据权利要求1所述的图片分析模型调整方法,其特征在于,“根据输出结果对所述第二分支进行调整”的步骤,包括:
根据预设的损失函数,计算所述输出结果的损失值,根据所述损失值对所述第二分支的参数进行调整。
3.根据权利要求2所述的图片分析模型调整方法,其特征在于,在“在所述模型调整完毕后,禁止所述模型输出检测框类别为所述未知类别的结果”的步骤之前,还包括:
在检测到所述损失值小于预设阈值后,确定所述模型调整完毕。
4.根据权利要求1所述的图片分析模型调整方法,其特征在于,在“将训练图片输入所述模型”的步骤之前,还包括:
根据所述模型输出的历史错误结果中的检测框类别,获取所述训练图片。
5.根据权利要求1所述的图片分析模型调整方法,其特征在于,在“将所述第二检测框及所述伪标签作为所述第二分支的训练数据”的步骤之前,还包括:
如果所述第二检测框与其他检测框位于同一连通域,则根据所述其他检测框的类别更新所述第二检测框的类别。
6.根据权利要求1所述的图片分析模型调整方法,其特征在于,所述标注数据中还指示了所述第一检测框的位置,所述检测头还包括第三分支,用于计算所述第二检测框的位置。
7.根据权利要求1所述的图片分析模型调整方法,其特征在于,所述模型还包括特征提取层,所述特征提取层包括主干网络和多尺度特征融合网络,所述主管网络用于从所述训练图片中提取多尺度特征,所述多尺度特征融合网络用于将所述训练图片的多尺度特征融合为用于输入所述检测头的所述训练图片的特征。
8.一种图片分析模型调整装置,其特征在于,所述装置包括:
图片输入模块,将训练图片输入所述模型,所述训练图片携带指示了所述训练图片中目标对象的第一检测框的类别的标注数据,所述模型的检测头包括第一分支和第二分支,分别计算用于指示所述目标对象的第二检测框的置信度和类别;
类别设置模块,在所述第二检测框的置信度高于预设水平时,判断所述第二检测框的类别与所述第一检测框的类别是否相同,在不相同时为所述第二检测框设置伪标签,并在所述伪标签中记录所述第二检测框的类别为未知类别;
分支调整模块,将所述第二检测框及所述伪标签作为所述第二分支的训练数据,输入所述第二分支,根据输出结果对所述第二分支进行调整;
输出控制模块,在所述模型调整完毕后,禁止所述模型输出检测框类别为所述未知类别的结果。
9.一种控制装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至7中任一项所述的图片分析模型调整方法。
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的图片分析模型调整方法。
CN202111683471.3A 2021-12-31 2021-12-31 图片分析模型调整方法、装置以及计算机可读存储介质 Pending CN114359669A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111683471.3A CN114359669A (zh) 2021-12-31 2021-12-31 图片分析模型调整方法、装置以及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111683471.3A CN114359669A (zh) 2021-12-31 2021-12-31 图片分析模型调整方法、装置以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114359669A true CN114359669A (zh) 2022-04-15

Family

ID=81105227

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111683471.3A Pending CN114359669A (zh) 2021-12-31 2021-12-31 图片分析模型调整方法、装置以及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN114359669A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416666A (zh) * 2023-04-17 2023-07-11 北京数美时代科技有限公司 一种基于分布式蒸馏的人脸识别方法、系统和存储介质
CN116863250A (zh) * 2023-09-01 2023-10-10 华南理工大学 一种涉及多模态未知类识别的开放场景目标检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116416666A (zh) * 2023-04-17 2023-07-11 北京数美时代科技有限公司 一种基于分布式蒸馏的人脸识别方法、系统和存储介质
CN116863250A (zh) * 2023-09-01 2023-10-10 华南理工大学 一种涉及多模态未知类识别的开放场景目标检测方法
CN116863250B (zh) * 2023-09-01 2024-05-03 华南理工大学 一种涉及多模态未知类识别的开放场景目标检测方法

Similar Documents

Publication Publication Date Title
CN111696128B (zh) 一种高速多目标检测跟踪和目标图像优选方法及存储介质
EP3008696B1 (en) Tracker assisted image capture
CN111062974B (zh) 一种使用去除鬼影对前景目标提取的方法及系统
CN113076871A (zh) 一种基于目标遮挡补偿的鱼群自动检测方法
CN114359669A (zh) 图片分析模型调整方法、装置以及计算机可读存储介质
CN110460838B (zh) 一种镜头切换的检测方法、装置及计算机设备
CN112417955B (zh) 巡检视频流处理方法及装置
CN110310305B (zh) 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置
CN111126197A (zh) 基于深度学习的视频处理方法及装置
CN115546705B (zh) 目标识别方法、终端设备及存储介质
CN114266988A (zh) 基于对比学习的无监督视觉目标跟踪方法及系统
CN109977738B (zh) 一种视频场景分割判断方法、智能终端及存储介质
CN109727268A (zh) 目标跟踪方法、装置、计算机设备和存储介质
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN116664833A (zh) 一种提高目标重识别模型能力的方法和目标重识别方法
CN113255549B (zh) 一种狼群围猎行为状态智能识别方法及系统
CN110728229A (zh) 图像处理方法、装置、设备和存储介质
CN114913488A (zh) 抛洒物检测方法、装置、电子设备及存储介质
CN113850166A (zh) 一种基于卷积神经网络的船舶图像识别方法及系统
CN113723431A (zh) 图像识别方法、装置以及计算机可读存储介质
CN115424250A (zh) 一种车牌识别方法及装置
CN113762382B (zh) 模型的训练及场景识别方法、装置、设备及介质
CN116563170B (zh) 一种图像数据处理方法、系统以及电子设备
CN116596923B (zh) 基于边缘检测的园林植物识别方法及系统
CN117095244B (zh) 一种红外目标识别方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination