CN116486153A - 图像分类方法、装置、设备及存储介质 - Google Patents

图像分类方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116486153A
CN116486153A CN202310443613.1A CN202310443613A CN116486153A CN 116486153 A CN116486153 A CN 116486153A CN 202310443613 A CN202310443613 A CN 202310443613A CN 116486153 A CN116486153 A CN 116486153A
Authority
CN
China
Prior art keywords
model
image
frame
prediction
image classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310443613.1A
Other languages
English (en)
Inventor
周叶江
庄光庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avatr Technology Chongqing Co Ltd
Original Assignee
Avatr Technology Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avatr Technology Chongqing Co Ltd filed Critical Avatr Technology Chongqing Co Ltd
Priority to CN202310443613.1A priority Critical patent/CN116486153A/zh
Publication of CN116486153A publication Critical patent/CN116486153A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种图像分类方法、装置、设备及存储介质,其中,所述方法包括:获取待处理图像;基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;基于所述预测特征图,确定所述待处理图像的多标签类别。

Description

图像分类方法、装置、设备及存储介质
技术领域
本申请涉及但不限于计算机视觉技术领域,尤其涉及一种图像分类方法、装置、设备及存储介质。
背景技术
在部署算法到实际生产环境中时,经常会出现检测对象的分布与训练数据不一致(Out-of-Distribution Detection,OOD)的问题。以往的大部分研究都集中在多分类任务中的OOD问题,而在多标签分类任务中,OOD问题的研究较少。现有的针对多标签分类任务中OOD问题的研究,大都通过在数据上做扩展,以提高算法指标,这样导致不仅训练时间长,且效果也并不理想。
发明内容
有鉴于此,本申请实施例至少提供一种图像分类方法、装置、设备及存储介质。
本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种图像分类方法,所述方法包括:获取待处理图像;基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;基于所述预测特征图,确定所述待处理图像的多标签类别。
第二方面,本申请实施例提供一种图像分类装置,所述装置包括:第一获取模块,用于获取待处理图像;输出模块,用于基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;第一确定模块,用于基于所述预测特征图,确定所述待处理图像的多标签类别。
第三方面,本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。
本申请实施例中,通过将目标检测模型中的锚框修改为用于增大对象所占比例的先验框,得到图像分类模型;然后利用图像分类模型输出预测特征图,进而得到待处理图像的多标签类别。一方面,由于先验框是基于锚框得到的,这样不仅可以利用锚框本身的结构,而且增大了先验框中对象所占的比例,使得先验框能够更加准确的表示对象所在的位置,以提高模型训练的准确性。另一方面,由于目标检测模型本身就能够对包含不同类别、多个对象的图像区分出感兴趣对象和不相关对象,而将目标检测模型修改为图像分类模型,可以很好的利用目标检测模型的内在能力,实现图像的多标签分类,以解决多标签分类任务中的OOD问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开的技术方案。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。
图1为本申请实施例提供的一种图像分类方法的实现流程示意图;
图2为本申请实施例提供的一种图像分类模型的形成方法的实现流程示意图;
图3为本申请实施例提供的一种图像分类模型的训练方法的实现流程示意图;
图4为本申请实施例提供的一种YOLO v3模型的示意图;
图5A为本申请实施例提供的一种锚框的示意图;
图5B为本申请实施例提供的一种先验框的示意图;
图6为本申请实施例提供的一种图像分类装置的组成结构示意图;
图7为本申请实施例提供的一种计算机设备的硬件实体示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和实施例对本申请的技术方案进一步详细阐述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
所涉及的术语“第一/第二/第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一/第二/第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请的目的,不是旨在限制本申请。
本申请实施例提供一种图像分类方法,该方法可以由计算机设备的处理器执行。其中,计算机设备指的可以是服务器、笔记本电脑、平板电脑、台式计算机、智能电视、机顶盒、移动设备(例如移动电话、便携式视频播放器、个人数字助理、专用消息设备、便携式游戏设备)等具备数据处理能力的设备。图1为本申请实施例提供的一种图像分类方法的实现流程示意图,如图1所示,该方法包括如下步骤S101至步骤S103:
步骤S101:获取待处理图像;
这里,待处理图像指任意需要进行分类的图像。例如猫的图像、狗的图像等。待处理图像的维度可以为二维或三维,例如灰度图像或红绿蓝(Red Green Blue,RGB)图像等。待处理图像的尺寸可以为任意尺寸,例如,在待处理图像的维度为二维的情况下,尺寸可以为1024*1024。
步骤S102:基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;
这里,目标检测模型指对目标进行检测,得到检测框、类别和置信度的模型。其中,目标检测模型可以通过锚框来预测得到目标检测框,例如Faster RCNN、YOLO v3等;也可以直接输出预测得到的目标检测框,例如YOLO v1等。本申请实施例适用于通过锚框来预测得到目标检测框的目标检测模型。
图像分类模型为将目标检测模型的锚框修改为用于增大对象所占比例的先验框而得到的模型。先验框可以为在锚框的基础上修改得到的。在一些实施例中,得到先验框的方法可以包括:等比例的减少锚框的宽度和长度,以得到先验框。例如,锚框的宽度和长度均减少为之前的1/2、2/3等,从而使得先验框中对象所占比例相比于原版锚框中对象所占比例增大,即减少了背景所占比例。
预测特征图指通过对待处理图像进行处理后,得到的包括待处理图像预测信息的特征图。在一些实施例中,预测信息可以包括对象的类别分数、置信度和检测框信息(例如,目标检测框的偏移量);在一些实施例中,由于图像分类模型的目标是图像分类,因此,预测信息可以只包括类别分数和置信度,而不包括检测框信息。
先验框用于在进行模型训练之前,对样本数据的标注。通过对先验框的改变,可以改变预测特征图中目标对象所在的位置,进而改变预测特征图预测得到的预测信息。而先验框由于对象所占比例增大,背景所占比例减小,因此能够更加准确的标注出目标对象所在的位置,从而使得最终训练得到的模型更加准确。
在一些实施例中,步骤S102的实施可以包括如下步骤S1021和步骤S1022:
步骤S1021:基于所述待处理图像,通过所述图像分类模型中的特征提取模块输出特征图;
这里,特征提取模块用于对待处理图像进行特征提取,以得到特征图。其中,根据目标检测模型类型的不同,特征图可以为一个尺寸的特征图(例如,目标检测模型为FasterRCNN),也可以为多个尺寸的特征图(例如,目标检测模型为YOLO v3)。
步骤S1022:基于所述特征图,通过所述图像分类模型中的预测器输出所述预测特征图。
这里,预测器用于根据特征图,输出预测特征图。在一些实施例中,预测器可以为1*1的卷积,通过训练预测器,使预测器输出预测信息。
步骤S103:基于所述预测特征图,确定所述待处理图像的多标签类别。
这里,由于预测特征图包括基于先验框预测得到的预测信息,而预测信息包括类别分数和置信度,因此,可以通过类别分数和置信度得到每一类别的预测分数,将预测分数高于阈值的类别确定为待处理图像的多标签类别。
对应地,在一些实施例中,步骤S103的实施可以包括以下步骤S1031和步骤S1032:
步骤S1031:基于所述预测特征图中的类别分数和置信度,确定每一类别的预测分数;
这里,预测特征图通常包括长度、高度和通道三个维度,其中,通道维度的维数包括类别数和置信度,例如,该图像分类模型可以分辨80个类别,则对于一个先验框,通道维度的维数至少为80+1,其中,80为类别数,1为置信度。将置信度乘以每个类别分数,可以得到每一类别的预测分数。
步骤S1032:基于所述每一类别的预测分数,确定所述待处理图像的多标签类别。
这里,步骤S1032的实施可以包括:将预测分数高于阈值的类别确定为待处理图像的多标签类别。
本申请实施例中,通过将目标检测模型中的锚框修改为用于增大对象所占比例的先验框,得到图像分类模型;然后利用图像分类模型输出预测特征图,进而得到待处理图像的多标签类别。一方面,由于先验框是基于锚框得到的,这样不仅可以利用锚框本身的结构,而且增大了先验框中对象所占的比例,使得先验框能够更加准确的表示对象所在的位置,以提高模型训练的准确性。另一方面,由于目标检测模型本身就能够对包含不同类别、多个对象的图像区分出感兴趣对象和不相关对象,而将目标检测模型修改为图像分类模型,可以很好的利用目标检测模型的内在能力,实现图像的多标签分类,以解决多标签分类任务中的OOD问题。
在一些实施例中,如图2所示,图像分类模型的形成方法可以包括如下步骤S201至步骤S203:
步骤S201:获取所述目标检测模型中的锚框;
这里,以目标检测模型为YOLO v3为例进行说明。
YOLO v3可以输出三个不同尺度的特征图,分别为13*13、26*26和52*52。13*13特征图对应的锚框为:116*90、156*198和373*326;26*26特征图对应的锚框为:30*61、62*45和59*119;52*52特征图对应的锚框为:10*13、16*30和33*23。
步骤S202:确定所述锚框的中心点;
步骤S203:以所述中心点为中心,将所述锚框的长度和宽度分别缩小为原来的一半,得到所述先验框。
本申请实施例中,通过将锚框的长度和宽度缩小为原来的一半,来得到先验框,使得先验框中对象所占比例增大,背景所占比例减小。此外,由于先验框是基于锚框得到的,这样不仅可以利用锚框本身的结构,而且增大了先验框中对象所占的比例,使得先验框能够更加准确的表示对象所在的位置,以提高模型训练的准确性。
在一些实施例中,所述目标检测模型的损失函数包括分类损失、置信度损失和检测框损失,所述预测信息包括类别分数和置信度,如图3所示,所述图像分类模型按照以下方法训练得到,包括如下步骤S301至步骤S304:
步骤S301:获取训练样本集合;
这里,训练样本集合指用于训练图像分类模型的图像样本集合。
步骤S302:基于所述训练样本集合,确定所述图像分类模型输出的每一训练样本中基于所述先验框预测得到的类别分数和置信度;
即这里的图像分类模型不输出检测框信息。
在一些实施例中,可以通过修改预测器输出通道维度的维数,即去掉检测框信息的4维数据,实现图像分类模型只输出类别分数和置信度,而不输出检测框信息。
在一些实施例中,目标检测模型可以为YOLO模型,图像分类模型可以为在YOLO模型锚框的基础上修改得到用于增大对象所占比例的先验框,且将YOLO模型中的预测器用于输出预测特征图的通道维度去掉检测框的4维数据而得到的模型。下面以图像分类模型为对YOLO模型进行修改得到的模型为例进行详细说明:
对于YOLO模型,预测器的输出维度为N x N x[3x(4+1+C)],其中,Nx N表示输出的预测特征图的网格数,3表示每个网格有3个锚框,4表示每个检测框的位置偏移量(x、y、w、h),1表示每个检测框的置信度,C表示检测框的类别。
修改后的YOLO模型,即图像分类模型,将预测器的输出维度修改为N x Nx[3x(1+C)],即去掉了检测框的4维数据,剩余维度表示每个网格只输出置信度和类别分数。
步骤S303:基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的损失函数;
这里,由于损失函数是基于类别分数和置信度得到的,即损失函数中去掉了检测框损失。
在一些实施例中,步骤S303的实施可以包括如下步骤S3031和步骤S3032:
步骤S3031:基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的分类损失和置信度损失;
这里,分类损失和置信度损失的计算方法可参见相关技术。
步骤S3032:确定所述分类损失与所述置信度损失之和,得到所述图像分类模型的损失函数。
即:L_total=L_obj+L_cls;
其中,L_total表示图像分类模型的损失函数,L_obj表示置信度损失,L_cls表示类别损失。
步骤S304:基于所述损失函数,对所述图像分类模型进行训练至收敛。
本申请实施例中,通过图像分类模型输出的每一训练样本中基于先验框预测得到的类别分数和置信度,即不包括检测框信息,来确定图像分类模型的损失函数,进而对图像分类模型进行训练至收敛。由于图像分类模型输出的预测信息中不包括检测框信息,因此,图像分类模型的损失函数也不包括检测框损失,相比于包括检测框损失对图形分类模型进行训练的方式,本申请实施例提供的训练方法可以使模型更加聚焦到对分类任务的训练,从而提高模型的准确性;且可以减小模型的体量,方便训练。
目标检测算法,可以看作是多标签问题的扩展,它不仅需要检测出图像中的多类别对象,还需要预测出对象在图像中的位置,能够对包含不同类别、多个对象的图像区分出感兴趣对象和不相关对象,这是目标检测模型的一个内在能力。
现阶段,目标检测普遍采用YOLO系列的方案,本申请实施例以YOLO v3为例,所要解决的问题为:如何把YOLO v3转换为适用于多标签分类问题的模型,只利用YOLO v3自身的能力,而不依赖于输入数据的增加。
YOLO v3是一种通用的目标检测算法模型,其能够很好的判断出图像中的感兴趣对象和不相关对象。利用该特性,可以有效解决多标签分类任务中的OOD问题。
本申请实施例主要通过对YOLO v3做局部修改,使其可以直接用于多标签分类任务。改动包括:1)去掉检测框信息;2)检测框置信度计算过程中采用局部网格(即上述先验框),类别概率的计算方式与YOLO v3保持一致。
图4示出了YOLO v3的结构。可以看出,YOLO v3包括残差模块、检测层、上采样层和省略的其它层,层与层之间包括拼接和添加两种特征处理方式,以形成新的特征。整个结构,输入图像经过Darknet-53(无全连接层,图中未示出),再经过检测层输出3个尺寸的特征图,可参见相关技术对YOLO v3的结构进行理解。其中,第一个特征图下采样32倍,第二个特征图下采样16倍,第三个特征图下采样8倍,图中单独的数字表示网络层的序号。
每个尺度特征图的输出维度为N x N x[3x(4+1+C)],其中,N x N表示输出特征图的网格数,3表示每个网格有3个锚框,4表示每个检测框的位置偏移信息(x、y、w、h),1表示每个检测框的置信度,C表示检测框的类别。YOLO v3的损失函数包括三部分:一是检测框损失L_bbox,二是置信度损失L_obj,三是类别损失L_cls。
图5A为图4中最小特征图(即尺度1,尺寸为13*13)的放大图。其中,黑色的小框502表示网格,水平和竖直方向各13个,白色框501表示对象的矩形框,该框与黑色的网格(即黑色的小框502)对应。推理时,每个网格都会预测出3个矩形框,以及矩形框对应的置信度和类别分数。
本申请实施例把YOLO v3迁移到多标签分类任务中,YOLO v3内在的能力能够解决多标签分类任务中的OOD问题。因此,本申请实施例基于YOLO v3的基础框架,做了部分修改。
首先,针对检测层,YOLO v3可用于预测检测框,对应L_bbox。但是,本申请实施例中的目标任务是多标签分类,只需要类别相关的信息,不需要检测框信息。因此,此处把YOLO v3的检测层(即上述预测器)输出维度修改为N x N x[3x(1+C)],去掉了检测框的4维数据,剩余维度表示每个网格只输出置信度和类别分数。
其次,针对检测框置信度,YOLO v3用来表示每个检测框置信度的判断逻辑主要是根据交并比IoU来区分正负样本。YOLO v3是通过每个网格来检测对象,然而每个对象并不局限于只用一个网格来预测;同时,由于对象的轮廓不一定是矩形,可能存在某些网格内包含其他不相关对象,造成检测时误检测出其他对象。因此,本申请实施例对于对象所占用的网格,综合了多个网格预测对象,以及网格内不出现其他不相关对象的条件,使用了“局部网格”的定义,来替代原版YOLO v3中的锚框。
参见图5B理解“局部网格”,白色框501表示对象的完整包围框(即原版锚框),黑色的小框502表示完整包围框的中心网格,白色框503表示二分之一的完整包围框(即先验框)。本申请实施例采用白色框503替代YOLO v3原本使用的白色框501。白色框503能够使得所占有的网格只包含对象本身,而减少网格内出现其他不相关对象的可能性。
最后,针对类别分数,YOLO v3用来表示每个检测框的类别分数,即属于各个类别的概率。由于每个网格可能负责检测同一个对象,因此,每个网格分配多个类别,即每个网格的类别分数表示该网格属于各个类别的概率。概率的计算方法与YOLO v3的定义一致,均使用sigmoid输出每个类别的概率。
综合上述修改和沿用,损失函数定义为:
L_total=L_obj+L_cls;
L_total表示总的损失,L_obj表示对象的置信度损失,L_cls表示对象的类别损失。与YOLO v3的区别在于少了检测框损失。
基于上述的改进,YOLO v3输出的特征图不包含检测框信息,只有各个对象的置信度和类别分数。同时,采用局部网格的操作,使得网络能更好的区分感兴趣对象和不相关对象。
多标签分类任务时,最终输出的也是图片属于各个类别的分数和置信度。本申请实施例的输出与其一致,因此通过本申请实施例可以把YOLO v3迁移到多标签分类任务上,由于YOLO v3固有具备区分感兴趣对象和不相关对象的能力,有助于解决多标签分类任务上的OOD问题。
基于前述的实施例,本申请实施例提供一种图像分类装置,该装置包括所包括的各模块、以及各模块所包括的各单元,可以通过计算机设备中的处理器来实现;当然也可通过具体的逻辑电路实现;在实施的过程中,处理器可以为中央处理器(Central ProcessingUnit,CPU)、微处理器(Microprocessor Unit,MPU)、数字信号处理器(Digital SignalProcessor,DSP)或现场可编程门阵列(Field Programmable Gate Array,FPGA)等。
图6为本申请实施例提供的一种图像分类装置的组成结构示意图,如图6所示,图像分类装置600包括:第一获取模块610、输出模块620和第一确定模块630,其中:
第一获取模块610,用于获取待处理图像;
输出模块620,用于基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;
第一确定模块630,用于基于所述预测特征图,确定所述待处理图像的多标签类别。
在一些实施例中,所述装置还包括:第二获取模块,用于获取所述目标检测模型中的锚框;第二确定模块,用于确定所述锚框的中心点;缩小模块,用于以所述中心点为中心,将所述锚框的长度和宽度分别缩小为原来的一半,得到所述先验框。
在一些实施例中,所述目标检测模型的损失函数包括分类损失、置信度损失和检测框损失,所述预测信息包括类别分数和置信度,所述装置还包括:第三获取模块,用于获取训练样本集合;第三确定模块,用于基于所述训练样本集合,确定所述图像分类模型输出的每一训练样本中基于所述先验框预测得到的类别分数和置信度;第四确定模块,用于基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的损失函数;训练模块,用于基于所述损失函数,对所述图像分类模型进行训练至收敛。
在一些实施例中,第四确定模块包括:第一确定子模块,用于基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的分类损失和置信度损失;第二确定子模块,用于确定所述分类损失与所述置信度损失之和,得到所述图像分类模型的损失函数。
在一些实施例中,第一确定模块630包括:第三确定子模块,用于基于所述预测特征图中的类别分数和置信度,确定每一类别的预测分数;第四确定子模块,用于基于所述每一类别的预测分数,确定所述待处理图像的多标签类别。
在一些实施例中,输出模块620包括:第一输出子模块,用于基于所述待处理图像,通过所述图像分类模型中的特征提取模块输出特征图;第二输出子模块,用于基于所述特征图,通过所述图像分类模型中的预测器输出所述预测特征图。
在一些实施例中,所述目标检测模型为YOLO模型,所述图像分类模型为在所述YOLO模型锚框的基础上修改得到用于增大对象所占比例的先验框,且将所述YOLO模型中的预测器用于输出所述预测特征图的通道维度去掉检测框的4维数据而得到的模型。
以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上述方法实施例描述的方法,对于本申请装置实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,本申请实施例中,如果以软件功能模块的形式实现上述的图像分类方法,并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read OnlyMemory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件、软件或固件,或者硬件、软件、固件三者之间的任意结合。
本申请实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的部分或全部步骤。所述计算机可读存储介质可以是瞬时性的,也可以是非瞬时性的。
本申请实施例提供一种计算机程序,包括计算机可读代码,在所述计算机可读代码在计算机设备中运行的情况下,所述计算机设备中的处理器执行用于实现上述方法中的部分或全部步骤。
本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序被计算机读取并执行时,实现上述方法中的部分或全部步骤。该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一些实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一些实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
这里需要指出的是:上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考。以上设备、存储介质、计算机程序及计算机程序产品实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果。对于本申请设备、存储介质、计算机程序及计算机程序产品实施例中未披露的技术细节,请参照本申请方法实施例的描述而理解。
需要说明的是,图7为本申请实施例中计算机设备的一种硬件实体示意图,如图7所示,该计算机设备700的硬件实体包括:处理器701、通信接口702和存储器703,其中:
处理器701通常控制计算机设备700的总体操作。
通信接口702可以使计算机设备通过网络与其他终端或服务器通信。
存储器703配置为存储由处理器701可执行的指令和应用,还可以缓存待处理器701以及计算机设备700中各模块待处理或已经处理的数据(例如,图像数据、音频数据、语音通信数据和视频通信数据),可以通过闪存(FLASH)或随机访问存储器(Random AccessMemory,RAM)实现。处理器701、通信接口702和存储器703之间可以通过总线704进行数据传输。
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本申请的各种实施例中,上述各步骤/过程的序号的大小并不意味着执行顺序的先后,各步骤/过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种图像分类方法,其特征在于,包括:
获取待处理图像;
基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;
基于所述预测特征图,确定所述待处理图像的多标签类别。
2.根据权利要求1所述的方法,其特征在于,所述图像分类模型的形成方法包括:
获取所述目标检测模型中的锚框;
确定所述锚框的中心点;
以所述中心点为中心,将所述锚框的长度和宽度分别缩小为原来的一半,得到所述先验框。
3.根据权利要求1或2所述的方法,其特征在于,所述目标检测模型的损失函数包括分类损失、置信度损失和检测框损失,所述预测信息包括类别分数和置信度,所述图像分类模型按照以下方法训练得到,包括:
获取训练样本集合;
基于所述训练样本集合,确定所述图像分类模型输出的每一训练样本中基于所述先验框预测得到的类别分数和置信度;
基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的损失函数;
基于所述损失函数,对所述图像分类模型进行训练至收敛。
4.根据权利要求3所述的方法,其特征在于,所述基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的损失函数,包括:
基于所述每一训练样本中基于所述先验框预测得到的类别分数和置信度,确定所述图像分类模型的分类损失和置信度损失;
确定所述分类损失与所述置信度损失之和,得到所述图像分类模型的损失函数。
5.根据权利要求3所述的方法,其特征在于,基于所述预测特征图,确定所述待处理图像的多标签类别,包括:
基于所述预测特征图中的类别分数和置信度,确定每一类别的预测分数;
基于所述每一类别的预测分数,确定所述待处理图像的多标签类别。
6.根据权利要求1或2所述的方法,其特征在于,所述基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,包括:
基于所述待处理图像,通过所述图像分类模型中的特征提取模块输出特征图;
基于所述特征图,通过所述图像分类模型中的预测器输出所述预测特征图。
7.根据权利要求6所述的方法,其特征在于,所述目标检测模型为YOLO模型,
所述图像分类模型为在所述YOLO模型锚框的基础上修改得到用于增大对象所占比例的先验框,且将所述YOLO模型中的预测器用于输出所述预测特征图的通道维度去掉检测框的4维数据而得到的模型。
8.一种图像分类装置,其特征在于,包括:
第一获取模块,用于获取待处理图像;
输出模块,用于基于所述待处理图像,通过基于目标检测模型改造的图像分类模型输出预测特征图,其中,所述目标检测模型为通过锚框预测目标检测框的模型;所述图像分类模型为在所述锚框的基础上修改得到用于增大对象所占比例的先验框而得到的模型;所述预测特征图包括基于所述先验框预测得到的预测信息;
第一确定模块,用于基于所述预测特征图,确定所述待处理图像的多标签类别。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7任一项所述方法中的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7任一项所述方法中的步骤。
CN202310443613.1A 2023-04-21 2023-04-21 图像分类方法、装置、设备及存储介质 Pending CN116486153A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310443613.1A CN116486153A (zh) 2023-04-21 2023-04-21 图像分类方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310443613.1A CN116486153A (zh) 2023-04-21 2023-04-21 图像分类方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116486153A true CN116486153A (zh) 2023-07-25

Family

ID=87211443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310443613.1A Pending CN116486153A (zh) 2023-04-21 2023-04-21 图像分类方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116486153A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746314A (zh) * 2023-11-20 2024-03-22 江苏星图智能科技有限公司 一种基于多级联合判定ood物体的方法、设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746314A (zh) * 2023-11-20 2024-03-22 江苏星图智能科技有限公司 一种基于多级联合判定ood物体的方法、设备及介质

Similar Documents

Publication Publication Date Title
CN109903310B (zh) 目标跟踪方法、装置、计算机装置及计算机存储介质
CN108121986B (zh) 目标检测方法及装置、计算机装置和计算机可读存储介质
CN110717366A (zh) 文本信息的识别方法、装置、设备及存储介质
CN113822951B (zh) 图像处理方法、装置、电子设备及存储介质
CN111723815B (zh) 模型训练方法、图像处理方法、装置、计算机系统和介质
CN110222726A (zh) 图像处理方法、装置及电子设备
CN111444976A (zh) 目标检测方法、装置、电子设备和可读存储介质
WO2022127333A1 (zh) 图像分割模型的训练方法、图像分割方法、装置、设备
CN112365513A (zh) 一种模型训练的方法及装置
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
CN116486153A (zh) 图像分类方法、装置、设备及存储介质
CN113744280B (zh) 图像处理方法、装置、设备及介质
CN112241736A (zh) 一种文本检测的方法及装置
CN113822871A (zh) 基于动态检测头的目标检测方法、装置、存储介质及设备
CN117746015A (zh) 小目标检测模型训练方法、小目标检测方法及相关设备
CN116958873A (zh) 行人跟踪方法、装置、电子设备及可读存储介质
CN116805387A (zh) 基于知识蒸馏的模型训练方法、质检方法和相关设备
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
CN113807407B (zh) 目标检测模型训练方法、模型性能检测方法及装置
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN115512207A (zh) 一种基于多路特征融合及高阶损失感知采样的单阶段目标检测方法
CN115512428A (zh) 一种人脸活体判别方法、系统、装置和存储介质
CN116958720A (zh) 目标检测模型的训练方法、目标检测方法、装置及设备
CN114387489A (zh) 电力设备识别方法、装置和终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination