CN112906685B - 一种目标检测方法、装置、电子设备及存储介质 - Google Patents

一种目标检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112906685B
CN112906685B CN202110252475.XA CN202110252475A CN112906685B CN 112906685 B CN112906685 B CN 112906685B CN 202110252475 A CN202110252475 A CN 202110252475A CN 112906685 B CN112906685 B CN 112906685B
Authority
CN
China
Prior art keywords
image
target
category
target detection
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110252475.XA
Other languages
English (en)
Other versions
CN112906685A (zh
Inventor
张发恩
雷翔
蒋晓路
李素莹
马岩
秦永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Cisai Tech Co Ltd
Original Assignee
Chongqing Cisai Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Cisai Tech Co Ltd filed Critical Chongqing Cisai Tech Co Ltd
Priority to CN202110252475.XA priority Critical patent/CN112906685B/zh
Publication of CN112906685A publication Critical patent/CN112906685A/zh
Application granted granted Critical
Publication of CN112906685B publication Critical patent/CN112906685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • G06T3/4007Interpolation-based scaling, e.g. bilinear interpolation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种目标检测方法、装置、电子设备及存储介质,该方法包括:获得待检测图像;使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框;使用目标检测模型中的特征提取模块提取出预测边界框的特征图;使用注意力模块根据预测边界框的特征图确定目标对象的类别。在上述的实现过程中,通过在目标检测模型中设置了注意力模块,使得目标检测模型能够充分发挥注意力机制的作用,从而增加了识别出少样本类别的图片中目标对象的概率,有效地提高了对少样本类别的图像进行目标检测的正确率。

Description

一种目标检测方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能和图像识别的技术领域,具体而言,涉及一种目标检测方法、装置、电子设备及存储介质。
背景技术
目标检测,又被称为目标提取,是一种基于目标几何和统计特征的图像理解算法,目标检测是将目标的定位和识别合二为一。
目前的深度学习分类技术依赖于大量的训练数据,在训练数据中的某些类别的样本数据数量非常大,这种类别又被称为基础类别(base class),而相对于基础类别的样本数量,有一些类别的样本数据数量非常小,这些样本数据数量小对应的类别又被称为少样本类别(few-shot class)。在具体的实践过程中发现,由于少样本类别的样本数据数量非常小,使得目标检测模型在少样本类别上欠拟合,即目标检测模型难以识别出少样本类别的图片中的目标对象;因此,使用目标检测模型对少样本类别的图像进行目标检测的正确率比较低。
发明内容
本申请实施例的目的在于提供一种目标检测方法、装置、电子设备及存储介质,用于改善对少样本类别的图像进行目标检测的正确率比较低的问题。
本申请实施例提供了一种目标检测方法,包括:获得待检测图像;使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框;使用目标检测模型中的特征提取模块提取出预测边界框的特征图;使用注意力模块根据预测边界框的特征图确定目标对象的类别。在上述的实现过程中,通过在目标检测模型中设置了注意力模块,使得目标检测模型能够充分发挥注意力机制的作用,从而让目标检测模型重点注意少样本类别与基础类别相互区别的图片区域和图片特征,并充分利用图片区域和图片特征界框的特征图确定目标对象的类别,从而增加了识别出少样本类别的图片中目标对象的概率,有效地提高了对少样本类别的图像进行目标检测的正确率。
可选地,在本申请实施例中,注意力模块包括:注意力区域候选网络;使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框,包括:使用注意力区域候选网络预测目标对象在待检测图像中的候选框,获得多个候选框;计算多个候选框中的每个候选框的置信度值,并将置信度值最大的候选框确定为预测边界框。在上述的实现过程中,通过使用注意力区域候选网络预测目标对象在待检测图像中的候选框,从而目标检测模型更加关注目标对象在待检测图像中的位置信息以及边界框,有效地提高了目标检测模型预测边界框的速度。
可选地,在本申请实施例中,注意力模块包括:检测器网络;使用注意力模块根据预测边界框的特征图确定目标对象的类别,包括:使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,获得多个相似度值,类别特征图平均值是对相同类别的所有样本图像的特征图计算出来的平均值;将多个相似度值中的最大值对应的类别确定为目标对象的类别。在上述的实现过程中,通过使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,从而目标检测模型更加关注目标对象在待检测图像中与类别有关的图像特征,有效地减小了对目标对象的类别识别出错的概率,从而提高了对少样本类别的图像进行目标检测的正确率。
可选地,在本申请实施例中,在使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值之前,还包括:获取多个类别的样本图像,多个类别中的每个类别均包括多个样本图像;针对多个类别中的每个类别,计算出该类别的所有样本图像的特征图平均值,并将该类别的特征图平均值加入特征图库。
可选地,在本申请实施例中,在使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框之前,还包括:获得多个三元组图像,三元组图像包括:查询样本图像、正样本图像和负样本图像,查询样本图像和正样本图像均包含目标对象,负样本图像不包含目标对象;以查询样本图像为训练数据,以正样本图像和负样本图像为训练标签,对目标检测神经网络进行训练,获得目标检测模型。在上述的实现过程中,通过三元对比学习机制来对目标检测神经网络进行训练,从而使得目标检测神经网络能够在对比查询样本图像、正样本图像和负样本图像的过程中,学习到查询样本图像、正样本图像和负样本图像之间的匹配信息,有效地提高了目标检测神经网络的鲁棒性和泛化性。
可选地,在本申请实施例中,对目标检测神经网络进行训练,包括:使用目标检测神经网络预测查询样本图像中的目标类别,并获取正样本图像的目标类别和负样本图像的目标类别;计算查询样本图像中的目标类别、正样本图像的目标类别和负样本图像的目标类别之间的二元交叉熵损失值;根据二元交叉熵损失值更新目标检测神经网络的网络参数。
可选地,在本申请实施例中,对目标检测神经网络进行训练,包括:使用目标检测神经网络预测目标对象在待检测图像中的第一边界框,并获取目标对象在正样本图像的第二边界框;计算第一边界框和第二边界框之间的回归损失值;根据回归损失值更新目标检测神经网络的网络参数。
本申请实施例还提供了一种目标检测装置,包括:检测图像获得模块,用于获得待检测图像;目标边框预测模块,用于使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框;边框特征提取模块,用于使用目标检测模型中的特征提取模块提取出预测边界框的特征图;目标类别预测模块,用于使用注意力模块根据预测边界框的特征图确定目标对象的类别。
可选地,在本申请实施例中,注意力模块包括:注意力区域候选网络;目标边框预测模块,包括:候选边框获得模块,用于使用注意力区域候选网络预测目标对象在待检测图像中的候选框,获得多个候选框;预测边框确定模块,用于计算多个候选框中的每个候选框的置信度值,并将置信度值最大的候选框确定为预测边界框。
可选地,在本申请实施例中,注意力模块包括:检测器网络;目标类别预测模块,包括:相似度值获得模块,用于使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,获得多个相似度值,类别特征图平均值是对相同类别的所有样本图像的特征图计算出来的平均值;目标类别确定模块,用于将多个相似度值中的最大值对应的类别确定为目标对象的类别。
可选地,在本申请实施例中,目标检测装置,还包括:样本图像获取模块,用于获取多个类别的样本图像,多个类别中的每个类别均包括多个样本图像;特征图库构建模块,用于针对多个类别中的每个类别,计算出该类别的所有样本图像的特征图平均值,并将该类别的特征图平均值加入特征图库。
可选地,在本申请实施例中,目标检测装置,还包括:三元组图像获得模块,用于获得多个三元组图像,三元组图像包括:查询样本图像、正样本图像和负样本图像,查询样本图像和正样本图像均包含目标对象,负样本图像不包含目标对象;检测网络训练模块,用于以查询样本图像为训练数据,以正样本图像和负样本图像为训练标签,对目标检测神经网络进行训练,获得目标检测模型。
可选地,在本申请实施例中,检测网络训练模块,包括:目标类别获取模块,用于使用目标检测神经网络预测查询样本图像中的目标类别,并获取正样本图像的目标类别和负样本图像的目标类别;第一损失计算模块,用于计算查询样本图像中的目标类别、正样本图像的目标类别和负样本图像的目标类别之间的二元交叉熵损失值;第一参数更新模块,用于根据二元交叉熵损失值更新目标检测神经网络的网络参数。
可选地,在本申请实施例中,检测网络训练模块,包括:边界框获取模块,用于使用目标检测神经网络预测目标对象在待检测图像中的第一边界框,并获取目标对象在正样本图像的第二边界框;第二损失计算模块,用于计算第一边界框和第二边界框之间的回归损失值;第二参数更新模块,用于根据回归损失值更新目标检测神经网络的网络参数。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的目标检测方法的流程示意图;
图2示出的本申请实施例提供的训练目标检测模型的流程示意图;
图3示出的本申请实施例提供的目标检测装置的结构示意图;
图4示出的本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的目标检测方法之前,先介绍本申请实施例中所涉及的一些概念:
注意力机制(Attention Mechanism)源于对人类视觉的研究;在认知科学中,由于信息处理的瓶颈,人类会选择性地关注所有信息的一部分,同时忽略其他可见的信息;上述机制通常被称为注意力机制。
区域候选网络(Region Proposal Network,RPN),是指可以直接使用Faster RCNN中的RPN思想构建获得的网络,当然也可以通过其他方式构建获得RPN。
需要说明的是,本申请实施例提供的目标检测方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者服务器,服务器是指通过网络提供计算服务的设备,服务器例如:x86服务器以及非x86服务器,非x86服务器包括:大型机、小型机和UNIX服务器。
在介绍本申请实施例提供的目标检测方法之前,先介绍该目标检测方法适用的应用场景,这里的应用场景包括但不限于:使用该目标检测方法对少样本类别的图像进行目标检测,从而获得目标对象在该图像中的边界框和类别;此处的边界框例如使用红色的边框将该目标对象在图像中的具体位置框画出来。
请参见图1示出的本申请实施例提供的目标检测方法的流程示意图;该目标检测方法的主要思路是,通过在目标检测模型中设置了注意力模块,使得目标检测模型能够充分发挥注意力机制的作用,从而让目标检测模型重点注意少样本类别与基础类别相互区别的图片区域和图片特征,并充分利用图片区域和图片特征界框的特征图确定目标对象的类别,从而增加了识别出少样本类别的图片中目标对象的概率,有效地提高了对少样本类别的图像进行目标检测的正确率;上述的目标检测方法可以包括:
步骤S110:获得待检测图像。
上述步骤S110中的待检测图像的获得方式包括:第一种获得方式,使用摄像机、录像机或彩色照相机等终端设备对目标对象进行拍摄,获得待检测图像;第二种获得方式,使用浏览器等软件获取互联网上的待检测图像,或者使用其它应用程序访问互联网获得待检测图像。
在步骤S110之后,执行步骤S120:使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框。
注意力模块(Attention Block),又被称为注意力机制(Attention Mechanism)模块,此处的注意力模块可以包括:注意力区域候选网络和检测器网络;其中,注意力区域候选网络又可以被称为注意力RPN,注意力RPN主要用于提取目标对象在待检测图像中的候选框(又被称为回归框)。
上述步骤S120的实施方式有很多种包括但不限于如下几种:
第一种实施方式,将注意力模块输出的置信度值最大的候选框确定为预测边界框;该实施方式可以包括:使用注意力区域候选网络(即注意力RPN)预测目标对象在待检测图像中的候选框,获得多个候选框;计算多个候选框中的每个候选框的置信度值,并将置信度值最大的候选框确定为预测边界框。需要说明的是,此处的注意力区域候选网络(即注意力RPN)与fast RCNN或者faster RCNN中的RPN有所不同,区别在于,注意力RPN不仅要对锚框(anchorboxes)的前景和背景进行区分,从而提取出目标对象在待检测图像中的候选框,而且还要区分该候选框中的目标对象类别是否属于特征图库中的类别。
第二种实施方式,将注意力模块输出的置信度值大于预设阈值的候选框确定为预测边界框,该实施方式可以包括:可以从注意力模块输出的都给候选框中筛选出置信度值大于预设阈值的候选框,并将置信度值大于预设阈值的候选框确定为预测边界框,可以根据情况来设置预设阈值,例如将预设阈值设置为0.8或者0.9等等。
在步骤S120之后,执行步骤S130:使用目标检测模型中的特征提取模块提取出预测边界框的特征图。
上述的步骤S130的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,通过上采样和残差的方式提取出预测边界框的特征图,该实施方式例如:特征提取模块可以包括:上采样网络和残差网络;使用上采样网络对预测边界框进行上采样计算,获得上采样特征图,然后使用残差网络对上采样特征图进行残差运算,从而提取出该预测边界框的特征图。
第二种实施方式,先对在待处理图像中预测边界框的区域图像进行插值运算,获得插值图像,再对插值图像进行特征提取,获得该预测边界框的特征图;该实施方式包括:使用插值算法对在待处理图像中预测边界框的区域图像进行插值运算,获得插值图像,再使用残差中残差稠密模块(Residual-in-Residual Dense Block,RRDB)或者深度神经网络(Deep Neural Networks,DNN)模型对插值图像进行特征提取,获得该预测边界框的特征图。在具体的实施过程中,可以根据计算量和性能的不同需求,采用不同数量的RRDB模块,具体地,RRDB模块的数量可以是16个到24个之间的任意数量;可以使用的深度神经网络包括:VGG网络、Resnet网络、Wide Resnet网络和Inception网络等;上述可以使用的插值算法包括但不限于:最近邻插值算法、双线性插值算法和双三次插值算法等等。
在步骤S130之后,执行步骤S140:使用注意力模块根据预测边界框的特征图确定目标对象的类别。
上述步骤S140的实施方式可以包括:
步骤S141:使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,获得多个相似度值。
类别特征图平均值,是对相同类别的所有样本图像的特征图计算出来的平均值;假设特征图库中共有两个类别,这两个类别分别是第一类别和第二类别,每个类别各有3张图片,假设第一类别的特征图分别为1、2和3,且第二类别的特征图分别为4、5和6,那么第一类别特征图平均值为(1+2+3)/3=2,且第二类别特征图平均值为(4+5+6)/3=5。
可选地,在使用特征图库之前,还需要构建特征图库,构建特征图库的过程可以包括:获取多个类别的样本图像,多个类别中的每个类别均包括多个样本图像,见上面的例子,第一类别和第二类别均各包括3张图片。针对多个类别中的每个类别,计算出该类别的所有样本图像的特征图平均值,具体的计算过程可以参照上面的例子,假设获得的第一类别特征图平均值为2,且第二类别特征图平均值为5。然后,将第一类别的特征图平均值2和第二类别特征图平均值5均加入特征图库。
上述步骤S141的实施方式例如:假设使用最小二乘法计算出的误差倒数来估计特征图之间的相似度,且预测边界框的特征图的具体值为3,使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,即可获得多个相似度值;具体例如:计算出预测边界框的特征图3与特征图库中的第一类别特征图平均值2之间的相似度值具体为1/(3-2)2=1,且计算出预测边界框的特征图3与特征图库中的第二类别特征图平均值5之间的相似度值为1/(3-5)2=1/4=0.25,即可获得1和0.25这两个相似度值。
步骤S142:将多个相似度值中的最大值对应的类别确定为目标对象的类别。
上述的步骤S142的实施方式例如:从多个相似度值中筛选出最大相似度值,并将最大相似度值对应的类别确定为目标对象的类别,具体地,从1和0.25这两个相似度值中筛选出的最大相似度值为0.25,0.25对应的类别是第一类别,那么可以将第一类别确定为该目标对象的类别。可以理解的是,在具体的实施过程中,还可以使用特征图之间的余弦距离(Cosine Distance)、欧氏距离(Euclidean Distance)、汉明距离(Hamming Distance)或信息熵(Information Entropy)等等来估计特征图之间的相似度,也可以选择多种组合加权参数等复杂模式来计算特征图之间的相似度。
在上述的实现过程中,通过在目标检测模型中设置了注意力模块,使得目标检测模型能够充分发挥注意力机制的作用,从而让目标检测模型重点注意少样本类别与基础类别相互区别的图片区域和图片特征,并充分利用图片区域和图片特征界框的特征图确定目标对象的类别,从而增加了识别出少样本类别的图片中目标对象的概率,有效地提高了对少样本类别的图像进行目标检测的正确率。与此同时,在使用训练后的目标检测模型来检测新类别的待处理图像时,可以不再对模型进行重新训练,仅使用少量的类别样本图像即可实现目标检测与识别,从而实现对新类别的待处理图像进行在线检测,提高了新类别的待处理图像的检测实时性。
请参见图2示出的本申请实施例提供的训练目标检测模型的流程示意图;可选地,在使用目标检测模型之前,还需要先训练目标检测模型,训练目标检测模型的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,使用三元对比学习机制来训练目标检测模型,该训练方式可以包括:
步骤S210:获得多个三元组图像,三元组图像包括:查询样本图像、正样本图像和负样本图像。
上述的步骤S210的实施方式例如:获得多个三元组图像,每个三元组图像均可以表示为(Qa,Sa,Sb);其中,a表示特征图库中的第一类别,b表示特征图库中的第二类别,Qa表示作为训练数据且类别为第一类别的查询样本图像,Sa表示作为训练标签且类别为第一类别的正样本图像,Sb表示作为训练标签且类别为第二类别的负样本图像;上述的查询样本图像和正样本图像均包含目标对象,即查询样本图像和正样本图像均属于第一类别,负样本图像不包含目标对象,即负样本图像是属于第二类别的。
步骤S220:以查询样本图像为训练数据,以正样本图像和负样本图像为训练标签,对目标检测神经网络进行训练,获得目标检测模型。
上述步骤S220中的目标检测神经网络的训练方式有很多种,包括但不限于如下几种:
第一种训练方式,使用二元交叉熵损失函数对目标检测神经网络进行训练,该训练方式可以包括:
步骤S211:使用目标检测神经网络预测查询样本图像中的目标类别,并获取正样本图像的目标类别和负样本图像的目标类别。
上述步骤S211的实施方式例如:将查询样本图像输入目标检测神经网络,即可获得目标检测神经网络输出的查询样本图像的目标类别,并获取训练数据集,然后从训练数据集中获取正样本图像的目标类别和负样本图像的目标类别;其中,可以使用的训练数据集包括但不限于:ImageNet图像数据集或者COCO图像数据集等等。
步骤S212:计算查询样本图像中的目标类别、正样本图像的目标类别和负样本图像的目标类别之间的二元交叉熵损失值。
上述的步骤S212的实施方式例如:使用二元交叉熵损失函数(Binary Cross-Entropy Loss Function)来计算二元交叉熵损失值,具体例如:使用来计算查询样本图像中的目标类别、正样本图像的目标类别和负样本图像的目标类别之间的二元交叉熵损失值;其中,q表示查询样本图像集,p表示对查询样本图像的类别进行预测,Hp(q)表示查询样本图像集与训练标签之间的二元交叉熵损失函数,N表示查询样本图像集中的样本图像数量,yi表示三元组图像中的第i个训练标签,该训练标签中的正样本图像可以使用1表示,该训练标签中的负样本图像可以使用0表示,p(yi)表示该查询样本图像是三元组图像中的第i个训练标签对应类别的概率。
步骤S213:根据二元交叉熵损失值更新目标检测神经网络的网络参数,获得训练后的目标检测模型。
上述的步骤S213的实施方式例如:根据二元交叉熵损失值更新目标检测神经网络的网络参数,直到训练批次(epoch)数量达到预设阈值,或者直到目标检测神经网络的正确率收敛,即可获得训练后的目标检测模型;此处的预设阈值可以根据具体情况进行设置,具体例如:将预设阈值设置为1000、4000或者9000等等。
第二种训练方式,使用回归损失函数对目标检测神经网络进行训练,该训练方式可以包括:
步骤S214:使用目标检测神经网络预测目标对象在待检测图像中的第一边界框,并获取目标对象在正样本图像的第二边界框。
上述步骤S214的实施方式例如:使用目标检测神经网络对待检测图像中的边界框(BoundingBox)进行回归运算,从而获得目标对象在待检测图像中的第一边界框,并从训练数据集中获取目标对象在正样本图像的第二边界框;其中,可以使用的训练数据集包括但不限于:ImageNet图像数据集或者COCO图像数据集等等。
步骤S215:使用回归损失函数计算第一边界框和第二边界框之间的回归损失值。
上述步骤S215的实施方式例如:使用平滑L1损失函数(Smooth L1 LossFunction)或者平方损失函数(即L2损失函数)计算第一边界框和第二边界框之间的回归损失值。
步骤S216:根据回归损失值更新目标检测神经网络的网络参数,获得训练后的目标检测模型。
上述的步骤S216的实施方式例如:根据回归损失值更新目标检测神经网络的网络参数,直到训练批次(epoch)数量达到预设阈值,或者直到目标检测神经网络的正确率收敛,即可获得训练后的目标检测模型;同上,此处的预设阈值可以根据具体情况进行设置。
第三种训练方式,结合上面的第一种训练方式和第二种训练方式,同时根据表征类别损失的二元交叉熵损失值和表征边框损失的回归损失值更新目标检测神经网络的网络参数,直到训练批次(epoch)数量达到预设阈值,或者直到目标检测神经网络的正确率收敛,即可获得训练后的目标检测模型,同上,此处的预设阈值可以根据具体情况进行设置。
在上述的实现过程中,通过三元对比学习机制来对目标检测神经网络进行训练,从而使得目标检测神经网络能够在对比查询样本图像、正样本图像和负样本图像的过程中,学习到查询样本图像、正样本图像和负样本图像之间的匹配信息,有效地提高了目标检测神经网络的鲁棒性和泛化性。
请参见图3示出的本申请实施例提供的目标检测装置的结构示意图;本申请实施例提供了一种目标检测装置300,包括:
检测图像获得模块310,用于获得待检测图像。
目标边框预测模块320,用于使用目标检测模型中的注意力模块预测出目标对象在待检测图像中的预测边界框。
边框特征提取模块330,用于使用目标检测模型中的特征提取模块提取出预测边界框的特征图。
目标类别预测模块340,用于使用注意力模块根据预测边界框的特征图确定目标对象的类别。
可选地,在本申请实施例中,注意力模块包括:注意力区域候选网络;目标边框预测模块,包括:
候选边框获得模块,用于使用注意力区域候选网络预测目标对象在待检测图像中的候选框,获得多个候选框。
预测边框确定模块,用于计算多个候选框中的每个候选框的置信度值,并将置信度值最大的候选框确定为预测边界框。
可选地,在本申请实施例中,注意力模块包括:检测器网络;目标类别预测模块,包括:
相似度值获得模块,用于使用检测器网络计算预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,获得多个相似度值,类别特征图平均值是对相同类别的所有样本图像的特征图计算出来的平均值。
目标类别确定模块,用于将多个相似度值中的最大值对应的类别确定为目标对象的类别。
可选地,在本申请实施例中,目标检测装置,还包括:
样本图像获取模块,用于获取多个类别的样本图像,多个类别中的每个类别均包括多个样本图像。
特征图库构建模块,用于针对多个类别中的每个类别,计算出该类别的所有样本图像的特征图平均值,并将该类别的特征图平均值加入特征图库。
可选地,在本申请实施例中,该目标检测装置,还可以包括:
三元组图像获得模块,用于获得多个三元组图像,三元组图像包括:查询样本图像、正样本图像和负样本图像,查询样本图像和正样本图像均包含目标对象,负样本图像不包含目标对象。
检测网络训练模块,用于以查询样本图像为训练数据,以正样本图像和负样本图像为训练标签,对目标检测神经网络进行训练,获得目标检测模型。
可选地,在本申请实施例中,该检测网络训练模块,可以包括:
目标类别获取模块,用于使用目标检测神经网络预测查询样本图像中的目标类别,并获取正样本图像的目标类别和负样本图像的目标类别。
第一损失计算模块,用于计算查询样本图像中的目标类别、正样本图像的目标类别和负样本图像的目标类别之间的二元交叉熵损失值。
第一参数更新模块,用于根据二元交叉熵损失值更新目标检测神经网络的网络参数。
可选地,在本申请实施例中,检测网络训练模块,包括:
边界框获取模块,用于使用目标检测神经网络预测目标对象在待检测图像中的第一边界框,并获取目标对象在正样本图像的第二边界框。
第二损失计算模块,用于计算第一边界框和第二边界框之间的回归损失值。
第二参数更新模块,用于根据回归损失值更新目标检测神经网络的网络参数。
应理解的是,该装置与上述的目标检测方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
请参见图4示出的本申请实施例提供的电子设备的结构示意图。本申请实施例提供的一种电子设备400,包括:处理器410和存储器420,存储器420存储有处理器410可执行的机器可读指令,机器可读指令被处理器410执行时执行如上的方法。
本申请实施例还提供了一种存储介质430,该存储介质430上存储有计算机程序,该计算机程序被处理器410运行时执行如上的方法。
其中,存储介质430可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。

Claims (8)

1.一种目标检测方法,其特征在于,包括:
获得待检测图像;
使用目标检测模型中的注意力模块预测出目标对象在所述待检测图像中的预测边界框;
使用所述目标检测模型中的特征提取模块提取出所述预测边界框的特征图;
使用所述注意力模块根据所述预测边界框的特征图确定所述目标对象的类别;
其中,所述特征提取模块包括:残差中残差稠密模块;所述使用所述目标检测模型中的特征提取模块提取出所述预测边界框的特征图,包括:对所述待检测图像中的预测边界框的区域图像进行插值运算,获得插值图像,并使用所述残差中残差稠密模块对所述插值图像进行特征提取,获得该预测边界框的特征图;
所述注意力模块包括:注意力区域候选网络;所述使用目标检测模型中的注意力模块预测出目标对象在所述待检测图像中的预测边界框,包括:使用所述注意力区域候选网络预测目标对象在所述待检测图像中的候选框,获得多个候选框;计算所述多个候选框中的每个候选框的置信度值,并将所述置信度值最大的候选框确定为所述预测边界框;
所述注意力模块包括:检测器网络;所述使用所述注意力模块根据所述预测边界框的特征图确定所述目标对象的类别,包括:使用所述检测器网络计算所述预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,获得多个相似度值,所述类别特征图平均值是对相同类别的所有样本图像的特征图计算出来的平均值;将所述多个相似度值中的最大值对应的类别确定为所述目标对象的类别。
2.根据权利要求1所述的方法,其特征在于,在所述使用所述检测器网络计算所述预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值之前,还包括:
获取多个类别的样本图像,所述多个类别中的每个类别均包括多个样本图像;
针对所述多个类别中的每个类别,计算出该类别的所有样本图像的特征图平均值,并将该类别的特征图平均值加入所述特征图库。
3.根据权利要求1-2任一所述的方法,其特征在于,在所述使用目标检测模型中的注意力模块预测出目标对象在所述待检测图像中的预测边界框之前,还包括:
获得多个三元组图像,所述三元组图像包括:查询样本图像、正样本图像和负样本图像,所述查询样本图像和所述正样本图像均包含所述目标对象,所述负样本图像不包含所述目标对象;
以所述查询样本图像为训练数据,以所述正样本图像和所述负样本图像为训练标签,对目标检测神经网络进行训练,获得所述目标检测模型。
4.根据权利要求3所述的方法,其特征在于,所述对目标检测神经网络进行训练,包括:
使用所述目标检测神经网络预测所述查询样本图像中的目标类别,并获取所述正样本图像的目标类别和所述负样本图像的目标类别;
计算所述查询样本图像中的目标类别、所述正样本图像的目标类别和所述负样本图像的目标类别之间的二元交叉熵损失值;
根据所述二元交叉熵损失值更新所述目标检测神经网络的网络参数。
5.根据权利要求3所述的方法,其特征在于,所述对目标检测神经网络进行训练,包括:
使用所述目标检测神经网络预测目标对象在所述待检测图像中的第一边界框,并获取目标对象在所述正样本图像的第二边界框;
计算所述第一边界框和所述第二边界框之间的回归损失值;
根据所述回归损失值更新所述目标检测神经网络的网络参数。
6.一种目标检测装置,其特征在于,包括:
检测图像获得模块,用于获得待检测图像;
目标边框预测模块,用于使用目标检测模型中的注意力模块预测出目标对象在所述待检测图像中的预测边界框;
边框特征提取模块,用于使用所述目标检测模型中的特征提取模块提取出所述预测边界框的特征图;
目标类别预测模块,用于使用所述注意力模块根据所述预测边界框的特征图确定所述目标对象的类别;
其中,所述特征提取模块包括:残差中残差稠密模块;所述使用所述目标检测模型中的特征提取模块提取出所述预测边界框的特征图,包括:对所述待检测图像中的预测边界框的区域图像进行插值运算,获得插值图像,并使用所述残差中残差稠密模块对所述插值图像进行特征提取,获得该预测边界框的特征图;
所述注意力模块包括:注意力区域候选网络;所述使用目标检测模型中的注意力模块预测出目标对象在所述待检测图像中的预测边界框,包括:使用所述注意力区域候选网络预测目标对象在所述待检测图像中的候选框,获得多个候选框;计算所述多个候选框中的每个候选框的置信度值,并将所述置信度值最大的候选框确定为所述预测边界框;
所述注意力模块包括:检测器网络;所述使用所述注意力模块根据所述预测边界框的特征图确定所述目标对象的类别,包括:使用所述检测器网络计算所述预测边界框的特征图与特征图库中的每个类别特征图平均值之间的相似度值,获得多个相似度值,所述类别特征图平均值是对相同类别的所有样本图像的特征图计算出来的平均值;将所述多个相似度值中的最大值对应的类别确定为所述目标对象的类别。
7.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至5任一所述的方法。
8.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至5任一所述的方法。
CN202110252475.XA 2021-03-04 2021-03-04 一种目标检测方法、装置、电子设备及存储介质 Active CN112906685B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110252475.XA CN112906685B (zh) 2021-03-04 2021-03-04 一种目标检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110252475.XA CN112906685B (zh) 2021-03-04 2021-03-04 一种目标检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112906685A CN112906685A (zh) 2021-06-04
CN112906685B true CN112906685B (zh) 2024-03-26

Family

ID=76108686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110252475.XA Active CN112906685B (zh) 2021-03-04 2021-03-04 一种目标检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112906685B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378936B (zh) * 2021-06-11 2024-03-08 长沙军民先进技术研究有限公司 一种基于Faster RCNN的少样本目标检测方法
CN115146686B (zh) * 2021-08-03 2023-04-14 嘉洋智慧安全科技(北京)股份有限公司 一种确定目标对象安装位置的方法、装置、设备及介质
CN113793325A (zh) * 2021-09-22 2021-12-14 北京市商汤科技开发有限公司 一种检测方法、装置、计算机设备和存储介质
CN114998438B (zh) * 2022-08-02 2022-11-01 深圳比特微电子科技有限公司 一种目标检测方法、装置和机器可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121690A1 (zh) * 2016-12-29 2018-07-05 北京市商汤科技开发有限公司 对象属性检测、神经网络训练、区域检测方法和装置
WO2018137357A1 (zh) * 2017-01-24 2018-08-02 北京大学 一种目标检测性能优化的方法
CN109740460A (zh) * 2018-12-21 2019-05-10 武汉大学 基于深度残差密集网络的光学遥感图像舰船检测方法
CN109829893A (zh) * 2019-01-03 2019-05-31 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
CN111340744A (zh) * 2020-02-20 2020-06-26 合肥工业大学 基于注意力双流深度网络的低质量图像降采样方法及其系统
CN111368634A (zh) * 2020-02-05 2020-07-03 中国人民解放军国防科技大学 基于神经网络的人头检测方法、系统及存储介质
CN111738112A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法
WO2021027571A1 (zh) * 2019-08-15 2021-02-18 腾讯科技(深圳)有限公司 基于人工智能的医学图像处理方法、医学设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018121690A1 (zh) * 2016-12-29 2018-07-05 北京市商汤科技开发有限公司 对象属性检测、神经网络训练、区域检测方法和装置
WO2018137357A1 (zh) * 2017-01-24 2018-08-02 北京大学 一种目标检测性能优化的方法
CN109740460A (zh) * 2018-12-21 2019-05-10 武汉大学 基于深度残差密集网络的光学遥感图像舰船检测方法
CN109829893A (zh) * 2019-01-03 2019-05-31 武汉精测电子集团股份有限公司 一种基于注意力机制的缺陷目标检测方法
WO2021027571A1 (zh) * 2019-08-15 2021-02-18 腾讯科技(深圳)有限公司 基于人工智能的医学图像处理方法、医学设备和存储介质
CN111368634A (zh) * 2020-02-05 2020-07-03 中国人民解放军国防科技大学 基于神经网络的人头检测方法、系统及存储介质
CN111340744A (zh) * 2020-02-20 2020-06-26 合肥工业大学 基于注意力双流深度网络的低质量图像降采样方法及其系统
CN111738112A (zh) * 2020-06-10 2020-10-02 杭州电子科技大学 基于深度神经网络和自注意力机制的遥感船舶图像目标检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks;shaoqing ren;computer vision and pattern recognition;20160106;1-14 *
基于双注意力机制的遥感图像目标检测;周幸;陈立福;;计算机与现代化(第08期);1-7页 *
基于注意力机制和特征融合改进的小目标检测算法;麻森权;周克;;计算机应用与软件(第05期);194-199页 *
面向航空飞行安全的遥感图像小目标检测;李希;徐翔;李军;;航空兵器;20200615(第03期);54-61 *

Also Published As

Publication number Publication date
CN112906685A (zh) 2021-06-04

Similar Documents

Publication Publication Date Title
CN112906685B (zh) 一种目标检测方法、装置、电子设备及存储介质
CN110569721B (zh) 识别模型训练方法、图像识别方法、装置、设备及介质
CN109101602B (zh) 图像检索模型训练方法、图像检索方法、设备及存储介质
WO2019218824A1 (zh) 一种移动轨迹获取方法及其设备、存储介质、终端
CN111783749A (zh) 一种人脸检测方法、装置、电子设备及存储介质
CN112989962B (zh) 轨迹生成方法、装置、电子设备及存储介质
CN111968064B (zh) 一种图像处理方法、装置、电子设备及存储介质
CN109409288B (zh) 图像处理方法、装置、电子设备和存储介质
CN111931713B (zh) 一种异常行为检测方法、装置、电子设备及存储介质
CN111340028A (zh) 一种文本定位方法、装置、电子设备及存储介质
CN111680753A (zh) 一种数据标注方法、装置、电子设备及存储介质
CN113283368B (zh) 一种模型训练方法、人脸属性分析方法、装置及介质
CN112884147B (zh) 神经网络训练方法、图像处理方法、装置及电子设备
CN110490058B (zh) 行人检测模型的训练方法、装置、系统和计算机可读介质
CN110942456A (zh) 篡改图像检测方法、装置、设备及存储介质
CN116740607A (zh) 视频处理方法及装置、电子设备和存储介质
EP4332910A1 (en) Behavior detection method, electronic device, and computer readable storage medium
US11647294B2 (en) Panoramic video data process
CN115862119A (zh) 基于注意力机制的人脸年龄估计方法及装置
CN115147756A (zh) 一种视频流处理方法、装置、电子设备及存储介质
CN115439734A (zh) 质量评估模型训练方法、装置、电子设备及存储介质
CN112784691B (zh) 一种目标检测模型训练方法、目标检测方法和装置
CN114387496A (zh) 一种目标检测方法和电子设备
CN111695404B (zh) 行人跌倒检测方法、装置、电子设备及存储介质
CN112101476A (zh) 一种图片分类方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant