CN113989519A - 一种长尾目标检测方法及系统 - Google Patents

一种长尾目标检测方法及系统 Download PDF

Info

Publication number
CN113989519A
CN113989519A CN202111617270.3A CN202111617270A CN113989519A CN 113989519 A CN113989519 A CN 113989519A CN 202111617270 A CN202111617270 A CN 202111617270A CN 113989519 A CN113989519 A CN 113989519A
Authority
CN
China
Prior art keywords
image
long
tail
target
classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111617270.3A
Other languages
English (en)
Other versions
CN113989519B (zh
Inventor
王金桥
朱优松
王童
赵朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Objecteye Beijing Technology Co Ltd
Original Assignee
Objecteye Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Objecteye Beijing Technology Co Ltd filed Critical Objecteye Beijing Technology Co Ltd
Priority to CN202111617270.3A priority Critical patent/CN113989519B/zh
Publication of CN113989519A publication Critical patent/CN113989519A/zh
Application granted granted Critical
Publication of CN113989519B publication Critical patent/CN113989519B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种长尾目标检测方法及系统,该方法包括:获取待检测图像;将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。本发明提供的一种长尾目标检测方法及系统,通过余弦分类器,在对图像目标进行检测时,调整了模型的分类边界,从而得到更为准确的图像目标分类结果。

Description

一种长尾目标检测方法及系统
技术领域
本发明涉及计算机视觉和模式识别技术领域,尤其涉及一种长尾目标检测方法及系统。
背景技术
目标检测是计算机视觉中的一项基础任务,是很多计算机视觉任务的前提。现有的目标检测算法在均衡的检测数据集上有不错的性能。但是随着数据集规模的增加,维持各个类别之间样本数量的相对均衡变得越来越困难。先前的目标检测算法在长尾检测数据集上表现不佳,尤其是在尾部类别上。
在现有针对长尾目标的检测任务中,重采样方法以一个比较高的频率来对尾部类别的样本图像进行采样,对头部类别样本图像则采用一个比较低的频率。通过数据重采样的方法,使得原本不均衡的数据分布变得相对均衡,进而提高了尾部类别的性能。但是重采样方法也会带来一些弊端,比如,重采样方法可能会造成对尾部类别数据的过拟合,以及对头部类别数据的欠拟合,从而造成头部类别性能的下降。导致图像分类结果准确率较低。
因此,现在亟需一种长尾目标检测方法及系统来解决上述问题。
发明内容
针对现有技术存在的问题,本发明提供一种长尾目标检测方法及系统。
本发明提供一种长尾目标检测方法,包括:
获取待检测图像;
将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;
其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
根据本发明提供的一种长尾目标检测方法,所述长尾图像检测模型是由深度神经网络构建的,所述深度神经网络的损失函数是基于各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值确定,或基于各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值,以及分类器的参数模值确定。
根据本发明提供的一种长尾目标检测方法,所述损失函数的公式为:
Figure 574169DEST_PATH_IMAGE001
其中,s表示余弦分类器的放缩因子超参数,
Figure 905662DEST_PATH_IMAGE002
表示第i种分类目标类别对应的余 弦分类器参数与图像特征之间的角度,
Figure 704991DEST_PATH_IMAGE003
表示第j种分类目标类别对应的余弦分类器参数 与图像特征之间的角度,C表示所有的分类目标类别的数量。
根据本发明提供的一种长尾目标检测方法,所述损失函数还基于如下步骤确定:
根据不同分类目标类别对应的余弦分类器的参数模值比值,构建每种分类目标类别之间的角度间隔;
根据所述角度间隔和所述余弦值,构建损失函数。
根据本发明提供的一种长尾目标检测方法,所述损失函数的公式为:
Figure 369322DEST_PATH_IMAGE004
Figure 367541DEST_PATH_IMAGE005
其中,LC2AM表示单个分类目标类别对应的损失函数,s表示余弦分类器的放缩因子 超参数,
Figure 405904DEST_PATH_IMAGE002
表示第i种分类目标类别对应的余弦分类器参数与图像特征之间的角度,
Figure 759656DEST_PATH_IMAGE006
表 示第j种分类目标类别对应的余弦分类器参数与图像特征之间的角度,C表示所有的分类目 标类别的数量,mij表示第i种分类目标类别与第j种分类目标类别之间的角度间隔,a表示控 制角度间隔大小的超参数,Wi表示第i种分类目标类别对应的分类器权重参数,Wj表示第j种 分类目标类别对应的分类器权重参数。
根据本发明提供的一种长尾目标检测方法,所述长尾图像检测模型通过以下步骤得到:
获取多种不同的样本图像,其中,每种样本图像中标记有对应的分类目标标签;
基于每种样本图像的数量,构建具有头部类别样本图像和尾部类别样本图像分布的训练集,以得到长尾分布图像训练样本集;
将所述长尾分布图像训练样本集输入到深度神经网络进行训练,得到长尾图像检测模型。
本发明还提供一种长尾目标检测系统,包括:
目标图像采集模块,用于获取待检测图像;
目标检测模块,用于将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;
其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
根据本发明提供的一种长尾目标检测系统,所述系统还包括:
样本图像获取模块,用于获取多种不同的样本图像,其中,每种样本图像中标记有对应的分类目标标签;
长尾分布图像训练集构建模块,用于基于每种样本图像的数量,构建具有头部类别样本图像和尾部类别样本图像分布的训练集,以得到长尾分布图像训练样本集;
训练模块,用于将所述长尾分布图像训练样本集输入到深度神经网络进行训练,得到长尾图像检测模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述长尾目标检测方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述长尾目标检测方法的步骤。
本发明提供的一种长尾目标检测方法及系统,通过余弦分类器,在对图像目标进行检测时,调整了模型的分类边界,从而得到更为准确的图像目标分类结果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的长尾目标检测方法的流程示意图;
图2为本发明提供的分类器参数模值的分布示意图;
图3为本发明提供的不同长尾目标检测方法的分类边界示意图;
图4为本发明提供的长尾目标检测系统的结构示意图;
图5为本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在计算机视觉技术领域中,用于训练模型的数据经常会出现不平衡现象,即少数类别的图像含有大量的样本(定义为头部类别),而大多数类别的图像只包含少量的样本(定义为尾部类别)。基于上述这种情况,图像目标识别问题中,实际上也是一种针对长尾分布图像的识别问题,由于样本这种不平衡的现象,导致模型在头部类别的图像识别上表现较好的效果,而在尾部类别的图像识别上整体识别精度较低。
在现有针对长尾目标的检测任务中,除了重采样方法,还包括特殊网络结构设计或损失函数设计的方式,构建相应的长尾图像目标识别模型。其中,特殊网络结构设计,是通过引入特殊的网络结构来避免头部类别和尾部类别的直接竞争,比如,将全部的目标类别按照样本数量分成若干组,每个组内分别进行softmax;然后,引入若干个专家模型,分别对头部类别图像和尾部类别图像进行处理,得到最后的目标检测结果。损失函数设计,指的是设计特殊的损失函数来应对类别不均衡,比较经典的做法有:样本损失函数的加权,均衡各个类别的正负梯度。
然而,上述两种方法根据长尾目标检测任务需求进行设计时,灵活性较低,不能较好的应用于其他目标检测任务中,且尾部类别的检测识别性能还有待得到进一步提高。基于上述问题,本发明中的方法以图像目标识别领域的长尾目标检测任务进行说明,构建了一种有效的长尾目标检测算法,提升尾部类别的精度,同时保持头部类别的精度不下降。
图1为本发明提供的长尾目标检测方法的流程示意图,如图1所示,本发明提供了一种长尾目标检测方法,包括:
步骤101,获取待检测图像。
步骤102,将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;
其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
在本发明中,获取到的待检测图像可能属于头部类别图像,也可能属于尾部类别图像,由于本发明提供的长尾图像检测模型,是通过长尾分布图像训练样本集,对具有余弦分类器的深度神经网络进行训练得到的。因此,模型对图像中的目标进行检测识别时,可以较为准确的识别得到目标检测结果。优选地,在本发明中,对余弦分类器作进一步的改进,将一种类别感知的自适应角度间隔引入到深度神经网络的损失函数中,通过该自适应角度间隔,可以根据不同分类器参数的模值,来自适应地调整分类边界,从而使得头部类别在分类空间中具有更大的分类区域,而尾部类别有适当小的分类区域,最终达到一个更优的分类效果。
本发明提供的长尾目标检测方法,通过余弦分类器,在对图像目标进行检测时,调整了模型的分类边界,从而得到更为准确的图像目标分类结果。
在上述实施例的基础上,所述长尾图像检测模型通过以下步骤得到:
获取多种不同的样本图像,其中,每种样本图像中标记有对应的分类目标标签;
基于每种样本图像的数量,构建具有头部类别样本图像和尾部类别样本图像分布的训练集,以得到长尾分布图像训练样本集;
将所述长尾分布图像训练样本集输入到深度神经网络进行训练,得到长尾图像检测模型。
在本发明中,针对不同分类目标,获取多种具有对应标签的样本图像;然后,根据实际的目标检测需求,获取不同分类目标标签的样本图像所需的样本数,例如,分类目标有5种,将第一种分类目标的样本数量设置为最多,例如,设置为3000张样本图像,将第二种分类目标的样本数量设置为1500张,依次将后续的分类目标的样本数量减少,从而构建得到具有长尾分布图像的训练样本集。进一步地,将构建好的训练样本集输入到深度神经网络进行训练,当训练次数达到预设次数或满足预设收敛条件,得到长尾图像检测模型。
在上述实施例的基础上,所述长尾图像检测模型是由深度神经网络构建的,所述深度神经网络的损失函数是基于各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值确定,或基于各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值,以及分类器的参数模值确定。
图2为本发明提供的分类器参数模值的分布示意图,可参考图2所示,展示了针对不同类别样本的分类器参数模值分布(Weight norm distribution);其中,横轴表示根据类别样本数量排序后的类别标号(sorted category index),即第0类的样本图像数量最多;纵轴表示对应分类器的参数模值(Weight norm of classifier)。现有目标检测器通常使用一个线性分类器进行分类,但是在长尾场景下,线性分类器会对尾部类别产生病态的分类边界,严重影响尾部类别的性能。如图2所示,首先,样本图像数据的长尾分布,往往会导致分类器参数模值的分布不均衡,对于样本丰富度不高的类别(如图2中的尾部类别图像),其分类器的模值通常非常小,而那些样本丰富度高的类别一般具有较大的分类器模值。
图3为本发明提供的不同长尾目标检测方法的分类边界示意图,可参考图3的(a)所示,在现有线性分类器中,分类器模值的分布不均匀会对尾部类别产生病态的分类边界,即分类边界不准确,导致分类器偏向于分类器模值比较大的类别。以二分类问题为例,其分类边界公式为:
Figure 668706DEST_PATH_IMAGE007
; 公式(1)
需要说明的是,为了便于分析,上述公式(1)中,线性分类器的偏置项被省略了,实际上,偏置项不影响最后的精度。进一步地,对公式(1)进行变换,得到变换后的公式:
Figure 315457DEST_PATH_IMAGE008
; 公式(2)
进而公式(2)进行化简,得到的公式为:
Figure 372275DEST_PATH_IMAGE009
; 公式(3)
其中,
Figure 592035DEST_PATH_IMAGE010
为第i种分类目标类别对应的分类器权重参数,x为网络识别得到的目标 图像特征,
Figure 404526DEST_PATH_IMAGE011
Figure 238490DEST_PATH_IMAGE010
和x之间的夹角。假设
Figure 267757DEST_PATH_IMAGE012
,在 公式(3)中,当
Figure 41940DEST_PATH_IMAGE013
时,两个类别之间的分类边界将会被无限地推向W2,只有当
Figure 473053DEST_PATH_IMAGE014
无限趋近于0时,分类器才会将该样本预测为类别2。如图3的(a)所示,这样的分类边界 对于类别2来说是病态的,对于长尾图像分布的目标检测中,该分类边界的精度严重偏低, 因为分类器倾向于将所有的样本都预测成参数模值非常大的类别。
进一步地,为了解决上述提及的分类边界问题,本发明中的深度神经网络采用了余弦分类器,其损失函数的定义为:
Figure 55081DEST_PATH_IMAGE015
;公式(4)
其中,s表示余弦分类器的放缩因子超参数,
Figure 555333DEST_PATH_IMAGE011
表示第i种分类目标类别对应的余 弦分类器参数与图像特征之间的角度,
Figure 54579DEST_PATH_IMAGE016
表示第j种分类目标类别对应的余弦分类器参数 与图像特征之间的角度,C表示所有的分类目标类别的数量。
在公式(4)中,其分类边界只与图像特征与余弦分类器参数之间的夹角有关。以二分类问题为例说明,可参考图3的(b)所示,为采样余弦分类器后的分类边界示意图,类别1和类别2的分类边界变成了两个类别参数向量的角分线,从而解决了图3的(a)中所示的精度严重偏低的分类边界,提高了模型对于长尾分布图像的目标检测准确率。
在上述实施例的基础上,所述损失函数还基于如下步骤确定:
根据不同分类目标类别对应的余弦分类器的参数模值比值,构建每种分类目标类别之间的角度间隔;
根据所述角度间隔和所述余弦值,构建损失函数。
在本发明中,完全均衡的分类边界,对于长尾分布图像的检测,其分类精度还可进一步提升。对于头部类别的图像类别来说,由于其样本丰富度高,其应该在分类空间中占有更大的区域;反之,对于尾部类别来说,其应该在分类空间中占有稍小的区域。因此,本发明引入了一个类别感知的自适应角度间隔,来对不同类别之间的分类边界进行稍微的调整,使头部类别拥有更大的分类区域,尾部类别拥有较小的分类区域,具体可参考图3的(c)的新分类边界。
具体地,为了自适应地调整不同类别之间的分类边界,本发明将一个类别感知的自适应角度间隔引入到了余弦分类器中,得到改进后的损失函数,将分类边界稍微向参数模值较小的类别移动,从而使得头部类别有更大的分类空间。
在上述实施例的基础上,改进后的损失函数的公式为:
Figure 792727DEST_PATH_IMAGE004
;公式(5)
Figure 955112DEST_PATH_IMAGE017
;公式(6)
其中,LC2AM表示单个分类目标类别对应的损失函数,s表示余弦分类器的放缩因子 超参数;
Figure 208239DEST_PATH_IMAGE011
表示第i种分类目标类别对应的余弦分类器参数与图像特征之间的角度,
Figure 245596DEST_PATH_IMAGE018
表示 第j种分类目标类别对应的余弦分类器参数与图像特征之间的角度,角度
Figure 634989DEST_PATH_IMAGE019
的计算公式为:
Figure 558820DEST_PATH_IMAGE020
;C表示所有的分类目标类别的数量,mij表示第i种分类目标类别与第 j种分类目标类别之间的角度间隔,a表示控制角度间隔大小的超参数,Wi表示第i种分类目 标类别对应的分类器权重参数,Wj表示第j种分类目标类别对应的分类器权重参数。其中, 第i种分类目标类别为真值类别。
在公式(5)中,在每两个类别之间都加入了一个角度间隔mij,该角度间隔mij根据 公式(6)计算得到。当
Figure 49976DEST_PATH_IMAGE021
时,
Figure 874712DEST_PATH_IMAGE022
,分类边界被推向了类别j(靠近类别2);并且, mij是正比于
Figure 585790DEST_PATH_IMAGE023
,当两个类别的参数模值相差越大的时候,通过角度间隔mij,使得分 类边界的调整力度也就越大。
在本发明中,通过引入了一个超参数a,在计算角度间隔mij时进行缩放,以保证不 会产生一个过大的角度间隔,其中,这个超参数a通常是一个比较小的值;函数log()是一个 凸函数,这个函数保证了当
Figure 103359DEST_PATH_IMAGE024
增长的越来越大时,角度间隔mij能够以一个相对比较 缓的速度增长,而现有基于角度间隔损失函数的方法,通常在不同类别之间引入相同的角 度间隔,这个角度间隔以一个超参数的形式存在。不同于现有方法,本发明将一个类别自适 应的角度间隔引入到余弦分类器中,使得不同类别之间的角度间隔是自适应的,且与分类 器的参数模值相关。
在一实施例中,基于本发明提供的类别感知自适应角度间隔损失的长尾目标检测方法,以LVIS数据集为例进行说明,该数据集中的数据符合长尾分布,包括以下步骤:
步骤S1,将Faster R-CNN检测器第二级的线性分类器,替换为本发明提供的带自适应角度间隔的余弦分类器,并且对超参数进行设置,a=0.5。
步骤S2,网络训练:在LVIS长尾数据集上,对Faster R-CNN进行训练,其中,学习率,anchor的尺寸和个数等超参数遵循Faster R-CNN的默认设置。
步骤S3,网络测试:加载训练好的网络参数进行测试,分类器使用的是余弦分类器。需要说明的是,在测试的过程中,角度间隔是不存在的,因为测试的过程是不知道真值类别的。通过网络测试可知,训练好的模型对于长尾图像分布的测试集具有较高的识别准确率。
本发明提供的长尾目标检测方法,提出了一种基于类别感知自适应角度间隔的损失函数,该损失函数能够对不同类别之间的分类边界进行动态地调整,从而提高尾部类别的性能;并且,该方法具有比较高的灵活性,可以和其他长尾算法相结合,可以应用到其他任务上,例如,图像分类和图像分割。
下面对本发明提供的长尾目标检测系统进行描述,下文描述的长尾目标检测系统与上文描述的长尾目标检测方法可相互对应参照。
图4为本发明提供的长尾目标检测系统的结构示意图,如图4所示,本发明提供了一种长尾目标检测系统,包括目标图像采集模块401和目标检测模块402,其中,目标图像采集模块401用于将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;
其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
在本发明中,目标图像采集模块401将采集到的待检测图像输入到目标检测模块402中,由于输入的待检测图像可能属于头部类别图像,也可能属于尾部类别图像,长尾目标检测系统可准确的针对此种情况,对图像中的目标进行识别检测。
在目标检测模块402中,设置有长尾图像检测模型,该模型适用于输入为图像的目标检测任务,特别应用于不同类别的数据呈现严重长尾分布的情况。在训练过程中,通过少部分头部类别较多的训练样本,以及大部分尾部类别极少的训练样本进行训练。为了使得模型对于长尾图像分布进行更好的检测,训练所使用的深度神经网络的分类器为余弦分类器。优选地,本发明的深度神经网络采用的是改进后的损失函数,该损失函数具体是通过以下过程构建的:根据不同分类目标类别对应的余弦分类器的参数模值比值,构建每种分类目标类别之间的角度间隔;根据所述角度间隔和所述余弦值,构建损失函数。所述损失函数的公式为:
Figure 81811DEST_PATH_IMAGE004
Figure 287402DEST_PATH_IMAGE025
其中,LC2AM表示单个分类目标类别对应的损失函数,s表示余弦分类器的放缩因子 超参数,
Figure 385808DEST_PATH_IMAGE011
表示第i种分类目标类别对应的余弦分类器参数与图像特征之间的角度,
Figure 90590DEST_PATH_IMAGE026
表示 第j种分类目标类别对应的余弦分类器参数与图像特征之间的角度,C表示所有的分类目标 类别的数量,mij表示第i种分类目标类别与第j种分类目标类别之间的角度间隔,a表示控制 角度间隔大小的超参数,Wi表示第i种分类目标类别对应的分类器权重参数,Wj表示第j种分 类目标类别对应的分类器权重参数。
进一步地,在目标检测模块402的分类模型中,其训练过程中采用的损失函数,是通过在不同的类别之间引入自适应的角度间隔,使得不同类别之间的决策边界得到了适当的调整。具体地,对于调整后的分类边界,该分类边界会被稍微地推向尾部类别,使得头部类别有适当大的分类区域,而尾部类别具有适当小的分类区域,从而使得分类器具有更好的分类性能。由于分类器参数的模值,在一定程度上体现了该类别样本的丰富度,参数模值越大,则表明该类别的数据丰富度越高;反之,则说明该类别的数据丰富度越低。对于数据丰富度高的类别,其应该在分类空间中占有更大的区域,即分类边界应该更靠近数据丰富度低的类别。
进一步地,在训练过程中,对于任意两个类别来说,首先根据两个类别对应分类器参数模值的比值,确定所需的角度间隔,即该比值越大说明两个类别的数据丰富度相差越大,分类边界应该更倾向于参数模值比较小的分类器。因此,本发明利用一个单调递增的凸函数,根据分类器参数模值的比值,得到一个自适应的角度间隔,使得模型在训练过程,将自适应角度间隔和余弦分类器相结合,完成对模型的训练。
本发明提供的长尾目标检测系统,通过余弦分类器,在对图像目标进行检测时,调整了模型的分类边界,从而得到更为准确的图像目标分类结果。
在上述实施例的基础上,所述系统还包括样本图像获取模块、长尾分布图像训练集构建模块和训练模块,其中,样本图像获取模块用于获取多种不同的样本图像,其中,每种样本图像中标记有对应的分类目标标签;长尾分布图像训练集构建模块用于基于每种样本图像的数量,构建具有头部类别样本图像和尾部类别样本图像分布的训练集,以得到长尾分布图像训练样本集;训练模块用于将所述长尾分布图像训练样本集输入到深度神经网络进行训练,得到长尾图像检测模型。
本发明提供的系统是用于执行上述各方法实施例的,具体流程和详细内容请参照上述实施例,此处不再赘述。
图5为本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(Processor)501、通信接口(Communications Interface)502、存储器(Memory)503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令,以执行长尾目标检测方法,该方法包括:获取待检测图像;将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
此外,上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的长尾目标检测方法,该方法包括:获取待检测图像;将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的长尾目标检测方法,该方法包括:获取待检测图像;将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种长尾目标检测方法,其特征在于,包括:
获取待检测图像;
将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;
其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
2.根据权利要求1所述的长尾目标检测方法,其特征在于,所述长尾图像检测模型是由深度神经网络构建的,所述深度神经网络的损失函数是基于各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值确定,或基于各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值,以及分类器的参数模值确定。
3.根据权利要求2所述的长尾目标检测方法,其特征在于,所述损失函数的公式为:
Figure 407076DEST_PATH_IMAGE001
其中,s表示余弦分类器的放缩因子超参数,
Figure 42456DEST_PATH_IMAGE002
表示第i种分类目标类别对应的余弦分 类器参数与图像特征之间的角度,
Figure 11681DEST_PATH_IMAGE003
表示第j种分类目标类别对应的余弦分类器参数与图 像特征之间的角度,C表示所有的分类目标类别的数量。
4.根据权利要求2所述的长尾目标检测方法,其特征在于,所述损失函数还基于如下步骤确定:
根据不同分类目标类别对应的余弦分类器的参数模值比值,构建每种分类目标类别之间的角度间隔;
根据所述角度间隔和所述余弦值,构建损失函数。
5.根据权利要求4所述的长尾目标检测方法,其特征在于,所述损失函数的公式为:
Figure 871052DEST_PATH_IMAGE004
Figure 59981DEST_PATH_IMAGE005
其中,LC2AM表示单个分类目标对应的损失函数,s表示余弦分类器的放缩因子超参数,
Figure 374419DEST_PATH_IMAGE002
表示第i种分类目标类别对应的余弦分类器参数与图像特征之间的角度,
Figure 447417DEST_PATH_IMAGE003
表示第j种 分类目标类别对应的余弦分类器参数与图像特征之间的角度,C表示所有的分类目标类别 的数量,mij表示第i种分类目标类别与第j种分类目标类别之间的角度间隔,a表示控制角度 间隔大小的超参数,Wi表示第i种分类目标类别对应的分类器权重参数,Wj表示第j种分类目 标类别对应的分类器权重参数。
6.根据权利要求1所述的长尾目标检测方法,其特征在于,所述长尾图像检测模型通过以下步骤得到:
获取多种不同的样本图像,其中,每种样本图像中标记有对应的分类目标标签;
基于每种样本图像的数量,构建具有头部类别样本图像和尾部类别样本图像分布的训练集,以得到长尾分布图像训练样本集;
将所述长尾分布图像训练样本集输入到深度神经网络进行训练,得到长尾图像检测模型。
7.一种长尾目标检测系统,其特征在于,包括:
目标图像采集模块,用于获取待检测图像;
目标检测模块,用于将所述待检测图像输入到长尾图像检测模型中,由所述长尾图像检测模型对所述待检测图像进行目标图像特征提取,并基于提取所得的目标图像特征与分类器参数之间夹角的余弦值,进行图像分类,得到所述长尾图像检测模型输出的目标检测结果;
其中,所述长尾图像检测模型是基于长尾分布图像训练样本集,以均衡所述长尾分布图像训练样本集中各图像类别下样本图像的目标图像特征与分类器参数之间夹角的余弦值为目的训练得到的。
8.根据权利要求7所述的长尾目标检测系统,其特征在于,所述系统还包括:
样本图像获取模块,用于获取多种不同的样本图像,其中,每种样本图像中标记有对应的分类目标标签;
长尾分布图像训练集构建模块,用于基于每种样本图像的数量,构建具有头部类别样本图像和尾部类别样本图像分布的训练集,以得到长尾分布图像训练样本集;
训练模块,用于将所述长尾分布图像训练样本集输入到深度神经网络进行训练,得到长尾图像检测模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述长尾目标检测方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述长尾目标检测方法的步骤。
CN202111617270.3A 2021-12-28 2021-12-28 一种长尾目标检测方法及系统 Active CN113989519B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111617270.3A CN113989519B (zh) 2021-12-28 2021-12-28 一种长尾目标检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111617270.3A CN113989519B (zh) 2021-12-28 2021-12-28 一种长尾目标检测方法及系统

Publications (2)

Publication Number Publication Date
CN113989519A true CN113989519A (zh) 2022-01-28
CN113989519B CN113989519B (zh) 2022-03-22

Family

ID=79734666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111617270.3A Active CN113989519B (zh) 2021-12-28 2021-12-28 一种长尾目标检测方法及系统

Country Status (1)

Country Link
CN (1) CN113989519B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433989A (zh) * 2023-06-08 2023-07-14 深圳大学 特征增强方法、装置、计算机设备和存储介质
CN117253095A (zh) * 2023-11-16 2023-12-19 吉林大学 一种基于有偏最短距离准则的图像分类系统及方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229298A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练和人脸识别方法及装置、设备、存储介质
US20190095700A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Long-tail large scale face recognition by non-linear feature level domain adaption
CN110414431A (zh) * 2019-07-29 2019-11-05 广州像素数据技术股份有限公司 基于弹性上下文关系损失函数的人脸识别方法及系统
CN110705489A (zh) * 2019-10-09 2020-01-17 北京迈格威科技有限公司 目标识别网络的训练方法、装置、计算机设备和存储介质
CN111191781A (zh) * 2018-11-14 2020-05-22 佳能株式会社 训练神经网络的方法、对象识别方法和设备以及介质
CN111401257A (zh) * 2020-03-17 2020-07-10 天津理工大学 一种基于余弦损失非约束条件人脸识别方法
CN112215280A (zh) * 2020-10-12 2021-01-12 西安交通大学 一种基于元骨干网络的小样本图像分类方法
US20210157006A1 (en) * 2019-11-22 2021-05-27 Samsung Electronics Co., Ltd. System and method for three-dimensional object detection
CN113011485A (zh) * 2021-03-12 2021-06-22 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
CN113076929A (zh) * 2021-04-27 2021-07-06 东南大学 一种角度余量自适应的人脸识别模型训练方法
CN113222043A (zh) * 2021-05-25 2021-08-06 北京有竹居网络技术有限公司 一种图像分类方法、装置、设备及存储介质
US20210264136A1 (en) * 2019-04-03 2021-08-26 Tencent Technology (Shenzhen) Company Limited Model training method and apparatus, face recognition method and apparatus, device, and storage medium

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095700A1 (en) * 2017-09-28 2019-03-28 Nec Laboratories America, Inc. Long-tail large scale face recognition by non-linear feature level domain adaption
CN108229298A (zh) * 2017-09-30 2018-06-29 北京市商汤科技开发有限公司 神经网络的训练和人脸识别方法及装置、设备、存储介质
CN111191781A (zh) * 2018-11-14 2020-05-22 佳能株式会社 训练神经网络的方法、对象识别方法和设备以及介质
US20210264136A1 (en) * 2019-04-03 2021-08-26 Tencent Technology (Shenzhen) Company Limited Model training method and apparatus, face recognition method and apparatus, device, and storage medium
CN110414431A (zh) * 2019-07-29 2019-11-05 广州像素数据技术股份有限公司 基于弹性上下文关系损失函数的人脸识别方法及系统
CN110705489A (zh) * 2019-10-09 2020-01-17 北京迈格威科技有限公司 目标识别网络的训练方法、装置、计算机设备和存储介质
US20210157006A1 (en) * 2019-11-22 2021-05-27 Samsung Electronics Co., Ltd. System and method for three-dimensional object detection
CN111401257A (zh) * 2020-03-17 2020-07-10 天津理工大学 一种基于余弦损失非约束条件人脸识别方法
CN112215280A (zh) * 2020-10-12 2021-01-12 西安交通大学 一种基于元骨干网络的小样本图像分类方法
CN113011485A (zh) * 2021-03-12 2021-06-22 北京邮电大学 多模态多病种长尾分布眼科疾病分类模型训练方法和装置
CN113076929A (zh) * 2021-04-27 2021-07-06 东南大学 一种角度余量自适应的人脸识别模型训练方法
CN113222043A (zh) * 2021-05-25 2021-08-06 北京有竹居网络技术有限公司 一种图像分类方法、装置、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HAO WANG 等: "CosFace: Large Margin Cosine Loss for Deep Face Recognition", 《2018 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION》 *
WEI-FENG OU 等: "LinCos-Softmax: Learning Angle-Discriminative Face Representations With Linearity-Enhanced Cosine Logits", 《IEEE ACCESS》 *
王浩: "当今人脸识别技术的现状与未来研究方向", 《计算机与数字工程》 *
章东平 等: "基于改进型加性余弦间隔损失函数的深度学习人脸识别", 《传感技术学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116433989A (zh) * 2023-06-08 2023-07-14 深圳大学 特征增强方法、装置、计算机设备和存储介质
CN116433989B (zh) * 2023-06-08 2023-12-01 深圳大学 特征增强方法、装置、计算机设备和存储介质
CN117253095A (zh) * 2023-11-16 2023-12-19 吉林大学 一种基于有偏最短距离准则的图像分类系统及方法
CN117253095B (zh) * 2023-11-16 2024-01-30 吉林大学 一种基于有偏最短距离准则的图像分类系统及方法

Also Published As

Publication number Publication date
CN113989519B (zh) 2022-03-22

Similar Documents

Publication Publication Date Title
US11594070B2 (en) Face detection training method and apparatus, and electronic device
CN110020592B (zh) 物体检测模型训练方法、装置、计算机设备及存储介质
CN113989519B (zh) 一种长尾目标检测方法及系统
CN108280455B (zh) 人体关键点检测方法和装置、电子设备、程序和介质
JP6897749B2 (ja) 学習方法、学習システム、および学習プログラム
CN113688933A (zh) 分类网络的训练方法及分类方法和装置、电子设备
US7643674B2 (en) Classification methods, classifier determination methods, classifiers, classifier determination devices, and articles of manufacture
CN105320970B (zh) 一种马铃薯病害诊断装置、诊断系统及诊断方法
CN114155397B (zh) 一种小样本图像分类方法及系统
CN108550163A (zh) 一种复杂背景场景中运动目标检测方法
CN116894985B (zh) 半监督图像分类方法及半监督图像分类系统
CN117746077B (zh) 一种芯片缺陷的检测方法、装置、设备和存储介质
US20150242676A1 (en) Method for the Supervised Classification of Cells Included in Microscopy Images
CN107729877B (zh) 一种基于级联分类器的人脸检测方法及装置
CN111414930B (zh) 深度学习模型训练方法及装置、电子设备及存储介质
JP6797854B2 (ja) 情報処理装置および情報処理方法
CN110428012A (zh) 脑网络模型建立方法、脑图像分类方法、装置及电子设备
CN104123538B (zh) 一种基于视觉词袋的网络不良图像检测方法
CN116597197A (zh) 一种自适应消除分类负梯度的长尾目标检测方法
CN114463574A (zh) 一种遥感图像的场景分类方法及装置
CN114399780A (zh) 表格检测方法、表格检测模型训练方法及装置
Soujanya et al. A CNN based approach for handwritten character identification of Telugu guninthalu using various optimizers
CN110458058A (zh) 表情的识别方法和装置
CN109800441A (zh) 一种模型输出推荐方法和装置、模型输出推荐系统
CN117746266A (zh) 一种基于半监督交互学习的树冠检测方法、装置及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant