CN112418278A - 一种多类物体检测方法、终端设备及存储介质 - Google Patents

一种多类物体检测方法、终端设备及存储介质 Download PDF

Info

Publication number
CN112418278A
CN112418278A CN202011222250.1A CN202011222250A CN112418278A CN 112418278 A CN112418278 A CN 112418278A CN 202011222250 A CN202011222250 A CN 202011222250A CN 112418278 A CN112418278 A CN 112418278A
Authority
CN
China
Prior art keywords
image
detected
layer
prediction
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011222250.1A
Other languages
English (en)
Inventor
高远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Auto Service Technology Service Co ltd
Original Assignee
China Auto Service Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Auto Service Technology Service Co ltd filed Critical China Auto Service Technology Service Co ltd
Priority to CN202011222250.1A priority Critical patent/CN112418278A/zh
Publication of CN112418278A publication Critical patent/CN112418278A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了一种多类物体检测方法、终端设备及存储介质,所述方法包括获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。本申请旨在改进原有检测模型,通过预先训练的多类检测模型改变原有只能实现单一识别以实现多种类别的待检测图像,扩大应用场景,结构简单,提高用户体验。

Description

一种多类物体检测方法、终端设备及存储介质
技术领域
本发明涉及图像识别技术领域,尤其涉及一种多类物体检测方法、终端设备及存储介质。
背景技术
如今深度学习的蓬勃发展推动了计算机视觉领域的极大进步,神经网络提取的特征比人工设计的特征更为鲁棒,能更好地代表原始数据。文本检测识别技术的发展也有助于挖掘文本。因此,基于精确检测框定位和识别的场景检测算法在现实世界中有许多重要的应用,如文档分析、自动驾驶和车牌识别等。
基于EAST模型是一种使用频率较高的高效、准确的场景检测器,可以直接从完整的图像中预测文本实例的存在及其几何特征。其输出具有两个分支,第一个分支是像素值在[0,1]范围内的置信得分图(score map),其值表示每个像素是否属于文本区域的概率;第二个分支是回归分支,它可以为文本区域生成两种几何图形的候选预测边界框:旋转框(RBOX)或四边形框(QUAD)。在得到score map和RBOX后,后处理算法对每个像素进行阈值化处理,得到得分超过预定置信阈值的文本区域。然后,这些区域被认为是有效的,每个像素位置会预测一个文本框,后将同一片文本区域的像素点预测的所有候选预测边界框组合成一个最终的预测边界框用来表示该片文本区域并输出。
然而传统EAST模型仅仅用于识别单类文本,即仅仅只能识别一类物体,而在一个场景中具有多源化元素,单一EAST模型无法满足多类物体同时识别需求,导致其应用受到限制,不利于推广,影响用户体验。因此,亟需提高一种准确识别不同类别物体的场景检测模型。
因此,现有技术还有待于发展和改进。
发明内容
基于此,有必要针对现有文本检测模型检测类型单一的技术问题,提出了一种多类物体检测方法、终端设备及存储介质。
一种多类物体检测方法,所述多类物体检测方法包括:
获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;
若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;
若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
所述的多类物体检测方法,其中,所述预先训练的多类检测模型的训练过程包括以下步骤:
获取训练集,所述训练集包括带有真实框的多个样本图像;
将多个样本图像输入至初始多类检测模型以进行训练,获取各样本图像的预测框得分图以及对应的预测框几何参数信息;所述预测框几何参数信息包括预测位置信息以及预测角度信息;所述预测框得分图上每个像素位置的预设得分用于用于表示以该像素位置为中心所预测出的预测框的有效性;
基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息,确定各样本图像的预测结果;
根据预设的目标损失函数,计算各样本图像的预测结果与对应的真实框的真实结果之间的损失;
根据各损失加权求和得到的目标损失更新所述初始多类检测模型的参数,直至所述初始多类检测模型的参数收敛,得到目标多类检测模型;所述目标多类检测模型作为预先训练的多类检测模型。
所述的多类物体检测方法,其中,所述训练集的获取过程包括:
获取多个初始图像;
将各初始图像按照目标方式进行优化处理,得到各样本图像;其中,所述目标方式至少包括缩放、图像截图、色度调节、亮度调节、角度调节中的任一项;
在各样本图像上标记待预测对象区域;其中,不同类别的待预测对象区域用不同颜色的真实框标注;
将带有真实框标注的各样本图像作为训练集。
所述的多类物体检测方法,其中,所述训练集的获取过程还包括:
将各样本图像通过Mixup混合样本策略,得到一混合样本图像,所述混合样本图像包括多个不同颜色的真实框,并将所述混合样本图像作为训练集。
所述的多类物体检测方法,其中,所述预先训练的多类检测模型为基于改进的EAST模型,其包括特征提取层、特征融合层以及多通道输出层,所述将多个样本图像输入至初始多类检测模型以进行训练,获取各样本图像的预测框得分图以及对应的预测框几何参数信息具体包括:
通过特征提取层从各样本图像提取对应多个尺度的特征图;
通过特征融合层将各样本图像对应的多个尺度的特征图融合为与各样本图像尺寸一致的融合特征图;
通过多通道输出层根据各样本图像对应的融合特征图在每一通道均生成各样本图像中每个像素位置的预测框得分以及对应的预测框几何参数信息。
所述的多类物体检测方法,其中,所述特征提取层包括依次连接的下采样层和四个第一卷积层,其中,四个第一卷积层级联连接,所述下采样层和每个第一卷积层的通道数依次递增;
所述特征融合层包括四个特征融合阶段,前三个特征融合阶段中各特征融合阶段均包括一池化层、连接层、第二卷积层以及第三卷积层,同一特征融合阶段的第二卷积层和第三卷积层的通道数相同,各连接层与所述特征提取层对应的第一卷积层连接;最后一个特征融合阶段包括第四卷积层,所述第四卷积层的通道数与第三个特征融合阶段的第三卷积层的通道数相同;
所述多通道输出层包括与所述第四卷积层分别连接的第五卷积层以及两个第六卷积层,所述第五卷积层的通道数为n,两个第六卷积层的通道数分别为4n和n;其中,n为待检测目标对象的个数。
所述的多类物体检测方法,其中,所述基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息,确定各样本图像的预测结果之后包括:
若预测框得分图上某一像素点位置的预测得分大于预设阈值,则以所述像素点位置为中心所预测出的预测框有效;
若预测框得分图上某一像素点位置的预测得分小于等于预设阈值,则以所述像素点位置为中心所预测出的预测框无效效。
所述的多类物体检测方法,其中,每一通道的预测框得分图用于预测一类别的目标对象,若预测框得分图上同一像素点位置对应至少两个通道,则选取两通道值中值较大者对应的通道作为所述像素点位置的预测类别。
本申请还提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;
若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;
若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
本申请还提供一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;
若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;
若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
采用本发明实施例,具有如下有益效果:
本申请所提供的一种多类物体检测方法、终端设备及存储介质,所述方法包括获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。本申请旨在改进原有检测模型,通过预先训练的多类检测模型改变原有只能实现单一识别方法而实现多种类别的待检测图像,扩大应用场景,结构简单,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为一个实施例中多类物体检测方法的流程图;
图2为一个实施例中多类检测模型的网络结构图;
图3为一个实施例中终端设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1示例了本发明提供的一种多类物体检测方法的一实施例的流程图。如图1所示,所述多类物体检测方法包括:
S10、获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象。
具体地,本实施例在改进后的EAST模型进行不同类别的待检测图像的检测和识别。EAST模型能够高效、准确识别场景文本。EAST,全称为an Efficient and AccuracyScene Text detection pipeline,译为高效、准确的场景文本识别管道。其检测流程包括两个阶段,第一阶段是全卷积网络(FCN,Fully Convolutional Networks),通过全卷积网络处理图像得到其中每个像素的对应的候选预测框,及包含每个像素属于文本区域的置信得分的置信得分图(score map);第二阶段是非极大抑制阶段﹐例如通过标准非极大抑制(NMS)或局部感知非极大抑制(LNMS)等方法,以根据置信得分图将之前所回归的各个候选预测边界框中过于相似的加以合并为一,最终得到对图像中每个目标的最终预测框,而完成目标检测。
如前所述,EAST模型中的置信得分图的尺寸与原图像相同,则每个置信得分图中像素位置的置信得分表示原图像中对应位置的像素属于目标对象所属的区域(即为图中目标对象上的像素)的可能性,得分越高(可通过置信得分图中的像素值表示),则表示越有可能属于目标对象所属的真实区域。
请参阅图2,图2示例了本实施例基于改进后的EAST模型的结构示意图。
改进的EAST模型包括:特征提取层(Feature extractor stem,主干网络)101、特征融合层(Feature-merging branch,分支网络)102、及多通道输出层(Output layer)103。
从图中可见,特征提取层101包含多级(stage)的卷积层(conv,即convolution),用于对原图进行多个尺度的特征图f1~f4的提取。其中,特征提取层101是基于“金字塔特征网络”的结构,即卷积层的尺寸依级减半,但卷积核的数量依次增倍。具体地,所述特征提取层101包括依次连接的下采样层和四个第一卷积层,其中,四个第一卷积层级联连接,所述下采样层与四个第一卷积层的通道数依次递增。该递增可呈倍数递增,即通道数呈2倍,4倍递增。在本实施例中,选取通道数呈2倍递增较佳。
在本实施例中,如图2所示,所述下采样层的卷积核大小为7*7,卷积步长为16,通道数为2,四个第一卷积层的通道数依次均为64,128,256,384。通过利用特征提取层101对输入的图像进行特征提取,输出四个级别的特征图f1~f4。
在特征融合层102,对较深一级的特征图进行上采样(unpooling),恢复到与前一级尺度的特征图相同尺寸并与其堆叠(concat),例如在特征提取时候,下一级别的特征图相比于上一级别的特征度尺度缩小为1/2,则在上采样时特征图尺度扩大为2倍。以此类推,最终向多通道输出层103输出融合特征图,通过下采样到上采样并融合的过程,融合特征图的尺寸与输入的原图像尺寸相同。
具体地,如图2所示,所述特征融合层包括四个特征融合阶段,前三个特征融合阶段中各特征融合阶段均包括一池化层、连接层、第二卷积层以及第三卷积层,同一特征融合阶段的第二卷积层和第三卷积层的通道数相同,不同特征融合阶段的通道数依次递减,该递减可呈倍数递减,即通道数呈2倍,4倍递减等。在本实施例中,选取通道数呈2倍递减较佳,其与特征提取层101对应。各连接层与所述特征提取层对应的第一卷积层连接,最后一个特征融合阶段包括第四卷积层,所述第四卷积层的通道数与第三卷积层的通道数相同。
具体地,如图2所示,第二卷积层的卷积核大小为1*1,第三卷积层的卷积核大小为3*3,各池化层均采用2部池化,各连接层与所述特征提取层对应的第一卷积层连接,前三个特征融合阶段中第二卷积层的通道数分别为128,64,32;最后一个特征融合阶段包括第四卷积层,所述第四卷积层的卷积核大小为3*3,通道数为32。
即在每一特征融合阶段中,先对上一个阶段来的特征图进行上采样,使之与当前特征图大小相同,然后使其与当前特征图沿通道方向级联,进而利用一个1×1卷积层减少级联后特征图的通道数以减少计算量,最后用一个3×3卷积层对特征图做信息融合,产生当前特征融合阶段的结果;在最后一个特征融合阶段之后,利用一个3×3卷积层产生最终的特征图,并输入到输出层:三个特征融合阶段中1×l卷积层的通道数分别为128,64,32,三个特征融合阶段中3×3卷积层的通道数分别为128,64,32,最后一个特征融合阶段之后的3×3卷积层的通道数为32。
多通道输出层103改进于EAST原有单一类别输出层。如图2所示,包括与所述第四卷积层分别连接的第五卷积层以及两个第六卷积层,所述第五卷积层的卷积大小为1*1,通道数为n,两个第六卷积层的卷积大小均为1*1,通道数分别为4n,n;其中,n为正整数。每一通道对应一类别。n可根据实际应用进行设定,其为待检测目标对象的个数。例如n=3表示待检测目标对象有3个,可识别3种类别的物体。每一通道配置一种识别的物体。
即在多通道输出层103,通过n维的1*1卷积核生成n维的置信得分图(下称预测框得分图),其中每个像素位置的得分(如像素值)即评价原图像中对应位置的像素属于真实框位置区域的可能性高低,即有效性。
在本实施中,若预测框得分图上某一像素点位置的得分值大于预设阈值,则以所述像素点位置为中心所预测出的预测框有效;即评价原图像中对应位置的像素属于真实框位置区域的可能性高。
若预测框得分图上某一像素点位置的得分值小于等于预设阈值,则以所述像素点位置为中心所预测出的预测框无效。即评价原图像中对应位置的像素属于真实框位置区域的可能性低。
需要说明的是,本实施例该阈值设定较佳地为0.7。
另外,在多通道输出层103,还可以输出两种几何图形的候选预测框:旋转框(RBOXD或四边形框(QUAD)。图2中仅示例旋转框。
对于旋转框(RBOX),其为矩形框,可以通过矩形框中的像素到矩形四边的距离以及矩形的转角来确定。具体的,到矩形四边的距离有到矩形顶部、右侧,底部、及左侧的边界的距离,即4个参数;而转角可以通过0表示,一共5个参数。相应的,在图2中展示为通过4n通道1*l卷积核、n通道1*1卷积核处理融合特征图而得到的5n通道特征图来表示,图3中简化表示为“几何图”、及“转角”。
下面具体阐述多类检测模型的训练过程,如下:
1、获取训练集,所述训练集包括带有真实框的多个样本图像;
2、将多个样本图像输入至初始多类检测模型以进行训练,获取各样本图像的预测框得分图以及对应的预测框几何参数信息;所述预测框几何参数信息包括预测位置信息以及预测角度信息;
3、基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息,确定各样本图像的预测结果;
4、根据预设的目标损失函数,计算各样本图像的预测结果与对应的真实框的真实结果之间的损失;
5、根据各损失加权求和得到的目标损失更新所述初始多类检测模型的参数,直至所述初始多类检测模型的参数收敛,得到目标多类检测模型;所述目标多类检测模型作为预先训练的多类检测模型。
步骤1中,训练集的获取过程有两种方式,其一是可通过网络下载或拍摄方式获取多个初始图像;将各初始图像按照目标方式进行优化处理,得到各样本图像;其中,所述目标方式包括缩放、图像截图、色度调节、亮度调节、角度调节等,提高检测效率,降低无效检测;在各样本图像上标记待预测对象区域;其中,不同类别的待预测对象区域用不同颜色的真实框标注。
另一种方式是利用开源深度学习框架PyTorch搭建完模型后,使用单目摄像头采集应用场景中的图像,以获取初始图像,同样可对多张初始图像进行预处理,以得到多样本图像,标记不同颜色的真实框后,利用Mixup混合样本策略进行混合,得到一混合样本图像,所述混合样本图像包括多个不同颜色的真实框。通过Mixup混合样本策略改善网络模型的泛化能力并且增加对抗样本的鲁棒性。
步骤2中,通过特征提取层从各样本图像提取对应多个尺度的特征图;通过特征融合层将各样本图像对应的多个尺度的特征图融合为与各样本图像尺寸一致的融合特征图;通过多通道输出层输出层根据各样本图像对应的融合特征图在每一通道均生成各样本图像中每个像素位置的预测框得分以及对应的预测框几何参数信息。
需要说明的是,每一通道的预测框得分图用于预测一类别的目标对象,若预测框得分图上同一像素点位置对应至少两个通道,则选取两通道值中值较大者对应的通道作为所述像素点位置的预测类别。
例如:预测框得分图上在同一个位置上不同通道处的值均大于一定阈值如(x,y,0)出的值为0.99,(x,y,1)处的值为0.98它们均大于阈值如0.7,此时会导致同一个检测框对应了两张不同类别。因此,会使用值较大的通道作为该检测框的类别,即(x,y,0)对应的物体类别。其中,0,1用于表示通道对应的值。
步骤3中,设定预测框得分图与预测框几何参数信息的权重值。从输出层中,分类筛选,选取出同一通道值的预测框得分以及预测框的几何参数信息,根据所设定的对应权重,加权求和,得到各样本图像同一通道的预测结果。
步骤4中,目标损失函数损失函数定义如下:
L=LsgLg (1)
其中Ls和Lg分别表示预测框得分图score map和预测框几何参数信息geometrymap的损失,λg表示两个损失的权重。
一、score map的损失计算
采用的是类平衡交叉熵,用于解决类别不平衡训练,避免通过平衡采样和硬负挖掘解决目标物体的不平衡分布,简化训练过程,具体公式如下:
Figure BDA0002762467170000101
或者采用下公式,使得收敛速度快:
Figure BDA0002762467170000111
其中,公式(2)中β表示类平衡系数,公式(3)中ys代表位置敏感图像分割的label,ps代表预测的分割值。
二、geometry map的损失计算
若直接使用L1或L2损失进行回归会导致损失偏向较大和较长的区域。所以采用对scale不敏感的IOU loss。
因此,对于RBOX回归,采用AABB部分的IoU损失。
RBOX:
1.AABB部分:
Figure BDA0002762467170000112
其中,AABB部分表示水平边界框,R用于表示从像素位置到矩形的顶部,右侧,底部,左侧边界的4个距离,即R为像素位置的预测框中心点坐标。
2.Angle部分
Figure BDA0002762467170000113
其中,θ用于表示1个通道的旋转角度。
通过加权求和方式,得到目标损失。
步骤5,通过目标损失来对所述初始多类检测模型进行训练,在不断训练过程中使得所述初始多类检测模型输出后计算的目标损失不再变化,此时停止训练。停止训练时对应的出书多类检测模型即为预先训练的多类检测模型。
因此,步骤S10中,获取待检测图像,所述待检测图像包括自然场景图像,所述目标可以是文本。相应的,所述多类检测模型可用于字长场景图像的文本检测,例如用于识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等中的文本检测,或者,也可以是对人物、物体等目标的检测。
然后将待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型预先配置有不同待测目标对象。
该预先训练的多类检测模型处理待检测图像,即进行多层特征提取及特征融合,输出融合特征图给置信得分图生成单元,置信得分图生成单元根据其预先训练过的参数来对每个候选预测框计算置信得分,从而得到置信得分图输出;其中,置信得分图生成单元中的参数已训练完成,其从带有真实框的图像中学习到理想边界框的形态,结合输入的各个候选预测框的数据就可以对每个候选预测框打一个得分作为置信得分,以形成置信得分图;故在实际应用时就不再需要真实框了。在后处理中,根据置信得分图得到一或多个最终预测框。
S20、若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框。
具体地,预先训练的多类检测模型根据预先配置的待测目标对象,检测并识别所述待检测图像中是否有待测目标对象,若存在,其输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框。例如:待测目标对象为猫,其对应的检测框为红色检测框。将含有猫的待检测图像输入至预先训练的多类检测模型,则输出带红色检测框的目标图像。该目标图像与输入的待检测图像尺寸和大小相同,仅该红色检测框框选了猫所在区域。
S30、若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
具体地,基于步骤S20,若预先训练的多类检测模型根据预先配置的待测目标对象没有检测到任何待测目标对象,则反馈错误提示,如存在未知物体等。
这样,改进原有检测模型,通过预先训练的多类检测模型改变原有只能实现单一识别方法而实现多种类型的待检测图像,扩大应用场景,结构简单,提高用户体验。
基于上述方法,本申请还提供一种终端设备,如图3所所示。该终端设备具体可以是移动终端,也可以是服务器。如图3所示,其包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现年龄识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行年龄识别方法。本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;
若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;
若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;
若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;
若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种多类物体检测方法,其特征在于,所述多类物体检测方法包括:
获取待检测图像,并将所述待检测图像输入至预先训练的多类检测模型以进行检测,其中,所述多类检测模型用于检测不同待测目标对象;
若所述待检测图像中存在至少一个待测目标对象,则通过所述多类检测模型输出所述待检测图像的目标图像,所述目标图像带有标记所述待测目标对象位置的检测框;
若所述待检测图像中不存在任何待测目标对象,则通过所述多类检测模型输出错误提示。
2.根据权利要求1所述的多类物体检测方法,其特征在于,所述预先训练的多类检测模型的训练过程包括以下步骤:
获取训练集,所述训练集包括带有真实框的多个样本图像;
将多个样本图像输入至初始多类检测模型以进行训练,获取各样本图像的预测框得分图以及对应的预测框几何参数信息;所述预测框几何参数信息包括预测位置信息以及预测角度信息;所述预测框得分图上每个像素位置的预设得分用于用于表示以该像素位置为中心所预测出的预测框的有效性;
基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息,确定各样本图像的预测结果;
根据预设的目标损失函数,计算各样本图像的预测结果与对应的真实框的真实结果之间的损失;
根据各损失加权求和得到的目标损失更新所述初始多类检测模型的参数,直至所述初始多类检测模型的参数收敛,得到目标多类检测模型;所述目标多类检测模型作为预先训练的多类检测模型。
3.根据权利要求2所述的多类物体检测方法,其特征在于,所述训练集的获取过程包括:
获取多个初始图像;
将各初始图像按照目标方式进行优化处理,得到各样本图像;其中,所述目标方式至少包括缩放、图像截图、色度调节、亮度调节、角度调节中的任一项;
在各样本图像上标记待预测对象区域;其中,不同类别的待预测对象区域用不同颜色的真实框标注;
将带有真实框标注的各样本图像作为训练集。
4.根据权利要求3所述的多类物体检测方法,其特征在于,所述训练集的获取过程还包括:
将各样本图像通过Mixup混合样本策略,得到一混合样本图像,所述混合样本图像包括多个不同颜色的真实框,并将所述混合样本图像作为训练集。
5.根据权利要求2所述的多类物体检测方法,其特征在于,所述预先训练的多类检测模型为基于改进的EAST模型,其包括特征提取层、特征融合层以及多通道输出层,所述将多个样本图像输入至初始多类检测模型以进行训练,获取各样本图像的预测框得分图以及对应的预测框几何参数信息具体包括:
通过特征提取层从各样本图像提取对应多个尺度的特征图;
通过特征融合层将各样本图像对应的多个尺度的特征图融合为与各样本图像尺寸一致的融合特征图;
通过多通道输出层根据各样本图像对应的融合特征图在每一通道均生成各样本图像中每个像素位置的预测框得分以及对应的预测框几何参数信息。
6.根据权利要求5所述的多类物体检测方法,其特征在于,所述特征提取层包括依次连接的下采样层和四个第一卷积层,其中,四个第一卷积层级联连接,所述下采样层和四个第一卷积层的通道数依次递增;
所述特征融合层包括四个特征融合阶段,前三个特征融合阶段中各特征融合阶段均包括一池化层、连接层、第二卷积层以及第三卷积层,同一特征融合阶段的第二卷积层和第三卷积层的通道数相同,各连接层与所述特征提取层对应的第一卷积层连接;最后一个特征融合阶段包括第四卷积层,所述第四卷积层的通道数与第三个特征融合阶段的第三卷积层的通道数相同;
所述多通道输出层包括与所述第四卷积层分别连接的第五卷积层以及两个第六卷积层,所述第五卷积层的通道数为n,两个第六卷积层的通道数分别为4n和n;其中,n为所述预先训练的多类检测模型中用于待检测目标对象的个数。
7.根据权利要求2所述的多类物体检测方法,其特征在于,所述基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息,确定各样本图像的预测结果之后包括:
若预测框得分图上某一像素点位置的预测得分大于预设阈值,则以所述像素点位置为中心所预测出的预测框有效;
若预测框得分图上某一像素点位置的预测得分小于等于预设阈值,则以所述像素点位置为中心所预测出的预测框无效。
8.根据权利要求7所述的多类物体检测方法,其特征在于,每一通道的预测框得分图用于预测一类别的目标对象,若预测框得分图上同一像素点位置对应至少两个通道,则选取两通道值中值较大者对应的通道作为所述像素点位置的预测类别。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的多类物体检测方法中的步骤。
10.一种终端设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的多类物体检测方法中的步骤。
CN202011222250.1A 2020-11-05 2020-11-05 一种多类物体检测方法、终端设备及存储介质 Pending CN112418278A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011222250.1A CN112418278A (zh) 2020-11-05 2020-11-05 一种多类物体检测方法、终端设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011222250.1A CN112418278A (zh) 2020-11-05 2020-11-05 一种多类物体检测方法、终端设备及存储介质

Publications (1)

Publication Number Publication Date
CN112418278A true CN112418278A (zh) 2021-02-26

Family

ID=74827844

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011222250.1A Pending CN112418278A (zh) 2020-11-05 2020-11-05 一种多类物体检测方法、终端设备及存储介质

Country Status (1)

Country Link
CN (1) CN112418278A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139543A (zh) * 2021-04-28 2021-07-20 北京百度网讯科技有限公司 目标对象检测模型的训练方法、目标对象检测方法和设备
CN113298130A (zh) * 2021-05-14 2021-08-24 嘉洋智慧安全生产科技发展(北京)有限公司 目标图像的检测、目标对象检测模型的生成方法
CN113298122A (zh) * 2021-04-30 2021-08-24 北京迈格威科技有限公司 目标检测方法、装置和电子设备
CN113554026A (zh) * 2021-07-28 2021-10-26 广东电网有限责任公司 电力设备铭牌识别方法、识别装置及电子设备
CN113808200A (zh) * 2021-08-03 2021-12-17 嘉洋智慧安全生产科技发展(北京)有限公司 一种检测目标对象移动速度的方法、装置及电子设备
CN114782590A (zh) * 2022-03-17 2022-07-22 山东大学 一种多物体内容联合图像生成方法及系统
CN114821568A (zh) * 2022-06-27 2022-07-29 深圳前海环融联易信息科技服务有限公司 菜单要素提取方法、装置、计算机设备及存储介质
CN115146686A (zh) * 2021-08-03 2022-10-04 嘉洋智慧安全生产科技发展(北京)有限公司 一种确定目标对象安装位置的方法、装置、设备及介质
WO2023159527A1 (zh) * 2022-02-25 2023-08-31 京东方科技集团股份有限公司 检测器训练方法、装置及存储介质
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154631A2 (en) * 2008-08-14 2010-02-17 Xerox Corporation System and method for object class localization and semantic class based image segmentation
CN101996326A (zh) * 2009-08-26 2011-03-30 索尼株式会社 多类目标的检测装置及检测方法
US8699796B1 (en) * 2008-11-11 2014-04-15 Trend Micro Incorporated Identifying sensitive expressions in images for languages with large alphabets
CN105259554A (zh) * 2015-10-28 2016-01-20 中国电子科技集团公司第三研究所 一种多目标分类跟踪的方法及装置
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统
CN107316007A (zh) * 2017-06-07 2017-11-03 浙江捷尚视觉科技股份有限公司 一种基于深度学习的监控图像多类物体检测与识别方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109034219A (zh) * 2018-07-12 2018-12-18 上海商汤智能科技有限公司 图像的多标签类别预测方法及装置、电子设备和存储介质
CN109272045A (zh) * 2018-09-25 2019-01-25 华南农业大学 一种基于神经网络和迁移学习的水果图像分类方法及装置
CN109977818A (zh) * 2019-03-14 2019-07-05 上海极链网络科技有限公司 一种基于空间特征和多目标检测的动作识别方法及系统
CN110428007A (zh) * 2019-08-01 2019-11-08 科大讯飞(苏州)科技有限公司 X光图像目标检测方法、装置及设备
CN111191566A (zh) * 2019-12-26 2020-05-22 西北工业大学 基于像素分类的光学遥感图像多目标检测方法
CN111191626A (zh) * 2020-01-02 2020-05-22 北京航空航天大学 一种多类别交通工具的精细识别方法
CN111199531A (zh) * 2019-12-27 2020-05-26 中国民航大学 基于泊松图像融合及图像风格化的交互式数据扩展方法
CN111275102A (zh) * 2020-01-19 2020-06-12 深圳壹账通智能科技有限公司 多证件类型同步检测方法、装置、计算机设备及存储介质
CN111382271A (zh) * 2020-03-09 2020-07-07 支付宝(杭州)信息技术有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN111435422A (zh) * 2019-01-11 2020-07-21 商汤集团有限公司 动作识别方法、控制方法及装置、电子设备和存储介质
WO2020151166A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 多目标跟踪方法、装置、计算机装置及可读存储介质
CN111738212A (zh) * 2020-07-20 2020-10-02 平安国际智慧城市科技股份有限公司 基于人工智能的交通信号灯识别方法、装置、设备及介质
CN111738055A (zh) * 2020-04-24 2020-10-02 浙江大学城市学院 多类别文本检测系统和基于该系统的票据表单检测方法
CN111783590A (zh) * 2020-06-24 2020-10-16 西北工业大学 一种基于度量学习的多类别小目标检测方法
CN111860510A (zh) * 2020-07-29 2020-10-30 浙江大华技术股份有限公司 一种x光图像目标检测方法及装置

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154631A2 (en) * 2008-08-14 2010-02-17 Xerox Corporation System and method for object class localization and semantic class based image segmentation
US8699796B1 (en) * 2008-11-11 2014-04-15 Trend Micro Incorporated Identifying sensitive expressions in images for languages with large alphabets
CN101996326A (zh) * 2009-08-26 2011-03-30 索尼株式会社 多类目标的检测装置及检测方法
CN106688011A (zh) * 2014-09-10 2017-05-17 北京市商汤科技开发有限公司 用于多类别物体检测的方法和系统
CN105259554A (zh) * 2015-10-28 2016-01-20 中国电子科技集团公司第三研究所 一种多目标分类跟踪的方法及装置
CN107316007A (zh) * 2017-06-07 2017-11-03 浙江捷尚视觉科技股份有限公司 一种基于深度学习的监控图像多类物体检测与识别方法
CN108509978A (zh) * 2018-02-28 2018-09-07 中南大学 基于cnn的多级特征融合的多类目标检测方法及模型
CN109034219A (zh) * 2018-07-12 2018-12-18 上海商汤智能科技有限公司 图像的多标签类别预测方法及装置、电子设备和存储介质
CN109272045A (zh) * 2018-09-25 2019-01-25 华南农业大学 一种基于神经网络和迁移学习的水果图像分类方法及装置
CN111435422A (zh) * 2019-01-11 2020-07-21 商汤集团有限公司 动作识别方法、控制方法及装置、电子设备和存储介质
WO2020151166A1 (zh) * 2019-01-23 2020-07-30 平安科技(深圳)有限公司 多目标跟踪方法、装置、计算机装置及可读存储介质
CN109977818A (zh) * 2019-03-14 2019-07-05 上海极链网络科技有限公司 一种基于空间特征和多目标检测的动作识别方法及系统
CN110428007A (zh) * 2019-08-01 2019-11-08 科大讯飞(苏州)科技有限公司 X光图像目标检测方法、装置及设备
CN111191566A (zh) * 2019-12-26 2020-05-22 西北工业大学 基于像素分类的光学遥感图像多目标检测方法
CN111199531A (zh) * 2019-12-27 2020-05-26 中国民航大学 基于泊松图像融合及图像风格化的交互式数据扩展方法
CN111191626A (zh) * 2020-01-02 2020-05-22 北京航空航天大学 一种多类别交通工具的精细识别方法
CN111275102A (zh) * 2020-01-19 2020-06-12 深圳壹账通智能科技有限公司 多证件类型同步检测方法、装置、计算机设备及存储介质
CN111382271A (zh) * 2020-03-09 2020-07-07 支付宝(杭州)信息技术有限公司 文本分类模型的训练方法及装置、文本分类方法及装置
CN111738055A (zh) * 2020-04-24 2020-10-02 浙江大学城市学院 多类别文本检测系统和基于该系统的票据表单检测方法
CN111783590A (zh) * 2020-06-24 2020-10-16 西北工业大学 一种基于度量学习的多类别小目标检测方法
CN111738212A (zh) * 2020-07-20 2020-10-02 平安国际智慧城市科技股份有限公司 基于人工智能的交通信号灯识别方法、装置、设备及介质
CN111860510A (zh) * 2020-07-29 2020-10-30 浙江大华技术股份有限公司 一种x光图像目标检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XINYU ZHOU 等: "EAST-An Efficient and Accurate Scene Text Detector", 《ARXIV》, pages 1 - 10 *
张雪松 等: "一种基于改进型Multi-Agent多分类器融合的乳腺钼靶肿块分类算法", 仪器仪表学报, vol. 32, no. 9, pages 2034 - 2040 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139543A (zh) * 2021-04-28 2021-07-20 北京百度网讯科技有限公司 目标对象检测模型的训练方法、目标对象检测方法和设备
CN113139543B (zh) * 2021-04-28 2023-09-01 北京百度网讯科技有限公司 目标对象检测模型的训练方法、目标对象检测方法和设备
CN113298122A (zh) * 2021-04-30 2021-08-24 北京迈格威科技有限公司 目标检测方法、装置和电子设备
CN113298130A (zh) * 2021-05-14 2021-08-24 嘉洋智慧安全生产科技发展(北京)有限公司 目标图像的检测、目标对象检测模型的生成方法
CN113554026A (zh) * 2021-07-28 2021-10-26 广东电网有限责任公司 电力设备铭牌识别方法、识别装置及电子设备
CN113808200A (zh) * 2021-08-03 2021-12-17 嘉洋智慧安全生产科技发展(北京)有限公司 一种检测目标对象移动速度的方法、装置及电子设备
CN115146686A (zh) * 2021-08-03 2022-10-04 嘉洋智慧安全生产科技发展(北京)有限公司 一种确定目标对象安装位置的方法、装置、设备及介质
WO2023159527A1 (zh) * 2022-02-25 2023-08-31 京东方科技集团股份有限公司 检测器训练方法、装置及存储介质
CN114782590A (zh) * 2022-03-17 2022-07-22 山东大学 一种多物体内容联合图像生成方法及系统
CN114821568A (zh) * 2022-06-27 2022-07-29 深圳前海环融联易信息科技服务有限公司 菜单要素提取方法、装置、计算机设备及存储介质
CN117037173A (zh) * 2023-09-22 2023-11-10 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统
CN117037173B (zh) * 2023-09-22 2024-02-27 武汉纺织大学 一种二阶段的英文字符检测与识别方法及系统

Similar Documents

Publication Publication Date Title
CN112418278A (zh) 一种多类物体检测方法、终端设备及存储介质
CN109447169B (zh) 图像处理方法及其模型的训练方法、装置和电子系统
CN111652217B (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN110348294B (zh) Pdf文档中图表的定位方法、装置及计算机设备
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
CN110378297B (zh) 基于深度学习的遥感图像目标检测方法、装置、及存储介质
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN111291637A (zh) 一种基于卷积神经网络的人脸检测方法、装置及设备
US11308714B1 (en) Artificial intelligence system for identifying and assessing attributes of a property shown in aerial imagery
CN111814902A (zh) 目标检测模型训练方法、目标识别方法、装置和介质
CN109886330B (zh) 文本检测方法、装置、计算机可读存储介质和计算机设备
CN109740515B (zh) 一种评阅方法及装置
CN113095418B (zh) 一种目标检测方法及系统
CN110135446B (zh) 文本检测方法及计算机存储介质
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN110807362A (zh) 一种图像检测方法、装置和计算机可读存储介质
CN112016569A (zh) 基于注意力机制的目标检测方法、网络、设备和存储介质
CN112766246A (zh) 基于深度学习的文档标题识别方法、系统、终端及介质
CN112561801A (zh) 基于se-fpn的目标检测模型训练方法、目标检测方法及装置
CN110580507B (zh) 一种城市肌理分类识别方法
CN113673528B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN112580656A (zh) 一种端到端的文本检测方法、系统、终端及存储介质
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN114445716B (zh) 关键点检测方法、装置、计算机设备、介质及程序产品
CN116798041A (zh) 图像识别方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination