CN112418278A

CN112418278A - 一种多类物体检测方法、终端设备及存储介质

Info

Publication number: CN112418278A
Application number: CN202011222250.1A
Authority: CN
Inventors: 高远
Original assignee: China Auto Service Technology Service Co ltd
Current assignee: China Auto Service Technology Service Co ltd
Priority date: 2020-11-05
Filing date: 2020-11-05
Publication date: 2021-02-26

Abstract

本发明公开了一种多类物体检测方法、终端设备及存储介质，所述方法包括获取待检测图像，并将所述待检测图像输入至预先训练的多类检测模型以进行检测，其中，所述多类检测模型用于检测不同待测目标对象；若所述待检测图像中存在至少一个待测目标对象，则通过所述多类检测模型输出所述待检测图像的目标图像，所述目标图像带有标记所述待测目标对象位置的检测框；若所述待检测图像中不存在任何待测目标对象，则通过所述多类检测模型输出错误提示。本申请旨在改进原有检测模型，通过预先训练的多类检测模型改变原有只能实现单一识别以实现多种类别的待检测图像，扩大应用场景，结构简单，提高用户体验。

Description

一种多类物体检测方法、终端设备及存储介质

技术领域

本发明涉及图像识别技术领域，尤其涉及一种多类物体检测方法、终端设备及存储介质。

背景技术

如今深度学习的蓬勃发展推动了计算机视觉领域的极大进步,神经网络提取的特征比人工设计的特征更为鲁棒,能更好地代表原始数据。文本检测识别技术的发展也有助于挖掘文本。因此,基于精确检测框定位和识别的场景检测算法在现实世界中有许多重要的应用,如文档分析、自动驾驶和车牌识别等。

基于EAST模型是一种使用频率较高的高效、准确的场景检测器,可以直接从完整的图像中预测文本实例的存在及其几何特征。其输出具有两个分支,第一个分支是像素值在[0,1]范围内的置信得分图(score map),其值表示每个像素是否属于文本区域的概率；第二个分支是回归分支,它可以为文本区域生成两种几何图形的候选预测边界框:旋转框(RBOX)或四边形框(QUAD)。在得到score map和RBOX后,后处理算法对每个像素进行阈值化处理,得到得分超过预定置信阈值的文本区域。然后,这些区域被认为是有效的,每个像素位置会预测一个文本框,后将同一片文本区域的像素点预测的所有候选预测边界框组合成一个最终的预测边界框用来表示该片文本区域并输出。

然而传统EAST模型仅仅用于识别单类文本，即仅仅只能识别一类物体，而在一个场景中具有多源化元素，单一EAST模型无法满足多类物体同时识别需求，导致其应用受到限制，不利于推广，影响用户体验。因此，亟需提高一种准确识别不同类别物体的场景检测模型。

因此，现有技术还有待于发展和改进。

发明内容

基于此，有必要针对现有文本检测模型检测类型单一的技术问题，提出了一种多类物体检测方法、终端设备及存储介质。

一种多类物体检测方法，所述多类物体检测方法包括：

获取待检测图像，并将所述待检测图像输入至预先训练的多类检测模型以进行检测，其中，所述多类检测模型用于检测不同待测目标对象；

若所述待检测图像中存在至少一个待测目标对象，则通过所述多类检测模型输出所述待检测图像的目标图像，所述目标图像带有标记所述待测目标对象位置的检测框；

若所述待检测图像中不存在任何待测目标对象，则通过所述多类检测模型输出错误提示。

所述的多类物体检测方法，其中，所述预先训练的多类检测模型的训练过程包括以下步骤：

获取训练集，所述训练集包括带有真实框的多个样本图像；

将多个样本图像输入至初始多类检测模型以进行训练，获取各样本图像的预测框得分图以及对应的预测框几何参数信息；所述预测框几何参数信息包括预测位置信息以及预测角度信息；所述预测框得分图上每个像素位置的预设得分用于用于表示以该像素位置为中心所预测出的预测框的有效性；

基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息，确定各样本图像的预测结果；

根据预设的目标损失函数，计算各样本图像的预测结果与对应的真实框的真实结果之间的损失；

根据各损失加权求和得到的目标损失更新所述初始多类检测模型的参数，直至所述初始多类检测模型的参数收敛，得到目标多类检测模型；所述目标多类检测模型作为预先训练的多类检测模型。

所述的多类物体检测方法，其中，所述训练集的获取过程包括：

获取多个初始图像；

将各初始图像按照目标方式进行优化处理，得到各样本图像；其中，所述目标方式至少包括缩放、图像截图、色度调节、亮度调节、角度调节中的任一项；

在各样本图像上标记待预测对象区域；其中，不同类别的待预测对象区域用不同颜色的真实框标注；

将带有真实框标注的各样本图像作为训练集。

所述的多类物体检测方法，其中，所述训练集的获取过程还包括：

将各样本图像通过Mixup混合样本策略，得到一混合样本图像，所述混合样本图像包括多个不同颜色的真实框，并将所述混合样本图像作为训练集。

所述的多类物体检测方法，其中，所述预先训练的多类检测模型为基于改进的EAST模型，其包括特征提取层、特征融合层以及多通道输出层，所述将多个样本图像输入至初始多类检测模型以进行训练，获取各样本图像的预测框得分图以及对应的预测框几何参数信息具体包括：

通过特征提取层从各样本图像提取对应多个尺度的特征图；

通过特征融合层将各样本图像对应的多个尺度的特征图融合为与各样本图像尺寸一致的融合特征图；

通过多通道输出层根据各样本图像对应的融合特征图在每一通道均生成各样本图像中每个像素位置的预测框得分以及对应的预测框几何参数信息。

所述的多类物体检测方法，其中，所述特征提取层包括依次连接的下采样层和四个第一卷积层，其中，四个第一卷积层级联连接，所述下采样层和每个第一卷积层的通道数依次递增；

所述特征融合层包括四个特征融合阶段，前三个特征融合阶段中各特征融合阶段均包括一池化层、连接层、第二卷积层以及第三卷积层，同一特征融合阶段的第二卷积层和第三卷积层的通道数相同，各连接层与所述特征提取层对应的第一卷积层连接；最后一个特征融合阶段包括第四卷积层，所述第四卷积层的通道数与第三个特征融合阶段的第三卷积层的通道数相同；

所述多通道输出层包括与所述第四卷积层分别连接的第五卷积层以及两个第六卷积层，所述第五卷积层的通道数为n，两个第六卷积层的通道数分别为4n和n；其中，n为待检测目标对象的个数。

所述的多类物体检测方法，其中，所述基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息，确定各样本图像的预测结果之后包括：

若预测框得分图上某一像素点位置的预测得分大于预设阈值，则以所述像素点位置为中心所预测出的预测框有效；

若预测框得分图上某一像素点位置的预测得分小于等于预设阈值，则以所述像素点位置为中心所预测出的预测框无效效。

所述的多类物体检测方法，其中，每一通道的预测框得分图用于预测一类别的目标对象，若预测框得分图上同一像素点位置对应至少两个通道，则选取两通道值中值较大者对应的通道作为所述像素点位置的预测类别。

本申请还提供一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

本申请还提供一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

采用本发明实施例，具有如下有益效果：

本申请所提供的一种多类物体检测方法、终端设备及存储介质，所述方法包括获取待检测图像，并将所述待检测图像输入至预先训练的多类检测模型以进行检测，其中，所述多类检测模型用于检测不同待测目标对象；若所述待检测图像中存在至少一个待测目标对象，则通过所述多类检测模型输出所述待检测图像的目标图像，所述目标图像带有标记所述待测目标对象位置的检测框；若所述待检测图像中不存在任何待测目标对象，则通过所述多类检测模型输出错误提示。本申请旨在改进原有检测模型，通过预先训练的多类检测模型改变原有只能实现单一识别方法而实现多种类别的待检测图像，扩大应用场景，结构简单，提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中多类物体检测方法的流程图；

图2为一个实施例中多类检测模型的网络结构图；

图3为一个实施例中终端设备的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1示例了本发明提供的一种多类物体检测方法的一实施例的流程图。如图1所示，所述多类物体检测方法包括：

S10、获取待检测图像，并将所述待检测图像输入至预先训练的多类检测模型以进行检测，其中，所述多类检测模型用于检测不同待测目标对象。

具体地，本实施例在改进后的EAST模型进行不同类别的待检测图像的检测和识别。EAST模型能够高效、准确识别场景文本。EAST，全称为an Efficient and AccuracyScene Text detection pipeline,译为高效、准确的场景文本识别管道。其检测流程包括两个阶段,第一阶段是全卷积网络(FCN，Fully Convolutional Networks),通过全卷积网络处理图像得到其中每个像素的对应的候选预测框,及包含每个像素属于文本区域的置信得分的置信得分图(score map)；第二阶段是非极大抑制阶段﹐例如通过标准非极大抑制(NMS)或局部感知非极大抑制(LNMS)等方法,以根据置信得分图将之前所回归的各个候选预测边界框中过于相似的加以合并为一,最终得到对图像中每个目标的最终预测框,而完成目标检测。

如前所述，EAST模型中的置信得分图的尺寸与原图像相同,则每个置信得分图中像素位置的置信得分表示原图像中对应位置的像素属于目标对象所属的区域(即为图中目标对象上的像素)的可能性,得分越高(可通过置信得分图中的像素值表示),则表示越有可能属于目标对象所属的真实区域。

请参阅图2，图2示例了本实施例基于改进后的EAST模型的结构示意图。

改进的EAST模型包括:特征提取层(Feature extractor stem,主干网络)101、特征融合层(Feature-merging branch,分支网络)102、及多通道输出层(Output layer)103。

从图中可见，特征提取层101包含多级(stage)的卷积层(conv,即convolution),用于对原图进行多个尺度的特征图f1～f4的提取。其中,特征提取层101是基于“金字塔特征网络”的结构,即卷积层的尺寸依级减半,但卷积核的数量依次增倍。具体地，所述特征提取层101包括依次连接的下采样层和四个第一卷积层，其中，四个第一卷积层级联连接，所述下采样层与四个第一卷积层的通道数依次递增。该递增可呈倍数递增，即通道数呈2倍，4倍递增。在本实施例中，选取通道数呈2倍递增较佳。

在本实施例中，如图2所示，所述下采样层的卷积核大小为7*7，卷积步长为16，通道数为2，四个第一卷积层的通道数依次均为64,128，256,384。通过利用特征提取层101对输入的图像进行特征提取，输出四个级别的特征图f1～f4。

在特征融合层102，对较深一级的特征图进行上采样(unpooling),恢复到与前一级尺度的特征图相同尺寸并与其堆叠(concat),例如在特征提取时候，下一级别的特征图相比于上一级别的特征度尺度缩小为1/2,则在上采样时特征图尺度扩大为2倍。以此类推,最终向多通道输出层103输出融合特征图，通过下采样到上采样并融合的过程,融合特征图的尺寸与输入的原图像尺寸相同。

具体地，如图2所示，所述特征融合层包括四个特征融合阶段，前三个特征融合阶段中各特征融合阶段均包括一池化层、连接层、第二卷积层以及第三卷积层，同一特征融合阶段的第二卷积层和第三卷积层的通道数相同，不同特征融合阶段的通道数依次递减，该递减可呈倍数递减，即通道数呈2倍，4倍递减等。在本实施例中，选取通道数呈2倍递减较佳，其与特征提取层101对应。各连接层与所述特征提取层对应的第一卷积层连接，最后一个特征融合阶段包括第四卷积层，所述第四卷积层的通道数与第三卷积层的通道数相同。

具体地，如图2所示，第二卷积层的卷积核大小为1*1，第三卷积层的卷积核大小为3*3，各池化层均采用2部池化，各连接层与所述特征提取层对应的第一卷积层连接，前三个特征融合阶段中第二卷积层的通道数分别为128，64，32；最后一个特征融合阶段包括第四卷积层，所述第四卷积层的卷积核大小为3*3，通道数为32。

即在每一特征融合阶段中，先对上一个阶段来的特征图进行上采样,使之与当前特征图大小相同，然后使其与当前特征图沿通道方向级联,进而利用一个1×1卷积层减少级联后特征图的通道数以减少计算量,最后用一个3×3卷积层对特征图做信息融合,产生当前特征融合阶段的结果；在最后一个特征融合阶段之后,利用一个3×3卷积层产生最终的特征图,并输入到输出层:三个特征融合阶段中1×l卷积层的通道数分别为128，64，32,三个特征融合阶段中3×3卷积层的通道数分别为128，64，32,最后一个特征融合阶段之后的3×3卷积层的通道数为32。

多通道输出层103改进于EAST原有单一类别输出层。如图2所示，包括与所述第四卷积层分别连接的第五卷积层以及两个第六卷积层，所述第五卷积层的卷积大小为1*1，通道数为n，两个第六卷积层的卷积大小均为1*1,通道数分别为4n，n；其中，n为正整数。每一通道对应一类别。n可根据实际应用进行设定，其为待检测目标对象的个数。例如n＝3表示待检测目标对象有3个，可识别3种类别的物体。每一通道配置一种识别的物体。

即在多通道输出层103,通过n维的1*1卷积核生成n维的置信得分图(下称预测框得分图),其中每个像素位置的得分(如像素值)即评价原图像中对应位置的像素属于真实框位置区域的可能性高低，即有效性。

在本实施中，若预测框得分图上某一像素点位置的得分值大于预设阈值，则以所述像素点位置为中心所预测出的预测框有效；即评价原图像中对应位置的像素属于真实框位置区域的可能性高。

若预测框得分图上某一像素点位置的得分值小于等于预设阈值，则以所述像素点位置为中心所预测出的预测框无效。即评价原图像中对应位置的像素属于真实框位置区域的可能性低。

需要说明的是，本实施例该阈值设定较佳地为0.7。

另外,在多通道输出层103,还可以输出两种几何图形的候选预测框:旋转框(RBOXD或四边形框(QUAD)。图2中仅示例旋转框。

对于旋转框(RBOX),其为矩形框,可以通过矩形框中的像素到矩形四边的距离以及矩形的转角来确定。具体的,到矩形四边的距离有到矩形顶部、右侧,底部、及左侧的边界的距离,即4个参数；而转角可以通过0表示，一共5个参数。相应的,在图2中展示为通过4n通道1*l卷积核、n通道1*1卷积核处理融合特征图而得到的5n通道特征图来表示,图3中简化表示为“几何图”、及“转角”。

下面具体阐述多类检测模型的训练过程，如下：

1、获取训练集，所述训练集包括带有真实框的多个样本图像；

2、将多个样本图像输入至初始多类检测模型以进行训练，获取各样本图像的预测框得分图以及对应的预测框几何参数信息；所述预测框几何参数信息包括预测位置信息以及预测角度信息；

3、基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息，确定各样本图像的预测结果；

4、根据预设的目标损失函数，计算各样本图像的预测结果与对应的真实框的真实结果之间的损失；

5、根据各损失加权求和得到的目标损失更新所述初始多类检测模型的参数，直至所述初始多类检测模型的参数收敛，得到目标多类检测模型；所述目标多类检测模型作为预先训练的多类检测模型。

步骤1中，训练集的获取过程有两种方式，其一是可通过网络下载或拍摄方式获取多个初始图像；将各初始图像按照目标方式进行优化处理，得到各样本图像；其中，所述目标方式包括缩放、图像截图、色度调节、亮度调节、角度调节等，提高检测效率，降低无效检测；在各样本图像上标记待预测对象区域；其中，不同类别的待预测对象区域用不同颜色的真实框标注。

另一种方式是利用开源深度学习框架PyTorch搭建完模型后,使用单目摄像头采集应用场景中的图像,以获取初始图像，同样可对多张初始图像进行预处理，以得到多样本图像，标记不同颜色的真实框后，利用Mixup混合样本策略进行混合，得到一混合样本图像，所述混合样本图像包括多个不同颜色的真实框。通过Mixup混合样本策略改善网络模型的泛化能力并且增加对抗样本的鲁棒性。

步骤2中，通过特征提取层从各样本图像提取对应多个尺度的特征图；通过特征融合层将各样本图像对应的多个尺度的特征图融合为与各样本图像尺寸一致的融合特征图；通过多通道输出层输出层根据各样本图像对应的融合特征图在每一通道均生成各样本图像中每个像素位置的预测框得分以及对应的预测框几何参数信息。

需要说明的是，每一通道的预测框得分图用于预测一类别的目标对象，若预测框得分图上同一像素点位置对应至少两个通道，则选取两通道值中值较大者对应的通道作为所述像素点位置的预测类别。

例如：预测框得分图上在同一个位置上不同通道处的值均大于一定阈值如(x，y，0)出的值为0.99，(x,y,1)处的值为0.98它们均大于阈值如0.7，此时会导致同一个检测框对应了两张不同类别。因此，会使用值较大的通道作为该检测框的类别，即(x,y,0)对应的物体类别。其中，0,1用于表示通道对应的值。

步骤3中，设定预测框得分图与预测框几何参数信息的权重值。从输出层中，分类筛选，选取出同一通道值的预测框得分以及预测框的几何参数信息，根据所设定的对应权重，加权求和，得到各样本图像同一通道的预测结果。

步骤4中，目标损失函数损失函数定义如下：

L＝L_s+λ_gL_g (1)

其中Ls和Lg分别表示预测框得分图score map和预测框几何参数信息geometrymap的损失，λ_g表示两个损失的权重。

一、score map的损失计算

采用的是类平衡交叉熵，用于解决类别不平衡训练，避免通过平衡采样和硬负挖掘解决目标物体的不平衡分布，简化训练过程，具体公式如下：

或者采用下公式，使得收敛速度快：

其中，公式(2)中β表示类平衡系数，公式(3)中y_s代表位置敏感图像分割的label，p_s代表预测的分割值。

二、geometry map的损失计算

若直接使用L1或L2损失进行回归会导致损失偏向较大和较长的区域。所以采用对scale不敏感的IOU loss。

因此，对于RBOX回归，采用AABB部分的IoU损失。

RBOX：

1.AABB部分：

其中，AABB部分表示水平边界框，R用于表示从像素位置到矩形的顶部，右侧，底部，左侧边界的4个距离，即R为像素位置的预测框中心点坐标。

2.Angle部分

其中，θ用于表示1个通道的旋转角度。

通过加权求和方式，得到目标损失。

步骤5，通过目标损失来对所述初始多类检测模型进行训练，在不断训练过程中使得所述初始多类检测模型输出后计算的目标损失不再变化，此时停止训练。停止训练时对应的出书多类检测模型即为预先训练的多类检测模型。

因此，步骤S10中，获取待检测图像，所述待检测图像包括自然场景图像,所述目标可以是文本。相应的,所述多类检测模型可用于字长场景图像的文本检测,例如用于识别名片、识别菜单、识别快递单、识别身份证、识别营业证、识别银行卡、识别车牌、识别路牌、识别商品包装袋、识别会议白板、识别广告主干词、识别试卷、识别单据等等中的文本检测，或者,也可以是对人物、物体等目标的检测。

然后将待检测图像输入至预先训练的多类检测模型以进行检测，其中，所述多类检测模型预先配置有不同待测目标对象。

该预先训练的多类检测模型处理待检测图像,即进行多层特征提取及特征融合,输出融合特征图给置信得分图生成单元,置信得分图生成单元根据其预先训练过的参数来对每个候选预测框计算置信得分,从而得到置信得分图输出；其中,置信得分图生成单元中的参数已训练完成,其从带有真实框的图像中学习到理想边界框的形态,结合输入的各个候选预测框的数据就可以对每个候选预测框打一个得分作为置信得分,以形成置信得分图；故在实际应用时就不再需要真实框了。在后处理中,根据置信得分图得到一或多个最终预测框。

S20、若所述待检测图像中存在至少一个待测目标对象，则通过所述多类检测模型输出所述待检测图像的目标图像，所述目标图像带有标记所述待测目标对象位置的检测框。

具体地，预先训练的多类检测模型根据预先配置的待测目标对象，检测并识别所述待检测图像中是否有待测目标对象，若存在，其输出所述待检测图像的目标图像，所述目标图像带有标记所述待测目标对象位置的检测框。例如：待测目标对象为猫，其对应的检测框为红色检测框。将含有猫的待检测图像输入至预先训练的多类检测模型，则输出带红色检测框的目标图像。该目标图像与输入的待检测图像尺寸和大小相同，仅该红色检测框框选了猫所在区域。

S30、若所述待检测图像中不存在任何待测目标对象，则通过所述多类检测模型输出错误提示。

具体地，基于步骤S20，若预先训练的多类检测模型根据预先配置的待测目标对象没有检测到任何待测目标对象，则反馈错误提示，如存在未知物体等。

这样，改进原有检测模型，通过预先训练的多类检测模型改变原有只能实现单一识别方法而实现多种类型的待检测图像，扩大应用场景，结构简单，提高用户体验。

基于上述方法，本申请还提供一种终端设备，如图3所所示。该终端设备具体可以是移动终端，也可以是服务器。如图3所示，其包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现年龄识别方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行年龄识别方法。本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多类物体检测方法，其特征在于，所述多类物体检测方法包括：

2.根据权利要求1所述的多类物体检测方法，其特征在于，所述预先训练的多类检测模型的训练过程包括以下步骤：

获取训练集，所述训练集包括带有真实框的多个样本图像；

3.根据权利要求2所述的多类物体检测方法，其特征在于，所述训练集的获取过程包括：

获取多个初始图像；

将带有真实框标注的各样本图像作为训练集。

4.根据权利要求3所述的多类物体检测方法，其特征在于，所述训练集的获取过程还包括：

5.根据权利要求2所述的多类物体检测方法，其特征在于，所述预先训练的多类检测模型为基于改进的EAST模型，其包括特征提取层、特征融合层以及多通道输出层，所述将多个样本图像输入至初始多类检测模型以进行训练，获取各样本图像的预测框得分图以及对应的预测框几何参数信息具体包括：

通过特征提取层从各样本图像提取对应多个尺度的特征图；

6.根据权利要求5所述的多类物体检测方法，其特征在于，所述特征提取层包括依次连接的下采样层和四个第一卷积层，其中，四个第一卷积层级联连接，所述下采样层和四个第一卷积层的通道数依次递增；

所述多通道输出层包括与所述第四卷积层分别连接的第五卷积层以及两个第六卷积层，所述第五卷积层的通道数为n，两个第六卷积层的通道数分别为4n和n；其中，n为所述预先训练的多类检测模型中用于待检测目标对象的个数。

7.根据权利要求2所述的多类物体检测方法，其特征在于，所述基于各样本图像中每个像素位置的预测得分以及对应的预测框几何参数信息，确定各样本图像的预测结果之后包括：

若预测框得分图上某一像素点位置的预测得分小于等于预设阈值，则以所述像素点位置为中心所预测出的预测框无效。

8.根据权利要求7所述的多类物体检测方法，其特征在于，每一通道的预测框得分图用于预测一类别的目标对象，若预测框得分图上同一像素点位置对应至少两个通道，则选取两通道值中值较大者对应的通道作为所述像素点位置的预测类别。

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述的多类物体检测方法中的步骤。

10.一种终端设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至8中任一项所述的多类物体检测方法中的步骤。