CN117456170B - 目标检测方法和装置、电子设备以及存储介质 - Google Patents

目标检测方法和装置、电子设备以及存储介质 Download PDF

Info

Publication number
CN117456170B
CN117456170B CN202311776428.0A CN202311776428A CN117456170B CN 117456170 B CN117456170 B CN 117456170B CN 202311776428 A CN202311776428 A CN 202311776428A CN 117456170 B CN117456170 B CN 117456170B
Authority
CN
China
Prior art keywords
target
scale
target detection
image
pruned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311776428.0A
Other languages
English (en)
Other versions
CN117456170A (zh
Inventor
张共济
曹高宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Mega Technology Co Ltd
Original Assignee
Suzhou Mega Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Mega Technology Co Ltd filed Critical Suzhou Mega Technology Co Ltd
Priority to CN202311776428.0A priority Critical patent/CN117456170B/zh
Publication of CN117456170A publication Critical patent/CN117456170A/zh
Application granted granted Critical
Publication of CN117456170B publication Critical patent/CN117456170B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供一种目标检测方法和装置、电子设备以及存储介质。该方法包括:获取待处理图像和经训练的目标检测模型,目标检测模型包括多个预测头,多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测;基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,待剪枝预测头为多个预测头中除与一个或多个目标尺度范围对应的目标预测头外的剩余预测头;对目标检测模型中的待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型;将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。该方案可以解决预测头冗余的问题,提升目标检测模型的推理速度。

Description

目标检测方法和装置、电子设备以及存储介质
技术领域
本发明涉及图像处理技术领域,更具体地涉及一种目标检测方法、一种目标检测装置、一种电子设备和一种存储介质。
背景技术
现有技术中,为了提升目标检测模型对待处理图像中不同尺度的目标对象的检测效果,通常会对下采样获得的多尺度特征图分别进行预测。例如,对于一个包含三个预测头的目标检测模型,将待处理图像输入卷积神经网络模块提取得到的下采样倍数为8倍、16倍和32倍的特征图,这三种尺度的特征图分别适合用于预测小目标、中目标以及大目标的预测头。这样目标检测模型可适用的场景更加丰富,但是会导致存在冗余且推理速度慢。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种目标检测方法、一种目标检测装置、一种电子设备和一种存储介质。
根据本发明一个方面,提供一种目标检测方法,方法包括:获取待处理图像和经训练的目标检测模型,目标检测模型包括多个预测头,多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测;基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,其中,尺度信息用于指示预期从待处理图像中检测的目标对象的一个或多个目标尺度范围,待剪枝预测头为多个预测头中除与一个或多个目标尺度范围对应的目标预测头外的剩余预测头;对目标检测模型中的待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型;将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。
示例性地,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,包括:获取目标数据集,目标数据集包括多个目标图像,多个目标图像中目标对象的尺度是已知的,待处理图像中目标对象的尺度范围默认为与多个目标图像中的目标对象的尺度范围一致;基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头;其中,尺度信息包括目标数据集中的目标对象在多个尺度范围中的分布情况。
示例性地,基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头,包括:对于多个尺度范围中的每个尺度范围,计算目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值,分布情况采用比值表示;在比值小于或等于预设比例阈值时,将该尺度范围所对应的预测头确定为待剪枝预测头。
示例性地,在获取目标数据集之后,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头还包括:将多个目标图像分别输入经训练的目标检测模型,以获得目标检测模型输出的与多个目标图像一一对应的目标检测结果,目标检测结果用于指示对应目标图像中目标对象所在的位置;对于多个目标图像中的每个目标图像,基于该目标图像所对应的目标检测结果信息,确定该目标图像中的目标对象的尺度。
示例性地,基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头的步骤在目标数据集中包含的目标图像的数量达到预设数量阈值时执行。
示例性地,目标检测模型用于在至少一种应用场景中使用,每种应用场景与多个尺度范围中的至少一个尺度范围对应,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,包括:响应于用户输入的场景信息,确定待处理图像所对应的实际应用场景,其中,尺度信息包括场景信息;将与实际应用场景对应的一个或多个尺度范围确定为一个或多个目标尺度范围并确定待剪枝预测头。
示例性地,方法还包括:利用目标检测模型输出的目标检测结果进行附加处理;其中,附加处理包括利用目标检测结果对待处理图像中的目标对象进行图像分割;和/或,附加处理包括利用目标检测结果对待处理图像中的目标对象进行分类。
示例性地,目标检测模型通过以下训练操作获得:获取样本数据集,样本数据集中包括多个样本图像以及标注信息,标注信息包括多个样本图像中的每个样本图像所包含的目标对象的标注目标检测结果;将所多个样本图像分别输入待训练的目标检测模型,以获得多个样本图像各自对应的预测目标检测结果;基于多个样本图像各自对应的预测目标检测结果和标注目标检测结果之间的差异,计算预测损失值;基于预测损失值对待训练的目标检测模型中的参数进行优化,以获得经训练的目标检测模型。
根据本发明另一方面,还提供一种目标检测装置,装置包括:获取模块,用于获取待处理图像和经训练的目标检测模型,目标检测模型包括多个预测头,多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测;确定模块,用于基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,其中,尺度信息用于指示预期从待处理图像中检测的目标对象的一个或多个目标尺度范围,待剪枝预测头为多个预测头中除与一个或多个目标尺度范围对应的目标预测头外的剩余预测头;剪枝模块,用于对目标检测模型中的待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型;输入模块,用于将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。
根据本发明又一方面,还提供一种电子设备,包括处理器和存储器,存储器中存储有计算机程序指令,计算机程序指令被处理器运行时用于执行上述的目标检测方法。
根据本发明再一方面,还提供一种存储介质,存储有计算机程序/指令,计算机程序/指令在运行时用于执行上述的目标检测方法。
根据本发明实施例的目标检测方法、目标检测装置、电子设备和存储介质,基于获取的待处理图像所对应的尺度信息,可以确定目标检测模型的多个预测头中的待剪枝预测头。对目标检测模型中的待剪枝预测头进行剪枝,可以获得剪枝后的目标检测模型。将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。该方案通过待处理图像所对应的尺度信息对目标检测模型的多个预测头中的待剪枝预测头进行剪枝,可以在保证目标检测结果的准确率的基础上解决预测头冗余的问题,以提升目标检测模型的推理速度。进一步地,将待处理图像输入剪枝后的目标检测模型进行目标检测,可以提高获得目标检测结果的效率。同时,该方案适用性广,还可以适用到其他需要对模型进行剪枝的应用场景中。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出了根据本发明一个实施例的目标检测方法的示意性流程图;
图2示出了根据本发明一个实施例的目标检测模型的示意图;
图3示出了根据本发明一个实施例的目标检测装置的示意性框图;以及
图4示出了根据本发明一个实施例的电子设备的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。
为了至少部分地解决上述问题,本发明实施例提供一种目标检测方法。图1示出了根据本发明一个实施例的目标检测方法100的示意性流程图,如图1所示,该方法100可以包括以下步骤S110、步骤S120、步骤S130和步骤S140。
步骤S110,获取待处理图像和经训练的目标检测模型,目标检测模型可以包括多个预测头,多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测。
示例性地,待处理图像可以是任意类型的包含目标对象在内的图像。目标对象可以是例如动物、车辆、或字符等任意对象。待处理图像可以是静态图像,也可以是动态视频中的任一视频帧。待处理图像可以是图像采集装置(例如相机中的图像传感器)采集到的原始图像,也可以是对原始图像进行预处理(诸如数字化、归一化、平滑等)之后获得的图像。经训练的目标检测模型可以是任何合适的现有的或将来可能出现的能够实现目标检测功能的神经网络模型,包括但不限于区域卷积神经网络(Region-based ConvolutionalNeural Network, RCNN)、快速区域卷积神经网络(Faster RCNN)、单点多尺度目标检测器(Single Shot MultiBox Detector, SSD)或单阶经典检测器(You Only Look Once,YOLO)等。目标检测模型可以包括多个预测头。将待处理图像输入特征提取模块,通过特征提取模块对待处理图像进行特征提取,可以获得待处理图像对应的不同尺度的特征图。示例性而非限制性地,特征提取模块可以采用卷积神经网络模块(Convolutional NeuralNetworks Module,CNN Module)实现。
图2示出了根据本发明一个实施例的目标检测模型的示意图。例如,对待处理图像进行特征提取后可以获得特征图F1、F2和F3。特征图F1的尺度为8×8。特征图F2的尺度为16×16。特征图F3的尺度为32×32。不同尺度的特征图分别适用于检测不同尺度的目标对象。例如,若目标对象的面积为x,包含该目标对象的待处理图像的面积为y,那么x与y的比值(即x/ y)越大,则表示目标对象的尺度越大,反之则越小。多个预测头分别与多个尺度范围一一对应。例如,目标检测模型包括P1预测头、P2预测头和P3预测头。P1预测头可以用于检测处于较大尺度范围的目标对象,例如目标对象的尺度范围为大于或等于96×96。P2预测头可以用于检测处于中间尺度范围的目标对象,例如目标对象的尺度范围为大于32×32且小于96×96。P3预测头可以用于检测处于较小尺度范围的目标对象,例如目标对象的尺度范围为小于或等于32×32。每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测。
步骤S120,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,其中,尺度信息用于指示预期从待处理图像中检测的目标对象的一个或多个目标尺度范围,待剪枝预测头为多个预测头中除与一个或多个目标尺度范围对应的目标预测头外的剩余预测头。
示例性地,基于待处理图像所对应的尺度信息,可以确定多个预测头中的待剪枝预测头。尺度信息可以用于指示预期从待处理图像中检测的目标对象的一个或多个目标尺度范围。对于不同应用场景,目标对象的尺度也不同。例如,当目标对象为人脸时,证件照中所包含的目标对象(人脸)所对应的尺度范围较大,而对于其他类型的人物图像其中包含的人脸所对应的尺度范围则可能不固定。例如,若用户期望从待处理图像中检测目标对象的尺度范围小于32×32,那么可以确定尺度信息中包含的目标尺度范围则为:小于32×32。除可以用于检测尺度大小为32×32的目标对象的目标预测头外,剩余预测头均可以作为待剪枝预测头。在本发明一个实施例中,P3预测头可以用于检测尺度为32×32的目标对象,那么可以将P1和P2确定为待剪枝预测头。若用户期望从待处理图像中检测目标对象的尺度范围大于32×32,那么可以确定尺度信息中包含的目标尺度范围则为:大于32×32。此时,可以确定P1预测头和P2预测头为目标预测头,P3为待剪枝预测头。
步骤S130,对目标检测模型中的待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型。
示例性地,基于确定的待剪枝预测头,对目标检测模型中的待剪枝预测头进行剪枝。例如,待剪枝预测头为P1和P2,可以从目标检测模型中移除P1预测头以及P2预测头各自对应的分支,即可完成待剪枝预测头进行剪枝的操作,进而获得剪枝后的目标检测模型。
步骤S140,将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。
示例性地,根据获得的剪枝后的目标检测模型,可以对待处理图像进行目标检测,进而获得目标检测结果。目标检测结果可以用于指示目标对象在待处理图像中的位置、目标对象的轮廓或者目标类别等信息。此外,利用目标检测结果还可以进行其他后处理操作,例如获取目标对象所在区域对应的图像块等。
根据本发明实施例的目标检测方法,基于获取的待处理图像所对应的尺度信息,可以确定目标检测模型的多个预测头中的待剪枝预测头。对目标检测模型中的待剪枝预测头进行剪枝,可以获得剪枝后的目标检测模型。将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。该方案通过待处理图像所对应的尺度信息对目标检测模型的多个预测头中的待剪枝预测头进行剪枝,可以在保证目标检测结果的准确率的基础上解决预测头冗余的问题,以提升目标检测模型的推理速度。进一步地,将待处理图像输入剪枝后的目标检测模型进行目标检测,可以提高获得目标检测结果的效率。同时,该方案适用性广,还可以适用到其他需要对模型进行剪枝的应用场景中。
示例性地,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,可以包括:获取目标数据集,目标数据集包括多个目标图像,多个目标图像中目标对象的尺度是已知的,待处理图像中目标对象的尺度范围默认为与多个目标图像中的目标对象的尺度范围一致;基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头;其中,尺度信息可以包括目标数据集中的目标对象在多个尺度范围中的分布情况。
在一个实施例中,可以参照前文实施例中步骤S110关于获取待处理图像的相关描述,获得多个目标图像并将所获得的多个目标图像作为目标数据集。多个目标图像中的每个目标图像所包含的目标对象的尺度可以是人工预先标注得到的,也可以是基于其他神经网络模型进行检测获得的。待处理图像中目标对象的尺度范围默认为与多个目标图像中的目标对象的尺度范围一致。若多个目标图像中的目标对象的尺度范围为大于32×32且小于96×96,那么可以默认待处理图像中的目标对象的尺度范围也是大于32×32且小于96×96。基于目标数据集中的目标对象在多个尺度范围中的分布情况,可以确定待剪枝预测头。尺度信息还可以包括目标数据集中的目标对象在多个尺度范围中的分布情况。在本发明一个实施例中,如果目标数据集中包括1000个目标图像,其中300个目标图像中的目标对象的尺度范围为小于或等于32×32,700个目标图像中的目标对象的尺度范围为大于32×32且小于96×96,那么可以将P1预测头确定为待剪枝预测头。若1000个目标图像中的目标对象的尺度范围均为大于32×32且小于96×96,那么可以将P1预测头以及P3预测头都确定为待剪枝预测头。
根据上述技术方案,可以基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头。由于默认待处理图像中目标对象的尺度范围与多个目标图像中的目标对象的尺度范围是一致的,因此该方案基于目标数据集中的目标对象在多个尺度范围中的分布情况,可以比较准确的获得待处理图像中目标对象的尺度范围,进而提高对目标检测模型中的多个预测头进行剪枝的准确性。
示例性地,基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头,可以包括:对于多个尺度范围中的每个尺度范围,计算目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值,分布情况采用比值表示;在比值小于或等于预设比例阈值时,将该尺度范围所对应的预测头确定为待剪枝预测头。
在一个实施例中,预设比例阈值可以是预先设置的处于[0,1]范围内的任意数值,例如0.4、0.5、0.6等。在本发明一个实施例预设比例阈值Th可以等于0.4。如果目标数据集中包括1000个目标图像,其中50个目标图像中的目标对象的尺度范围为小于或等于32×32,450个目标图像中的目标对象的尺度范围为大于32×32且小于96×96,500个目标图像中的目标对象的尺度范围为大于或等于96×96。对于多个尺度范围中的每个尺度范围,可以计算目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值。前文实施例中的分布情况可以采用计算获得的比值表示。例如,对于尺度范围小于或等于32×32,目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值T1 = 50 / 1000 =0.05。同理地,对于尺度范围大于32×32且小于96×96,目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值T2 = 450 / 1000 =0.45。对于尺度范围大于或等于96×96,目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值T3 = 500 / 1000 =0.5。比值T1小于预设比例阈值Th,比值T2和比值T3均大于预设比例阈值Th,因此可以将尺度范围为小于或等于32×32所对应的预测头(例如上述实施例中的P3预测头)确定为待剪枝预测头。
根据上述技术方案,对于多个尺度范围中的每个尺度范围,可以计算目标数据集中目标对象的尺度处于该尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值,并在比值小于或等于预设比例阈值时,将该尺度范围所对应的预测头确定为待剪枝预测头。该方案通过设置预设比例阈值,并基于目标数据集中目标对象的尺度处于任一尺度范围内的目标图像的数量与多个目标图像的总数量之间的比值,确定该尺度范围所对应的预测头是否需要进行剪枝,这样可以适用不同的应用场景设置不同的预设比例阈值,实用性较强。
示例性地,在获取目标数据集之后,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头还可以包括:将多个目标图像分别输入经训练的目标检测模型,以获得目标检测模型输出的与多个目标图像一一对应的目标检测结果,目标检测结果用于指示对应目标图像中目标对象所在的位置;对于多个目标图像中的每个目标图像,基于该目标图像所对应的目标检测结果信息,确定该目标图像中的目标对象的尺度。
在一个实施例中,将多个目标图像分别输入经训练的目标检测模型,可以获得目标检测模型输出的与多个目标图像一一对应的目标检测结果。目标检测结果可以包括目标检测框。目标检测框可以是任意形状的框,比较可取的是矩形框。在目标检测框是矩形框的情况下,目标对象在对应的目标图像中的位置可以用目标检测框在目标图像中的位置表示。例如,可以用目标检测框的左上角顶点对应的图像坐标以及右下角顶点对应的图像坐标表示目标对象在对应的目标图像的位置。又例如,还可以用目标检测框的中心点的图像坐标表示目标对象在对应的目标图像的位置。对于多个目标图像中的每个目标图像,基于该目标图像所对应的目标检测结果信息,可以确定该目标图像中的目标对象的尺度。例如,目标对象对应的目标检测框的尺度越大,可以表示该目标对象的尺度越大,反之则越小。
根据上述技术方案,将多个目标图像分别输入经训练的目标检测模型,可以与多个目标图像一一对应的目标检测结果。基于各目标图像所对应的目标检测结果信息,可以确定该目标图像中的目标对象的尺度。这样所确定的各目标对象的尺度比较准确,进而可以保证基于多个目标图像中的目标对象在多个尺度范围中的分布情况,确定的待剪枝预测头的可靠性。
示例性地,基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头的步骤在目标数据集中包含的目标图像的数量达到预设数量阈值时执行。
在一个实施例中,可以预先设置预设数量阈值,在目标数据集中包含的目标图像的数量达到预设数量阈值时执行步骤“基于目标数据集中的目标对象在多个尺度范围中的分布情况,确定待剪枝预测头”。预设数量阈值可以基于目标数据集所包含的多个目标图像的数量进行设置,也可以任意设置。例如,若目标数据集中包括1000个目标图像,那么预设数量阈值可以500、600、或700等。此外,也可以无需目标数据集所包含的多个目标图像的数量,直接设置预设数量阈值。这样基于预设数量,可以保证根据期望数量的目标图像确定目标对象在多个尺度范围中的分布情况,保证所确定的待剪枝预测头的准确性。同时,也可以避免目标图像的数量过多浪费资源。
示例性地,目标检测模型用于在至少一种应用场景中使用,每种应用场景与多个尺度范围中的至少一个尺度范围对应,基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,包括:响应于用户输入的场景信息,确定待处理图像所对应的实际应用场景,其中,尺度信息包括场景信息;将与实际应用场景对应的一个或多个尺度范围确定为一个或多个目标尺度范围并确定待剪枝预测头。
在一个实施例中,目标检测模型可以用于在一种或多种应用场景中使用,例如人脸识别、车辆识别或缺陷检测等应用场景。每种应用场景与多个尺度范围中的至少一个尺度范围对应。应用本发明实施例的目标检测方法的目标检测设备可以包括输入装置。这里所描述的目标检测设备可以是下文实施例中的目标检测装置300。输入装置可以与目标检测设备可通信连接或包含在目标检测设备中。输入装置可以包括但不限于鼠标、键盘、麦克风、触摸屏等中的一种或多种。示例性地,用户可以利用输入装置输入场景信息。通过用户输入的场景信息,可以确定待处理图像所对应的实际应用场景。例如,用户可以通过键盘或鼠标输入“人脸识别”等字符,表示当前的实际应用场景为人脸识别。又例如,用户还可以通过键盘或者鼠标点击“场景选择”控件,进而基于场景选择控件对应的下拉菜单中包含的多个应用场景,选择期望的应用场景作为当前实际应用场景。尺度信息还可以包括场景信息。不同的应用场景具有对应的一个或多个尺度范围。基于确定的实际用用场景,可以将与实际应用场景对应的一个或多个尺度范围确定为一个或多个目标尺度范围并确定待剪枝预测头。例如,当前的实际应用场景为人脸识别,该实际应用场景对应的尺度范围为大于32×32且小于96×96,那么可以将尺度范围大于32×32且小于96×96确定为目标尺度范围,并将P1预测头和P3预测头确定为待剪枝预测头。
根据上述技术方案,可以基于用户输入的场景信息,确定待处理图像所对应的实际应用场景,进而将与实际应用场景对应的一个或多个尺度范围确定为一个或多个目标尺度范围并确定待剪枝预测头。该方案可以基于用户输入的场景信息确定待测剪枝预测头,交互性较强且用户体验较好。
示例性地,方法还可以包括:利用目标检测模型输出的目标检测结果进行附加处理;其中,附加处理包括利用目标检测结果对待处理图像中的目标对象进行图像分割;和/或,附加处理包括利用目标检测结果对待处理图像中的目标对象进行分类。
在一个实施例中,根据目标检测模型输出的目标检测结果,还可以进行其他附加处理操作。示例性地,附加处理可以包括利用目标检测结果对待处理图像中的目标对象进行图像分割。示例性而非限制性地,图像分割的操作可以采用任意现有或将来可能出现的图像分割网络实现。图像分割网络包括但不限于:全卷积网络(Fully ConvolutionalNetworks, FCN)、U型网络(Unet)、深度实验室(DeepLab)系列、V型网络(Vnet)等神经网络。
在另一个实施例中,附加处理可以包括利用目标检测结果对待处理图像中的目标对象进行分类。示例性而非限制性地,分类操作可以采用任意现有或将来可能出现的图像分类网络实现。图像分类网络包括但不限于以下一种或多种神经网络的至少部分网络结构:视觉几何组(Visual Geometry Group, VGG)、LeNet系列、残差网络(ResidualNetwork, ResNet)等。
根据上述技术方案,利用目标检测模型输出的目标检测结果进行图像分割和/或利用目标检测模型输出的目标检测结果对目标对象进行分类,这样减少图像分割网络或图像分类网络的输入,提高图像分割的效率或对目标对象进行分类的效率。
示例性地,目标检测模型通过以下训练操作获得:获取样本数据集,样本数据集中包括多个样本图像以及标注信息,标注信息包括多个样本图像中的每个样本图像所包含的目标对象的标注目标检测结果;将所多个样本图像分别输入待训练的目标检测模型,以获得多个样本图像各自对应的预测目标检测结果;基于多个样本图像各自对应的预测目标检测结果和标注目标检测结果之间的差异,计算预测损失值;基于预测损失值对待训练的目标检测模型中的参数进行优化,以获得经训练的目标检测模型。
在一个实施例中,样本图像的获取方式与待处理图像的获取方式类似,在步骤S110已经对待处理图像的获取方式进行了详细的描述,为了简洁,在此不再赘述。样本数据集中可以包括多个样本图像以及标注信息。多个样本图像中包含的目标对象的大小可以与多种尺度范围相对应。例如,样本数据集中包括10000个样本图像,其中3200个样本图像中的目标对象的尺度范围为小于或等于32×32,3300个样本图像中的目标对象的尺度范围为大于32×32且小于96×96,3500个样本图像中的目标对象的尺度范围为大于或等于96×96。标注信息可以包括多个样本图像中的每个样本图像所包含的目标对象的标注目标检测结果。例如,人工标注的每个样本图像所包含的目标对象对应的检测框以及目标对象的尺度信息。将多个样本图像输入待训练的目标检测模型,可以获得多个样本图像各自对应的预测目标检测结果。预测目标检测结果可以表示预测获得的每个样本图像中目标对象对应的检测框。基于获得的预测目标检测结果,可以将预测目标检测结果和标注目标检测结果代入预设损失函数中进行损失计算,获得预测损失值。预设损失函数可以是交叉熵损失函数等任意损失函数,本发明对此不做限制。随后可以根据预测损失值,利用反向传播和梯度下降算法对待训练的目标检测模型中的参数进行优化。优化操作可以反复执行直至目标检测模型达到收敛状态。当训练结束后,所获得的目标检测模型即可用于后续的对待处理图像进行目标检测。
根据上述技术方案,可以基于样本数据集中的多个样本图像以及标注信息,对目标检测模型进行训练。这样训练获得的目标检测模型可以对处于各个尺度范围内的目标对象进行目标检测。进一步地,基于训练后的目标检测模型,对目标检测模型中的多个预测头进行剪枝,可以提高目标检测模型的检测效率,且准确率较高。
根据本发明的另一方面,还提供一种目标检测装置。图3示出了根据本发明一个实施例的目标检测装置300的示意性框图,如图3所示,该目标检测装置300包括获取模块310、确定模块320、剪枝模块330和输入模块340。
获取模块310,用于获取待处理图像和经训练的目标检测模型,目标检测模型包括多个预测头,多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测。
确定模块320,用于基于待处理图像所对应的尺度信息,确定多个预测头中的待剪枝预测头,其中,尺度信息用于指示预期从待处理图像中检测的目标对象的一个或多个目标尺度范围,待剪枝预测头为多个预测头中除与一个或多个目标尺度范围对应的目标预测头外的剩余预测头。
剪枝模块330,用于对目标检测模型中的待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型。
输入模块340,用于将待处理图像输入剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果。
本领域普通技术人员通过阅读上述有目标检测方法100的相关描述,可以理解上述目标检测装置的具体实现方案以及有益效果,为了简洁,在此不再赘述。
据本发明的又一方面,还提供一种电子设备。图4示出了根据本发明实施例的电子设备的示意性框图。如图4所示,该电子设备400包括处理器410和存储器420,存储器420中存储有计算机程序,计算机程序指令被处理器410运行时用于执行上述的目标检测方法。
根据本发明的再一方面,还提供一种存储介质,存储有计算机程序/指令,所述存储介质例如可以包括平板电脑的存储部件、个人计算机的硬盘、可擦除可编程只读存储器(EPROM)、便携式只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述存储介质可以是一个或多个计算机可读存储介质的任意组合。所述计算机程序/指令被处理器在运行时用于执行上述的目标检测方法。
本领域普通技术人员通过阅读上述有关目标检测方法的相关描述,可以理解上述电子设备和存储介质的具体实现方案,为了简洁,在此不再赘述。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的目标检测装置中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种目标检测方法,其特征在于,所述方法包括:
获取待处理图像和经训练的目标检测模型,所述目标检测模型包括多个预测头,所述多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测;
基于所述待处理图像所对应的尺度信息,确定所述多个预测头中的待剪枝预测头,其中,所述尺度信息用于指示预期从所述待处理图像中检测的所述目标对象的一个或多个目标尺度范围,所述待剪枝预测头为所述多个预测头中除与所述一个或多个目标尺度范围对应的目标预测头外的剩余预测头;
对所述目标检测模型中的所述待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型;
将所述待处理图像输入所述剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果;
其中,所述基于所述待处理图像所对应的尺度信息,确定所述多个预测头中的待剪枝预测头,包括:
获取目标数据集,所述目标数据集包括多个目标图像,所述多个目标图像中所述目标对象的尺度是已知的,所述待处理图像中所述目标对象的尺度范围默认为与所述多个目标图像中的所述目标对象的尺度范围一致;
基于所述目标数据集中的所述目标对象在所述多个尺度范围中的分布情况,确定所述待剪枝预测头,其中,所述尺度信息包括所述目标数据集中的所述目标对象在所述多个尺度范围中的分布情况;
其中,所述基于所述目标数据集中的所述目标对象在所述多个尺度范围中的分布情况,确定所述待剪枝预测头,包括:
对于所述多个尺度范围中的每个尺度范围,
计算所述目标数据集中所述目标对象的尺度处于该尺度范围内的目标图像的数量与所述多个目标图像的总数量之间的比值,所述分布情况采用所述比值表示;
在所述比值小于或等于预设比例阈值时,将该尺度范围所对应的预测头确定为所述待剪枝预测头。
2.如权利要求1所述的方法,其特征在于,在所述获取目标数据集之后,所述基于所述待处理图像所对应的尺度信息,确定所述多个预测头中的待剪枝预测头还包括:
将所述多个目标图像分别输入经训练的所述目标检测模型,以获得所述目标检测模型输出的与所述多个目标图像一一对应的目标检测结果,所述目标检测结果用于指示对应目标图像中所述目标对象所在的位置;
对于所述多个目标图像中的每个目标图像,基于该目标图像所对应的目标检测结果信息,确定该目标图像中的所述目标对象的尺度。
3.如权利要求1所述的方法,其特征在于,所述基于所述目标数据集中的所述目标对象在所述多个尺度范围中的分布情况,确定所述待剪枝预测头的步骤在所述目标数据集中包含的所述目标图像的数量达到预设数量阈值时执行。
4.如权利要求1-3任一项所述的方法,其特征在于,所述方法还包括:
利用所述目标检测模型输出的目标检测结果进行附加处理;
其中,所述附加处理包括利用所述目标检测结果对所述待处理图像中的所述目标对象进行图像分割;和/或,所述附加处理包括利用所述目标检测结果对所述待处理图像中的所述目标对象进行分类。
5.如权利要求1-3任一项所述的方法,其特征在于,所述目标检测模型通过以下训练操作获得:
获取样本数据集,所述样本数据集中包括多个样本图像以及标注信息,所述标注信息包括所述多个样本图像中的每个样本图像所包含的所述目标对象的标注目标检测结果;
将所多个样本图像分别输入待训练的目标检测模型,以获得所述多个样本图像各自对应的预测目标检测结果;
基于所述多个样本图像各自对应的所述预测目标检测结果和所述标注目标检测结果之间的差异,计算预测损失值;
基于所述预测损失值对待训练的所述目标检测模型中的参数进行优化,以获得经训练的所述目标检测模型。
6.一种目标检测装置,其特征在于,所述装置包括:
获取模块,用于获取待处理图像和经训练的目标检测模型,所述目标检测模型包括多个预测头,所述多个预测头与多个尺度范围一一对应,每个预测头用于对尺度处于对应尺度范围内的目标对象进行位置预测;
确定模块,用于基于所述待处理图像所对应的尺度信息,确定所述多个预测头中的待剪枝预测头,其中,所述尺度信息用于指示预期从所述待处理图像中检测的所述目标对象的一个或多个目标尺度范围,所述待剪枝预测头为所述多个预测头中除与所述一个或多个目标尺度范围对应的目标预测头外的剩余预测头;
剪枝模块,用于对所述目标检测模型中的所述待剪枝预测头进行剪枝,以获得剪枝后的目标检测模型;
输入模块,用于将所述待处理图像输入所述剪枝后的目标检测模型进行目标检测,以获得对应的目标检测结果;
其中,所述确定模块包括获取子模块和确定子模块,
所述获取子模块,用于获取目标数据集,所述目标数据集包括多个目标图像,所述多个目标图像中所述目标对象的尺度是已知的,所述待处理图像中所述目标对象的尺度范围默认为与所述多个目标图像中的所述目标对象的尺度范围一致;
所述确定子模块,用于基于所述目标数据集中的所述目标对象在所述多个尺度范围中的分布情况,确定所述待剪枝预测头,其中,所述尺度信息包括所述目标数据集中的所述目标对象在所述多个尺度范围中的分布情况;
其中,所述确定子模块包括计算单元和确定单元,
所述计算单元,用于对于所述多个尺度范围中的每个尺度范围,计算所述目标数据集中所述目标对象的尺度处于该尺度范围内的目标图像的数量与所述多个目标图像的总数量之间的比值,所述分布情况采用所述比值表示;
所述确定单元,用于对于所述多个尺度范围中的每个尺度范围,在所述比值小于或等于预设比例阈值时,将该尺度范围所对应的预测头确定为所述待剪枝预测头。
7.一种电子设备,包括处理器和存储器,其特征在于,所述存储器中存储有计算机程序指令,所述计算机程序指令被所述处理器运行时用于执行如权利要求1-5任一项所述的目标检测方法。
8.一种存储介质,存储有计算机程序/指令,其特征在于,所述计算机程序/指令在运行时用于执行如权利要求1-5任一项所述的目标检测方法。
CN202311776428.0A 2023-12-22 2023-12-22 目标检测方法和装置、电子设备以及存储介质 Active CN117456170B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311776428.0A CN117456170B (zh) 2023-12-22 2023-12-22 目标检测方法和装置、电子设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311776428.0A CN117456170B (zh) 2023-12-22 2023-12-22 目标检测方法和装置、电子设备以及存储介质

Publications (2)

Publication Number Publication Date
CN117456170A CN117456170A (zh) 2024-01-26
CN117456170B true CN117456170B (zh) 2024-03-19

Family

ID=89589475

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311776428.0A Active CN117456170B (zh) 2023-12-22 2023-12-22 目标检测方法和装置、电子设备以及存储介质

Country Status (1)

Country Link
CN (1) CN117456170B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465114A (zh) * 2020-11-25 2021-03-09 重庆大学 基于优化通道剪枝的快速目标检测方法及系统
CN114819143A (zh) * 2022-04-15 2022-07-29 北京邮电大学 一种适用于通信网现场维护的模型压缩方法
CN114972950A (zh) * 2022-05-13 2022-08-30 际络科技(上海)有限公司 多目标检测方法、装置、设备、介质及产品
CN115272894A (zh) * 2022-08-01 2022-11-01 北京工业大学 面向无人机图像目标检测方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465114A (zh) * 2020-11-25 2021-03-09 重庆大学 基于优化通道剪枝的快速目标检测方法及系统
CN114819143A (zh) * 2022-04-15 2022-07-29 北京邮电大学 一种适用于通信网现场维护的模型压缩方法
CN114972950A (zh) * 2022-05-13 2022-08-30 际络科技(上海)有限公司 多目标检测方法、装置、设备、介质及产品
CN115272894A (zh) * 2022-08-01 2022-11-01 北京工业大学 面向无人机图像目标检测方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"PME: pruning-based multi-size embedding for recommender systems";Zirui等;《frontiers》;20230615;第1-10页 *

Also Published As

Publication number Publication date
CN117456170A (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
CN108154105B (zh) 水下生物检测与识别方法、装置、服务器及终端设备
CN109815770B (zh) 二维码检测方法、装置及系统
CN112857268B (zh) 对象面积测量方法、装置、电子设备和存储介质
CN111523414A (zh) 人脸识别方法、装置、计算机设备和存储介质
CN106971178A (zh) 行人检测和再识别的方法及装置
CN109272016A (zh) 目标检测方法、装置、终端设备和计算机可读存储介质
CN111292377B (zh) 目标检测方法、装置、计算机设备和存储介质
CN112734747B (zh) 一种目标检测方法、装置、电子设备和存储介质
Geng et al. An improved helmet detection method for YOLOv3 on an unbalanced dataset
CN113239818A (zh) 基于分割和图卷积神经网络的表格图像跨模态信息提取方法
CN113887608A (zh) 一种模型训练的方法、图像检测的方法及装置
CN109190639A (zh) 一种车辆颜色识别方法、装置及系统
CN108038491B (zh) 一种图像分类方法及装置
CN114972947B (zh) 一种基于模糊语义建模的深度场景文本检测方法和装置
CN116415020A (zh) 一种图像检索的方法、装置、电子设备及存储介质
CN113963011A (zh) 图像识别方法、装置、电子设备及存储介质
CN105404682A (zh) 一种基于数字图像内容的图书检索方法
CN113128604A (zh) 页面元素的识别方法、装置、电子设备及存储介质
CN117523087A (zh) 基于内容识别的三维模型优化方法
CN117456170B (zh) 目标检测方法和装置、电子设备以及存储介质
CN113569600A (zh) 物体重识别的方法、装置、电子设备及存储介质
CN116206302A (zh) 三维目标检测方法、装置、计算机设备和存储介质
CN115775386A (zh) 用户界面组件的识别方法、装置、计算机设备和存储介质
CN112949526B (zh) 人脸检测方法和装置
CN114330542A (zh) 一种基于目标检测的样本挖掘方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant