CN116563819A - 一种车辆检测方法、装置、设备及介质 - Google Patents

一种车辆检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN116563819A
CN116563819A CN202310441914.0A CN202310441914A CN116563819A CN 116563819 A CN116563819 A CN 116563819A CN 202310441914 A CN202310441914 A CN 202310441914A CN 116563819 A CN116563819 A CN 116563819A
Authority
CN
China
Prior art keywords
network
sample
training
round
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310441914.0A
Other languages
English (en)
Inventor
胡如周
李耀
俞春江
胡豪炜
任攀宇
王松
周文挺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhoushan Yongzhou Container Terminals Ltd
Original Assignee
Zhoushan Yongzhou Container Terminals Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhoushan Yongzhou Container Terminals Ltd filed Critical Zhoushan Yongzhou Container Terminals Ltd
Priority to CN202310441914.0A priority Critical patent/CN116563819A/zh
Publication of CN116563819A publication Critical patent/CN116563819A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/08Detecting or categorising vehicles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开了一种车辆检测方法、装置、设备及介质,该方法可应用于港口、高速、物流、矿山、机场、口岸、封闭园区、或城市交通等场景。该方法包括:将目标图像输入第一网络进行特征提取,得到图像特征。通过第二网络对图像特征进行特征识别,得到目标图像中是否包含待检测车辆的检测结果。本申请通过在第一网络的训练阶段加入携带掩码功能的自编码器使网络能在有限的输入中抽取图像的整体描述,继而使网络具备较好的深度语义特征的提取能力。并根据第一网络对输入图像的特征提取结果确定第二网络的训练样本,使网络在提取图像特征同时能够有效提取到深度语义特征,提高车辆行驶过程中对过往车辆的检测精度。

Description

一种车辆检测方法、装置、设备及介质
技术领域
本申请涉及图像处理技术领域,具体涉及一种车辆检测方法、装置、设备及介质。
背景技术
图像识别技术在众多领域具备重要用途,例如在自动驾驶领域中需通过对车辆前方实景进行视频采集,并通过图像识别技术检测视频流中各车辆的位姿来确定本车前方路况。该技术的实现是通过对卷积神经网络的训练完成的、由于卷积本身的归纳偏置特性,网络可以通过训练进行一系列重要的如目标形状、颜色或位置等特征的学习,从而在推理阶段通过识别输入图像中是否存有上述特征以确定图像中是否存在待检测的目标对象。
在实际应用中,由于待识别图像是通过车辆摄像头对道路实景采集得到的。图像画面会受到如外物遮挡、强光照射、噪声等因素的影响,导致卷积神经网络对图像特征的提取精度降低,继而在自动驾驶场景下会导致本车对过往车辆的识别精度降低。
发明内容
本申请实施例提供一种车辆检测方法、装置、设备及介质。用于提高车辆行驶过程中对过往车辆的检测精度。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种车辆检测方法,所述方法包括:
响应于图像识别指示,获取目标图像;
将目标图像输入第一网络,通过所述第一网络对目标图像进行特征提取,得到所述目标图像中包含的图像特征;其中,所述第一网络是基于携带掩码功能的自编码器对第一样本进行训练得到的;
将所述图像特征输入第二网络,通过所述第二网络对所述图像特征进行特征识别,得到所述目标图像中是否包含待检测车辆的检测结果;其中,所述第二网络是通过对第二样本进行训练得到的,所述第二样本是通过所述第一网络对输入图像进行特征提取确定的。
在一些可能的实施例中,所述第一网络是通过下述方式训练得到的:
通过将所述第一样本输入所述自编码器中,采用迭代的方式对所述自编码器进行多轮训练,直至满足第一收敛条件,根据训练结束的自编码器确定所述第一网络;其中,所述第一收敛条件是根据每轮训练得到的检测损失值与检测损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第一收敛条件,则通过本轮训练得到的检测损失值对本轮迭代前的自编码器参数进行调整;每轮迭代过程如下:
通过所述自编码器对所述第一样本进行掩码处理,得到目标样本;
基于本轮迭代前的编码器参数对所述目标样本进行特征识别,得到本轮识别结果;并基于均方误差函数,根据本轮识别结果与所述第一样本确定本轮训练得到的检测损失值。
在一些可能的实施例中,所述通过所述自编码器对所述第一样本进行掩码处理,得到目标样本,包括:
对所述第一样本进行归一化处理,得到预设尺寸的样本图像;
将所述样本图像线性映射为多个预设编码长度的子图像,并对各所述子图像中的部分子图像添加掩码标记;
将各所述子图像中,未携带所述掩码标记的子图像作为所述目标样本。
在一些可能的实施例中,所述第二网络是通过下述方式训练得到的:
将所述第二样本输入初始第二网络中,采用迭代的方式对所述初始第二网络进行多轮训练,直至满足第二收敛条件,将训练结束的初始第二网络作为所述第二网络;其中,所述第二收敛条件是根据每轮训练得到的网络总损失值与总损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第二收敛条件,则通过本轮训练得到的网络总损失值对本轮迭代前的网络参数进行调整;每轮迭代过程如下:
通过第一数量的一维卷积层对所述第二样本进行卷积处理,得到每个一维卷积层对应的特征向量;其中,各所述一维卷积层的卷积核尺寸不同;
根据各所述特征向量确定与所述第二样本对应特征向量;其中,所述特征向量包括整体特征、纵向二分特征以及纵向三分特征中的部分或全部;
基于本轮迭代前的网络参数对所述特征向量进行特征识别,得到本轮识别结果;并基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值。
在一些可能的实施例中,所述基于本轮迭代前的网络参数对所述特征向量进行特征识别之前,所述方法还包括:
对所述特征向量进行池化处理,并通过对池化处理的后的特征向量进行多次卷积以将所述特征向量的通道数量降低至预设数量。
在一些可能的实施例中,所述第二样本是通过下述方式得到的:
将训练样本输入所述第一网络,通过所述第一网络对所述训练样本进行特征提取,得到所述训练样本的样本特征;
根据所述样本特征确定所述第二样本。
在一些可能的实施例中,所述基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值,包括:
基于交叉熵损失函数,根据所述样本特征、所述本轮识别结果和所述第二样本确定交叉熵损失值;
基于三元组损失函数,确定各所述特征向量间的三元组损失值;
根据所述交叉熵损失值和所述三元组损失值确定所述网络总损失值。
第二方面,本申请实施例提供了一种车辆检测装置,所述装置包括:
图像获取模块,被配置为执行响应于自动驾驶指示,获取目标图像;
特征获取模块,被配置为执行将目标图像输入第一网络,通过所述第一网络对目标图像进行特征提取,得到所述目标图像中包含的图像特征;其中,所述第一网络是基于携带掩码功能的自编码器对第一样本进行训练得到的;
图像识别模块,被配置为执行将所述图像特征输入第二网络,通过所述第二网络对所述图像特征进行特征识别,得到所述目标图像中是否包含待检测车辆的检测结果;其中,所述第二网络是通过对第二样本进行训练得到的,所述第二样本是通过所述第一网络对输入图像进行特征提取确定的。
在一些可能的实施例中,所述第一网络是通过下述方式训练得到的:
将所述第一样本输入所述自编码器中,采用迭代的方式对所述自编码器进行多轮训练,直至满足第一收敛条件,根据训练结束的自编码器确定所述第一网络;其中,所述第一收敛条件是根据每轮训练得到的检测损失值与检测损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第一收敛条件,则通过本轮训练得到的检测损失值对本轮迭代前的自编码器参数进行调整;每轮迭代过程如下:
通过所述自编码器对所述第一样本进行掩码处理,得到目标样本;
基于本轮迭代前的编码器参数对所述目标样本进行特征识别,得到本轮识别结果;并基于均方误差函数,根据本轮识别结果与所述第一样本确定本轮训练得到的检测损失值。
在一些可能的实施例中,所述通过所述自编码器对所述第一样本进行掩码处理,得到目标样本,包括:
对所述第一样本进行归一化处理,得到预设尺寸的样本图像;
将所述样本图像线性映射为多个预设编码长度的子图像,并对各所述子图像中的部分子图像添加掩码标记;
将各所述子图像中,未携带所述掩码标记的子图像作为所述目标样本。
在一些可能的实施例中,所述第二网络是通过下述方式训练得到的:
通过将所述第二样本输入初始第二网络中,采用迭代的方式对所述初始第二网络进行多轮训练,直至满足第二收敛条件,将训练结束的初始第二网络作为所述第二网络;其中,所述第二收敛条件是根据每轮训练得到的网络总损失值与总损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第二收敛条件,则通过本轮训练得到的网络总损失值对本轮迭代前的网络参数进行调整;每轮迭代过程如下:
通过第一数量的一维卷积层对所述第二样本进行卷积处理,得到每个一维卷积层对应的特征向量;其中,各所述一维卷积层的卷积核尺寸不同;
根据各所述特征向量确定与所述第二样本对应特征向量;其中,所述特征向量包括整体特征、纵向二分特征以及纵向三分特征中的部分或全部;
基于本轮迭代前的网络参数对所述特征向量进行特征识别,得到本轮识别结果;并基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值。
在一些可能的实施例中,所述基于本轮迭代前的网络参数对所述特征向量进行特征识别之前,所述方法还包括:
对所述特征向量进行池化处理,并通过对池化处理的后的特征向量进行多次卷积以将所述特征向量的通道数量降低至预设数量。
在一些可能的实施例中,所述第二样本是通过下述方式得到的:
将训练样本输入所述第一网络,通过所述第一网络对所述训练样本进行特征提取,得到所述训练样本的样本特征;
根据所述样本特征确定所述第二样本。
在一些可能的实施例中,所述基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值,包括:
基于交叉熵损失函数,根据所述样本特征、所述本轮识别结果和所述第二样本确定交叉熵损失值;
基于三元组损失函数,确定各所述特征向量间的三元组损失值;
根据所述交叉熵损失值和所述三元组损失值确定所述网络总损失值。
第三方面,本申请实施例还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如本申请第一方面中提供的任一方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本申请第一方面中提供的任一方法。
第五方面,本申请一实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如本申请第一方面中提供的任一方法。
本申请实施例中,通过将目标图像输入第一网络进行特征提取以得到图像特征。继而通过第二网络对图像特征进行特征识别,以得到目标图像中是否包含待检测车辆的检测结果。该第一网络是基于携带掩码的自编码器对第一样本进行训练得到的,本申请通过在第一网络的训练阶段加入携带掩码功能的自编码器使网络能在有限的输入中抽取图像的整体描述,继而使网络具备较好的深度语义特征的提取能力。并根据第一网络对输入图像的特征提取结果确定第二网络的训练样本,使网络在提取图像特征同时能够有效提取到深度语义特征,提高车辆行驶过程中对过往车辆的检测精度。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,显而易见地,下面所介绍的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例示出的一种车辆检测方法的流程图;
图2为本申请实施例示出的自编码器示意图;
图3为本申请实施例示出的第一网络训练的流程图;
图4为本申请实施例示出的第一网络训练流程的示意图;
图5为本申请实施例示出的第二网络训练的流程图;
图6为本申请实施例示出的第二网络训练流程的示意图;
图7为本申请实施例示出的一种车辆检测装置700的结构图;
图8为本申请实施例示出的电子设备示意图。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、详尽地描述。在本申请实施例的描述中,除非另有说明,“/”将表示或的意思,例如,A/B可以表示A或B;文本中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,另外,在本申请实施例的描述中,“多个”是指两个或多于两个。
在本申请实施例的描述中,除非另有说明,术语“多个”是指两个或两个以上,其它量词与之类似应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
为进一步说明本申请实施例提供的技术方案,下面结合附图以及具体实施方式对此进行详细的说明。虽然本申请实施例提供了如下述实施例或附图所示的方法操作步骤,但基于常规或者无需创造性的劳动在方法中可以包括更多或者更少的操作步骤。在逻辑上不存在必要因果关系的步骤中,这些步骤的执行顺序不限于本申请实施例提供的执行顺序。方法在实际的处理过程中或者控制设备执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。
前文已提及,在自动驾驶领域中需通过对车辆前方实景进行视频采集,并通过图像识别技术检测视频流中各车辆的位姿来确定本车前方路况。然而实际应用中的图像画面会受到如外物遮挡、强光照射、噪声等因素的影响,导致卷积神经网络对图像特征的提取精度降低,继而导致网络对待待检测车辆的识别精度降低。
目前常见的解决方法是,通过搭建如Vision transformer(VIT)等具备较优深度语义特征学习能力的网络模型,使网络在训练阶段尽可能的学习更多的深度语义特征。然而,这类模型结构对样本的需求量较大,容易出现过拟合的问题。
为解决上述问题,本申请的发明构思为:通过将目标图像输入第一网络进行特征提取以得到图像特征。继而通过第二网络对图像特征进行特征识别,以得到目标图像中是否包含待检测车辆的检测结果。该第一网络是基于携带掩码的自编码器对第一样本进行训练得到的,本申请通过在第一网络的训练阶段加入携带掩码功能的自编码器使网络能在有限的输入中抽取图像的整体描述,继而使网络具备较好的深度语义特征的提取能力。并根据第一网络对输入图像的特征提取结果确定第二网络的训练样本,使网络在提取图像特征同时能够有效提取到深度语义特征,提高车辆行驶过程中对过往车辆的检测精度。
参见图1,图1示出了本申请提供的一种车辆检测方法的整体流程图,具体包括下述步骤:
步骤101:响应于图像识别指示,获取目标图像;
步骤102:将目标图像输入第一网络,通过所述第一网络对目标图像进行特征提取,得到所述目标图像中包含的图像特征;其中,所述第一网络是基于携带掩码功能的自编码器对第一样本进行训练得到的;
步骤103:将所述图像特征输入第二网络,通过所述第二网络对所述图像特征进行特征识别,得到所述目标图像中是否包含待检测车辆的检测结果;其中,所述第二网络是通过对第二样本进行训练得到的,所述第二样本是通过所述第一网络对输入图像进行特征提取确定的。
本申请的图像识别流程中涉及第一网络和第二网络。为便于理解本申请技术方案,首先对第一网络和第二网络的训练流程进行说明:
第一网络的训练流程:
前文已提及,为提高网络的识别精度需训练网络具备较好的深度语义特征的识别能力。基于此,本申请实施例中通过将两个Vision transformer网络结构进行对称连接以构建携带掩码功能的自编码器。以这种对称连接方式构建的网络结构可使其同时具备编码功能与解码功能。
构建的网络结构具体如图2所示,包括线性映射层、编码器和解码器。网络的输入为被随机进行掩码处理后的图像,图像通过线性映射层输入编码器进行特征提取,得到对应的图像特征(图2中编码器与解码器间的矩形)和分类特征(图2中编码器与解码器间的圆角矩形)。将提取全部特征输入解码器进行解码得到被还原的完整图像,以及对图像的分类结果(即对图像中待检测车辆的识别)。
上述图像特征中富含深层语义,这种网络结构可迫使网络在有限的输入中抽取图像的整体描述,从而拥有获取深度语义特征的能力。并且,本申请中最终用于检测的网络并非基于自编码器构建的第一网络,而是后续内容提到的第二网络。这样,即第一网络仅需具备较优的特征提取能力即可。因此在对图2示出的网络进行训练使即便同种类别的样本数量较少,也可以通过其他类别的样本进行训练以获取较高的特征提取能力。由此可避免Vision transformer的网络结构在样本量较低时无法有效训练的问题。
实施时,通过将第一样本输入自编码器中,采用迭代的方式对自编码器进行多轮训练,直至满足第一收敛条件,根据训练结束的自编码器确定第一网络;其中,第一收敛条件是根据每轮训练得到的检测损失值与检测损失阈值的比对结果确定的。需要说明的是,前述的第一样本即为包含待检测目标的样本图像,待检测目标在本申请实施例中可设置为多种类型、尺寸、颜色的车辆,此外,待检测目标也可设置为如路障、围栏等与路况相关的实体对象。
每轮迭代训练的具体过程如图3所示,包括下述步骤:
步骤301:通过自编码器对第一样本进行掩码处理,得到目标样本;
实施时,首先对第一样本进行归一化处理,得到预设尺寸的样本图像。然后将样本图像线性映射为多个预设编码长度的子图像,并对各子图像中的部分子图像添加掩码标记。最后将各子图像中,未携带掩码标记的子图像作为目标样本。该目标样本即为图2中示出的编码器的输入。
上述目标样本的获取流程具体如图4所示,首先将第一样本进行预处理得到样本图像,然后将样本图像拆分为多个子图像后进行掩码标记(图4中示出的黑色矩形为添加掩码标记的子图像),最后将未携带掩码标记的子图像作为上述步骤301中获取的目标样本。
在本申请实施例中,使用双线性插值将输入图像归一化为尺寸为224的正方形图像,然后使用卷积将其线性映射为196块尺寸为16、编码长度1024的正方形子图像,并拼接位置编码。然后,按照75%的比例随机为各子图像添加掩码标记。最后将未被添加掩码编辑的余下49张子图像作为目标样本。上述拼接位置编码用于对图像块进行标号后按照序号排布,以用于网络输出时按照输入图像的序号补充缺失序号对应的图像,继而得到完整图像。
步骤302:基于本轮迭代前的编码器参数对目标样本进行特征识别,得到本轮识别结果;
本申请实施例中的编码器使用编码长度1024,深度24层的多头注意力单元。解码器使用编码长度512,深度8层的多头注意力单元。由此构建的自编码器用于通过对输入的子图像进行特征提取,以根据特征提取结果将完整的图像进行还原,继而通过对还原后的图像进行特征识别以确定图像内是否包含待检测车辆的识别结果。
即,每轮迭代训练得到的本轮识别结果包括如前述图2示出的,还原后的图像和图像的分类结果。
步骤303:基于均方误差函数,根据本轮识别结果与第一样本确定本轮训练得到的检测损失值。
应理解的是,将全部子图像按照位置编码重新拼接后得到的原始图像即为第一图像。故此处的第一图像即为训练过程中与还原后图像对应的标签。由此,通过采用均方误差(MSE)作为损失函数,根据本轮识别结果与第一样本进行比对即可得到本轮训练得到的检测损失值。
最后根据本轮的检测损失值与检测损失阈值进行比对,若比对结果满足上述第一预设条件则确定训练收敛。此时可根据训练结束时得到的自编码器构建第一网络。否则,基于本轮得到的检测损失值对本轮迭代前的自编码器参数进行调整。这样,在下一轮迭代中可采用调整后的自编码器参数参与训练,直至满足该第一收敛条件,得到第一网络。
第二网络的训练流程:
介绍第二网络的训练流程之前,首先对第一网络的构建进行说明。前述针对第一网络的训练过程中已说明,本申请会根据训练结束得到的自编码器构建第一网络。
对第一网络构建时,将自编码器中对输入图像进行掩码处理的部分,以及解码功能部分进行剔除,将其保留的余下部分(即编码部分)作为第一网络。然后,将第一网络与初始第二网络进行拼接。这样的网络结构使第一网络对输入的图像进行特征提取后,将提取到的特征作为初始第二网络的输入。
训练阶段,通过将第二样本输入初始第二网络中,采用迭代的方式对初始第二网络进行多轮训练,直至满足第二收敛条件,将训练结束的初始第二网络作为第二网络;其中,第二收敛条件是根据每轮训练得到的网络总损失值与总损失阈值的比对结果确定的;
每轮迭代训练的具体过程如图5所示,包括下述步骤:
步骤501:通过第一数量的一维卷积层对第二样本进行卷积处理,得到每个一维卷积层对应的特征向量;其中,各一维卷积层的卷积核尺寸不同;
前文已提及,本申请通过将第一网络与第二初始网络进行拼接,使第一网络对图像进行特征提取后,将提取到的特征作为初始第二网络的输入。
具体如图6所示,实施时预先将训练样本输入第一网络,通过第一网络对训练样本进行特征提取,得到训练样本的样本特征。前文已提及,本申请在对第二网络训练阶段剔除了第一网络中的解码器部分,故此处的样本特征即为图2中示出的自编码器结构中编码器的输出,即此处样本特征包含图2中示出的图像特征和分类特征。
故通过将上述图像特征从样本特征中抽取,作为对初始第二网络进行训练的第二样本,使训练后的网络能够在提取图像特征同时能够有效提取到深度语义特征,从而提高模型的识别精度。即提高自动驾驶场景中对本车前方路况中的车辆检测精度。
仍如上述图6所示,本申请实施例中的初始第二网络设有三个卷积核尺寸不同的一维卷积层。通过将第二样本分别输入这三个一维卷积层可得到该第二样本对应的三个特征向量,分别为第二样本的整体特征、纵向二分特征以及纵向三分特征。
步骤502:基于本轮迭代前的网络参数对特征向量进行特征识别,得到本轮识别结果;
实施时,预先对特征向量进行池化,并通过对池化的后的特征向量进行多次卷积处理以将特征向量的通道数量降低至预设数量。具体仍如前述图6所示,通过将每种特征向量输入指定尺寸的池化层,从而实现空间维度的单位化,然后将池化后的特征向量输入由多个结构相同的1X1卷积核构成的卷积模组进行卷积处理,以降低特征向量的通道数量,由此可去除多余维度的特征,尽可能保留网络需要的特征。
最后对处理后的特征向量输入全连接层进行特征识别,得到本轮识别结果。针对全连接层的处理流程在前述第一网络的介绍中已经说明,此处不再赘述。
步骤503:基于本轮识别结果和特征向量确定本轮训练得到的网络总损失值。
本申请实施例中的网络损失值分为交叉熵损失值和三元组损失值两部分,下面分别对交叉熵损失值与三元组损失值的求取流程进行说明:
前述步骤501中已提及,本申请需通过第一网络对训练样本进行特征提取,得到用作第二样本的样本特征。其中样本特征包含的图像特征被抽取用作第二样本,而样本特征中包含的分类特征则用于求取一部分交叉熵损失。
实施时,通过将分类特征输入全连接层以确定表征第一网络对该训练样本的识别结果。由于前述步骤502中得到的本轮识别结果为初始第二网络对第二样本的识别结果。为便于区分,接下来以第一识别结果作为第一网络对训练样本的识别结果,并以第二识别结果作为初始第二网络对第二样本的识别结果。接下来基于交叉熵损失值函数,分别确定第一识别结果与预设标签的第一交叉熵损失值,以及第二识别结果与预设标签间的第二交叉熵损失值。
由此根据第一交叉熵损失值和第二交叉熵损失值即可确定本申请的交叉熵损失值。
另在前述步骤502中已说明,本申请通过对池化的后的特征向量进行多次卷积处理以将特征向量的通道数量降低至预设数量。此处,基于三元组损失值函数,确定各特征向量间的三元组损失值。
由此得到本轮训练的交叉熵损失值和三元组损失值。通过对该交叉熵损失值和三元组损失值进行加权求和即可得到本轮训练的网络总损失值。
最后根据本轮的网络总损失值与网络总损失阈值进行比对,若比对结果满足上述第二预设条件则确定训练收敛。此时可将训练结束得到的初始第二网络作为第二网络。否则,基于本轮得到的网络总损失值对本轮迭代前的网络参数进行调整。这样,在下一轮迭代中可采用调整后的网络参数参与训练,直至满足该第二收敛条件,得到第二网络。
通过上述流程完成对第一网络和第二网络的训练后,在网络的使用阶段,第一网络仅提供特征的提取,具体通过将目标图像输入第一网络进行特征提取来得到用于输入第二网络的图像特征。然后将该图像特征输入到第二网络,通过第二网络对该图像特征进行特征识别以得到目标图像中是否包含待检测车辆的检测结果。
本申请通过在第一网络的训练阶段加入携带掩码功能的自编码器使网络能在有限的输入中抽取图像的整体描述,继而使网络具备较好的深度语义特征的提取能力。并根据第一网络对输入图像的特征提取结果确定第二网络的训练样本,使网络在提取图像特征同时能够有效提取到深度语义特征,提高车辆行驶过程中对过往车辆的检测精度。
基于相同的发明构思,本申请提供了一种车辆检测装置700,具体如图7所示,包括:
图像获取模块701,被配置为执行响应于图像识别指示,获取目标图像;
特征获取模块702,被配置为执行将目标图像输入第一网络,通过所述第一网络对目标图像进行特征提取,得到所述目标图像中包含的图像特征;其中,所述第一网络是基于携带掩码功能的自编码器对第一样本进行训练得到的;
图像识别模块703,被配置为执行将所述图像特征输入第二网络,通过所述第二网络对所述图像特征进行特征识别,得到所述目标图像中是否包含待检测车辆的检测结果;其中,所述第二网络是通过对第二样本进行训练得到的,所述第二样本是通过所述第一网络对输入图像进行特征提取确定的。
在一些可能的实施例中,所述第一网络是通过下述方式训练得到的:
将所述第一样本输入所述自编码器中,采用迭代的方式对所述自编码器进行多轮训练,直至满足第一收敛条件,根据训练结束的自编码器确定所述第一网络;其中,所述第一收敛条件是根据每轮训练得到的检测损失值与检测损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第一收敛条件,则通过本轮训练得到的检测损失值对本轮迭代前的自编码器参数进行调整;每轮迭代过程如下:
通过所述自编码器对所述第一样本进行掩码处理,得到目标样本;
基于本轮迭代前的编码器参数对所述目标样本进行特征识别,得到本轮识别结果;并基于均方误差函数,根据本轮识别结果与所述第一样本确定本轮训练得到的检测损失值。
在一些可能的实施例中,所述通过所述自编码器对所述第一样本进行掩码处理,得到目标样本,包括:
对所述第一样本进行归一化处理,得到预设尺寸的样本图像;
将所述样本图像线性映射为多个预设编码长度的子图像,并对各所述子图像中的部分子图像添加掩码标记;
将各所述子图像中,未携带所述掩码标记的子图像作为所述目标样本。
在一些可能的实施例中,所述第二网络是通过下述方式训练得到的:
通过将所述第二样本输入初始第二网络中,采用迭代的方式对所述初始第二网络进行多轮训练,直至满足第二收敛条件,将训练结束的初始第二网络作为所述第二网络;其中,所述第二收敛条件是根据每轮训练得到的网络总损失值与总损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第二收敛条件,则通过本轮训练得到的网络总损失值对本轮迭代前的网络参数进行调整;每轮迭代过程如下:
通过第一数量的一维卷积层对所述第二样本进行卷积处理,得到每个一维卷积层对应的特征向量;其中,各所述一维卷积层的卷积核尺寸不同;
根据各所述特征向量确定与所述第二样本对应特征向量;其中,所述特征向量包括整体特征、纵向二分特征以及纵向三分特征中的部分或全部;
基于本轮迭代前的网络参数对所述特征向量进行特征识别,得到本轮识别结果;并基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值。
在一些可能的实施例中,所述基于本轮迭代前的网络参数对所述特征向量进行特征识别之前,所述方法还包括:
对所述特征向量进行池化处理,并通过对池化处理的后的特征向量进行多次卷积以将所述特征向量的通道数量降低至预设数量。
在一些可能的实施例中,所述第二样本是通过下述方式得到的:
将训练样本输入所述第一网络,通过所述第一网络对所述训练样本进行特征提取,得到所述训练样本的样本特征;
根据所述样本特征确定所述第二样本。
在一些可能的实施例中,所述基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值,包括:
基于交叉熵损失函数,根据所述样本特征、所述本轮识别结果和所述第二样本确定交叉熵损失值;
基于三元组损失函数,确定各所述特征向量间的三元组损失值;
根据所述交叉熵损失值和所述三元组损失值确定所述网络总损失值。
下面参照图8来描述根据本申请的这种实施方式的电子设备130。图8显示的电子设备130仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于:上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。
总线133表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器132可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1321和/或高速缓存存储器1322,还可以进一步包括只读存储器(ROM)1323。
存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325,这样的程序模块1324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信,还可与一个或者多个使得用户能与电子设备130交互的设备通信,和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且,电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解,尽管图中未示出,可以结合电子设备130使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器132,上述指令可由上述装置的处理器131执行以完成上述方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器131执行时实现如本申请提供的一种车辆检测方法中的任一方法。
在示例性实施例中,本申请提供的一种车辆检测方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的一种车辆检测方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的用于车辆检测的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如语言或类似的程序设计语言。程序代码可以完全地在用户电子设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户电子设备上部分在远程电子设备上执行、或者完全在远程电子设备或服务端上执行。在涉及远程电子设备的情形中,远程电子设备可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户电子设备,或者,可以连接到外部电子设备(例如利用因特网服务提供商来通过因特网连接)。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程图像缩放设备的处理器以产生一个机器,使得通过计算机或其他可编程图像缩放设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程图像缩放设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程图像缩放设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种车辆检测方法,其特征在于,所述方法包括:
响应于图像识别指示,获取目标图像;
将目标图像输入第一网络,通过所述第一网络对目标图像进行特征提取,得到所述目标图像中包含的图像特征;其中,所述第一网络是基于携带掩码功能的自编码器对第一样本进行训练得到的;
将所述图像特征输入第二网络,通过所述第二网络对所述图像特征进行特征识别,得到所述目标图像中是否包含待检测车辆的检测结果;其中,所述第二网络是通过对第二样本进行训练得到的,所述第二样本是通过所述第一网络对输入图像进行特征提取确定的。
2.根据权利要求1所述的方法,其特征在于,所述第一网络是通过下述方式训练得到的:
通过将所述第一样本输入所述自编码器中,采用迭代的方式对所述自编码器进行多轮训练,直至满足第一收敛条件,根据训练结束的自编码器确定所述第一网络;其中,所述第一收敛条件是根据每轮训练得到的检测损失值与检测损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第一收敛条件,则通过本轮训练得到的检测损失值对本轮迭代前的自编码器参数进行调整;每轮迭代过程如下:
通过所述自编码器对所述第一样本进行掩码处理,得到目标样本;
基于本轮迭代前的编码器参数对所述目标样本进行特征识别,得到本轮识别结果;并基于均方误差函数,根据本轮识别结果与所述第一样本确定本轮训练得到的检测损失值。
3.根据权利要求2所述的方法,其特征在于,所述通过所述自编码器对所述第一样本进行掩码处理,得到目标样本,包括:
对所述第一样本进行归一化处理,得到预设尺寸的样本图像;
将所述样本图像线性映射为多个预设编码长度的子图像,并对各所述子图像中的部分子图像添加掩码标记;
将各所述子图像中,未携带所述掩码标记的子图像作为所述目标样本。
4.根据权利要求1所述的方法,其特征在于,所述第二网络是通过下述方式训练得到的:
将所述第二样本输入初始第二网络中,采用迭代的方式对所述初始第二网络进行多轮训练,直至满足第二收敛条件,将训练结束的初始第二网络作为所述第二网络;其中,所述第二收敛条件是根据每轮训练得到的网络总损失值与总损失阈值的比对结果确定的;所述多轮训练过程中,若本轮训练不满足所述第二收敛条件,则通过本轮训练得到的网络总损失值对本轮迭代前的网络参数进行调整;每轮迭代过程如下:
通过第一数量的一维卷积层对所述第二样本进行卷积处理,得到每个一维卷积层对应的特征向量;其中,各所述一维卷积层的卷积核尺寸不同;
根据各所述特征向量确定与所述第二样本对应特征向量;其中,所述特征向量包括整体特征、纵向二分特征以及纵向三分特征中的部分或全部;
基于本轮迭代前的网络参数对所述特征向量进行特征识别,得到本轮识别结果;并基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值。
5.根据权利要求4所述的方法,其特征在于,所述基于本轮迭代前的网络参数对所述特征向量进行特征识别之前,所述方法还包括:
对所述特征向量进行池化处理,并通过对池化处理的后的特征向量进行多次卷积以将所述特征向量的通道数量降低至预设数量。
6.根据权利要求4所述的方法,其特征在于,所述第二样本是通过下述方式得到的:
将训练样本输入所述第一网络,通过所述第一网络对所述训练样本进行特征提取,得到所述训练样本的样本特征;
根据所述样本特征确定所述第二样本。
7.根据权利要求6所述的方法,其特征在于,所述基于本轮识别结果和所述特征向量确定本轮训练得到的网络总损失值,包括:
基于交叉熵损失函数,根据所述样本特征、所述本轮识别结果和所述第二样本确定交叉熵损失值;
基于三元组损失函数,确定各所述特征向量间的三元组损失值;
根据所述交叉熵损失值和所述三元组损失值确定所述网络总损失值。
8.一种车辆检测装置,其特征在于,所述装置包括:
图像获取模块,被配置为执行响应于自动驾驶指示,获取目标图像;
特征获取模块,被配置为执行将目标图像输入第一网络,通过所述第一网络对目标图像进行特征提取,得到所述目标图像中包含的图像特征;其中,所述第一网络是基于携带掩码功能的自编码器对第一样本进行训练得到的;
图像识别模块,被配置为执行将所述图像特征输入第二网络,通过所述第二网络对所述图像特征进行特征识别,得到所述目标图像中是否包含待检测车辆的检测结果;其中,所述第二网络是通过对第二样本进行训练得到的,所述第二样本是通过所述第一网络对输入图像进行特征提取确定的。
9.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行权利要求1-7中任一项所述的方法包括的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-7中任一项所述的方法。
CN202310441914.0A 2023-04-23 2023-04-23 一种车辆检测方法、装置、设备及介质 Pending CN116563819A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310441914.0A CN116563819A (zh) 2023-04-23 2023-04-23 一种车辆检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310441914.0A CN116563819A (zh) 2023-04-23 2023-04-23 一种车辆检测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN116563819A true CN116563819A (zh) 2023-08-08

Family

ID=87493893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310441914.0A Pending CN116563819A (zh) 2023-04-23 2023-04-23 一种车辆检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN116563819A (zh)

Similar Documents

Publication Publication Date Title
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN111783705B (zh) 一种基于注意力机制的文字识别方法及系统
CN111222513B (zh) 车牌号码识别方法、装置、电子设备及存储介质
CN112487812B (zh) 一种基于边界识别的嵌套实体识别方法及系统
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
WO2023159765A1 (zh) 视频搜索方法和装置、电子设备、存储介质
CN112163596B (zh) 复杂场景文本识别方法、系统、计算机设备及存储介质
CN113903022B (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN114743109A (zh) 多模型协同优化高分遥感图像半监督变化检测方法及系统
CN116910307A (zh) 一种跨模态视频文本检索方法、系统、设备及介质
CN115937071A (zh) 一种图像检测方法、装置、设备及介质
CN117636326A (zh) 车牌检测方法、装置、存储介质和电子设备
CN110796003B (zh) 车道线检测方法、装置及电子设备
CN115019316B (zh) 一种文本识别模型的训练方法、文本识别方法
CN117152504A (zh) 一种空间相关性引导的原型蒸馏小样本分类方法
CN116563426A (zh) 用于处理多模态数据的方法、装置、电子设备和介质
CN116563819A (zh) 一种车辆检测方法、装置、设备及介质
CN114529791A (zh) 目标检测方法及相关装置、电子设备、存储介质
CN113283241A (zh) 文本识别方法、装置、电子设备及计算机可读存储介质
CN117407557B (zh) 零样本实例分割方法、系统、可读存储介质及计算机
CN117912005B (zh) 利用单个标记解码的文本识别方法、系统、设备及介质
CN116311106B (zh) 一种遮挡图像识别模型的训练方法、装置、设备及介质
CN117953543B (zh) 基于多元文本的人物交互检测方法、终端及可读存储介质
CN117274590A (zh) 指纹图像分割方法、装置、非易失性存储介质及电子设备
CN117788979A (zh) 模型预训练方法、模型预训练装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination