CN115527070B - 基于交通场景的目标检测方法、装置、设备及存储介质 - Google Patents

基于交通场景的目标检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115527070B
CN115527070B CN202211353246.8A CN202211353246A CN115527070B CN 115527070 B CN115527070 B CN 115527070B CN 202211353246 A CN202211353246 A CN 202211353246A CN 115527070 B CN115527070 B CN 115527070B
Authority
CN
China
Prior art keywords
features
traffic scene
coarse
scene
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211353246.8A
Other languages
English (en)
Other versions
CN115527070A (zh
Inventor
王子磊
张燚鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Original Assignee
Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Artificial Intelligence of Hefei Comprehensive National Science Center filed Critical Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority to CN202211353246.8A priority Critical patent/CN115527070B/zh
Publication of CN115527070A publication Critical patent/CN115527070A/zh
Application granted granted Critical
Publication of CN115527070B publication Critical patent/CN115527070B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像检测技术领域,公开了一种基于交通场景的目标检测方法、装置、设备及存储介质,该方法包括:对获取到的交通场景图像进行特征提取,获得候选框特征;对候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;基于场景提议特征获取粗粒度分类损失和位置回归损失,基于候选框特征和场景提议特征获取细粒度分类损失;基于细粒度分类损失、粗粒度分类损失和位置回归损失获得总体损失函数,根据总体损失函数获取基于多级学习的交通场景目标检测模型,通过基于多级学习的交通场景目标检测模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测,本发明上述方法保证了对交通场景图像检测的准确性。

Description

基于交通场景的目标检测方法、装置、设备及存储介质
技术领域
本发明涉及图像检测技术领域,尤其涉及一种基于交通场景的目标检测方法、装置、设备及存储介质。
背景技术
目标检测是计算机视觉中应用最广泛的任务之一,旨在识别出图像中感兴趣目标的位置和类别。在现实生活中,图像中的类别通常是符合长尾分布的,即不同类别的样本实例数量极端不平衡,在交通识别相关的数据集中尤其严重,相比于具有大量样本的头部类别(如行人,机动车),大部分的尾部类别(如信号灯)仅有少量的样本,因而更容易出现检测结果不准确的情况。
当前通用的目标检测模型对于交通场景的长尾分布数据,无法做到类别均衡的训练,在少样本类别上表现较差。因此,目前业内亟需一种能够对交通场景长尾分布数据进行检测的方法。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供了一种基于交通场景的目标检测方法、装置、设备及存储介质,旨在解决现有的目标检测方法对于交通场景的长尾分布数据的检测结果不准确的技术问题。
为实现上述目的,本发明提供了一种基于交通场景的目标检测方法,所述方法包括以下步骤:
对获取到的交通场景图像进行特征提取,获得候选框特征;
对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;
基于所述场景提议特征获取粗粒度分类损失和位置回归损失,基于所述候选框特征和所述场景提议特征获取细粒度分类损失;
基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。
可选地,所述对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征,包括:
计算所述候选框特征中的特征总数量;
构建与所述特征总数量相同数量的特征向量;
基于所述特征向量对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征。
可选地,所述基于所述场景提议特征获取粗粒度分类损失和位置回归损失,包括:
将所述场景提议特征输入至粗粒度分类器和位置回归器中,分别获得原始粗粒度类别分数和位置回归偏差,并对所述原始粗粒度类别分数进行logit调整,获得粗粒度类别分数;
基于所述粗粒度类别分数和所述位置回归偏差分别获得粗粒度分类损失和位置回归损失。
可选地,所述基于所述候选框特征和所述场景提议特征获取细粒度分类损失,包括:
从所述候选框特征中提取精细化特征;
将所述精细化特征与所述场景提议特征进行相加融合,获得融合特征;
将所述融合特征输入至细粒度分类器,获得原始细粒度类别分数,并对所述原始细粒度类别分数进行logit调整,获得细粒度类别分数;
基于所述细粒度类别分数与所述粗粒度类别分数获得细粒度分类损失。
可选地,所述从所述候选框特征中提取精细化特征,包括:
基于注意力机制从所述候选框特征中提取关键特征;
将所述注意力机制对应的注意力权重特征与所述关键特征相乘,获得乘积特征;
对所述乘积特征进行全卷积操作,获得精细化特征。
可选地,所述基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,包括:
对所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失进行累加后获得总体损失函数;
通过反向传播算法以及梯度下降策略对所述总体损失函数进行最小化操作,获得最小损失函数;
基于所述最小损失函数获取基于多级学习的交通场景目标检测模型。
可选地,所述对获取到的交通场景图像进行特征提取,获得候选框特征之前,还包括:
对采集到的第一原始图像进行图像增强,获得第二原始图像;
将所述第二原始图像进行尺度变换,获得交通场景图像。
此外,为实现上述目的,本发明还提出一种基于交通场景的目标检测装置,所述基于交通场景的目标检测装置包括:
特征提取模块,用于对获取到的交通场景图像进行特征提取,获得候选框特征;
特征加权模块,用于对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;
损失计算模块,用于基于所述场景提议特征获取粗粒度分类损失和位置回归损失,基于所述候选框特征和所述场景提议特征获取细粒度分类损失;
图像检测模块,用于基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。
此外,为实现上述目的,本发明还提出一种基于交通场景的目标检测设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于交通场景的目标检测程序,所述基于交通场景的目标检测程序配置为实现如上文所述的基于交通场景的目标检测方法的步骤。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有基于交通场景的目标检测程序,所述基于交通场景的目标检测程序被处理器执行时实现如上文所述的基于交通场景的目标检测方法的步骤。
本发明对获取到的交通场景图像进行特征提取,获得候选框特征;对候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;基于场景提议特征获取粗粒度分类损失和位置回归损失,基于候选框特征和场景提议特征获取细粒度分类损失;基于细粒度分类损失、粗粒度分类损失和位置回归损失获得总体损失函数,根据总体损失函数获取基于多级学习的交通场景目标检测模型,通过基于多级学习的交通场景目标检测模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测,本发明将待检测的交通场景图像对应的原始类别划分成粗粒度类别和细粒度类别,使得粗粒度内部可以得到均衡训练,然后通过精细化特征提取模块抑制无关信息,选择重要特征,保留信息更丰富的区域和更细粒度的语义信息,从而保证了对交通场景中长尾分布数据检测的准确性。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的基于交通场景的目标检测设备的结构示意图;
图2为本发明基于交通场景的目标检测方法第一实施例的流程示意图;
图3为本发明基于交通场景的目标检测方法第二实施例的流程示意图;
图4为本发明基于交通场景的目标检测方法第三实施例的流程示意图;
图5为本发明基于交通场景的目标检测装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的基于交通场景的目标检测设备结构示意图。
如图1所示,该基于交通场景的目标检测设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM),也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对基于交通场景的目标检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于交通场景的目标检测程序。
在图1所示的基于交通场景的目标检测设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明基于交通场景的目标检测设备中的处理器1001、存储器1005可以设置在基于交通场景的目标检测设备中,所述基于交通场景的目标检测设备通过处理器1001调用存储器1005中存储的基于交通场景的目标检测程序,并执行本发明实施例提供的基于交通场景的目标检测方法。
本发明实施例提供了一种基于交通场景的目标检测方法,参照图2,图2为本发明基于交通场景的目标检测方法第一实施例的流程示意图。
本实施例中,所述基于交通场景的目标检测方法包括以下步骤:
步骤S10:对获取到的交通场景图像进行特征提取,获得候选框特征。
需要说明的是,本实施例方法的执行主体可以是具有数据处理、网络通讯以及程序运行功能的计算服务设备,例如手机、平板电脑、个人电脑等,还可以是能够实现相同或相似功能的其他电子设备,本实施例对此不加以限制。此处将以个人电脑为例对本发明基于交通场景的目标检测方法的各项实施例进行说明。
可理解的是,上述交通场景图像指的是包含行人、机动车、信号灯等交通元素的图像。
应理解的是,上述特征提取可以通过逐像素特征提取法来实现,也可以通过其他特征提取方法来实现,本实施例对此不加以限制。
步骤S20:对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征。
需要说明的是,上述候选特征框中包含交通场景中各交通特征所对应的图像,其本质上是将上述交通场景图像切割成包含交通特征的若干框图。
进一步地,在本实施例中,为了准确获得上述场景提议特征,所述步骤S20可包括:
步骤S201:计算所述候选框特征中的特征总数量。
可理解的是,由于交通场景图像中可能存在多种交通元素(例如行人、机动车、信号灯等),因此上述候选框特征中也会包含若干特征。
需要说明的是,可以通过引入计数器的方式来实现对上述候选框特征中的特征总数量进行计数,也可以通过其他能够对特征数量进行计算或计数的方式来实现,本实施例对此不加以限制。
步骤S202:构建与所述特征总数量相同数量的特征向量。
需要说明的是,上述特征向量可以通过动态交互头构建,上述动态交互头用于根据候选框特征中的特征确定特征维度,从而构建特征向量。
步骤S203:基于所述特征向量对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征。
需要说明的是,上述空间注意力加权为一种强化重要特征抑制非重要特征的方法。
在具体实现中,可以通过将上述候选框特征中的空间信息通过空间转换模块,变换到另一个空间中并保留关键信息,为每个位置生成权重掩膜并加权输出,从而增强感兴趣的特定目标区域同时弱化不相关的背景区域,进而获得上述场景提议特征。
步骤S30:基于所述场景提议特征获取粗粒度分类损失和位置回归损失,基于所述候选框特征和所述场景提议特征获取细粒度分类损失。
可理解的是,上述粗粒度分类损失、位置回归损失以及细粒度分类损失为本实施例通过多级类别预测所获得的损失函数,其目的是为了缓解尾部类的分类器权重更容易被头部类的权重抑制的问题。
步骤S40:基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。
需要说明的是,上述基于多级学习的交通场景目标检测模型是通过对原始目标检测模型进行权重更新后得到的。
本实施例从交通场景图像中获取候选框特征和场景提议特征,基于候选框特征和场景提议特征获取细粒度分类损失、粗粒度分类损失和位置回归损失,从而获得总体损失函数。最后根据总体损失函数获取基于多级学习的交通场景目标检测模型并根据该模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测,本实施例将待检测的交通场景图像对应的原始类别划分成粗粒度类别和细粒度类别,使得粗粒度内部可以得到均衡训练,然后通过精细化特征提取模块抑制无关信息,选择重要特征,保留信息更丰富的区域和更细粒度的语义信息,从而保证了对交通场景中长尾分布数据检测的准确性。
参考图3,图3为本发明基于交通场景的目标检测方法第二实施例的流程示意图。
基于上述第一实施例,在本实施例中,为了准确获取粗粒度分类损失和位置回归损失,所述步骤S30,可包括:
步骤S301:将所述场景提议特征输入至粗粒度分类器和位置回归器中,分别获得原始粗粒度类别分数和位置回归偏差,并对所述原始粗粒度类别分数进行logit调整,获得粗粒度类别分数。
可理解的是,上述logit表示分类器未经过softmax函数的输出,logit调整指的是调整logit经过softmax函数后得到的概率向量,其作用是一样的。具体来说,logit调整的过程表示如下:
Figure 816714DEST_PATH_IMAGE001
其中,
Figure 707310DEST_PATH_IMAGE002
为粗粒度类别分类器输出的原始分数,
Figure 603897DEST_PATH_IMAGE003
为原始粗粒度类别分数经过 logit调整后的分数。
Figure 212733DEST_PATH_IMAGE004
为在训练集上统计得到各类别的目标样本实例为粗粒度类别标签 的频率。
Figure 651805DEST_PATH_IMAGE005
为logit调整的温度调节参数,
Figure 662486DEST_PATH_IMAGE005
默认取1。
应理解的是,上述粗粒度类别分数用于计算粗粒度分类损失,上述位置回归偏差用于计算位置回归损失。
步骤S302:基于所述粗粒度类别分数和所述位置回归偏差分别获得粗粒度分类损失和位置回归损失。
在具体实现中,可以通过匈牙利算法来获取粗粒度分类损失和位置回归损失,找 到预测值和GT(Ground Truth)之间的最佳二分匹配,保证每个目标都有唯一的匹配,其中 为了衡量预测值(候选框
Figure 443492DEST_PATH_IMAGE006
)和GT(
Figure 539624DEST_PATH_IMAGE007
)之间的匹配程度,需要定义一个匹配度量函数,其定 义如下:
Figure 313545DEST_PATH_IMAGE008
Figure 178732DEST_PATH_IMAGE009
其中,
Figure 629174DEST_PATH_IMAGE010
是针对预测粗粒度类别和GT粗粒度类别标签的损失,粗粒度类别预 测采用的是经过logit调整后的概率向量
Figure 212602DEST_PATH_IMAGE011
Figure 321373DEST_PATH_IMAGE012
中的第二个下标k表示概率向量
Figure 306646DEST_PATH_IMAGE011
中对 应于第k个类别的概率分量;
Figure 632716DEST_PATH_IMAGE013
表示第j个真实标注
Figure 703440DEST_PATH_IMAGE007
对应的粗类别标签,
Figure 819164DEST_PATH_IMAGE014
是损失函数中 的超参数;
Figure 658944DEST_PATH_IMAGE015
表示用于位置回归的损失,可以采用目标检测任务中常用的不同位置 回归损失,如L1损失、GIoU损失、DIoU损失、CIoU损失等。
Figure 250856DEST_PATH_IMAGE016
是用于匈牙利算法中衡量模型 预测的候选框
Figure 808876DEST_PATH_IMAGE006
和真实标注框
Figure 665974DEST_PATH_IMAGE007
之间的匹配程度,i,j分别表示候选框和真实标注框的索 引,
Figure 173310DEST_PATH_IMAGE016
是通过粗粒度分类损失和位置回归损失加权来得到,其中
Figure 824871DEST_PATH_IMAGE017
是平衡系数。匈牙 利算法可以通过
Figure 932504DEST_PATH_IMAGE016
为每一个GT框找到最佳的预测值,然后可以通过计算预测值和其对应 的GT之间的损失函数来优化目标检测模型。
进一步地,基于上述第一实施例,在本实施例中,为了准确获得细粒度分类损失,所述步骤S30,可包括:
步骤S303:从所述候选框特征中提取精细化特征。
应理解的是,上述精细化特征能够保留信息更丰富的区域和更细粒度的语义信息,精细化特征可以通过注意力机制获得。
进一步地,在本实施例中,为了得到信息更丰富的区域和更细粒度的语义信息,所述步骤S303,可包括:
步骤S3031:基于注意力机制从所述候选框特征中提取关键特征。
需要说明的是,上述注意力机制可以包含空间注意力机制和通道注意力机制:上述空间注意力机制可以抑制类别无关特征,上述通道注意力机制可以增加对重点区域的关注。
步骤S3032:将所述注意力机制对应的注意力权重特征与所述关键特征相乘,获得乘积特征。
在具体实现中,可以通过网络学习的方式来自动获取到每个特征对应的重要程度,最后再为每个特征赋予不同的权重系数,从而来强化重要的特征抑制非重要的特征。
步骤S3033:对所述乘积特征进行全卷积操作,获得精细化特征。
应理解的是,上述全卷积操作为使用卷积神经网络抽取乘积特征,然后通过1*1卷积层将通道数变换为类别个数,最后通过转置卷积层将乘积特征对应特征图的高和宽变换为输入图像的尺寸。
步骤S304:将所述精细化特征与所述场景提议特征进行相加融合,获得融合特征。
需要说明的是,上述特征融合的方法可以是concat特征融合方法,也可以是add特征融合方法,本实施例对此不加以限制。
步骤S305:将所述融合特征输入至细粒度分类器,获得原始细粒度类别分数,并对所述原始细粒度类别分数进行logit调整,获得细粒度类别分数。
在具体实现中,假设粗粒度分数为G,则细粒度类别分类器由G个分类器构成,第k ∈{1,2,…G}个分类器的输入特征由精细化特征和场景提议特征相加融合得到,第k个分类 器的输出概率表示为P,从而原始细粒度类别分数
Figure 327713DEST_PATH_IMAGE018
可以通过G个分类器输出的概率向量 拼接得到,原始细粒度类别分数的logit调整公式如下:
Figure 188091DEST_PATH_IMAGE019
其中,
Figure 276132DEST_PATH_IMAGE018
为原始细粒度类别分数,
Figure 402220DEST_PATH_IMAGE020
为细粒度类别分数的调整,也是最后推理阶 段采用的类别概率,
Figure 601120DEST_PATH_IMAGE021
为在训练集中统计得到各类别的目标样本实例为细粒度类别标签 的频率,
Figure 20732DEST_PATH_IMAGE005
为logit调整的温度调节参数,
Figure 279675DEST_PATH_IMAGE005
默认取1。
步骤S306:基于所述细粒度类别分数与所述粗粒度类别分数获得细粒度分类损失。
需要说明的是,上述细粒度分类损失的形式如下:
Figure 96321DEST_PATH_IMAGE022
其中,
Figure 833333DEST_PATH_IMAGE023
表示对应于候选框
Figure 467970DEST_PATH_IMAGE024
的细粒度分类损失,
Figure 897814DEST_PATH_IMAGE025
是对应于候选框
Figure 139440DEST_PATH_IMAGE024
的经 过logit调整后的细粒度概率向量,
Figure 680142DEST_PATH_IMAGE026
是由前述匈牙利算法得到对应候选框
Figure 933400DEST_PATH_IMAGE024
的真实标注 的细粒度类别,
Figure 268567DEST_PATH_IMAGE027
表示概率向量
Figure 263068DEST_PATH_IMAGE025
中对应于真实标签类别的第
Figure 341882DEST_PATH_IMAGE026
个类别的概率分量。
Figure 151444DEST_PATH_IMAGE028
是平衡系数,和上述步骤S302中
Figure 657512DEST_PATH_IMAGE029
中的系数保持一致。
应理解的是,可以通过将上述细粒度类别分数与上述粗粒度类别分数进行融合从而获得细粒度分类损失。
本实施例通过将场景提议特征输入至粗粒度分类器和位置回归器中,分别获得原始粗粒度类别分数和位置回归偏差,并对所述原始粗粒度类别分数进行logit调整,获得粗粒度类别分数,从而基于粗粒度类别分数和位置回归偏差分别获得粗粒度分类损失和位置回归损失。相较于现有技术中直接采用交通场景图像中的原始特征进行检测,本实施例上述方法对交通场景图像中的原始特征进行了精细化特征提取,从而能够有效获得更为准确的总体损失函数。
参考图4,图4为本发明基于交通场景的目标检测方法第三实施例的流程示意图。
基于上述各实施例,在本实施例中,为了获取基于多级学习的交通场景目标检测模型,所述步骤S40,可包括:
步骤S401:对所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失进行累加后获得总体损失函数。
应理解的是,上述细粒度分类损失、粗粒度分类损失和位置回归损失进行累加后得到的总体损失函数可以用于反映对交通场景图像中长尾分布数据的检测准确性。
步骤S402:通过反向传播算法以及梯度下降策略对所述总体损失函数进行最小化操作,获得最小损失函数。
需要说明的是,上述反向传播算法为一种学习算法,它建立在梯度下降法的基础上。反向传播算法网络的输入输出关系实质上是一种映射关系:一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射。
步骤S403:基于所述最小损失函数获取基于多级学习的交通场景目标检测模型。
在具体实现中,可以基于上述反向传播算法以及梯度下降策略获得初始目标检测模型中每一层参数的梯度,从而基于该梯度获得最小损失函数,最后采用Adam优化器在每个梯度计算完成后对初始目标检测模型的权重进行更新,获得基于多级学习的交通场景目标检测模型。
进一步地,基于上述各实施例,在本实施例中,为了准确获得清晰且符合上述基于多级学习的交通场景目标检测模型对应尺寸的交通场景图像,在所述步骤S10之前,还可以包括:
步骤S01:对采集到的第一原始图像进行图像增强,获得第二原始图像。
需要说明的是,上述第一原始图像可以是直接从与交通摄像头连接的服务器中获取,也可以是通过读取可移动存储设备中获取,本实施例对此不加以限制。
应理解的是,上述图像增强的方式包含但不仅包含翻转、旋转和尺度抖动等不影响图像细节的图像增强方式。
步骤S02:将所述第二原始图像进行尺度变换,获得交通场景图像。
可理解的是,上述尺度变换表示将第二原始图像的最短边设置为第一预设像素值,将第二原始图像的最长边设置为第二预设像素值。
本实施例对细粒度分类损失、粗粒度分类损失和位置回归损失进行累加后获得总体损失函数,然后通过反向传播算法以及梯度下降策略对总体损失函数进行最小化操作,获得最小损失函数,最后基于最小损失函数获取基于多级学习的交通场景目标检测模型,同时对采集到的初始交通场景图像进行图像处理。相较于现有技术中直接采用未经处理的交通场景图像以及未对各分类数据进行累加,本实施例上述方法消除了上述交通场景图像中的非重要特征对检测结果造成的负面影响。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有基于交通场景的目标检测程序,所述基于交通场景的目标检测程序被处理器执行时实现如上文所述的基于交通场景的目标检测方法的步骤。
参照图5,图5为本发明基于交通场景的目标检测装置第一实施例的结构框图。
如图5所示,本发明实施例提出的基于交通场景的目标检测装置包括:
特征提取模块501,用于对获取到的交通场景图像进行特征提取,获得候选框特征;
特征加权模块502,用于对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;
损失计算模块503,用于基于所述场景提议特征获取粗粒度分类损失和位置回归损失,基于所述候选框特征和所述场景提议特征获取细粒度分类损失;
图像检测模块504,用于基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。
本实施例从交通场景图像中获取候选框特征和场景提议特征,基于候选框特征和场景提议特征获取细粒度分类损失、粗粒度分类损失和位置回归损失,从而获得总体损失函数。最后根据总体损失函数获取基于多级学习的交通场景目标检测模型并根据该模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测,本实施例将待检测的交通场景图像对应的原始类别划分成粗粒度类别和细粒度类别,使得粗粒度内部可以得到均衡训练,然后通过精细化特征提取模块抑制无关信息,选择重要特征,保留信息更丰富的区域和更细粒度的语义信息,从而保证了对交通场景中长尾分布数据检测的准确性。
本发明基于交通场景的目标检测装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (7)

1.一种基于交通场景的目标检测方法,其特征在于,所述方法包括以下步骤:
对获取到的交通场景图像进行特征提取,获得候选框特征;
对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;
基于所述场景提议特征获取粗粒度分类损失和位置回归损失,基于所述候选框特征和所述场景提议特征获取细粒度分类损失;
基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测;
其中,所述基于所述场景提议特征获取粗粒度分类损失和位置回归损失的步骤,包括:
将所述场景提议特征输入至粗粒度分类器和位置回归器中,分别获得原始粗粒度类别分数和位置回归偏差,并对所述原始粗粒度类别分数进行logit调整,获得粗粒度类别分数,所述粗粒度类别分数可以表示为:
Figure QLYQS_1
Figure QLYQS_2
为所述原始粗粒度类别分数,/>
Figure QLYQS_3
为所述粗粒度类别分数,/>
Figure QLYQS_4
为在训练集上统计得到各类别的目标样本实例为粗粒度类别标签的频率,/>
Figure QLYQS_5
为所述logit调整的温度调节参数;
基于所述粗粒度类别分数和所述位置回归偏差分别获得粗粒度分类损失和位置回归损失;
所述基于所述候选框特征和所述场景提议特征获取细粒度分类损失的步骤,包括:
基于注意力机制从所述候选框特征中提取关键特征,所述注意力机制包含空间注意力机制和通道注意力机制;
将所述注意力机制对应的注意力权重特征与所述关键特征相乘,获得乘积特征;
对所述乘积特征进行全卷积操作,获得精细化特征;
将所述精细化特征与所述场景提议特征进行相加融合,获得融合特征,所述相加融合的方法为concact融合;
将所述融合特征输入至细粒度分类器,获得原始细粒度类别分数,并对所述原始细粒度类别分数进行logit调整,获得细粒度类别分数,所述细粒度类别分数可以表示为:
Figure QLYQS_6
Figure QLYQS_7
为原始细粒度类别分数,/>
Figure QLYQS_8
为所述粗粒度类别分数,/>
Figure QLYQS_9
为所述细粒度类别分数,/>
Figure QLYQS_10
为在训练集中统计得到各类别的目标样本实例为细粒度类别标签的频率,/>
Figure QLYQS_11
为所述logit调整的温度调节参数;
基于所述细粒度类别分数与所述粗粒度类别分数获得细粒度分类损失。
2.如权利要求1所述的基于交通场景的目标检测方法,其特征在于,所述对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征,包括:
计算所述候选框特征中的特征总数量;
构建与所述特征总数量相同数量的特征向量;
基于所述特征向量对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征。
3.如权利要求1所述的基于交通场景的目标检测方法,其特征在于,所述基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,包括:
对所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失进行累加后获得总体损失函数;
通过反向传播算法以及梯度下降策略对所述总体损失函数进行最小化操作,获得最小损失函数;
基于所述最小损失函数获取基于多级学习的交通场景目标检测模型。
4.如权利要求1所述的基于交通场景的目标检测方法,其特征在于,所述对获取到的交通场景图像进行特征提取,获得候选框特征之前,还包括:
对采集到的第一原始图像进行图像增强,获得第二原始图像;
将所述第二原始图像进行尺度变换,获得交通场景图像。
5.一种基于交通场景的目标检测装置,其特征在于,所述基于交通场景的目标检测装置包括:
特征提取模块,用于对获取到的交通场景图像进行特征提取,获得候选框特征;
特征加权模块,用于对所述候选框特征中的各交通场景特征进行空间注意力加权,获得场景提议特征;
损失计算模块,用于基于所述场景提议特征获取粗粒度分类损失和位置回归损失,基于所述候选框特征和所述场景提议特征获取细粒度分类损失;
图像检测模块,用于基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数,根据所述总体损失函数获取基于多级学习的交通场景目标检测模型,通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测;
其中,所述损失计算模块,还用于:
基于注意力机制从所述候选框特征中提取关键特征,所述注意力机制包含空间注意力机制和通道注意力机制;
将所述注意力机制对应的注意力权重特征与所述关键特征相乘,获得乘积特征;
对所述乘积特征进行全卷积操作,获得精细化特征;
将所述精细化特征与所述场景提议特征进行相加融合,获得融合特征,所述相加融合的方法为concact融合;
将所述融合特征输入至细粒度分类器,获得原始细粒度类别分数,并对所述原始细粒度类别分数进行logit调整,获得细粒度类别分数;
基于所述细粒度类别分数与所述粗粒度类别分数获得细粒度分类损失,所述细粒度类别分数可以表示为:
Figure QLYQS_12
Figure QLYQS_13
为原始细粒度类别分数,/>
Figure QLYQS_14
为所述粗粒度类别分数,/>
Figure QLYQS_15
为所述细粒度类别分数,/>
Figure QLYQS_16
为在训练集中统计得到各类别的目标样本实例为细粒度类别标签的频率,/>
Figure QLYQS_17
为所述logit调整的温度调节参数;/>
将所述场景提议特征输入至粗粒度分类器和位置回归器中,分别获得原始粗粒度类别分数和位置回归偏差,并对所述原始粗粒度类别分数进行logit调整,获得粗粒度类别分数,所述粗粒度类别分数可以表示为:
Figure QLYQS_18
Figure QLYQS_19
为所述原始粗粒度类别分数,/>
Figure QLYQS_20
为所述粗粒度类别分数,/>
Figure QLYQS_21
为在训练集上统计得到各类别的目标样本实例为粗粒度类别标签的频率,/>
Figure QLYQS_22
为所述logit调整的温度调节参数;
基于所述粗粒度类别分数和所述位置回归偏差分别获得粗粒度分类损失和位置回归损失。
6.一种基于交通场景的目标检测设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于交通场景的目标检测程序,所述基于交通场景的目标检测程序配置为实现如权利要求1至4中任一项所述的基于交通场景的目标检测方法的步骤。
7.一种存储介质,其特征在于,所述存储介质上存储有基于交通场景的目标检测程序,所述基于交通场景的目标检测程序被处理器执行时实现如权利要求1至4中任一项所述的基于交通场景的目标检测方法的步骤。
CN202211353246.8A 2022-11-01 2022-11-01 基于交通场景的目标检测方法、装置、设备及存储介质 Active CN115527070B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211353246.8A CN115527070B (zh) 2022-11-01 2022-11-01 基于交通场景的目标检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211353246.8A CN115527070B (zh) 2022-11-01 2022-11-01 基于交通场景的目标检测方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115527070A CN115527070A (zh) 2022-12-27
CN115527070B true CN115527070B (zh) 2023-05-19

Family

ID=84702759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211353246.8A Active CN115527070B (zh) 2022-11-01 2022-11-01 基于交通场景的目标检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115527070B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3629250A1 (en) * 2018-09-27 2020-04-01 Google LLC Parameter-efficient multi-task and transfer learning
CN112966697A (zh) * 2021-03-17 2021-06-15 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN114863088A (zh) * 2022-03-29 2022-08-05 南京大学 一种面向长尾目标检测的分类对数归一化方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257601B (zh) * 2020-10-22 2023-02-21 福州大学 基于弱监督学习的数据增强网络的细粒度车辆识别方法
CN113780256B (zh) * 2021-11-12 2022-03-15 科大讯飞(苏州)科技有限公司 粗细分类相结合的图像目标检测方法及相关装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3629250A1 (en) * 2018-09-27 2020-04-01 Google LLC Parameter-efficient multi-task and transfer learning
CN112966697A (zh) * 2021-03-17 2021-06-15 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN114863088A (zh) * 2022-03-29 2022-08-05 南京大学 一种面向长尾目标检测的分类对数归一化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Adaptive Class Suppression Loss for Long-Tail Object Detection";Wang T;《CVPR》;1-10 *
"非局部特征增强的遥感图像目标检测方法";赵彤洲;《华中科技大学学报:自然科学版》;1-5 *

Also Published As

Publication number Publication date
CN115527070A (zh) 2022-12-27

Similar Documents

Publication Publication Date Title
CN108229267B (zh) 对象属性检测、神经网络训练、区域检测方法和装置
US10878284B2 (en) Method and apparatus for training image model, and method and apparatus for category prediction
CN111062413A (zh) 一种道路目标检测方法、装置、电子设备及存储介质
CN111079780B (zh) 空间图卷积网络的训练方法、电子设备及存储介质
CN110533046B (zh) 一种图像实例分割方法、装置、计算机可读存储介质及电子设备
US20200218932A1 (en) Method and system for classification of data
CN113298096A (zh) 训练零样本分类模型的方法、系统、电子设备及存储介质
CN112364916B (zh) 基于迁移学习的图像分类方法、相关设备及存储介质
CN111694954B (zh) 图像分类方法、装置和电子设备
US20200302246A1 (en) Information processing apparatus and information processing method
CN114882324A (zh) 目标检测模型训练方法、设备及计算机可读存储介质
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
CN116863278B (zh) 模型训练方法、图像分类方法、装置、设备及存储介质
CN111476144B (zh) 行人属性识别模型确定方法、装置及计算机可读存储介质
CN115527070B (zh) 基于交通场景的目标检测方法、装置、设备及存储介质
CN116503670A (zh) 图像分类及模型训练方法、装置和设备、存储介质
CN116109907B (zh) 目标检测方法、装置、电子设备及存储介质
CN116805387A (zh) 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN116486153A (zh) 图像分类方法、装置、设备及存储介质
CN114155388B (zh) 一种图像识别方法、装置、计算机设备和存储介质
CN113177603B (zh) 分类模型的训练方法、视频分类方法及相关设备
CN115700790A (zh) 用于对象属性分类模型训练的方法、设备和存储介质
CN115761239B (zh) 一种语义分割方法及相关装置
EP4174729A1 (en) Information processing method and device, and storage medium
CN113535951B (zh) 用于进行信息分类的方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant