CN115527070B

CN115527070B - 基于交通场景的目标检测方法、装置、设备及存储介质

Info

Publication number: CN115527070B
Application number: CN202211353246.8A
Authority: CN
Inventors: 王子磊; 张燚鑫
Original assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-05-19
Anticipated expiration: 2042-11-01
Also published as: CN115527070A

Abstract

本发明涉及图像检测技术领域，公开了一种基于交通场景的目标检测方法、装置、设备及存储介质，该方法包括：对获取到的交通场景图像进行特征提取，获得候选框特征；对候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征；基于场景提议特征获取粗粒度分类损失和位置回归损失，基于候选框特征和场景提议特征获取细粒度分类损失；基于细粒度分类损失、粗粒度分类损失和位置回归损失获得总体损失函数，根据总体损失函数获取基于多级学习的交通场景目标检测模型，通过基于多级学习的交通场景目标检测模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测，本发明上述方法保证了对交通场景图像检测的准确性。

Description

基于交通场景的目标检测方法、装置、设备及存储介质

技术领域

本发明涉及图像检测技术领域，尤其涉及一种基于交通场景的目标检测方法、装置、设备及存储介质。

背景技术

目标检测是计算机视觉中应用最广泛的任务之一，旨在识别出图像中感兴趣目标的位置和类别。在现实生活中，图像中的类别通常是符合长尾分布的，即不同类别的样本实例数量极端不平衡，在交通识别相关的数据集中尤其严重，相比于具有大量样本的头部类别(如行人，机动车)，大部分的尾部类别（如信号灯）仅有少量的样本，因而更容易出现检测结果不准确的情况。

当前通用的目标检测模型对于交通场景的长尾分布数据，无法做到类别均衡的训练，在少样本类别上表现较差。因此，目前业内亟需一种能够对交通场景长尾分布数据进行检测的方法。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供了一种基于交通场景的目标检测方法、装置、设备及存储介质，旨在解决现有的目标检测方法对于交通场景的长尾分布数据的检测结果不准确的技术问题。

为实现上述目的，本发明提供了一种基于交通场景的目标检测方法，所述方法包括以下步骤：

对获取到的交通场景图像进行特征提取，获得候选框特征；

对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征；

基于所述场景提议特征获取粗粒度分类损失和位置回归损失，基于所述候选框特征和所述场景提议特征获取细粒度分类损失；

基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数，根据所述总体损失函数获取基于多级学习的交通场景目标检测模型，通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。

可选地，所述对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征，包括：

计算所述候选框特征中的特征总数量；

构建与所述特征总数量相同数量的特征向量；

基于所述特征向量对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征。

可选地，所述基于所述场景提议特征获取粗粒度分类损失和位置回归损失，包括：

将所述场景提议特征输入至粗粒度分类器和位置回归器中，分别获得原始粗粒度类别分数和位置回归偏差，并对所述原始粗粒度类别分数进行logit调整，获得粗粒度类别分数；

基于所述粗粒度类别分数和所述位置回归偏差分别获得粗粒度分类损失和位置回归损失。

可选地，所述基于所述候选框特征和所述场景提议特征获取细粒度分类损失，包括：

从所述候选框特征中提取精细化特征；

将所述精细化特征与所述场景提议特征进行相加融合，获得融合特征；

将所述融合特征输入至细粒度分类器，获得原始细粒度类别分数，并对所述原始细粒度类别分数进行logit调整，获得细粒度类别分数；

基于所述细粒度类别分数与所述粗粒度类别分数获得细粒度分类损失。

可选地，所述从所述候选框特征中提取精细化特征，包括：

基于注意力机制从所述候选框特征中提取关键特征；

将所述注意力机制对应的注意力权重特征与所述关键特征相乘，获得乘积特征；

对所述乘积特征进行全卷积操作，获得精细化特征。

可选地，所述基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数，根据所述总体损失函数获取基于多级学习的交通场景目标检测模型，包括：

对所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失进行累加后获得总体损失函数；

通过反向传播算法以及梯度下降策略对所述总体损失函数进行最小化操作，获得最小损失函数；

基于所述最小损失函数获取基于多级学习的交通场景目标检测模型。

可选地，所述对获取到的交通场景图像进行特征提取，获得候选框特征之前，还包括：

对采集到的第一原始图像进行图像增强，获得第二原始图像；

将所述第二原始图像进行尺度变换，获得交通场景图像。

此外，为实现上述目的，本发明还提出一种基于交通场景的目标检测装置，所述基于交通场景的目标检测装置包括：

特征提取模块，用于对获取到的交通场景图像进行特征提取，获得候选框特征；

特征加权模块，用于对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征；

损失计算模块，用于基于所述场景提议特征获取粗粒度分类损失和位置回归损失，基于所述候选框特征和所述场景提议特征获取细粒度分类损失；

图像检测模块，用于基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数，根据所述总体损失函数获取基于多级学习的交通场景目标检测模型，通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。

此外，为实现上述目的，本发明还提出一种基于交通场景的目标检测设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于交通场景的目标检测程序，所述基于交通场景的目标检测程序配置为实现如上文所述的基于交通场景的目标检测方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有基于交通场景的目标检测程序，所述基于交通场景的目标检测程序被处理器执行时实现如上文所述的基于交通场景的目标检测方法的步骤。

本发明对获取到的交通场景图像进行特征提取，获得候选框特征；对候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征；基于场景提议特征获取粗粒度分类损失和位置回归损失，基于候选框特征和场景提议特征获取细粒度分类损失；基于细粒度分类损失、粗粒度分类损失和位置回归损失获得总体损失函数，根据总体损失函数获取基于多级学习的交通场景目标检测模型，通过基于多级学习的交通场景目标检测模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测，本发明将待检测的交通场景图像对应的原始类别划分成粗粒度类别和细粒度类别，使得粗粒度内部可以得到均衡训练，然后通过精细化特征提取模块抑制无关信息，选择重要特征，保留信息更丰富的区域和更细粒度的语义信息，从而保证了对交通场景中长尾分布数据检测的准确性。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的基于交通场景的目标检测设备的结构示意图；

图2为本发明基于交通场景的目标检测方法第一实施例的流程示意图；

图3为本发明基于交通场景的目标检测方法第二实施例的流程示意图；

图4为本发明基于交通场景的目标检测方法第三实施例的流程示意图；

图5为本发明基于交通场景的目标检测装置第一实施例的结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的基于交通场景的目标检测设备结构示意图。

如图1所示，该基于交通场景的目标检测设备可以包括：处理器1001，例如中央处理器（Central Processing Unit，CPU），通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如无线保真（Wireless-Fidelity，Wi-Fi）接口）。存储器1005可以是高速的随机存取存储器（RandomAccess Memory，RAM），也可以是稳定的非易失性存储器（Non-Volatile Memory，NVM），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的结构并不构成对基于交通场景的目标检测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于交通场景的目标检测程序。

在图1所示的基于交通场景的目标检测设备中，网络接口1004主要用于与网络服务器进行数据通信；用户接口1003主要用于与用户进行数据交互；本发明基于交通场景的目标检测设备中的处理器1001、存储器1005可以设置在基于交通场景的目标检测设备中，所述基于交通场景的目标检测设备通过处理器1001调用存储器1005中存储的基于交通场景的目标检测程序，并执行本发明实施例提供的基于交通场景的目标检测方法。

本发明实施例提供了一种基于交通场景的目标检测方法，参照图2，图2为本发明基于交通场景的目标检测方法第一实施例的流程示意图。

本实施例中，所述基于交通场景的目标检测方法包括以下步骤：

步骤S10：对获取到的交通场景图像进行特征提取，获得候选框特征。

需要说明的是，本实施例方法的执行主体可以是具有数据处理、网络通讯以及程序运行功能的计算服务设备，例如手机、平板电脑、个人电脑等，还可以是能够实现相同或相似功能的其他电子设备，本实施例对此不加以限制。此处将以个人电脑为例对本发明基于交通场景的目标检测方法的各项实施例进行说明。

可理解的是，上述交通场景图像指的是包含行人、机动车、信号灯等交通元素的图像。

应理解的是，上述特征提取可以通过逐像素特征提取法来实现，也可以通过其他特征提取方法来实现，本实施例对此不加以限制。

步骤S20：对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征。

需要说明的是，上述候选特征框中包含交通场景中各交通特征所对应的图像，其本质上是将上述交通场景图像切割成包含交通特征的若干框图。

进一步地，在本实施例中，为了准确获得上述场景提议特征，所述步骤S20可包括：

步骤S201：计算所述候选框特征中的特征总数量。

可理解的是，由于交通场景图像中可能存在多种交通元素（例如行人、机动车、信号灯等），因此上述候选框特征中也会包含若干特征。

需要说明的是，可以通过引入计数器的方式来实现对上述候选框特征中的特征总数量进行计数，也可以通过其他能够对特征数量进行计算或计数的方式来实现，本实施例对此不加以限制。

步骤S202：构建与所述特征总数量相同数量的特征向量。

需要说明的是，上述特征向量可以通过动态交互头构建，上述动态交互头用于根据候选框特征中的特征确定特征维度，从而构建特征向量。

步骤S203：基于所述特征向量对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征。

需要说明的是，上述空间注意力加权为一种强化重要特征抑制非重要特征的方法。

在具体实现中，可以通过将上述候选框特征中的空间信息通过空间转换模块，变换到另一个空间中并保留关键信息，为每个位置生成权重掩膜并加权输出，从而增强感兴趣的特定目标区域同时弱化不相关的背景区域，进而获得上述场景提议特征。

步骤S30：基于所述场景提议特征获取粗粒度分类损失和位置回归损失，基于所述候选框特征和所述场景提议特征获取细粒度分类损失。

可理解的是，上述粗粒度分类损失、位置回归损失以及细粒度分类损失为本实施例通过多级类别预测所获得的损失函数，其目的是为了缓解尾部类的分类器权重更容易被头部类的权重抑制的问题。

步骤S40：基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数，根据所述总体损失函数获取基于多级学习的交通场景目标检测模型，通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。

需要说明的是，上述基于多级学习的交通场景目标检测模型是通过对原始目标检测模型进行权重更新后得到的。

本实施例从交通场景图像中获取候选框特征和场景提议特征，基于候选框特征和场景提议特征获取细粒度分类损失、粗粒度分类损失和位置回归损失，从而获得总体损失函数。最后根据总体损失函数获取基于多级学习的交通场景目标检测模型并根据该模型对交通场景图像进行检测。相比于现有技术直接对原始图像进行图像检测，本实施例将待检测的交通场景图像对应的原始类别划分成粗粒度类别和细粒度类别，使得粗粒度内部可以得到均衡训练，然后通过精细化特征提取模块抑制无关信息，选择重要特征，保留信息更丰富的区域和更细粒度的语义信息，从而保证了对交通场景中长尾分布数据检测的准确性。

参考图3，图3为本发明基于交通场景的目标检测方法第二实施例的流程示意图。

基于上述第一实施例，在本实施例中，为了准确获取粗粒度分类损失和位置回归损失，所述步骤S30，可包括：

步骤S301：将所述场景提议特征输入至粗粒度分类器和位置回归器中，分别获得原始粗粒度类别分数和位置回归偏差，并对所述原始粗粒度类别分数进行logit调整，获得粗粒度类别分数。

可理解的是，上述logit表示分类器未经过softmax函数的输出，logit调整指的是调整logit经过softmax函数后得到的概率向量，其作用是一样的。具体来说，logit调整的过程表示如下：

其中，

为粗粒度类别分类器输出的原始分数，

为原始粗粒度类别分数经过 logit调整后的分数。

为在训练集上统计得到各类别的目标样本实例为粗粒度类别标签的频率。

为logit调整的温度调节参数，

默认取1。

应理解的是，上述粗粒度类别分数用于计算粗粒度分类损失，上述位置回归偏差用于计算位置回归损失。

步骤S302：基于所述粗粒度类别分数和所述位置回归偏差分别获得粗粒度分类损失和位置回归损失。

在具体实现中，可以通过匈牙利算法来获取粗粒度分类损失和位置回归损失，找到预测值和GT（Ground Truth）之间的最佳二分匹配，保证每个目标都有唯一的匹配，其中为了衡量预测值(候选框

)和GT(

)之间的匹配程度，需要定义一个匹配度量函数，其定义如下：

其中，

是针对预测粗粒度类别和GT粗粒度类别标签的损失，粗粒度类别预测采用的是经过logit调整后的概率向量

，

中的第二个下标k表示概率向量

中对应于第k个类别的概率分量；

表示第j个真实标注

对应的粗类别标签，

是损失函数中的超参数；

表示用于位置回归的损失，可以采用目标检测任务中常用的不同位置回归损失，如L1损失、GIoU损失、DIoU损失、CIoU损失等。

是用于匈牙利算法中衡量模型预测的候选框

和真实标注框

之间的匹配程度，i，j分别表示候选框和真实标注框的索引，

是通过粗粒度分类损失和位置回归损失加权来得到，其中

是平衡系数。匈牙利算法可以通过

为每一个GT框找到最佳的预测值，然后可以通过计算预测值和其对应的GT之间的损失函数来优化目标检测模型。

进一步地，基于上述第一实施例，在本实施例中，为了准确获得细粒度分类损失，所述步骤S30，可包括：

步骤S303：从所述候选框特征中提取精细化特征。

应理解的是，上述精细化特征能够保留信息更丰富的区域和更细粒度的语义信息，精细化特征可以通过注意力机制获得。

进一步地，在本实施例中，为了得到信息更丰富的区域和更细粒度的语义信息，所述步骤S303，可包括：

步骤S3031：基于注意力机制从所述候选框特征中提取关键特征。

需要说明的是，上述注意力机制可以包含空间注意力机制和通道注意力机制：上述空间注意力机制可以抑制类别无关特征，上述通道注意力机制可以增加对重点区域的关注。

步骤S3032：将所述注意力机制对应的注意力权重特征与所述关键特征相乘，获得乘积特征。

在具体实现中，可以通过网络学习的方式来自动获取到每个特征对应的重要程度，最后再为每个特征赋予不同的权重系数，从而来强化重要的特征抑制非重要的特征。

步骤S3033：对所述乘积特征进行全卷积操作，获得精细化特征。

应理解的是，上述全卷积操作为使用卷积神经网络抽取乘积特征,然后通过1*1卷积层将通道数变换为类别个数,最后通过转置卷积层将乘积特征对应特征图的高和宽变换为输入图像的尺寸。

步骤S304：将所述精细化特征与所述场景提议特征进行相加融合，获得融合特征。

需要说明的是，上述特征融合的方法可以是concat特征融合方法，也可以是add特征融合方法，本实施例对此不加以限制。

步骤S305：将所述融合特征输入至细粒度分类器，获得原始细粒度类别分数，并对所述原始细粒度类别分数进行logit调整，获得细粒度类别分数。

在具体实现中，假设粗粒度分数为G，则细粒度类别分类器由G个分类器构成,第k ∈{1,2,…G}个分类器的输入特征由精细化特征和场景提议特征相加融合得到，第k个分类器的输出概率表示为P，从而原始细粒度类别分数

可以通过G个分类器输出的概率向量拼接得到，原始细粒度类别分数的logit调整公式如下：

其中，

为原始细粒度类别分数，

为细粒度类别分数的调整，也是最后推理阶段采用的类别概率，

为在训练集中统计得到各类别的目标样本实例为细粒度类别标签的频率，

为logit调整的温度调节参数，

默认取1。

步骤S306：基于所述细粒度类别分数与所述粗粒度类别分数获得细粒度分类损失。

需要说明的是，上述细粒度分类损失的形式如下：

其中，

表示对应于候选框

的细粒度分类损失，

是对应于候选框

的经过logit调整后的细粒度概率向量，

是由前述匈牙利算法得到对应候选框

的真实标注的细粒度类别，

表示概率向量

中对应于真实标签类别的第

个类别的概率分量。

是平衡系数，和上述步骤S302中

中的系数保持一致。

应理解的是，可以通过将上述细粒度类别分数与上述粗粒度类别分数进行融合从而获得细粒度分类损失。

本实施例通过将场景提议特征输入至粗粒度分类器和位置回归器中，分别获得原始粗粒度类别分数和位置回归偏差，并对所述原始粗粒度类别分数进行logit调整，获得粗粒度类别分数，从而基于粗粒度类别分数和位置回归偏差分别获得粗粒度分类损失和位置回归损失。相较于现有技术中直接采用交通场景图像中的原始特征进行检测，本实施例上述方法对交通场景图像中的原始特征进行了精细化特征提取，从而能够有效获得更为准确的总体损失函数。

参考图4，图4为本发明基于交通场景的目标检测方法第三实施例的流程示意图。

基于上述各实施例，在本实施例中，为了获取基于多级学习的交通场景目标检测模型，所述步骤S40，可包括：

步骤S401：对所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失进行累加后获得总体损失函数。

应理解的是，上述细粒度分类损失、粗粒度分类损失和位置回归损失进行累加后得到的总体损失函数可以用于反映对交通场景图像中长尾分布数据的检测准确性。

步骤S402：通过反向传播算法以及梯度下降策略对所述总体损失函数进行最小化操作，获得最小损失函数。

需要说明的是，上述反向传播算法为一种学习算法，它建立在梯度下降法的基础上。反向传播算法网络的输入输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射。

步骤S403：基于所述最小损失函数获取基于多级学习的交通场景目标检测模型。

在具体实现中，可以基于上述反向传播算法以及梯度下降策略获得初始目标检测模型中每一层参数的梯度，从而基于该梯度获得最小损失函数，最后采用Adam优化器在每个梯度计算完成后对初始目标检测模型的权重进行更新，获得基于多级学习的交通场景目标检测模型。

进一步地，基于上述各实施例，在本实施例中，为了准确获得清晰且符合上述基于多级学习的交通场景目标检测模型对应尺寸的交通场景图像，在所述步骤S10之前，还可以包括：

步骤S01：对采集到的第一原始图像进行图像增强，获得第二原始图像。

需要说明的是，上述第一原始图像可以是直接从与交通摄像头连接的服务器中获取，也可以是通过读取可移动存储设备中获取，本实施例对此不加以限制。

应理解的是，上述图像增强的方式包含但不仅包含翻转、旋转和尺度抖动等不影响图像细节的图像增强方式。

步骤S02：将所述第二原始图像进行尺度变换，获得交通场景图像。

可理解的是，上述尺度变换表示将第二原始图像的最短边设置为第一预设像素值，将第二原始图像的最长边设置为第二预设像素值。

本实施例对细粒度分类损失、粗粒度分类损失和位置回归损失进行累加后获得总体损失函数，然后通过反向传播算法以及梯度下降策略对总体损失函数进行最小化操作，获得最小损失函数，最后基于最小损失函数获取基于多级学习的交通场景目标检测模型，同时对采集到的初始交通场景图像进行图像处理。相较于现有技术中直接采用未经处理的交通场景图像以及未对各分类数据进行累加，本实施例上述方法消除了上述交通场景图像中的非重要特征对检测结果造成的负面影响。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有基于交通场景的目标检测程序，所述基于交通场景的目标检测程序被处理器执行时实现如上文所述的基于交通场景的目标检测方法的步骤。

参照图5，图5为本发明基于交通场景的目标检测装置第一实施例的结构框图。

如图5所示，本发明实施例提出的基于交通场景的目标检测装置包括：

特征提取模块501，用于对获取到的交通场景图像进行特征提取，获得候选框特征；

特征加权模块502，用于对所述候选框特征中的各交通场景特征进行空间注意力加权，获得场景提议特征；

损失计算模块503，用于基于所述场景提议特征获取粗粒度分类损失和位置回归损失，基于所述候选框特征和所述场景提议特征获取细粒度分类损失；

图像检测模块504，用于基于所述细粒度分类损失、所述粗粒度分类损失和所述位置回归损失获得总体损失函数，根据所述总体损失函数获取基于多级学习的交通场景目标检测模型，通过所述基于多级学习的交通场景目标检测模型对所述交通场景图像进行检测。

本发明基于交通场景的目标检测装置的其他实施例或具体实现方式可参照上述各方法实施例，此处不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如只读存储器/随机存取存储器、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。